Pyramide Lexicale

Comment étendre le moteur sémantique à de nouvelles thématiques ?

Chez Inbenta le lexique est la clé de notre moteur sémantique, ce dernier est basé sur la signification des mots et le contexte de la phrase. Pour étendre ce moteur à de nouvelles thématiques rien de plus simple, il faut l'enrichir !

Les solutions Inbenta s’appuient sur un moteur de recherche sémantique. Ce moteur ne se contente pas de détecter des mots-clés ; au contraire, il est basé sur un lexique contenant de nombreux mots et relations sémantiques. Le moteur fonctionne donc à partir du contenu de ce lexique. Ainsi, pour étendre le moteur à de nouvelles thématiques, il est nécessaire d’effectuer un travail d’enrichissement sur le lexique.

Comment fonctionnent le moteur de recherche et le lexique Inbenta ?

Le moteur de recherche sémantique proposé par Inbenta analyse les questions des utilisateurs pour les faire correspondre avec une base de questions-réponses. L’algorithme à l’origine du moteur s’appuie sur notre lexique breveté qui contient des mots et les relations de sens entre ces mots. Ces relations sémantiques sont autant de connexions dans le réseau lexical ; ce sont elles qui apportent la plus-value. Avec le temps, Inbenta a capitalisé un large lexique structuré en trois couches.

  • La première couche est dite universelle car elle rassemble l’ensemble des mots de la langue courante.
  • La seconde couche est dite spécialisée car elle regroupe les mots propres à un domaine d’activité (ex : la banque, l’assurance, les transports, le BTP, le e-commerce, etc.). C’est à ce niveau que l’on doit intervenir pour étendre le moteur de recherche sémantique à de nouvelles thématiques.
  • La troisième couche du lexique est propre à un client en listant les noms de ces produits et des services qu’il propose. Cette dernière couche assure une satisfaction optimale, et permet de différencier chaque client au sein d’un même domaine.

Pyramide Lexicale

Que faut-il ajouter ?

Si l’on souhaite étendre le moteur sémantique à de nouvelles thématiques, il faut donc enrichir le lexique en mots et en relations sémantiques. L’ajout d’un mot suppose de tenir compte de ses flexions, c’est-à-dire les pluriels, les conjugaisons, etc.

Ensuite, un ensemble d’informations linguistiques est attribué à chaque mot du lexique. L’algorithme calcule alors la proximité de sens, entre les mots présents dans les questions des utilisateurs et dans les questions de la base de questions-réponses, pour ressortir seulement les résultats pertinents. Enfin, ce sont les relations sémantiques qui sont ajoutées : elles permettent de relier des mots de sens proche, comme « promotion », « rabais » et « remise » ou « médecin », « spécialiste » et « cardiologue ».

Il faut également tenir compte des potentielles ambiguïtés que ces ajouts vont occasionner. Par exemple, si le lexique universel comporte le mot « vol » dans le sens de « cambriolage » et que l’on souhaite ajouter au lexique le domaine des transports, il faudra apprendre au moteur sémantique comment départager entre les différents sens du même mot. Ainsi, l’ajout d’une nouvelle thématique suppose un travail linguistique au préalable. C’est en cela que l’équipe linguistique chez Inbenta constitue une plus-value.

Quelle méthode pour ajouter une nouvelle thématique ?

Le traitement automatique des langues propose de nombreuses méthodes automatiques d’extraction à partir de textes pour ajouter de nouveaux mots et de nouvelles relations sémantiques. Si le client souhaite que le lexique extrait lui soit particulièrement dédié, il peut fournir un corpus de textes métiers. Inbenta se charge de rassembler des textes en rapport avec le domaine du client et de procéder à l’extraction du lexique.

Pour ce qui est de l’extraction des mots, il est possible de commencer par extraire la liste des mots les plus fréquents du corpus de textes. En supprimant les mots vides de sens tels que les prépositions, les déterminants, etc., il est possible de connaître les mots les plus courants d’un domaine pour leur attribuer par la suite une importance moindre dans le lexique, car ils apportent peu de plus-value au moteur.

Des mots comme « poste » ou « CV » apparaîtront dans la liste des mots fréquents du domaine des ressources humaines. Puis des méthodes telles que le TF-IDF, permettent de calculer quels sont les mots les plus spécifiques dans les textes, ce qui fait ressortir les mots particuliers à un domaine. Pour le domaine des ressources humaines, ces méthodes feront apparaître des mots comme « télétravail » ou « syndicat ». D’autres méthodes, comme la méthode de l’information mutuelle, permettent de calculer dans quelle mesure deux mots se retrouvent souvent à proximité dans des textes (ce que l’on appelle des cooccurrents en linguistique). Cela permet de repérer des mots composés comme « bulletin de paie » ou « repos compensatoire » et rend possible l’enrichissement du lexique en mots composés.

En ce qui concerne l’extraction des relations sémantiques, il existe des méthodes (par exemple, la méthode de l’analyse distributionnelle) qui permettent de déceler des relations sémantiques. Elles étudient les contextes dans lesquelles des mots apparaissent. Si des mots apparaissent dans des contextes identiques, alors on suppose qu’ils entretiennent une relation sémantique. Par exemple, dans des textes portant sur la rémunération des salariés, des phrases comme « le comptable a édité les bulletins de paie », « le comptable a édité les fiches de paie » ou « le comptable a édité les bulletins de salaire », on pourrait déduire qu’il existe une relation sémantique entre « bulletins de paie », « fiches de paie » et « bulletins de salaire ».

 

L’extension du moteur de recherche sémantique à de nouvelles thématiques demande donc un travail linguistique sur le lexique. Il s’agit d’ajouter massivement de nouveaux mots et de nouvelles relations sémantiques grâce à des méthodes automatiques, qui extraient ces mots et ces relations de textes. Plus les textes sont propres au client, plus le lexique extrait lui sera dédié.


Les solutions d’Inbenta vous intéressent ? Vous souhaiteriez munir votre site d’une FAQ dynamique afin d’améliorer votre self-care ou entrer dans la course des nouvelles technologies de l’IA en ayant votre chatbot dédié ?  N’hésitez pas à demander une démonstration des solutions Inbenta.

PLANIFIER UNE DÉMO