Un cadre linguistique théorique pour la construction de modèles de langues

E Moteur de Recherche Sémantique d’Inbenta se base sur une théorie linguistique qui modélise le langage humain et qui permet de décrire les mots de la langue.

Ce formalisme, appelé Théorie Sens-Texte (TST), a été introduit par I. Mel’čuk en 1995. Son objectif est de mettre en correspondance des représentations sémantiques avec toutes les représentations phoniques qui peuvent les exprimer dans une langue donnée, autrement dit de traduire un sens donné à travers un texte. En effet, plusieurs textes peuvent exprimer un même sens.

Cette théorie va étudier la langue via différentes zones linguistiques telles que la phonologie ou la syntaxe. Mais Inbenta va plus particulièrement s’intéresser à la sémantique dans les mots grâce à la zone de combinatoire lexicale.

Concrètement, nous relions les mots entre eux grâce à des relations sémantiques (appelées également Fonctions Lexicales). La TST compte près de 60 Fonctions Lexicales qui permettent, entre autres, de décrire des relations telles que la synonymie, l’hyperonymie/hyponymie (un chien est un type d’animal) ou d’autres relations entre unités lexicales au niveau de la phrase (expressions figées du langage comme « rendre l’âme » qui signifie « mourir »).

Voici un exemple :

Nous notons deux grands types de Fonctions Lexicales : les Fonctions Lexicales Syntagmatiques et les Fonctions Lexicales Paradigmatiques. Les premières permettent d’analyser l’enchaînement des termes, leur combinaison, leur coordination dans l’espace tandis que les secondes s’intéressent au choix des termes.

Ainsi, grâce à ces Fonctions Lexicales, notre moteur est capable de dire que les questions des internautes suivantes : « quelles sont vos coordonnées ? », « quel est votre numéro de téléphone ? », « je souhaite joindre un conseiller » et « à quelle adresse mail puis-je vous écrire ? » signifient la même chose et renverront vers la FAQ « Comment vous contacter ? ».

Depuis 2005, les experts linguistes d’Inbenta décrivent plus d’une dizaine de langues grâce à ce formalisme linguistique. Et c’est cette technologie du langage qui fait le succès de notre Moteur de 

Recherche Sémantique !