Les ressources lexicales chez Inbenta

Pour que nos moteurs de recherche sémantiques fonctionnent correctement, nous avons besoin d’un certain nombre de ressources lexicales. Les ressources lexicales (dictionnaires, bases de données, thesaurus, etc.) rassemblent des connaissances sur les mots, leurs sens et leurs usages. C’est pour cela qu’Inbenta fait appel à des linguistes experts en lexicographie afin d’améliorer ses solutions.

Quelle est la différence entre un dictionnaire et un lexique ?

En linguistique, il y a souvent une confusion entre la définition d’un dictionnaire et d’un lexique.

Le dictionnaire est un « recueil des mots d’une langue ou d’un domaine de l’activité humaine […] fournissant sur chaque mot un certain nombre d’informations relatives à son sens et à son emploi et destiné à un public défini » *. Concrètement, dans un dictionnaire, chaque entrée contient plusieurs informations dont une définition.

Le lexique est « un ensemble des mots d’une langue » *. Le lexique n’a pas vocation à description comme le dictionnaire. Il peut s’agir d’une liste de mots génériques d’une langue ou de termes spécifiques à un domaine.

Chez Inbenta, nous distinguons 3 types de lexiques : les mots généraux du français, les mots spécialisés par domaine d’activité et les mots spécifiques à nos clients (noms de produits par exemple) :

Ressources lexicales et pyramide lexique

Comment sont construites les ressources linguistiques d’Inbenta ?

Nos ressources ne sont pas seulement des listes de termes. Nous sommes aussi capables d’associer des mots entre eux selon des relations sémantiques (synonymie, antonymie, …) :

Ressources linguistiques

C’est la construction de ce réseau lexical qui fait la puissance de notre moteur de recherche !

Théoriquement, nous nous basons sur la Théorie Sens-Texte. Son objectif est de mettre en correspondance des représentations sémantiques avec toutes les représentations phoniques qui peuvent les exprimer dans une langue donnée, autrement dit de traduire un sens donné à travers un texte. En effet, plusieurs textes peuvent exprimer un même sens.

Par exemple :

Sens versus texte : ressources lexicales

 

Ce réseau lexical est construit empiriquement au fur et à mesure de nos projets. C’est pour cela que nous passons beaucoup de temps à analyser les questions utilisateurs afin de détecter des mots ou des relations sémantiques inconnus et ainsi enrichir nos ressources lexicales.

Le saviez-vous ?

Nous n’avons pas besoin d’avoir tous les mots de la langue dans nos lexiques. Au contraire, cela génèrerait trop d’ambiguïtés qui seraient plus difficiles à gérer ! Par exemple, dans nos projets d’assurance, quand les utilisateurs parlent « couverture », cela correspond toujours aux garanties d’une assurance (et jamais au plaid qui sert à se réchauffer).

Notre lexique en quelques chiffres

C’est grâce à une expertise de plus de 10 ans que nos linguistes construisent jour après jour les ressources lexicales nécessaires au bon fonctionnement de nos outils, dans plus de 20 langues (français, anglais, espagnol, allemand, catalan, italien, …).

Pour le français :

  • 23 013 lemmes (forme canonique d’un mot. Ex : la forme à l’infinitif pour les verbes)
  • 163 337 mots
  • 52 170 relations lexicales

 

Inbenta est un leader dans les technologies innovantes de recherche pour les entreprises. Nous mettons en oeuvre les dernières avancées en termes de traitement automatique du langage afin d’améliorer la qualité de service pour les entreprises et leurs clients au travers par exemple de chatbots et d’autres solutions selfcare.

Intéressés ? Notre team d’experts est à votre service pour vous créer une offre personnalisée.

PLANIFIER UNE DÉMO

Utilisation des cookies : Nous utilisons des cookies propres et de tiers pour fournir nos services et recueillir des informations statistiques. En poursuivant la navigation, vous en acceptez l’installation et l’utilisation. Vous pouvez modifier les paramètres ou obtenir plus d’informations dans notre cookies policy.