Qu’est-ce que la désambiguïsation en TAL ?

Selon l’encyclopédie Universalis « un mot ou un énoncé sont dits ambigus quand ils sont susceptibles d'avoir plusieurs interprétations ».

Qu’est-ce qu’une ambiguïté ?

Il existe deux types d’ambiguïtés :

  • Lexicale : « Le lion a mangé l’avocat. » -> Le lion a-t-il mangé le fruit ou bien le plaideur ?
  • Structurale : « J’ai vu Pierre avec les jumelles. » -> Je l’ai vu via les jumelles ou bien j’ai vu que Pierre avait des jumelles ?

Le caractère polysémique et homonymique des mots donne au langage un caractère ambigu. En effet, une même graphie et un même son représentant un mot peuvent avoir plusieurs sens. Lors d’une conversation ou de la lecture d’un texte, le locuteur d’une langue sait discerner, de façon quasi inconsciente, ce que le mot signifie. Cela lui est possible en faisant des inférences qui s’appuient sur des éléments tels le contexte communicationnel, les signes extra-linguistiques, sa connaissance du monde etc. bref, grâce à l’acte de communication. En effet, si la phrase « Quelle est ma couverture ? » est énoncée par un client à son assureur, l’assureur comprendra qu’il parle de couverture santé, de garanties. Si elle l’est par un campeur au responsable d’un gîte, on comprendra qu’il parle de son plaid.
En résumé, si l’on isole une phrase de son contexte alors les termes qu’elle contient, s’ils sont polysémiques, deviennent ambigus. Dans notre vie quotidienne, nous ne sommes donc pas souvent confrontés à ces doutes car la plupart du temps nous sommes dans un acte de communication. Toutefois, les ingénieurs en traitement automatique du langage (T.A.L.) y sont souvent confrontés et doivent savoir les gérer.

Désambiguïsation : comment supprimer des ambiguïtés ?

La suppression des ambiguïtés relève du niveau pragmatique de la linguistique puisque c’est la situation de communication qui permet la sélection du sens adapté. Pour ôter une ambiguïté, il faut chercher des informations supplémentaires autour du terme, autrement dit son contexte. Plusieurs solutions existent.
Solution 1 : La plus simple, mais la plus restrictive également, est de limiter son champ d’action à un domaine très précis. En effet, si l’on travaille uniquement dans le domaine de l’assurance, notre ambiguïté sur le terme « couverture » disparaît. Dans 99% des cas, ce terme sera employé pour parler des garanties et non d’un plaid.
Solution 2 : Une autre solution consiste à prédéterminer un sens dominant en fonction des usages des locuteurs. Les internautes qui tapent le terme « chat » dans la FAQ Dynamique ou Chatbot Inbenta cherchent-ils majoritairement à dialoguer avec leur conseiller ou à souscrire une assurance pour leur chat ? Comment savoir quelle FAQ leur envoyer en réponse ? En faisant des analyses sémantiques d’un grand volume de questions utilisateurs, nous avons constaté que, la plupart du temps, il s’agit plutôt de la première option. Il existe de nombreuses recherches sur des modèles statistiques reposant sur l’étude de la fréquence des termes rencontrés dans un texte et leur probabilité d’apparition dans un autre. Cela nécessite en amont qu’un humain indique manuellement le sens du terme dans son contexte. Ensuite, la machine peut apprendre automatiquement et faire des déductions.
Solution 3 : Une autre technique consiste à repérer des contextes d’apparitions du terme, des cooccurrences et de rédiger des règles manuellement. Par exemple, pour désambiguïser le terme « adhérent » qui peut être une flexion du verbe « adhérer », un nom ou un adjectif nous pouvons écrire des règles telles que :

desambiguisation
C’est en combinant ces trois méthodes que les linguistes d’Inbenta parviennent à lever les ambiguïtés !

Inbenta Team
by Inbenta Team