Big data : comment Internet est devenu l’ami des linguistes ?

Les ressources lexicales sont la matière première qu’utilisent les linguistes dans leur travail. En effet, pour créer des règles linguistiques, entraîner des algorithmes d’apprentissage automatique ou, comme Inbenta, créer un lexique sur lequel repose un moteur de recherche, les linguistes ont besoin de ressources telles que des corpus, c’est-à-dire de bases de données textuelles ou orales à analyser et sur lesquelles tester leur travail.

Construire un corpus est un travail long et coûteux, car il faut récolter les données, obtenir l’autorisation de les utiliser et les mettre en forme. De plus, il faut s’assurer que l’éventuelle présence du linguiste qui récolte ces données n’influence pas les locuteurs qui les produisent. Cependant, avec l’essor du web et du big data, la langue se dématérialise et il devient plus facile de récupérer des données publiques en grande quantité.

Parcourir des sites web à la recherche d’informations

Les crawlers ou robots d’indexation ne servent pas seulement de moteurs de recherche, ils permettent aussi de parcourir une liste donnée de sites web pour rechercher des informations lexicales comme des collocations ou des entités nommées. On peut utiliser ainsi le web soit pour récolter un corpus soit directement comme un immense corpus déjà traité par ces logiciels comme le fait le système KnowItAll de Oren Etzioni et al. Le corpus Webcorp permet également de rechercher des mots ou des combinaisons de mots via une interface classique de corpus scientifique directement dans une large liste de site web.

Conversations publiques : forums et réseaux sociaux

Le développement des messageries instantanées a fait voir le jour à une nouvelle forme de langage. Avec l’apparition récente d’outils de chat automatique, l’analyse de ces nouvelles données s’avère cruciale pour que les machines puissent comprendre et imiter des conversations humaines.

Afin de constituer un corpus de français tchatté, A.Falaise a récupéré des conversations publiques de forums et autres canaux IRC sur botstats.com. Ce site permet l’archivage de statistiques et de discussions publiques de centaines de canaux du réseau IRC EpikNet.

Avec les réseaux sociaux, les linguistes ont accès à des verbatim publics accompagnés de nombreuses métadonnées, une vraie mine d’or ! Citons « Twitter as a Corpus for Sentiment Analysis and Opinion Mining » de A.Pak et al. Le corpus qu’ils ont constitué contient 300 000 posts twitter découpés en 3 catégories. Les « objectifs » sont des posts de Grands journaux ou d’entreprises, dénués de modalité (ou marques de subjectivité). Les tweets identifiés comme portant un sentiment positif ou négatif viennent de posts de particuliers dont on a analysé la polarité à l’aide de smileys ou encore de la ponctuation. Ce corpus a pour but d’entraîner des outils de machine learning pour la détection des sentiments.

Enfin, on peut parler d’OpenAI qui souhaite utiliser le célèbre forum Reddit pour entraîner son intelligence artificielle.

Le crowdsourcing (myriadisation) ou « outils collaboratifs »

Une autre façon d’obtenir des ressources lexicales est par le biais de serious games. Encourager les internautes à fournir un corpus directement sur sa plateforme est un réel atout. Par exemple, Jeux de mots, un jeu d’association de mots par JP. Lafourcade a permis de récupérer une base de données de termes accompagnés de mots ou expressions sémantiquement proches inter-cliquables.

On peut également citer Quizlet : Voice Scatter de A.Gruenstein et al. Dans ce jeu éducatif pour différentes disciplines, il faut énoncer des phrases telles que « reliez la ‘cellule’ à ‘l’unité de vie basique.’ » pour relier un objet/concept à sa définition. Les chercheurs récupèrent ainsi les mots tels que « cellule » dans une phrase plutôt qu’en mot isolé et obtiennent donc un corpus de parole continue.

Enfin, comment ne pas citer Wikipédia ? Pour voir son article apparaître dans cette encyclopédie collaborative, on doit respecter un certain nombre de critères d’orthographe et de grammaire. Cela en fait une source de corpus de qualité avec beaucoup de matière (presque 2 millions d’articles rien que pour le français !) spécialisés dans des domaines précis et multilingues. Ex : « Word-sense disambiguated multilingual Wikipedia corpus » de S.Reese et al. ou encore le « GLAFF » de Franck Sajous.

Et Inbenta dans tout ça ?

Chez Inbenta, nos corpus sont extraits de questions utilisateurs tapées dans des barres de recherche, des bases de données de réponses de FAQ de nos partenaires ou encore des e-mails de clients de banque et d’assurances. Ces corpus nous permettent de faire des analyses sémantiques pour alimenter notre lexique et les relations sémantiques qui le composent. Ainsi, notre lexique est forgé directement avec le langage de nos utilisateurs et de nos clients, ce qui le rend plus performant pour notre usage qu’un corpus général et facilite la désambiguïsation. Ces ressources nous permettent également de développer des outils de R&D innovants tels que l’opinion mining, ou encore le clustering.

Le saviez-vous ?

Le BNC (British National Corpus), principal corpus d’anglais Britannique écrit a mis 4 ans à être construit ! Il a fallu une année complète pour décider quels types de documents réunir et comment les obtenir. Mieux valait être patient quand on était linguiste !

 

 

Liens utiles

Crawler :

KnowItAll
Webcorp

 

Réseaux sociaux :

Corpus de français tchatté
Botstats
Twitter as a corpus
Open AI

 

Outils collaboratifs :

Jeux de mots
Quizlet : Voice Scatter
Multilingual Wikipedia corpus
GLAFF

 

Autres :

Désambiguïsation
Opinion Mining
Clustering

BNC

Utilisation des cookies : Nous utilisons des cookies propres et de tiers pour fournir nos services et recueillir des informations statistiques. En poursuivant la navigation, vous en acceptez l’installation et l’utilisation. Vous pouvez modifier les paramètres ou obtenir plus d’informations dans notre cookies policy.