La synthèse vocale, clé d’accès à l’IA par la voix

Au fil des évolutions technologiques, les modalités d'interactions avec les objets et services connectés évoluent. On observe notamment une prépondérance croissante de la dimension vocale. Les progrès en terme de reconnaissance vocale permettent à des nouveaux usages d'émerger. Il est aujourd'hui presque naturel de commander un objet à distance, de poser une question à son téléphone, ou encore de lancer un morceau de musique à l’aide de sa voix seulement.

De façon connexe, on note une évolution tangible des attentes en terme d’usage dans les interactions vocales. Si l’on peut donner des indications à l’oral à un téléphone, un robot ; ne serait-il pas plus pratique qu’il puisse y répondre également à l’oral ?

C’est pourquoi la synthèse vocale, appelée aussi Text-to-Speech ou TTS, se développe de plus en plus afin de donner lieu à de réels échanges humain-machine. Elle transforme un message écrit en message vocal grâce à une voix artificielle en passant par trois étapes nécessaires :

  1. Le pré-traitement du texte (analyse syntaxique, morphologie, ponctuation, …)
  2. La phonétisation : la transformation de deux graphèmes (signes écrits) en diphones (signes oraux transcrits composés de 2 sons) avec le calcul de la prosodie (pauses, intonations, …)
  3. La synthèse du texte phonétisé à l’aide de voix pré-enregistrées

Les technologies vocales permettent d’assurer flexibilité et naturel dans l’automatisation de nombreuses tâches. Exprimer sa demande dès le décroché d’un serveur vocal, lancer une recherche à la voix, être guidé par son GPS ou écouter la lecture d’un flux RSS sont aujourd’hui des actes courants, qui ne surprennent plus, offrant autonomie et simplicité dans l’utilisation des services d’information qui outillent notre quotidien.

Utilisant un autre domaine du Traitement Automatique du Langage, Inbenta a développé sa propre technologie sémantique et propose en solutions phare des FAQs dynamiques et des chatbots. Celles-ci sont capables d’apporter automatiquement et immédiatement une réponse juste aux questions posées par les utilisateurs, à l’aide de bases de connaissances personnalisées.

Actuellement, les interactions entre l’internaute et le moteur de recherche ou le chabot se font sous forme écrite mais certains utilisateurs peuvent exprimer le besoin d’une interaction “orale”, plus naturelle, avec ces assistants virtuels. Il est déjà possible d’utiliser la voix pour interroger la base ou le chatbot, mais qu’en est-il des réponses ? Il y a une réflexion à se faire sur la vocalisation des bases de connaissances. Mais comment Inbenta peut-elle implémenter la synthèse vocale ?

Car si l’utilisation de cette technologie est en pleine expansion, peu d’entreprises en ont la maîtrise. Voxygen est l’une d’entre elles. Cette jeune entreprise bretonne a su s’approprier cette technologie et l’améliorer pour l’appliquer à de multiples domaines.

Les progrès considérables enregistrés ces dernières années par les technologies vocales ont ouvert la voie de la « Voice-first Revolution ». Qu’est-ce que cette « Voice-first Revolution » et que pouvons-nous réellement en attendre ?

Une révolution déjà en marche

Les performances des systèmes de reconnaissance automatique de la parole, prononcée dans des conditions « normales » par un locuteur coopératif, sont aujourd’hui proches de celles d’un agent humain et la restitution de l’information présentée par la parole est perçue de plus en plus naturelle, qu’elle soit enregistrée au préalable ou générée dynamiquement par un moteur de synthèse vocale. Ce dernier point, qui permet d’aller bien au-delà d’un simple enregistrement en personnalisant très finement la génération du message à restituer, complète parfaitement la reconnaissance vocale.

Configurable dynamiquement en cours de service, la qualité nouvelle des systèmes de synthèse vocale a permis de boucler la boucle et de lancer ladite « Voice-first Revolution ». L’utilisateur est ainsi libéré des contraintes techniques qu’imposent les autres modalités d’interaction : un clavier nécessite l’usage des mains et un écran occupe, voire détourne le regard. Et les premiers assistants personnels intelligents opérables uniquement par la voix sont déjà disponibles sur le marché : Alexa d’Amazon, Homepod d’Apple, Google Home de Google ou encore l’annonce de Djingo par Orange sont quelques exemples aux succès grandissants. La « Voice-first Revolution » est en marche et en cours d’adoption, pour peu que l’expérience utilisateur soit satisfaisante.

Des voix multi-expressives  

Les progrès réalisés en synthèse vocale, ces dernières années, sont remarquables et différents acteurs proposent aujourd’hui des moteurs de synthèse dotés de voix capables de rendus très naturels. Mais que signifie véritablement une parole dite « naturelle » et quelle peut en être la portée ?

En effet, il ne suffit pas de savoir prononcer une phrase avec une voix fluide pour générer l’effet recherché chez l’interlocuteur auquel on s’adresse. Parler, au-delà de la simple prononciation d’un message, c’est faire passer, par la voix, un sens et une émotion, donc une intention. Deux grands facteurs régissent cela : l’intonation et le timbre, dont les variations véhiculent intelligemment sens et émotion, preuves d’empathie indispensables à une bonne communication avec l’humain.

De nombreux travaux liés à l’intelligence émotionnelle l’ont d’ailleurs démontré : parler sans tenir compte de ces facteurs conduit rapidement à des phénomènes de rejet, voire de désocialisation. Il en est de même d’une synthèse vocale qui ne sait pas porter ces dimensions intrinsèques à la communication parlée : elle est rapidement ressentie impersonnelle, ou pire, indifférente.

L’enjeu de la synthèse vocale est donc de générer une parole correctement mise en forme pour permettre la compréhension profonde, jusqu’à émotionnelle d’un message textuel. Pour ce faire, il est nécessaire de créer une véritable palette vocale comprenant différents styles (énonciatif, enjoué, rassurant, alertant, pédagogue, …). C’est une des spécificités de Voxygen qui dispose d’un savoir-faire unique en création de voix expressives. Les voix de Voxygen délivrent ainsi une parole au ton juste, à l’identité contrôlée – celle de votre marque par exemple – capable de répondre à tout moment à votre exigence de pertinence comme de qualité.

Des FAQs et des chatbots vocaux

Les chatbots offrent l’avantage de guider de façon naturelle l’utilisateur vers la ou les bonnes réponses qu’il cherche. Ils s’apparentent à des conseillers virtuels capables de chercher des informations dans une base de connaissances, comme pour les FAQs, afin de répondre au mieux à l’internaute. Afin de fluidifier les échanges, ils peuvent être associés à une couche sociale. Cette dernière est constituée de formules de salutation, de compliments, de formulations de mécontentements et de satisfaction en réaction aux entrées de l’utilisateur. L’objectif est de créer un dialogue qui soit le plus naturel et le plus humain possible afin de guider l’internaute le plus naturellement possible vers les informations recherchées.

La synthèse vocale, appliquée aux chatbots, permet à l’utilisateur d’entendre les réponses à ses questions, ainsi que les interactions avec l’assistant virtuel avec pour bénéfice un confort accru, la lecture d’un texte pouvant être plus laborieuse que son écoute, notamment lors d’un déplacement. Il pourra ainsi saisir toute la portée expressive de ces interactions, qu’elles soient exprimées avec un ton enjoué, un ton neutre ou un ton exprimant le mécontement.

Cela sera d’autant plus pertinent que cela rendra l’assistant virtuel plus humain et donc plus proche de l’utilisateur. Si cette technologie est couplée avec un système de reconnaissance vocale, l’accessibilité à toutes ces données sera augmentée, notamment pour les personnes présentant un handicap les empêchant d’accéder à des chatbots classiques sous forme écrite.

Une image (et une voix) de marque

Des spécialistes de la synthèse vocale, comme Voxygen, proposent des voix de qualité et capables d’expressivité. Les bulletins de Météo France, la célèbre Madame SNCF, ou encore les prothèses vocales pour des personnes ayant perdu l’usage de la parole font partie des nombreux exemples de leur panoplie.

Alors pourquoi ne pas fusionner la personnalité d’un chatbot d’Inbenta avec l’une des nombreuses voix de Voxygen pour créer un agent conversationnel expressif et avec une personnalité unique ? Les voix personnalisées, au même titre qu’un logo, ouvrent des opportunités en terme d’identité de marque, en donnant une touche plus distinctive aux interactions avec le bot.

Nous tenons à remercier l’équipe de Voxygen pour leur participation à la rédaction de cet article !

Le saviez-vous ?

La synthèse vocale intéressait grandement les savants du siècle des Lumières qui a vu l’apparition des automates. La première machine capable de “parler” a été créée par Wolfgang von Kempelen en 1791 ! Le premier synthétiseur vocal électronique, lui, apparaîtra en 1939, suite aux travaux de l’ingénieur Dudley.

Inbenta est un leader dans les technologies innovantes de recherche pour les entreprises. Nous mettons en oeuvre les dernières avancées en termes de traitement automatique du langage afin d’améliorer la qualité de service pour les entreprises et leurs clients.

Intéressés ? Notre team d’experts est à votre service pour vous créer une offre personnalisée.

PLANIFIER UNE DÉMO

Raphaëlle Leduc