Les enjeux de la vocalisation des bases de connaissances

La voix est déjà présente dans nos vies au travers de serveur vocaux, de GPS par exemple, mais nous les écoutons pour qu’ils nous guident. On ne répond pas à son GPS pour qu’il nous comprenne, pour entrer en discussion. Ces échanges sont unilatéraux, ils ne servent qu’à délivrer une information sans aller plus loin.

L’écrit avant l’oral, marcher avant de courir.

Aujourd’hui les entreprises doivent relever un nouveau challenge : celui de rendre bilatéraux les échanges homme/machine. Avec l’introduction dans le quotidien de services comme le Google Home ou Amazon Echo, les interactions hommes-machines entrent dans une nouvelle dimension : celle de l’échange par la parole. En faisant le pari de la vocalisation, les entreprises misent sur leur capacité à rendre naturels des échanges vocaux entre l’IA et l’humain.

Au-delà de l’enjeu économique que cela peut représenter, s’ajoutent ceux des usages et de la technique. Quelles peuvent être les contraintes liées à l’utilisation de la voix dans le parcours self-care de nos clients ?

La « mise en voix » : les enjeux d’un rendu audible et écoutable

Avant toute chose, il faut s’accorder sur ce qu’est la voix. Elle peut être définie comme suit : c’est un des signes de reconnaissance que nous utilisons pour entrer en relation avec autrui, construire un lien social.

Mais que transporte une voix ? Pourquoi sommes-nous aussi sensibles au timbre, à la chaleur d’une voix ? Parce qu’elle est un élément indissociable de la personne à laquelle elle appartient. De fait, nous sommes capables de connaître l’état émotionnel, psychique juste à l’intonation d’une voix, d’une phrase, d’un mot. Et c’est cette reconnaissance qui fait la richesse de l’interaction.

Prêtez une oreille attentive aux voix artificielles qui nous entourent : les voix dans le métro, les répondeurs vocaux … Les voix désincarnées de l’IA ne permettent pas de s’y lier, de s’y reconnaître, de faire naître ce sentiment de reconnaissance et d’appartenance propres aux relations sociales humaines. Selon une étude menée par l’Université de Chicago, la manière dont sont prononcés les mots importe plus que le sens de ceux-ci. C’est le nombre des éléments prosodiques de la voix qui la rend humaine.

Le premier enjeu de la vocalisation est donc de gérer une voix qui crée du lien avec l’humain sous peine de provoquer un rejet de l’interaction. Quelles solutions sont à disposition des sociétés pour relever ce défi ?

Des sociétés comme Voxygen, Nuance ou Acapella sont aujourd’hui en mesure de générer artificiellement des voix respectant les mêmes caractéristiques qu’une voix humaine. Cette technologie permet la lecture d’un texte par une voix créée de toute pièce, capable de respecter des temps de pause, de marquer des nuances, d’avoir des variations d’intonation… bref de se fondre dans la prosodie d’une voix humaine.

C’est cette avancée technologique qui va autoriser la vocalisation de contenus rédactionnels. Voxygen propose donc par exemple de créer votre propre voix. Celle qui va, au même titre que votre logo, participer à la construction de votre image d’entreprise.

Les défis éditoriaux : l’écrit VS l’oral

 Tout texte peut être lu à voix haute, mais tous ne sont pas construits pour être efficaces à l’oral. Dans un monde d’immédiateté, les réponses doivent être précises, concises et pertinentes.

Les contenus doivent s’adapter non seulement au périphérique sur lequel ils sont consultés (mobile, desktop…) mais aussi désormais sur la manière dont elles sont compulsées : écrit ou oral. Pour pouvoir les adapter, il faut savoir à partir de combien de secondes d’écoute l’attention est perdue. Comme à l’écrit et dans le monde du numérique, l’attention est une donnée volatile et exigeante. Un texte trop long ne sera jamais lu jusqu’au bout, comme une réponse trop vague génère de l’insatisfaction.

La longueur des chaînes de caractères, la gestion des réponses trop longues, les renvois vers des documents en ligne, la gestion de la prise de contact avec un service client, la gestion de l’escalade, sont autant de questions que de challenges à relever. Mais au-delà de ces questions, se posent la contrainte technique : comment structurer une FAQ pour qu’elle soit lue de manière pertinente et intelligible par un synthétiseur vocal ?

Dans une FAQ écrite pour le web, ce sont les contraintes du développement informatique qui priment : il faut respecter les balises html, les normes W3C, la structure du code, les contraintes liées à la compatibilité selon les navigateurs… L’oral impose lui aussi son code : le SSML, le Speech Synthesis Markup Language. Le W3C travaille sur le sujet et met à jour ses recommandations pour fournir aux développeurs et linguistes des balises standardisées de marquage du langage comme moyen de contrôle des éléments prosodiques (phonèmes, prononciation, hauteur de la voix, débit….).

Pour chaque étape, le développeur et le linguiste disposent de balises spécifiques rangées en deux grandes catégories : markup support et non-markup behavior. La première regroupe les éléments qui concernent le squelette du document, la seconde les éléments relatifs à la prosodie à employer à la lecture.     

Le document donne les 6 grandes étapes de la synthèse vocale, ainsi que les balises à utiliser pour qu’une page html soit interprétable par un processus de synthèse vocale (certains des exemples ci-dessous sont issus de la documentation Google pour créer des textes lisibles pour Google Home)  :

 

  • Analyse XML : la page doit être lisible par un analyseur XML (XML parser) pour qu’il récupère la structure et le contenu du document.

 

Exemple avec l’élément <speak> : <speak>  mon contenu SSML </speak>

 

  • Analyse de la structure : c’est la structure du document qui va définir la manière dont il va être lu. Celui-ci doit contenir des ‘markup support’ comme le <p></p> : indique un paragraphe, ou le <s></s> : indique une phrase; et des ‘non-markup behaviour’ qui vont indiquer les éléments prosodiques et permettre la lecture du texte.

 

Exemple : <p><s>Phrase 1.</s><s>Phrase 2.</s></p>

 

  • Normalisation du texte : chaque langue ayant ses particularités, il faut convertir chaque formulation en un ‘token’ unique. Par exemple, “1 / 2” peut signifier : un demi, un sur deux, le premier février, le 2 janvier… C’est le même principe que la désambiguïsation de la FAQ effectuée par le linguiste. Pour cela, le linguiste a à sa disposition plusieurs balises et une multitude d’attributs qui permettent d’affiner la lecture du mot concerné.

 

Exemple : ici on indique que la chaîne de caractère ‘can’ doit être prononcée lettre par lettre (épelée) ‘C’ ‘A’ ‘N’ :

<speak>

<say-as interpret-as=“characters”>can</say-as>

</speak>

 

  • Conversion du texte en phonème : une fois que le découpage en ‘token’ est faite par l’analyseur, celui-ci doit décomposer des séquences de phonèmes (unités de son permettant de distinguer les mots). C’est une étape primordiale car elle permet de résoudre les difficultés suivantes :

 

 

    1. Définir le nombre de phonèmes à utiliser car chaque langue a un nombre de phonème différent : 36 pour le français standard, l’espagnol 34, le japonais 24, … ;
    2. L’écrit et l’oral peuvent énormément différer : le ‘e’ muet en français, les chiffres, “sans” VS “sens” où le ‘s’ n’est prononcé que dans le second,… ;
    3. Il y a besoin du contexte pour déterminer la prononciation de certains mots homographes : fils, est, jet, vis, négligent… ;
    4. Le respect de la prononciation d’un mot dans une langue étrangère : Julio Iglesias, Trump, …

Exemple (issu de la documentation du W3C) :

<?xml version=”1.0″?>
<speak version=”1.1″ xmlns=”http://www.w3.org/2001/10/synthesis”
      xmlns:xsi=”http://www.w3.org/2001/XMLSchema-instance”
      xsi:schemaLocation=”http://www.w3.org/2001/10/synthesis
                http://www.w3.org/TR/speech-synthesis11/synthesis.xsd”
      xml:lang=”zh-CN”>
<!– The Nanjing Changjiang River Bridge –>
<token>南京市</token><token>长江大桥</token>
<!– The mayor of Nanjing city, Jiang Daqiao –>
南京市长<w>江大桥</w>
<!– Shanghai is a metropolis –>
上海是个<w>大都会</w>
<!– Most Shanghainese will say something like that –>
  上海人<w>大都</w>会那么说
</speak>

 

  • Analyse prosodique : pour marquer les pauses, l’intonation à donner à la voix lors de la lecture du texte, le développeur et le linguiste vont utiliser des ‘markup support’ qui vont donner une tonalité plus naturelle à l’oreille comme <emphasis> ou <guide>.

 

Exemple de pause de 2 secondes : <speak> Step 1, take a deep breath. <break time=“2s” /> Step 2, exhale. </speak>

 

  • Création de l’onde audio : la combinaison des éléments prosodiques et du découpage en phonèmes va permettre de générer une onde audio à laquelle le développeur et le linguiste pourront donner une identité féminine ou masculine, la rapidité de lecture, le volume de la voix….

 

En résumé, la vocalisation des bases de données self-care est un enjeu techniquement et économiquement pertinent au vu de l’évolution des technologies. Mais au-delà, la voix ouvre un nouveau champ des possibles : l’accès à l’information par tous.

L’aspect sociétal de la vocalisation permet aux personnes en situation de handicap visuel d’accéder à de l’information qui jusqu’ici ne l’était pas. Les entreprises ouvrent leurs systèmes de services à une part de la société qui en était exclue.

Nous sommes encore au début de ce processus de vocalisation et de nombreuses questions restent en suspens. Une chose est sûre : Inbenta relève le défi et accompagne ses clients dans l’ère nouvelle de la vocalisation.

Inbenta est un spécialiste du Traitement Automatique du Langage. Nous mettons en oeuvre les dernières avancées technologiques afin d’améliorer la qualité de service pour les entreprises et leurs clients.

Intéressés par les enjeux du self-care par la voix ? Notre team d’experts est à votre service pour vous créer une offre personnalisée.

PLANIFIER UNE DÉMO

Inbenta Team
by Inbenta Team