Nous avons mené une expérimentation en installant un robot dans une banque afin de répondre à des questions simples sur les démarches bancaires. Ne pouvant interagir que vocalement avec l’utilisateur (pas de présence d’écran sur le corps du robot), ce robot nous a permis de dégager des problématiques relatives aux chatbot vocaux. En effet, cette phase de disposition au grand public met en évidence des points d'attention pour le bon déroulement d'une assistance vocale.
Qu’est-ce qu’un Voicebot ?
Les voicebots ou chatbots vocaux constituent une des plus récentes innovations en matière de self-care digitalisé. Il s’agit d’un bot capable d’interpréter des requêtes exprimées à haute voix et d’y répondre vocalement en langage naturel. Ils permettent un traitement automatique et conversationnel des questions fréquentes de façon simple et accessible à tous. Ils fonctionnent de la même manière qu’un chatbot, si ce n’est que l’input vocal (la question posée à voix haute par l’utilisateur) est transformé en texte pour être analysé et que la réponse texte à la question est transformée en son pour constituer un output vocal (la réponse du bot à la question de l’utilisateur).
Les techniques de traitement du langage permettent de fournir la bonne réponse, quel que soit la manière dont la question est formulée. Ce que nous appelons le “matching” repose sur des ressources lexicales performantes couplées à une base de contenus, adaptées aux besoins des utilisateurs.
Cette gestion de la concordance entre la recherche effectuée par un utilisateur et la réponse donnée est suffisante dans le cadre de FAQ dynamiques et de chatbots car l’utilisateur est guidé sur l’interface, par des boutons par exemple. Le principal atout du chatbot est la mise en place de dialogues, des parcours prédéfinis en fonction de certaines thématiques (telles que la simulation de crédit par exemple), tout en reproduisant une conversation telle qu’elle serait menée si la question avait été posée à un humain. Les attentes dans les différentes étapes d’une conversation à l’oral sont alors plus exigeantes car l’utilisateur est dénué d’aide visuelle traditionnelle et ne peut s’ajuster aux scénarios prévus par une plateforme avec une ergonomie bien pensée.
Un Voicebot (ou autre solution équivalente vocalisée) nécessite par conséquent une bonne anticipation de tous les scénarios possibles afin de ne pas laisser l’utilisateur sur une incompréhension non maîtrisée qui impliquerait qu’il ne dispose pas de choix adéquat pour répondre à sa situation, ce qui est source de frustration et d’énervement.
Notre expérience de self-care par la voix
Une expérimentation a été menée en installant un robot dans une banque afin de répondre à des questions simples sur les démarches bancaires. Ne pouvant interagir que vocalement avec l’utilisateur (pas de présence d’écran sur le corps du robot), ce robot nous a permis de dégager des problématiques relatives aux chatbots vocaux. En effet, cette phase de disposition au grand public met en évidence des points d’attention pour le bon déroulement d’une assistance vocale. Voici les principales différences rencontrées entre le développement de chatbots en ligne et la phase de mise en place du voicebot. Nous verrons l’importance de rendre transparentes quelques contraintes techniques à l’utilisateur et l’attention particulière qui a été apportée aux différents scénarios en ajustant les wordings du bot pour fournir l’interaction la plus juste Quel que soit le moment de la conversation.
Contraintes techniques liées à l’ergonomie voicebot ou chatbot vocal
Reprenons les différentes étapes pensées pour Leenby. Développées par la société Cybedroid basée à Limoges, les compétences de Leenby reposent entre autres sur des technologies de reconnaissance visuelle, de reconnaissance vocale et de synthèse vocale. Le robot diffuse par défaut des annonces à propos de la banque et bascule dans un état de conversation lorsqu’il détecte un visage puis un regard.
La prise d’input pour un voicebot
Le temps d’écoute est un paramètre qui est défini et qui ne s’ajuste pas en fonction de la longueur du discours de l’utilisateur, une fois ce temps de parole écoulé, Caly coupe la parole de l’utilisateur pour lui proposer ses réponses. Ce paramètre ne pose pas de conflit dans les tests effectués, les intentions recueillies jusqu’à présent sont concises.
Le ton et la fréquence de voix peuvent influer sur la bonne entente du locuteur mais la compréhension fonctionne bien lors des tests effectués. Le bruit ambiant en agence n’a d’ailleurs pas été identifié comme un problème au bon déroulement d’une conversation jusqu’à présent.
Éditer des contenus spécialement pour le canal vocal
D’un point de vue éditorial, il convient de définir une réponse pour les questions les plus communément posées, tout en testant la prononciation du texte, mais aussi de prévoir des locutions distinctes pour toutes les situations anticipées afin de rassurer l’utilisateur sur la bonne compréhension de sa situation et de son besoin au fil de la discussion.
Ainsi la base de connaissances (l’ensemble des questions /réponses qui constitue le savoir de Caly) a été rédigée et écoutée plusieurs fois afin de vérifier la bonne vocalisation des contenus. Une attention particulière a été portée sur les abréviations – éviter “100%”, “7j/7” et privilégier “cent pour cent”, “sept jour sur sept” – l’accentuation – “zone sépa” – les anglicismes – remplacer “e-relevé”, “offre globe -trotter” par “i-relevé”, “globe trotteur” et les sonorités complexes – “smartphone”.
Gérer différemment des occurrences identiques selon les différentes étapes de la conversation avec le chatbot vocal
Les réponses en “oui” et “non” interviennent à différents stades de la conversation et impliquent un comportement différent. Tout l’enjeu de ces matchings est de fournir un état en adéquation avec le moment de la conversation. La première étape a été d’identifier les différentes phases de la conversation auxquelles elles interviennent et la deuxième étape a été de suggérer une gestion qui conviennent aux différents scénariis.
Les questions fermées ont été reformulées par des questions ouvertes afin d’éviter des réponses “non merci” à des étapes pendant lesquelles caly attend une intention: en début de conversation et suite à une question sur la couche sociale.
Exemple : Privilégier “Je peux répondre à toute vos questions, en quoi puis-je vous aider?“ plutôt que “Avez-vous une question concernant une démarche bancaire ?”.
Si une intention matche avec plusieurs contenus de la base de connaissances, Caly propose ces contenus un par un et l’utilisateur valide alors son intention. S’il répond “oui”, Caly lit la réponse :
–
– et s’il répond “non”, le choix suivant est proposé :
Module d’évaluation : ce module d’évaluation permet d’évaluer la satisfaction de l’utilisateur, il s’agit de la réponse apportée à une question suivante :
Si “oui” ou “non” , Caly remercie ou s’excuse de ne pas avoir aidé puis réengage la conversation
Différents usages d’un chatbot vocal en banque
Annoncer un conseiller
Un scénario identifié avec les conseillers visant à faire gagner du temps aux utilisateurs est d’annoncer le client qui se rend en banque pour rencontrer son conseiller sur rendez-vous, inutile pour lui de patienter dans la file d’attente pour ensuite aller patienter dans la salle d’attente. Caly peut prévenir le conseiller de son arrivée par mail et indiquer à l’utilisateur où patienter, sous réserve de comprendre le nom du conseiller ! Il s’agit alors d’optimiser la reconnaissance vocale de noms que les utilisateurs ne savent pas toujours bien prononcer.
La présence du bot permet donc d’optimiser le temps d’attente mais la reconnaissance des noms doit encore être contournée car hasardeuse.
Évaluer la satisfaction de l’utilisateur
Le module d’évaluation est certainement la phase qui a nécessité le plus de particularisation par rapport à un bot en ligne. Sur un chatbot en ligne, deux choix sont retenus, l’utilisateur est satisfait ou il ne l’est pas. S’il n’est pas satisfait, un champ de texte libre est généralement proposé. Caly récupérait plus simplement les wordings positifs ou négatifs dans un premier temps. La mise en pratique a révélé deux parcours à anticiper.
Répéter une réponse
Une réponse vocalisée requiert davantage d’attention de la part de l’utilisateur et il peut avoir besoin d’écouter à nouveau une réponse riche en informations.
Éviter les redondances
Après consultation d’un contenu, le robot relance la conversation et demande “Est-ce que vous avez une autre question?”, un wording qui est redondant pour l’utilisateur qui a répondu au module d’évaluation qui précède par “Oui je suis satisfait mais j’ai une autre question”. Le bot lui répondra alors “D’accord, je vous écoute.”
Les défis ergonomiques des voicebots, nos conclusion :
La mise en condition réelle de Leenby a permis d’affiner les use cases d’un voicebot afin de mieux adapter le système aux caractéristiques des utilisateurs potentiels. Il est notamment intéressant d’observer sur l’échantillon de requêtes recueillies que le bruit ambiant et la reconnaissance vocale fonctionne particulièrement bien. Les échecs reposent encore en majorité sur des problèmes liées à l’usage et la technique :
- Le bon déroulement d’une conversation avec le bot vocal repose sur des subtilités qui impliquent notamment qu’on ne peut pas lui couper la parole, qu’on ne peut lui parler plus longtemps que le temps d’écoute défini, et qu’il faut recommencer la conversation depuis le début en cas de perte de connexion internet.
- Les utilisateurs sont curieux mais ne savent pas quelle(s) question(s) poser au robot. D’où la suggestion orale de questions, en complément des suggestions présentées dans l’environnement proche :
- Le canal vocal nécessite aussi de repenser certains cas d’usage comme celui où une requête matche avec plusieurs contenus qui doivent donc être énoncés un par un. Ou encore l’ajout de la possibilité de répéter une réponse riche en informations (ce qui n’arrive pas sur un format texte car l’information est figée et non pas énoncée)
Envie d’améliorer votre expérience client via un voicebot ? Découvrez notre voicebot :