Les défis de la navigation web non visuelle

Tous les utilisateurs ne bénéficient pas de façon équivalente des avancées technologiques. Pour les utilisateurs malvoyants par exemple, accéder aux contenus en ligne, et surtout aux services en ligne, reste un défi qui les détourne souvent de l’utilisation de ces services. Cela est d’autant plus vrai que ces utilisateurs requièrent souvent une assistance externe, ce qui limite leur autonomie et leur intimité.

De nos jours, le nombre de personnes malvoyantes est estimé à 285 millions à travers le monde, dont 39 millions d’aveugles. En France, c’est 1,7 millions de personnes qui sont concernées par des troubles visuels : 207 000 aveugles (aucune perception de la lumière) ou atteints de sévère déficience visuelle (vision limitée à la distinction de silhouettes) ; et 932 000 personnes atteintes de déficience visuelle modérée ne permettant pas la lecture. Pour autant, toutes ces personnes ont besoin de pouvoir accéder aux applications et services en ligne.

Accessibilité du contenu

Il existe deux modes d’accès non visuel à internet : l’accès tactile et l’accès vocal (et éventuellement une combinaison des deux). Les développements récents dans les technologies tactiles les ont rendues attrayantes pour les interfaces non visuelles. À la différence des technologies basée sur la vocalisation, qui permettent principalement une lecture linéaire des contenus textuels, des informations tactiles peuvent communiquer des informations sur la mise en page, un aperçu de l’organisation spatiale, ainsi que d’autres caractéristiques visuelles du contenu, comme par exemple la police de caractère utilisée, sa taille, l’intensité de la couleur d’arrière-plan, etc. De plus, l’affichage en Braille permet non seulement la perception, mais également la manipulation directe des objets sur l’écran (possibilité de cliquer sur des boutons ou des liens, de remplir des formulaires, etc.). Malheureusement, seulement 2% environs des utilisateurs malvoyants maitrisent le Braille et peuvent tirer profit de tels équipements. La majorité de ces utilisateurs se rabat donc sur l’utilisation de lecteurs d’écrans ou autres outils dédiés à la vocalisation de contenus en ligne.

Les lecteurs d’écrans vocaux – l’outil le plus populaire pour la navigation non-visuelle – ne fournissent que rarement des informations graphiques comme la mise en page, la taille des objets, les couleurs. Or ces informations sont cruciales pour une navigation efficace et pour détecter le contenu pertinent sur une page. Un lecteur d’écran typique va vocaliser tout le texte affiché à l’écran, de façon linéaire, sans prendre en compte les informations textuelles comme la taille de la police, sa couleur, etc.

En quoi est-ce un problème?

Les utilisateurs malvoyants ne peuvent examiner qu’un seul élément de la page à la fois, dans un ordre établi par les paramètres du lecteur d’écran ; ils ne connaissent donc pas la structure de la page, ni la taille des éléments qu’ils sont en train d’examiner.

Ces utilisateurs doivent donc souvent passer beaucoup de temps à écouter des éléments non pertinents avant d’accéder aux éléments souhaités, là ou un utilisateur valide peut parfois y arriver d’un simple coup d’œil.

Les informations visuelles et les éléments de structure comme les titres, les menus, les éléments surlignés, etc., permettent aux utilisateurs valides de repérer rapidement des mots clefs, et ainsi de passer rapidement de section en section à la recherche de la partie pertinente de la page.

Les utilisateurs malvoyants doivent, eux, attendre que le lecteur d’écran ait terminé de vocaliser tout le titre, et parfois le contenu complet de la section correspondante, ce qui ralentit significativement leur navigation. Ils ont également moins de contrôle (parfois aucun) sur le focus du lecteur d’écran, et n’ont donc pas de moyen de navigation (retour en arrière, avance rapide, saut de lignes / sections, etc.).

Figure 1: Une même page web dans un environnement visuel et non-visuel.

Lecteurs d’écrans: Avantages et inconvénients

Les lecteurs l’écran sont des programmes qui traduisent tout texte affiché à l’écran dans une forme vocale. Certains exemples de lecteurs d’écran sont : NVDA et Serotek System Access pour Windows, Apple VoiceOver pour OS X, ORCA et BRKTTY pour Linux, ainsi que des lecteurs basés sur le Web permettant une utilisation multi plate-forme. La plupart de ces lecteurs d’écran proposent une fonctionnalité de lecture d’écran basique, et n’atteignent pas le niveau de sophistication des lecteurs d’écran propriétaires, qui sont souvent trop couteux pour être utilisés par un grand nombre de personnes malvoyantes. La plupart de ces lecteurs d’écran aident la navigation des personnes malvoyantes ; Cependant, ils partagent deux inconvénients majeurs de la navigation non visuelle : ils lisent le texte de façon séquentielle, et plus gênant encore, ils ne permettent pas d’interaction continue (multi-opérations).

Figure 2: Navigation internet à l’aide d’un lecteur d’écran. Courtesy: Silktide.com

Comme nous l’avons dit, les lecteurs classiques ne permettent pas de résoudre les problèmes de surcharge de texte, des contenus redondants, et de la transmission linéaire de l’information. Un certain nombre de solutions ont été proposées dans les domaines académiques pour les résoudre ; certaines de ces solutions ont été incorporées dans des lecteurs d’écran propriétaires, mais la plupart restent des solutions théoriques, probablement dû au coût de l’implémentation de ces dernières. On trouve parmi ces solutions : une lecture plus rapide en fonction de la taille du bloc de texte, des raccourcis permettant de naviguer de titre en titre, la lecture du début et de la fin des paragraphes, la modification de l’organisation de la page et la suppression des parties considérées comme « moins importantes », l’utilisation de techniques de résumé automatique pour proposer des stratégies de lecture rapide (donnant une idée du contenu de la page sans nécessiter la lecture de gros blocs de contenu), etc.

Qu’en est-il des interactions?

Les techniques présentées ci-dessus accélèrent la lecture et supprime (partiellement) le problème de transmission linéaire du contenu. Cependant, elles ne fournissent pas de possibilité d’interaction avancée. La solution idéale est une application d’auto-vocalisation ciblée (SVA). Ces dernières sont généralement spécifiquement développées pour les personnes aveugles et utilisent des techniques de synthèse vocale ou de discours enregistré. Elles permettent également des interactions avec les utilisateurs via des modules de reconnaissance vocale intégrés. Les SVA offrent la flexibilité et la puissance nécessaire, ainsi qu’une capacité d’interaction qui ne sont pas incluses dans les simples lecteurs d’écran. Les développeurs de systèmes SVA ont un contrôle total sur l’information transmise aux utilisateurs (forme, ordre, etc.). Malheureusement ces applications sont difficiles à développer et maintenir, compte tenu de la variété des spécificités des appareils. Leur nombre reste donc limité.

Google Assistant – une interface commune pour les applications web interactives

L’assistant Google Home est une enceinte Wi-fi disposant d’un module de reconnaissance vocale. Ce dernier permet d’obtenir une commande vocale de l’utilisateur, de la transcrire, et de l’envoyer à l’application sous-jacente (initialement Google) pour analyse. Lorsque cette instruction est traitée, et la réponse générée par l’application, l’enceinte Google Assistant est chargée de la vocaliser pour la transmettre à l’utilisateur.

Figure 3: Google Home

Google assistant est également une interface qui peut être étendue à l’aide d’applications de traitement personnalisées. Il n’y a donc plus besoin de développer d’application SVA spécifiquement pour un groupe d’utilisateurs donné (les personnes malvoyantes dans notre cas) : la même application peut être utilisée par toutes les personnes, quelle que soit leur capacité visuelle. Inbenta a développé une application de FAQ dynamique pour Google Home – Inbenta VoiceBot. Avec l’aide de Google Home, la puissance de la recherche de contenu d’Inbenta va être rendue accessible aux utilisateurs malvoyants, sans nécessiter l’installation de logiciels dédiés.

La technologie “voicebot” d’inbenta permet une interaction fluide entre l’utilisateur et l’application; cette interaction inclut non seulement la recherche d’informations mais également l’utilisation de fonctions spécifiques ade l’application, comme le transfert de fichiers, etc. Le “voicebot” d’une application bancaire pourra par exemple permettre des opérations comme le virement bancaire, la modifications des paramètres d’un compte, la consultation de solde, la vérification de l’historique des transactions, etc. Les fonctions exactes proposées sont à définir par le client. N’hésitez pas à nous contacter pour plus d’informations.

Inbenta Team
by Inbenta Team