La mise en place du Règlement Général sur la Protection des Données le 25 mai 2018 force les entreprises et organisations, quelque soit leur domaine d'expertise, à identifier et retirer de ses bases de données toute information concernant les utilisateurs parmi la masse d’informations manipulée.
RGPD : quelles contraintes ?
Le volume de données généré en ligne est massif et il est devenu crucial de mettre en place des solutions automatisées pour extraire les informations pertinentes. De ce fait, la recherche d’information n’est pas un sujet nouveau mais il n’est en pas moins épineux car toutes les solutions présentent des limites : les possibilités sont nombreuses et la qualité des résultats est très variable. Cette dernière dépend essentiellement des besoins identifiés et de la méthodologie choisie pour y parvenir. Il sera dorénavant nécessaire de trouver une méthode à propos de données nouvelles.
Dans le cadre du RGPD, l’accent est mis sur les données sensibles. Celles-ci peuvent prendre des formes différentes, et être compliquées à repérer (formulations différentes par exemple).
En outre, la réforme élargit le spectre étudié à toute donnée dite sensible : les informations de contact, bien sûr, mais il peut s’agir aussi des mensurations d’une personne comme de toute donnée relative à une appartenance syndicale ou encore d’un numéro de commande.
Extraire l’information
L’un des domaines du traitement automatique des langues est ce que l’on appelle la recherche d’informations. Cette discipline permet de récupérer des données dans un corpus de textes tels que des bases de données de requêtes de clients. Plus encore, pour certains concepts, par exemple pour la veille, la méthode utilisée est l’extraction d’entités nommées. Ces dernières peuvent être des noms de personnes, d’organisations ou d’entreprises, de lieux, des quantités, distances, valeurs, dates, etc. Pour pouvoir supprimer ces données, il faut d’abord les identifier. C’est pourquoi ce sont les mêmes méthodes qui sont utilisées pour anonymiser les données clients.
Comme toute société qui traite des données utilisateurs, la mise en place de solutions pour se mettre en conformité avec la loi d’anonymisation a soulevé des interrogations chez Inbenta. Certains projets bénéficiaient déjà d’une anonymisation partielle des données, ce dispositif va dorénavant devoir prendre en compte les prérogatives du RGPD.
Inbenta a pour mission de fluidifier les échanges en self-care entre les marques et leurs utilisateurs, qu’ils soient clients ou collaborateurs. Le fonctionnement de nos solutions repose sur un moteur de recherche dont la finalité est de donner de l’autonomie à l’utilisateurs. Nous utilisons les données personnelles pour orienter vers les réponses et les parcours adéquats.
Exemple :
lorsqu’un utilisateur donne son numéro d’adhérent en ligne, cette information est importante pour orienter vers une réponse qui concerne les clients.
Notre société a donc naturellement anticipé les implications de cette réforme afin de s’assurer que les données puissent être anonymisées après le travail de suggestion de notre moteur de recherche. Une fois ce travail effectué, les ressources humaines qui manipulent les données n’ont plus accès aux données sensibles, celles-ci apparaissent sous la forme suivante : [NUM TELEPHONE] par exemple.
Nous travaillons avec deux types d’écrits :
- des phrases : les questions posées par les internautes dans nos FAQs dynamiques et chatbots,
- des textes libres : les internautes exposent leur situation dans un formulaire, il s’agit de textes libres.
Ces écrits ne respectent pas toujours les conventions des textes écrits et cette particularité implique que nous disposons de peu de contexte et d’identificateurs pour repérer des objets à anonymiser. Prenons l’exemple des noms de personnes, les identificateurs souvent utilisés sont les formules de politesse de fin de courrier, les titres de civilité (les majuscules sont également un indice pris en compte), etc.
Exemples :
“Bonjour, je vois que je n’ai pas de filleul confirmé. En fait j’avais parrainé Monsieur [NOM]” -> identificateur : titre de civilité : “Monsieur”
“Bonjour, je suis M. Pierre Martin”
➜ identificateur : titre de civilité : “M”
“Bonjour monsieur madame je me permets de vous écrire pour savoir si il est possible de me prêter 1000 euros. C’est urgent merci. Cordialement [PRENOM] [NOM]”
➜ identificateur : formule de politesse : “Cordialement”
Lorsque ces marqueurs sont absents, l’identification devient complexe. Il est possible de travailler avec des listes d’entités pré-définies (de prénoms par exemple), la complexité est alors d’éviter les ambiguïtés. De même, comment agir sur les noms de famille qui sont aussi des noms communs.
“Je suis P.J. Martin” ou “Merci, P.M”
➜ identificateur inexistant ou dangereux car ambigu.
Les objets qui suivent un modèle ou un patron précis tels qu’un numéro de téléphone, une adresse e-mail, une adresse ip, une numéro de sécurité social, etc. posent moins de difficulté lors de l’identification puisque le format peut être anticipé. Elles forcent malgré tout à une certaine réflexion.
Prenons l’exemple des dates de naissance, différentes selon les pays (nous gérons plus de 25 langues) :
- Dates au format français : 25 mai 2018, 25/05/2018, 25/5/18, 25-5-2018, 25.5.2018, etc.
- Dates au format anglais : May 25, 2018, 25th May, 2018, 5/25/2018, 4/25/18, etc.
L’application du RGPD soulève un réel sujet d’étude qui nécessite des ressources considérables; en témoigne l’apparition d’entreprises entièrement dédiées à cette thématique. Il soulève également un sujet intéressant : comment partager ses données en ligne ? Les solutions informatiques seront toujours plus adaptées pour être en règle avec la nouvelle loi, toutefois, la complexité pour atteindre un résultat exhaustif incitera peut-être à imaginer une manière uniformisée de communiquer nos informations personnelles sur Internet. Les internautes se sont, par exemple, appropriés l’usage des tags pour rechercher et notifier des personnes sur les réseaux sociaux. Dans quelle mesure serait-il possible de mettre en place un moyen similaire pour permettre aux internautes de signaler une donnée qu’ils souhaitent voir être anonymisée ?
Intéressé par l’implantation d’un chatbot ? Découvrez comment évaluer une solution de chatbot en visionnant le replay de notre webinaire :