Réordonnancement des résultats : clé de l’expérience de recherche

L'expérience utilisateur au contact d'une fonctionnalité de recherche dépend grandement du temps que l'internaute va mettre à trouver sa réponse. Et si le réordonnancement des résultats est une solution pour fluidifier ce processus et garantir la satisfaction.

Pourquoi le reclassement des résultats de recherche est essentielle

Les utilisateurs n’aiment pas perdre de temps et se montrent assez impatients lors de leur navigation via des moteurs de recherche locaux (en navigant sur un site web) ou généraux (en navigant sur le web).

Selon Moz, la première page de Google capture 71% des clics du trafic de recherche et sur les dernières années ce taux atteint les 92%. Les résultats de la deuxième page arrivent bien loin derrière puisqu’ils représentent 6% des clics sur tous les sites web. De plus, les différents résultats qui se trouvent en tête de la première page reçoivent environ 67% des clics, tandis que les résultats restants n’en reçoivent que 4%.

Dans une recherche locale, même s’il n’y a que 5 ou 6 résultats affichés et que le résultat pertinent arrive en cinquième position, cela prendra plus de temps à l’utilisateur de lire tous les résultats non pertinents avant d’atteindre la réponse correcte. De ce fait, l’expérience générale de l’utilisateur et son désir d’utiliser plus tard le moteur de recherche local (ou votre site internet en général) peuvent en pâtir.

 

réordonnancement

Résultats d’une recherche locale

Critères pour le classement

La méthode de reclassement pour la recherche locale et globale sont, à quelques exceptions près, plutôt similaires. Cependant les moteurs pour la recherche globale prennent en compte différents facteurs qui ne sont pas pertinents dans une recherche locale. La plupart des ces facteurs se rapportent à la composition interne de la page web comme les backlinks (ou liens entrants) de sites web externes ou la qualité/structure du contenu.

Dans les moteurs de recherche locale les deux principaux facteurs sont la pertinence des résultats de recherche par rapport à la requête et l’historique du clickthrough. L’historique du clickthrough peut inclure le nombre de clics pour une réponse donnée, le temps passé à lire les réponses et le retour de l’utilisateur après utilisation du moteur de recherche (« Cette information a-t-elle été utile : oui/non »). L’historique du clickthrough est aussi largement utilisée dans les algorithmes de reclassement des moteurs de recherche globaux.

réordinnancement_2

Demande du retour de l’utilisateur après utilisation du moteur de recherche

Les descriptions complètes des algorithmes de reclassement global sont tenues secrètes par les moteurs de recherche globaux, pour les concurrents aussi bien que les webmasters qui pourraient manipuler de façon artificielle le classement de leur site en intégrant du contenu vide, des liens, etc.

Les algorithmes de classement des moteurs de recherche locaux sont plus simples et sont rarement tenus secret (ils sont ouverts au public) puisqu’ils impactent seulement les utilisateurs finaux. Toutefois, ils présentent des difficultés qui leur sont propres.

Difficultés propres au reclassement des résultats d’un moteur de recherche local

Comme nous l’avons vu les deux principales sources d’information pour les algorithmes de reclassement des moteurs de recherche locaux sont la pertinence des résultats de recherche par rapport à la demande et l’historique du clickthrough.

La pertinence définit le degré de proximité sémantique entre une requête et une réponse (entrée d’une FAQ dans un moteur de recherche local par exemple). La pertinence est un critère subjectif : les requêtes d’utilisateur peuvent être ambigües. Par exemple : “Changer l’adresse” sur le site web d’une commerce peut signifier “Changer l’adresse de livraison pour une commande spécifique” ou “modifier le profil, changer l’adresse dans le carnet d’adresses”. Il s’agit de deux entrées différentes dans la base de données de la FAQ auxquelles correspondent deux réponses différentes. Seul l’utilisateur sait à quelle option il se réfère. Ou alors les requêtes peuvent être trop générales : “erreur lors de la réservation” (quelle erreur?), “impossible d’effectuer la commande” (que s’est-il passé exactement?) “le site ne fonctionne pas” (en quoi le site ne fonctionne pas ?), etc. Ces demandes sont difficiles à traiter surtout lorsqu’il s’agit de classement basé sur la similarité.

Pour le critère de l’historique du clickthrough nous collectons les logs des sessions utilisateurs (interactions avec le moteur de recherche). Ainsi, nous pouvons visualiser ce que les utilisateurs avec des requêtes similaires ont vu ou consulté et nous pouvons analyser ces données et utiliser cette information pour reclasser les futurs resultats de recherche.

En général, l’historique du clickthrough est intégré dans les algorithmes du machine learning qui utilisent ces données pour savoir quelles résultats (FAQ) sont les plus populaires et doivent être placées en tête de liste dans les résultats de recherche (pour une requête donnée).

Ce critère est moins subjectif que la pertinence mais il comporte quelques inconvénients : parfois des utilisateurs partent sans évaluer la pertinence du résultat (lorsqu’on le leur demande); ou des utilisateurs cliquent par erreur sur le premier résultat (qu’ils pensaient être le bon) et le clic est enregistré. Donc les données du clickthrough peuvent contenir du bruit ou être difficiles à interpréter et analyser.

Le temps passé à lire la réponse peut être un indicateur non pertinent : l’utilisateur a besoin de lire la réponse pour évaluer la pertinence de l’information et il peut ainsi mettre du temps à lire une réponse non pertinente. Par contre, retracer l’ensemble des activités de l’utilisateur durant la session peut être profitable : a-t-il continué la recherche pour la même requête après avoir consultés des réponses, a-t-il reformulé la requête ou quitté la page.

Toutes ces informations peuvent être utilisées dans des algorithmes de classement basés sur le Machine Learning pour peaufiner le modèle aux contextes et aux situations spécifiques.

Les diverses recherches et méthodes de classement comportent des inconvénients qui leur sont propres. Ainsi, la recherche et le reclassement basés sur la similarité peuvent échouer de trouver une réponse pertinente quand l’utilisateur emploie les mots et les expressions qui ne sont pas présents dans les entrées de la base de données (“modifier mes informations” au lieu de “changer mon adresse”). Dans ce cas, l’entrée pertinente de la base de données peut ne pas faire partie du tout du résultat, encore moins dans les résultats les plus fréquents.

réordonnancement_2

Re-classement appris sur les clics utilisateurs

Guide pratique du reclassement et des algorithmes

Les techniques de reclassement peuvent être généralement regroupées en deux catégories : les techniques basées sur la similarité et les techniques basées sur le Machine Learning.
Le reclassement de la recherche basée sur la similarité ordonne le résultat selon le score de similarité (du plus haut au plus bas). La similarité correspond à la proximité lexicale et/ou sémantique entre une requête et le résultat attendu (l’entrée d’une FAQ ou une page spécifique en cas d’un moteur de recherche local sur un site web). Le score de similarité dépend principalement du vocabulaire employé par l’utilisateur.

Learning to rank et le reclassement basé sur le Machine Learning

Le Learning to Rank (LTR) est une classe de techniques qui applique le machine learning supervisé pour résoudre des problèmes de classement. La différence principale entre le LTR et le machine learning supervisé traditionnel est que le ML supervisé traditionnel résout le problème de prédiction (classification ou régression) sur une seule instance à la fois tandis que le LTR résout un problème de classement sur une liste d’items. De ce fait, le LTR ne se concentre pas beaucoup sur le score exact que reçoit chaque item, mais il se concentre davantage sur l’ordination parmi tous les items.

Il existe plusieurs algorithmes très connus utilisés dans les moteurs de recherche commerciaux : RankNet (utilisé par le moteur de recherche Bing) se basait sur l’algorithme boosted tree ensembles (ensembles d’arbres améliorés) et utilise actuellement des réseaux de neurones artificiels. LambaRank et LambdaMART (développés par Microsoft Research) ont suivi Ranknet. Dans ces trois techniques, le classement est transformé en un problème de classification ou de régression par paire. Cela signifie qu’on traite une paire d’items à la fois, on obtient la meilleure ordination pour cette paire d’items (ainsi que tous les autres) et on l’intègre dans le classement final de tous les résultats.

Conclusion

L’importance du reclassement ne devrait pas être négligée : il peut améliorer nettement l’expérience de l’utilisateur et faciliter la navigation et la recherche sur le site. Les avancées technologiques (le Machine Learning et plus particulièrement le renouveau des réseaux de neurones artificiels et du deep learning) ont permis d’affiner les méthodes de recherche et de reclassement et d’obtenir des algorithmes performants de grande qualité destinés à être intégrés dans les moteurs de recherche globaux et locaux.

Inbenta est un leader dans les technologies innovantes de recherche pour les entreprises. Nous mettons en oeuvre les dernières avancées en terme de traitement automatique du langage afin d’améliorer la qualité de service pour les entreprises et leurs clients.

Intéressés ? Notre team d’experts est à votre service pour vous créer une offre personnalisée.

PLANIFIER UNE DÉMO

Inbenta Team
by Inbenta Team