Le problème avec la recherche par mot-clé
Un moteur de recherche performant comprend l'intention de l'utilisateur et lui renvoie les résultats les plus pertinents. Des moteurs de recherche modernes tels que Google, Bing et DuckDuckGo sont excellents dans ce domaine. En revanche, hormis les principaux moteurs de recherche, la plupart des technologies de recherche d'entreprise ne sont pas à la hauteur car elles ne prennent en compte que les mots de la requête et non l'intention sous-jacente. Elles utilisent une technologie de « recherche par mots-clés », identique depuis des décennies,
et ce type de recherche présente un défaut majeur : les utilisateurs utilisent différents mots pour poser les mêmes questions. En voici quelques exemples :
Les utilisateurs à l'origine de ces recherches ont une intention similaire ou identique, et une approche basée sur les mots-clés ne parviendra pas à fournir les résultats les plus pertinents. Elles visent en effet à obtenir les mêmes informations. Les systèmes basés sur des mots-clés utilisent souvent des techniques telles que le TF-IDF, les synonymes, la recherche du radical et la lemmatisation pour améliorer les résultats, mais ces méthodes sont chronophages, sources d'erreurs et ne permettent toujours pas de déterminer l'intention de recherche de l'utilisateur. Il va probablement obtenir une liste de liens avec au moins une correspondance avec un mot-clé, et devra effectuer lui-même des recherches pour obtenir des informations pertinentes, si toutefois elles existent.
Comment fonctionne la recherche de texte sémantique
Nous avons entraîné l'algorithme BERT de Google afin qu'il comprenne ce que les utilisateurs recherchent réellement. Cela signifie que, contrairement aux systèmes basés sur des mots-clés, Search sait qu'un utilisateur qui recherche « renvoyer des chaussures » souhaite connaître une procédure de retour, et qu'un autre qui recherche « épaule déboitée » a probablement besoin d'un orthopédiste.
Search analyse la signification sous-jacente de la requête et trouve les entités comportant les réponses les plus pertinentes. La solution utilise des réseaux neuronaux pour comprendre précisément l'intention de l'utilisateur et lui proposer ainsi les résultats les plus pertinents de Content.
Yext a amélioré BERT pour mieux comprendre les requêtes. Lorsqu'un utilisateur saisit une requête, Search l'encode en tant que vecteur, et crée ainsi une représentation digitale de la requête. Elle recherche ensuite dans Content les données correspondant le plus à la requête dans l'espace vectoriel.
Deux vecteurs proches dans l'espace partagent plus de sens que deux vecteurs éloignés. La recherche de texte sémantique insère une requête dans l'espace vectoriel et localise le contenu qui s'y rapproche le plus. Les utilisateurs peuvent ainsi recevoir des réponses auxquelles ils n'avaient peut-être pas pensé.
Ces vecteurs comportent 768 dimensions ; autrement dit, le cerveau humain ne peut pas le concevoir, mais vous pouvez visualiser le processus en deux dimensions ici :