Das Problem mit der Stichwort-basierten Suche
Eine gute Suchmaschine versteht, was ein Benutzer will, und liefert die relevantesten Ergebnisse. Moderne Suchmaschinen wie Google, Bing und DuckDuckGo sind in dieser Hinsicht wirklich gut. Doch die meisten Enterprise-Suchtechnologien schaffen dies nicht, da sie lediglich die Wörter in der Suchanfrage betrachten, nicht die Absicht dahinter. Sie verwenden die Stichwort-basierte Suche, eine Technologie, die sich seit Jahrzehnten nicht mehr verändert hat.
Die Stichwort-basierte Suche hat einen großen Fehler: Menschen verwenden verschiedene Wörter für dieselben Fragen. Nehmen Sie beispielsweise die folgenden Fälle:
Die Benutzer hinter diesen Suchanfragen haben ähnliche oder gleiche Absichten, und ein Stichwort-basierter Ansatz wird nicht die relevantesten Ergebnisse für diese Suchen liefern, die nach denselben Informationen suchen. Stichwort-basierte Systeme nutzen häufig Techniken wie TF-IDF, Synonyme, Stemming und Lemmatisierung zur Verbesserung der Ergebnisse, aber diese Hacks sind zeitaufwändig und fehleranfällig – und gehen dabei noch immer nicht auf die Absicht der Suche ein. Benutzer erhalten wahrscheinlich eine Liste von Links, bei denen mindestens ein Stichwort übereinstimmt, und müssen selbst nach den relevanten Informationen suchen, wenn diese überhaupt vorhanden sind.
So funktioniert die semantische Textsuche
Wir haben Googles BERT darauf trainiert, besser zu verstehen, was Kunden wirklich suchen. Search weiß also im Gegensatz zu Stichwort-basierten Systemen: Wenn jemand „Schuhe zurücksenden“ sucht, geht es um eine Retoure, und jemand, der nach „ausgekugelte Schulter“ sucht, braucht wahrscheinlich einen Orthopäden.
Search analysiert die Bedeutung hinter der Suchanfrage und findet die Entitäten mit den relevantesten Antworten auf diese Anfrage. Mithilfe von neuronalen Netzwerken wird genau verstanden, was Benutzer suchen, um die relevantesten Ergebnisse in Content zu finden.
Yext hat BERT darauf abgestimmt, Anfragen besser zu verstehen. Wenn ein Benutzer eine Anfrage eingibt, codiert Search sie als einen Vektor und erstellt so eine numerische Darstellung der Anfrage. Dann wird in Content nach den Daten gesucht, die der Anfrage im Vektorraum am nächsten kommen.
Zwei nah beieinander gelegene Vektoren haben mehr Bedeutung gemeinsam als zwei, die weit auseinander liegen. Die semantische Textsuche platziert eine Anfrage im Vektorraum und findet die Inhalte, die ihr am nächsten sind. So erhalten Ihre Kunden die Antworten, von denen sie vielleicht gar nicht wussten, dass sie sie brauchen.
Diese Vektoren haben 768 Dimensionen – für uns unvorstellbar –, aber Sie können sich den Prozess hier in zwei Dimensionen vorstellen: