Il problema con la ricerca per parole chiave
Un buon motore di ricerca comprende l'intento dell'utente e mostra i risultati più rilevanti. I principali motori di ricerca moderni, come Google, Bing e DuckDuckGo, se la cavano davvero bene, ma la maggior parte delle tecnologie di ricerca aziendali si rivelano meno efficienti perché guardano solo le parole nella query, non l’intento che nasconde. Usano la cosiddetta "ricerca per parole chiave", una tecnologia invariata da decenni.
Ma la ricerca per parole chiave ha un grosso difetto: gli esseri umani usano parole diverse per porre le stesse domande. Considera i seguenti esempi:
Gli utenti che effettuano queste ricerche hanno un intento simile o uguale, e un approccio basato su parole chiave non riuscirà a fornire i risultati più pertinenti per queste ricerche finalizzate a ottenere le stesse informazioni.
I sistemi basati su parole chiave spesso utilizzano tecniche come TF-IDF, sinonimi, stemming e lemmatizzazione per migliorare i risultati, tuttavia questi escamotage richiedono tempo e sono soggetti a errori, e comunque non raggiungono l'intento della ricerca dell'utente. L'utente riceverà probabilmente un elenco di link che corrispondono ad almeno una parola chiave e dovrà cercare personalmente le informazioni pertinenti, se presenti.
Come funziona la ricerca semantica
Abbiamo addestrato BERT di Google per capire meglio cosa cerca realmente un cliente. Ciò significa che, a differenza dei sistemi basati su parole chiave, Search sa che qualcuno che cerca "reso scarpe" vuole avviare un processo di restituzione e che qualcuno che cerca una "spalla lussata" probabilmente ha bisogno di un ortopedico.
La ricerca analizza il significato alla base della query e trova le entità che forniscono le risposte più pertinenti a tale query. Utilizza le reti neurali per capire esattamente cosa sta cercando l'utente e trovare i risultati più rilevanti da Content.
Yext ha messo a punto BERT per comprendere meglio le query di ricerca. Quando un utente digita una query, Search la codifica come vettoriale, creandone una rappresentazione numerica. Quindi, effettua la ricerca dei dati in Content che sono più vicini alla query nello spazio vettoriale.
Due vettori vicini nello spazio condividono più di due vettori lontani. La ricerca semantica per testo inserisce una query nello spazio vettoriale e individua i contenuti più pertinenti, offrendo ai clienti risposte a cui non avevano pensato.
Questi vettori hanno 768 dimensioni, il che è per noi inimmaginabile, ma qui puoi visualizzare il processo in due dimensioni: