Crawler
Crawler
Sie benötigen Informationen aus den verschiedensten Bereichen, um einen leistungsstarkes CMS zu erstellen. Eine hervorragende Datenquelle ist Ihre eigene Website. Der Crawler durchsucht die zugrundeliegenden Inhalte auf Ihrer Website, die unsere Connectors dann mit nur wenigen Klicks in strukturierte Daten für Ihr CMS umwandeln können. Dank der umfangreichen Konfigurationsoptionen nimmt der Crawler genau die von Ihnen gewünschten Informationen von Ihrer Website – sogar Text aus PDF-Dateien, die Sie online speichern. Dieser Ansatz spart nicht nur Zeit, sondern gibt Ihnen auch erweiterte Datenquellenoptionen.
Scrapen Sie Daten von Ihrer Website
Der Yext Crawler kann Ihre HTML- und/oder PDF-Inhalte von einer bestimmten Anzahl von Domains, Seiten oder Unterseiten unter einer Domain scrapen, sodass Sie genau kontrollieren können, welche Inhalte in Ihr CMS aufgenommen werden. Wenn sich Ihre Website-Daten ständig ändern, konfigurieren Sie Crawls so, dass sie regelmäßig ausgeführt werden – wenn Sie nur eine einmalige Auffüllung benötigen, durchsuchen Sie sie einmal. Möchten Sie bestimmte Seiten nicht durchsuchen? Sie können unerwünschte URLs einfach auf eine Blacklist setzen, damit der Crawler sie überspringt.
Konfigurieren eines Crawlers
Sobald Ihr Crawler Ihre Website durchsucht, konvertiert und strukturiert ein Connector den unformatierten HTML-Code in Inhalte für Content-Entitäten. Durch die hochgradig anpassbare Konfiguration können Sie genau die Daten extrahieren, die Sie benötigen. Sie können einen Zielpfad basierend auf CSS- oder XPath-Selektoren angeben, um häufig extrahierte Datentypen wie Seitentitel und Textinhalt zu erfassen. Connectors können Text, HTML, URLs, Bilder und noch mehr extrahieren. Hier erfahren Sie mehr darüber wie Connectors und der Crawler zusammenarbeiten.
Transformieren Sie Ihre Daten
Die Daten auf Ihrer Website sind möglicherweise nicht genau so formatiert, wie sie in Ihrem CMS angezeigt werden sollen. Verwenden Sie Transformationen in Connectors, um die vom Crawler eingeholten Daten zu bearbeiten, bevor sie in Content aufgenommen werden. Connectors ermöglichen es Ihnen, alle Änderungen an Ihren Daten in Echtzeit zu überprüfen, um maximale Genauigkeit zu gewährleisten. Mit Transformationen können Sie unerwünschte Zeichen entfernen, die Großschreibung korrigieren, Text suchen und ersetzen, Datumsangaben formatieren und vieles mehr.