Crawling
Automatisches Durchsuchen von Websites durch Bots, etwa von Suchmaschinen oder KI Systemen, zur Daten Erfassung.
Auch bekannt als: Web Crawling, Spidering
Crawling bezeichnet das automatisierte Abrufen und Auswerten von Webseiten durch Programme, sogenannte Crawler oder Bots. Suchmaschinen wie Google nutzen Crawler, um Inhalte zu indexieren, KI Anbieter sammeln Trainings Daten, Preis Vergleicher beobachten Wettbewerber Preise und Sicherheits Anbieter scannen nach Schwachstellen. Ohne Crawling gäbe es weder Suchmaschinen noch viele moderne Datendienste.
Wie Crawler arbeiten
Ein Crawler startet bei einer Liste bekannter URLs, ruft sie ab, folgt den enthaltenen Links und legt die gefundenen Inhalte in einer Datenbank ab. Häufigkeit und Tiefe richten sich nach Wichtigkeit und Aktualität der Seite. Websites können über die Datei robots.txt steuern, welche Bots welche Bereiche besuchen dürfen, und über Sitemap Dateien die Indexierung beschleunigen.
Was Crawling beeinflusst
Schnelle Ladezeiten, eine logische Seiten Struktur, eindeutige Canonical Tags und sinnvolle interne Verlinkung helfen Crawlern, die Seite vollständig zu erfassen. Sehr große Sites brauchen ein klares Crawl Budget Management, weil Crawler nicht jede URL beliebig oft besuchen. JavaScript Rendering ist mittlerweile bei Top Suchmaschinen Standard, doch komplexe Single Page Anwendungen können Crawler dennoch ins Stolpern bringen.
Praxis Hinweis
Im SEO Umfeld ist das Logfile Monitoring ein wichtiges Werkzeug, um zu sehen, welche Crawler wie häufig welche Seiten aufrufen. So lassen sich Bandbreite und Server Last steuern und unerwünschte Crawler blockieren. Im KI Zeitalter geht die Diskussion zusätzlich um neue Bots, die für Modell Training Inhalte einsammeln. Wer das nicht möchte, kann entsprechende Bots gezielt aussperren, sofern sie sich an robots.txt halten.