Crawler

Juli 16, 2014

Ein Crawler – auch Spider oder Bot genannt – ist ein Softwareprogramm, das Webinhalte sammelt und durchsucht. Suchmaschinen setzen solche Programme ein, um automatisiert das gesamte Internet nach Informationen zu durchsuchen.

Der Crawler durchsucht nicht nur HTML-Dokumente, sondern beispielsweise auch RSS-Feeds. Die gesammelten Informationen bilden die Grundlage für den Index der Suchmaschinen, aus dem wiederum die passenden Ergebnisse zu einer Suchanfrage ausgesucht werden. Mithilfe von Links hangelt sich der Crawler von Dokument zu Dokument und erreicht so weitere URLs.

Jede Webadresse, die dabei gefunden wird, speichert der Bot in einer Liste ab und besucht sie der Reihe nach. Die auf jeder Website neu gefundenen Links werden ebenfalls in dieser abgespeichert. Auf diese Art und Weise kann der Crawler theoretisch jede Seite (mit Ausnahme gesperrter Seiten) besuchen und so das Web in seiner Gesamtheit erfassen.

Dieser Prozess wird in der Realität jedoch nach einer bestimmten Zeit beendet und von vorn begonnen. Der Inhalt der gefundenen Webdokumente wird im Anschluss an die Suche erschlossen. Daraus wird der Suchmaschinen-Index erstellt, aus dem im Fall einer Suchanfrage passende Dokumente zur Darstellung auf den Suchergebnisseiten (SERPs) ausgewählt werden.

Der erste Crawler war im Jahr 1993 der World Wide Web Wanderer, der das Wachstum des Internets messen sollte. Mittlerweile gibt es viele unterschiedliche Crawler, die ca. 40 % des gesamten Internetverkehrs ausmachen.

Einen großen Teil des Internets kann ein Crawler jedoch nicht erschließen, da für das „Deep Web“ oder auch „Invisible Web„ oft Zugangsbeschränkungen bestehen oder die Informationen nicht über einfache Links abrufbar sind.

Lust auf einen Gastartikel?

Möchtest du einen Gastartikel auf SEO-Trainee.de veröffentlichen? Dann schau dir unsere Richtlinien für Gastbeiträge an und melde dich ganz einfach bei uns! Wir freuen uns von dir zu hören

Kontakt aufnehmen

Crawler

Lust auf einen Gastartikel?

SEO-Monatsrückblick Mai 2024

DAS EINZIGARTIGE SEO-TRAINEE-PROGRAMM BEI DER ARTAXO GMBH

SEO-Trainee feiert seinen 14. Geburtstag! Unsere KI-Highlights & Geburtstagsgewinnspiel

JSON-LD einfach erklärt – Aufbau und Definition

SEO-Monatsrückblick August 2024

Themen

Related Posts

Save the Date! – CAMPIXX Berlin 2025

SEO-Monatsrückblick Februar 2025

Vorstellungsrunde Teil 39 – Henrik

SEO-Monatsrückblick Januar 2025

SEO-Trainee.de ist der Blog der SEO-Trainees der artaxo GmbH.