Ein Crawler – auch Spider oder Bot genannt – ist ein Softwareprogramm, das Webinhalte sammelt und durchsucht. Suchmaschinen setzen solche Programme ein, um automatisiert das gesamte Internet nach Informationen zu durchsuchen.
Der Crawler durchsucht nicht nur HTML-Dokumente, sondern beispielsweise auch RSS-Feeds. Die gesammelten Informationen bilden die Grundlage für den Index der Suchmaschinen, aus dem wiederum die passenden Ergebnisse zu einer Suchanfrage ausgesucht werden. Mithilfe von Links hangelt sich der Crawler von Dokument zu Dokument und erreicht so weitere URLs.
Jede Webadresse, die dabei gefunden wird, speichert der Bot in einer Liste ab und besucht sie der Reihe nach. Die auf jeder Website neu gefundenen Links werden ebenfalls in dieser abgespeichert. Auf diese Art und Weise kann der Crawler theoretisch jede Seite (mit Ausnahme gesperrter Seiten) besuchen und so das Web in seiner Gesamtheit erfassen.
Dieser Prozess wird in der Realität jedoch nach einer bestimmten Zeit beendet und von vorn begonnen. Der Inhalt der gefundenen Webdokumente wird im Anschluss an die Suche erschlossen. Daraus wird der Suchmaschinen-Index erstellt, aus dem im Fall einer Suchanfrage passende Dokumente zur Darstellung auf den Suchergebnisseiten (SERPs) ausgewählt werden.
Der erste Crawler war im Jahr 1993 der World Wide Web Wanderer, der das Wachstum des Internets messen sollte. Mittlerweile gibt es viele unterschiedliche Crawler, die ca. 40 % des gesamten Internetverkehrs ausmachen.
Einen großen Teil des Internets kann ein Crawler jedoch nicht erschließen, da für das „Deep Web“ oder auch „Invisible Web„ oft Zugangsbeschränkungen bestehen oder die Informationen nicht über einfache Links abrufbar sind.