Wie funktionieren Suchmaschinen?

Fachartikel
November 14, 2012

In meinem letzten Artikel Robots Exclusion Protocol und das Geheimnis des X-Robots-Tag gibt es eine kurze Passage zum Thema Suchmaschinen, in der ich bereits flüchtig auf deren Funktionsweise eingehe. Daran möchte ich heute gerne anknüpfen und erläutern, wie Suchmaschinen funktionieren.

Wie funktioniert eine Suchmaschine?

Die Funktionsweise von Suchmaschinen besteht aus den Schritten Crawling und Indexierung. Zunächst ruft der Crawler (auch Spider oder Bot genannt) Webseiten auf und speichert diese in einer Datenbank ab. Anschließend werden diese Daten gesammelt und indexiert. Wird eine Suchanfrage gestellt, schaut die Suchmaschine im Index nach, auf welchen Internetseiten der gesuchte Begriff vorkommt. Ein Algorithmus entscheidet letztendlich, welches Ranking die Seite in den SERPs erzielt.

Volltext- und Metasuchmaschinen

Vertikale Suchmaschinen, Föderierte Suchmaschinen, Enterprise Search – wie soll man bei der Vielzahl an Kategorisierungsmöglichkeiten für Suchmaschinen den Überblick behalten? Ich halte es an dieser Stelle ganz einfach und unterteile Suchmaschinen in zwei wesentliche Arten: Metasuchmaschinen und Volltextsuchmaschinen. Letztere, zu denen u. a. Google und Bing zählen, durchsuchen und indizieren den gesamten Text einer Webseite bzw. eines Dokumentes. Das heißt, Suchmaschinen, die auf einer Volltextsuche basieren, verweisen bei der Abfrage nach einem beliebigen Begriff oder einer Wortgruppe auf alle relevanten Dokumente, die sie durchsucht haben und in denen der gesuchte Begriff enthalten ist.

Infografik zu Volltextsuchmaschinen — © seo-trainee.de

Metasuchmaschinen wie MetaGer oder die „diskreteste Suchmaschine der Welt“ ixquick hingegen sammeln gar nicht selber, sondern übergeben eine Suchanfrage an mehrere andere Suchmaschinen, greifen deren Ergebnisse ab und verarbeiten die Informationen zu einer eigenen Trefferliste (SERPs).

Infografik zu Metasuchmaschinen — © seo-trainee.de

Arbeitsweise von Suchmaschinen

Leider ist es so, dass die einzelnen Suchdienste unterschiedliche Algorithmen für den Suchprozess verwenden und weil diese mindestens genauso gut behütet sind wie die Kronjuwelen von Queen Elizabeth, kann man nicht exakt sagen, wie Suchmaschinen funktionieren – jedoch sind die allgemeinen Funktionen gleich.

Crawler

Um die Funktionsweise von Suchmaschinen zu verstehen, ist es wichtig zu wissen, dass Suchmaschinen bei einer Suchanfrage (Query Processing) nicht das gesamte World Wide Web durchsuchen, sondern immer nur die Seiten, die sie in ihrem Index haben – demnach beginnt die Arbeit einer Suchmaschine weit vor der eigentlichen Suche.

An erster Stelle steht der Crawler, auch Spider, Robot oder Bot genannt. Er ist ein vollautomatischer Informationssammler, der für die Erfassung von Dokumenten im Web zuständig ist. Dafür ruft er eine Webseite nach der anderen auf und speichert diese in einer Datenbank (Repository) ab, beginnend mit den Websites und URLs, die von den Webmastern angemeldet wurden. Bei Google geht das ganz einfach mithilfe der Webmaster Tools.

Beim Crawlen stehen ganz klar HTML-Dokumente im Fokus, aber auch die Indexierung von Texten aus .ppt- oder .pdf-Dateien ist möglich. Der Crawler durchsucht aber nicht nur den Content einer Website sondern auch deren Meta-Tags. Außerdem folgt er den Links auf der Seite (Harvesting) und entdeckt mitunter Seiten, die sich noch nicht in der Datenbank befinden.

Weitere Keyfacts im Überblick:

Crawler nehmen nur eine bestimmte Anzahl an Seiten einer Domain in die Datenbank auf
Domains mit einer hohen Popularität (z. B. hoher PageRank) werden gründlicher erfasst
Die Anzahl der Linkebenen, die ein Crawler in einer Site hinuntersteigt, unterscheidet sich von Suchmaschine zu Suchmaschine
Die Zyklen, in denen Crawler zu einer Domain zurückkehren, variieren; wenn eine Site häufig aktualisiert wird, kommt z. B. der Googlebot täglich vorbei
Meistens sind mehrere Crawler auf einmal unterwegs – 7% des gesamten Netzverkehrs wird durch Robots verursacht

Sollte der Crawler auf einer Seite unerwünscht sein, kann dieser mittels robots.txt ausgeschlossen werden.

Indexer

Der Indexer bereitet die vom Crawler gesammelten Daten, die er sich aus dem Repository abholt, auf und erstellt damit einen Index. Für jedes Wort wird ein Eintrag mit der genauen Position im Datenbestand erstellt (Invertierte Datei). Dadurch wird der Index schnell und effizient durchsuchbar gemacht. Wenn nun eine Suchanfrage gestellt wird, schaut die Suchmaschine zuerst im Index nach, auf welchen Internetseiten der gesuchte Begriff vorkommt. Danach holt sie sich aus dem Repository Informationen zu jeder Seite wie z. B. Title und Description und stellt diese in den SERPs dar – sollten keine vorhanden sein, generiert die Suchmaschine diese automatisch.

Um die Auswahl aus den mitunter Tausenden von Suchergebnissen zu erleichtern, wird von den Suchmaschinen eine automatische Bewertung des Index bzw. der Relevanz eines Suchtreffers vorgenommen (Ranking). Jede Suchmaschine setzt dabei andere Mechanismen ein, weshalb die einzelnen Suchmaschinen trotz gleicher Dokumente im Index unterschiedliche Ergebnisse liefern. Aspekte, die in diese Evaluation mit einbezogen werden, sind u. a. die Anzahl der übereinstimmenden Wörter, die Häufigkeit des Vorkommens von Suchbegriffen (URL, Title, Description, Hauptüberschrift) sowie deren Position oder die Verlinkung von anderen Websites.

Searcher

Der Searcher ist die einzig sichtbare Funktion einer Suchmaschine. Von ihm wird die Suchanfrage des Internetnutzers ausgewertet. Während einer Suchanfrage gleicht diese Systemkomponente die eingegebenen Begriffe mit den im Index gespeicherten Informationen ab und gibt die entsprechenden Ergebnisse als SERPs aus.

Puh, alles verstanden? Solltet ihr noch Fragen haben, stellt diese gerne in den Kommentaren.

Sandra und die SEO Trainees.

Suchmaschinen

Lust auf einen Gastartikel?

Möchtest du einen Gastartikel auf SEO-Trainee.de veröffentlichen? Dann schau dir unsere Richtlinien für Gastbeiträge an und melde dich ganz einfach bei uns! Wir freuen uns von dir zu hören

Kontakt aufnehmen

26 Antworten

Bruno sagt:

1 Mai, 2015 um 21:21 Uhr

Wirklich sehr gut geschrieben, jedoch schätze ich den Robot Traffic selber auch sehr viel höher ein. Ansonsten Top Artikel!

Antworten
Dirk sagt:

21 April, 2013 um 12:29 Uhr

Liebe Sandra,
ich habe viel gelernt, aber meine (womöglich dumme) Frage bleibt offen. Ich wollte dies herausfinden: wenn eine Suchmaschine neu in einen Blog gestellte Bilder oder Dokumente aufnimmt, ist das Finden der Bilder/Dokumente nur dann möglich, wenn der Blog aktiv (online) ist, oder findet die Suchmaschine auch diese Dokumente, wenn der Blog passiv (offline) ist?
Viele Grüsse von Dirk

Antworten
1. Sandra sagt:
  
  22 April, 2013 um 10:00 Uhr
  
  Dumme Fragen gibt es nicht, Dirk. Eine Suchmaschine kann Bilder und Dokumente in einem Blog nur finden, wenn sie von dessen Existenz weiß, d. h. entweder zeigen Links auf den Blog und stoßen die Suchmaschine quasi mit der Nase auf die vorhandene Website oder du zeigst das Vorhandensein deines Blogs bei den Google Webmaster Tools an – dieses Vorgehen würde ich jedem Webmaster empfehlen.
  
  Zur Veranschaulichung: Szenario 1.) Wenn du also einen neuen Blog hast, auf diesen aber noch keine Links verweisen und du ihn auch noch nicht bei den Webmaster Tools eingereicht hast, dann wird die Suchmaschine den Blog und die sich darauf enthaltenen Bilder und Dokumente nicht finden. Szenario 2.) Wenn du die letzten drei Jahre einen Blog betrieben hast und in der Zeit auch ein paar Links eingesammelt wurden, der Blog dann aber offline geschaltet wird, besteht die Möglichkeit, dass der Blog und dessen Inhalte weiterhin gefunden und indexiert werden. Die Entfernung von Blog-Inhalten aus dem Index einer Suchmaschine ist mitunter schwierig, aber nicht unmöglich wie ich aus eigener Erfahrung weiß. WordPress hat das in der Vergangenheit für mich super gelöst.
  
  Antworten
  1. Dirk sagt:
    
    22 April, 2013 um 10:27 Uhr
    
    Herzlichen Dank, das beantwortet meine Fragen erschöpfend ! Dirk
    
    Antworten
    1. Sandra sagt:
      
      22 April, 2013 um 10:53 Uhr
      
      Prima, das freut mich! 🙂
      
      Antworten
anne sagt:

13 Februar, 2013 um 10:41 Uhr

Bin grad am stöbern gewesen und habe diesen Artikel entdeckt. der gefällt mir sehr gut. und ist auch wunderbar verständlich

Antworten
alex sagt:

31 Januar, 2013 um 09:18 Uhr

Danke ffür den Beitrag und die erläuterung

Antworten
1. Sandra sagt:
  
  31 Januar, 2013 um 16:51 Uhr
  
  Es war mir eine Freude! 😀
  
  Antworten
Daniel sagt:

27 November, 2012 um 13:30 Uhr

Ich glaube, so versteht es jeder! 😉

Antworten
Tom sagt:

20 November, 2012 um 17:50 Uhr

Danke fuer die gute Erklaerung 🙂

Antworten
1. Sandra sagt:
  
  22 November, 2012 um 09:11 Uhr
  
  Gerne! Freut mich, dass dir der Artikel gefallen hat! 🙂
  
  Antworten
Mario sagt:

20 November, 2012 um 11:12 Uhr

Ich klebe an deinen Worten. Dieser Blog ist einer der besten, der die SEO / Arbeitsweise der Suchmaschinen – Zusammenhänge auch VERSTÄNDLICH beschreibt. Klasse!

Antworten
1. Sandra sagt:
  
  22 November, 2012 um 09:10 Uhr
  
  Ich freue mich sehr, dass du das so siehst Mario! 😀 Vielleicht kannst du das bis Freitag auch nochmal den Jungs von SEO United mitteilen… *hüstle* http://www.seo-united.de/blog/seo/seo-wahlen-2012-nominierung.htm 😉
  
  Antworten
Michael sagt:

15 November, 2012 um 15:42 Uhr

Sehr schön geschriebener Artikel. Jeder der sich mit SEO auseinandersetzt, sollte sich vorher zuerst mit der Funktionsweise der Suchmaschinen im Allgemeinen beschäftigen. Dazu bietet euer Artikel einen sehr guten Einstieg.

Antworten
1. Sandra sagt:
  
  22 November, 2012 um 09:29 Uhr
  
  Da stimme ich dir zu, Michael. Aber ich musste feststellen, das lange nicht alle SEOs wissen, wie eine Suchmaschine genau funktioniert. Schade, dabei ist das Thema sehr spannend und wichtig, um Suchmaschinenoptimierung (richtig) betreiben zu können.
  
  Antworten
Thomas sagt:

15 November, 2012 um 11:14 Uhr

Toller Artikel. Sehr verständlich und „rischtisch“ gut geschrieben.

Antworten
1. Sandra sagt:
  
  22 November, 2012 um 09:38 Uhr
  
  Mission erfüllt! 😀
  
  Antworten
Lukas sagt:

15 November, 2012 um 10:36 Uhr

Super Erklärt und tolle Grafiken!!!
Manchmal möchte man den Leuten wirklich sagen „Geht nach Hause und lernt die Basics“ – nun kann man auf diesen Artikel verweisen! 🙂

Antworten
1. Sandra sagt:
  
  22 November, 2012 um 10:12 Uhr
  
  Nur zu! 🙂
  
  Antworten
Patricia sagt:

15 November, 2012 um 10:18 Uhr

Danke für den tollen Artikel, trotzdem möchte ich jetzt noch was zu den Ponys wissen ;-).

Antworten
1. Sandra sagt:
  
  22 November, 2012 um 09:01 Uhr
  
  Ich freue mich, dass dir der Artikel gefallen hat! Über die Ponys gibt dir übrigens das YouTube-Video Aufschluss, also einfach mal reinschauen! 😉
  
  Antworten
Matthias sagt:

14 November, 2012 um 23:40 Uhr

Die Grafiken verdichten die Zusammenhänge sehr gut. Danke für den Artikel!

Antworten
1. Sandra sagt:
  
  22 November, 2012 um 09:44 Uhr
  
  Matthias, Lisa,
  es freut mich das euch der Artikel gefallen hat. Die Grafiken sind in der Tat wunderbar gelungen. Da hat unsere Grafikabteilung wirklich sehr gute Arbeit geleistet! Großes Lob von mir an dieser Stelle! 🙂
  
  Antworten
Lisa sagt:

14 November, 2012 um 19:19 Uhr

Eine sehr veranschaulische Grafik und tolle Erklärung mit den Suchmaschinen.
Auch toll ist das Video 😀

Antworten
Dom sagt:

14 November, 2012 um 18:07 Uhr

Hallo Sandra,

danke für den super Artikel. Ich finde das anschaulich erklärt und sehr gut dargestellt. Ich bezweifle allerdings, dass der durch Bots und Spider verursachte Traffic lediglich bei 7% liegen soll. Unter der angegebenen Quelle kann man leider nicht qualifizieren von wann die Daten stammen und auch nicht woher sie stammen. Anfang des Jahres hab ich gelesen, dass ca. 50% der Traffics nicht von Menschen stammen (http://www.at-web.de/blog/20120316/nur-49-der-besucher-einer-website-sind-menschen.htm). Das erscheint mir plausibler. Ich glaube aber über Bots und Spider etc. könnte man alleine einen Artikel schreiben 😉

BG
Dom

Antworten
1. Sandra sagt:
  
  22 November, 2012 um 10:11 Uhr
  
  Lieber Dominik,
  
  vielen Dank für die zusätzlichen Infos. Bezüglich des von Crawlern verursachten Traffics scheint es wirklich keine eindeutigen Zahlen zu geben.
  Hm, vielleicht bedarf es aber auch nur mehr Recherchezeit. Ein Artikel über Suchmaschinen-Robots erscheint mir eine gute Idee, ist notiert! 🙂
  
  Antworten

Wie funktionieren Suchmaschinen?

Wie funktioniert eine Suchmaschine?

Volltext- und Metasuchmaschinen

Arbeitsweise von Suchmaschinen

Crawler

Indexer

Searcher

Lust auf einen Gastartikel?

Autor:In

SEO-Monatsrückblick Dezember 2024

SEO-Monatsrückblick Mai 2024

Save the Date – e-Commerce Day 2025 by Kaufland

SEO-Monatsrückblick Februar 2025

SEO-Monatsrückblick April 2024

Themen

Related Posts

Save the Date! – CAMPIXX Berlin 2025

SEO-Monatsrückblick Februar 2025

Vorstellungsrunde Teil 39 – Henrik

SEO-Monatsrückblick Januar 2025

26 Antworten

Schreibe einen Kommentar Antworten abbrechen

SEO-Trainee.de ist der Blog der SEO-Trainees der artaxo GmbH.