An diesem Mittwoch dreht sich alles rund um das Thema Robots.txt. Wir wollen uns anschauen, wie man eine Robots.txt erstellt, wie man die häufigsten Fehler vermeiden kann und welche Alternativen es gibt. Bevor ich jedoch anfange, möchte ich ein paar Grundlagen erklären.
Robots.txt – Was ist das?
Mit der Robots.txt hat der Webmaster die Möglichkeit festzulegen, welche Unterseiten und Verzeichnisse seiner Webseite von den Suchmaschinen nicht indiziert werden sollen. Es gibt eine Vielzahl an Gründen, warum Seiten oder Verzeichnisse von der Indexierung ausgeschlossen werden. So sollten beispielsweise keine Seiten indexiert werden, die sich noch im Aufbau befinden oder lediglich für private Zwecke genutzt werden.
Das Robots Exclusion Standard Protokol
Um das zu ermöglichen, wurde 1994 durch eine unabhängige Gruppierung der Robots Exclusion Standard ins Leben gerufen. Mittlerweile gilt das Protokoll als allgemein anerkannt und kann als Quasi-Standard betrachtet werden.
Im Protokoll ist festgelegt, dass ein User Agent (Robot) beim Aufruf einer Webseite zuerst im Root-Verzeichnis der Domain nach einer Datei mit Namen robots.txt sucht und diese anschließend ausliest und interpretiert.
!!Wichtig!! – Der Dateiname muss komplett in Kleinbuchstaben geschrieben werden.
In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Robot besucht werden darf. Das Protokoll ist rein hinweisend und somit auf die Mitarbeit der Robots angewiesen. Die bekannten Suchmaschinen halten sich in der Regel an die Anweisungen in der Robots.txt, sofern diese syntaktisch korrekt sind.
Das ausschließen bestimmter URLs einer Webpräsenz durch das Protokoll garantiert keine Geheimhaltung. Um ein Dokument wirklich geheim zu halten, sollte man auf andere Verfahren wie eine Http-Authentifizierung, eine Access Control List (ACL) oder eine ähnliche Variante zurückgreifen. Nähere Informationen zum Schutz von Webseiten findet ihr unter anderem bei der Uni Koblenz Landau.
Der Aufbau einer Robots.txt
Nachdem ich jetzt etwas auf die Grundlagen eingegangen bin, wollen wir uns mit dem Aufbau der Robots.txt beschäftigen. Eine Robots.txt ist prinzipiell leicht zu erstellen, man braucht nichts weiter als einen Texteditor. Mittlerweile finden sich auch einige kostenlose Tools für Webmaster, die den Prozess automatisieren. In den Webmaster Tools von Google gibt es ebenfalls einen Robots.txt-Generator. Hierfür wird allerdings ein Google-Konto benötigt.
Die Robots.txt besteht aus verschiedenen Datensätzen (records), die nach einem ganz bestimmten Schema aufgebaut sind. Ein Datensatz besteht grundsätzlich aus zwei Teilen. Im ersten Teil wird angegeben, für welche Robots (User Agents) die nachfolgenden Anweisungen gelten sollen. Im zweiten Teil werden die Anweisungen selbst notiert:
User-agent: Googlebot Disallow:
Mit dem User Agent haben wir also festgelegt, dass dieser Datensatz nur für den Googlebot gilt. In der nächsten Zeile finden wir einen leeren Disallow-Eintrag. Verzichtet man beim Disallow auf die Angabe einer Datei oder eines Verzeichnisses bedeutet das, dass alle Seiten in den Index aufgenommen werden dürfen.
– Den gegenteiligen Effekt hat die Verwendung eines einzelnen Slashs (/), hier wird die gesamte Webseite von der Indexierung ausgenommen:
User-agent: Googlebot Disallow: /
– Möchte man bestimmte Dateien oder Verzeichnisse für alle Robots ausschließen, gibt es eine sogenannte Wildchar (*) – einen Platzhalter, der für alle Robots gilt:
User-agent: * Disallow: /beispiel-verzeichnis/
– Es kann natürlich vorkommen, dass wir eine Regel formulieren wollen, die beispielsweise nur für den Googlebot und den Yahoo!-Webcrawler gilt. Die Robots.txt erlaubt deshalb auch Mehrfacheinträge. Die Namen der verschiedenen Webcrawler (Robots) findet ihr beispielsweise auf der Seite robotstxt.org. Für diejenigen unter euch, die es ganz genau wissen wollen, kann man sich dort auch die vollständigen Daten zu den Robots anschauen.
Einige wichtige User Agents habe ich mal in einer kleinen Liste zusammengetragen:
User Agent | Suche |
Googlebot | |
Googlebot-Image | Google-Bildersuche |
Adsbot-Google | Google-Adwords |
MediaPartners-Google | Google-Adsense |
Slurp | Yahoo |
Msnbot / bingbot | MSN / bing |
ia_archiver | Internet Archive |
User-agent: googlebot User-agent: slurp Disallow: /beispiel-verzeichnis/
– Möchte man mehrere Seiten von der Indexierung ausschließen, muss für jede Datei bzw. jedes Verzeichnis eine eigene Disallow-Zeile erstellt werden. Die Angabe mehrerer Pfade in einer Disallow-Zeile führt zu Fehlern.
User-agent: googlebot Disallow: /beispiel-verzeichnis/ Disallow: /beispiel-verzeichnis-2/ Disallow: /beispiel-datei.html
– Die Robots.txt erlaubt zwar keine regulären Ausdrücke, aber es gibt eine Möglichkeit Dateien auszuschließen, die eine bestimmte Zeichenfolge enthalten:
User-agent: * Disallow: /beispiel
Diese Regel würde dazu führen, dass alle URLs, die mit /beispiel anfangen, nicht in den Index aufgenommen werden. Dabei spielt es keine Rolle, ob es sich um eine Datei (/beispiel.html) oder um ein Verzeichnis (/beispiel-verzeichnis/datei-1.html) handelt.
– Die letzte allgemeine Regel, die ich anspreche, ermöglicht das Ausschließen von Dateien mit bestimmten Dateiendungen:
User-agent: * Disallow: /*.jpg$
Der Stern dient an dieser Stelle als Platzhalter für eine beliebige Zeichenfolge. Das Dollar-Zeichen am Ende besagt, dass nach der Dateiendung nichts mehr folgen darf. Wir haben also ein Mittel um verschiedene Datei-Typen, wie Bilder, Programmdateien oder auch Log-Files von der Indexierung auszuschließen.
Erweiterungen der Regeln
Es gibt noch ein paar weitere sehr interessante Regeln, die allerdings nicht von allen Robots interpretiert werden können. Deshalb werde ich alle folgenden Regel auf den Googlebot beziehen, da dieser in der Lage ist diese Regeln zu verstehen.
Möchte man speziell Verzeichnisse ausschließen, die mit einer bestimmten Zeichenkette beginnen, kann folgende Regel angewendet werden:
User-agent: Googlebot Disallow: /beispiel-verzeichnis*/
So würden beispielsweise die Verzeichnisse /beispiel-verzeichnis-1/ und /beispiel-verzeichnis-2/ nicht indexiert werden.
– Häufig kommt es vor, dass dieselbe Seite durch die Verwendung von Parametern mehrmals im Index der Suchmaschinen auftaucht. Dies kann beispielsweise durch die Verwendung von Formularen oder bestimmter Filter-Funktionen passieren:
User-agent: Googlebot Disallow: /*?
Durch diese Regel werden alle Pfade, die ein Fragezeichen in der URL enthalten, von der Indexierung ausgeschlossen.
– Ein weiterer Eintrag, der häufig in der Robots.txt zu finden ist, ist die Angabe einer Sitemap:
Sitemap: http://www.beispielseite.de/sitemap.xml
Dieser Eintrag sagt dem Robot, wo er die Sitmap der Seite finden kann. An dieser Stelle sollten alle Sitemaps einer Seite aufgeführt werden.
– Mehrere Einträge sind folgendermaßen anzugeben:
Sitemap: http://www.beispielseite.de/sitemap.xml Sitemap: http://www.beispielseite.de/sitemap-bilder.xml
Die IETF (Internet Engineering Task Force) führte neben der Disallow-Anweisung auch die Allow-Anweisung ein, diese wird noch nicht von jedem Robot unterstützt. Man sollte also lieber darauf verzichten und sich auf Disallow-Anweisungen beschränken.
Prüfen der fertigen Robots.txt
Natürlich können sich bei längeren Regeln schnell Fehler einschleichen, deswegen sollte man die erstellten Regeln nochmal überprüfen lassen. Eine Möglichkeit bieten die Google-Webmaster-Tools (Website-Konfiguaration –>Crawler-Zugriff), ein weiteres Tool findet man hier und hier. Bei den beiden letztgenannten Tools muss die Robots.txt bereits auf dem Server liegen.
Alternativen zur Robots.txt
Nachdem wir nun ausführlich auf die Erstellung einer Robots.txt eingegangen sind, wollen wir uns noch eine Alternative anschauen. Die Robots.txt ist nicht die einzige Möglichkeit um den Suchmaschinen mitzuteilen, welche Seiten in den Index aufgenommen werden dürfen. Eine Alternative ist das Robots-Meta-Tag, welches wie die anderen Meta-Tags im Head-Bereich einer Seite definiert wird. Diese Variante bietet sich an, um einzelne Seiten von der Indexierung auszuschließen. Das ausschließen ganzer Verzeichnisse ist hier allerdings nicht möglich. Möchte man jedoch sicher gehen, dass eine Seite nicht im Index der Suchmaschinen auftaucht ist dies die sicherere Variante.
<meta name=“robots“ content=“noindex, follow“ />
Mit diesem Eintrag, können wir den Suchmaschinen-Robots mitteilen, dass die Seite nicht indexiert werden soll, jedoch die Links auf dieser Seite vom Crawler besucht werden sollen.
– Möchte man jetzt auch noch das Archivieren einer Seite durch die Suchmaschinen untersagen, dann lässt sich ein dritter Wert einfügen:
<meta name=“robots“ content=“noindex, nofollow, noarchive“ />
Fazit:
Abschließend möchte ich nochmal kurz ein paar Worte zur Robots.txt verlieren. Was man sich immer vor Augen halten muss ist, dass ein Eintrag in der Robots.txt nicht garantiert, dass eine Seite nicht indexiert wird. Möchte man wirklich sicher gehen, sollte man die entsprechende Seite über das Robots-Meta-Tag auf noindex setzen. Matt Cutts geht in diesem kurzen Video genau auf diese Problematik ein:
Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Zum Abschluss möchte ich noch ein paar Hinweise geben, die man im Umgang mit der Robots.txt beachten sollte:
- Groß- und Kleinschreibung ist signifikant
- Zwei Regeln werden durch eine Leerzeile voneinander getrennt
- Jede Regel wirkt für sich selbst, es gibt keine Abhängigkeiten
- Falsche Syntax kann zu schweren Fehlern führen (Syntax checken)
- Jede Disallow-Anweisung sollte mit einem Slash (/) beginnen
Weiterführende Informationen zum Thema:
- Allegemeines zur Robots.txt
- Robots speaking many languages
- The Web Robots Pages
- Robots.txt – Die Datei für die Crawler
- Robots-Meta-Tag
Ich hoffe, euch hat der Artikel gefallen, auch wenn es diesmal sehr viele Code-Zeilen zu lesen gab. Falls ihr noch weiterer Anregungen oder Fragen habt, können wir dies gerne in den Kommentaren diskutieren.
Phillip und die SEO-Trainees.
39 Antworten
Dank euch konnte ich nun endlich meine URL bei den Webmastertools erfolgreich einreichen. Danke für diesen ausführlichen und nicht langweilige Textbeschreibung.
Auch wenn der Beitrag etwas älter ist sind die Infos aktuell. Danke dafür!
Find den Beitrag soweit auch super und gelungen. Eine Verständnisfrage habe ich allerdings noch. Wenn ich das richtig verstanden habe dann kann man alle Ordner und Seiten, die auf dem Server liegen, von der Indexierung ausschließen. Bei der WordPress Installation hat man aber keine Seiten wie im klassischen Stil. Wie geht man da vor? Habe ich etwas überlesen?
Mfg Eugen
Hallo Eugen,
das hast du richtig verstanden, prinzipiell ist das möglich. Bei WordPress verhällt es sich am Ende genau so, nur das die einzelnen Seiten nicht physisch auf dem Server liegen, sondern erst zur Laufzeit auf dem Server generiert werden. Dies macht es etwas schwieriger, bestimmten Verzeichnisse oder Seiten ein noindex mitzugeben. Die einfachste Lösung ist hier der Einsatz eines SEO-Plugins, wie Beispielsweise das von uns sehr zu empfehlende Plugin WordPress SEOvon Yoast. Das Plugin bietet Dir die Möglichkeit die Indexierung einzelner Artikel, statischer Seiten oder auch ganzer Kategorien und vieles nützliches mehr. Hoffe das bringt Dich einen Schritt weiter.
Viele Grüße
Phillip
Hallo toller beitrag..ich hab mal ne frage und zwar hab ich eine wordpress seite erstellt habe gleich am anfang suchmaschinen indixierung ausgeschalten..weil ich noch nicht wollte das meine Seite indixiert wird..erst wenn sie fertig ist…so jetz hab ich das Häkchen wieder weggemacht..das die suchmaschienen meine Seite finden..aber irgendwie ist die Seite dennoch nicht sichtbar für Suchmaschinen..dauert das ne weile bis die nicht indixierung wieder weg ist?? oder muss ich da jetz an der robot txt was ändern meine robot txt sieht momentan so aus :
User-agent: *
Disallow: /wp-admin/
was bedeutet denn das jetz disallow/wp-admin??
würd mich auf ne antwort freuen gruss
Hallo!
Es kann durchaus sein, dass der Suchmaschinen-Bot eine Weile braucht, bis er die Seiten gecrawlt und indexiert hat. Wenn das wirklich deine einzigen Einträge in der robots-txt sind, musst du dir keine Sorgen machen. „Disallow: /wp-admin/“ steht für die Einlog-Seite deiner Website und bedeutet, dass nur deine Login-Seite nicht indexiert werden soll. Dies ist auch völlig in Ordnung so! Viele Grüße!
Okay hört sich gut an..dann wart ich mal ab.
Danke für die schnelle Antwort.
LG
Danke für den Artikel. Eine kleine Frage hierzu: Du schreibst, dass jeder Eintrag für sich selbst wirkt, es also keine Abhängigkeiten gibt. Was passiert aber, wenn sich widersprechende Regeln gefunden werden. Beispiel:
User-agent: Googlebot-Image
Disallow:
User-agent: *
Disallow: /
Darf hier der Googlebot-Image crawlen oder nicht? Das * aus dem zweiten Eintrag würde sich ja auch auf Googlebot-Image beziehen und dem Bot das Crawlen verbieten. Würde es einen Unterschied machen, wenn ich die beiden Einträge vertauschen würde? Oder zieht die erste Regel in jedem Fall, da sie spezieller ist als die *-Regel?
Hallo David, entschuldige die späte Rückmeldung. Die Angaben in der robots.txt werden von oben nach unten verarbeitet. Sobald ein Robot auf eine Anweisung stößt, die Ihn selbst betrifft, werden keine anderen Regeln mehr verarbeitet. Desshalb empfiehlt es sich Anweisungen für spezielle Robots vor den allgemeinen Anweisungen zu platzieren. Also um deine Frage zu beantworten, ein Vertauschen der Reglen würde durchaus einen Unterschied machen.
Viele Grüße
Phillip
Hallo. Die Begriffe verwirren mich ein wenig. Befindet sich das Root-Verzeichnis innerhalb des Ordners WordPress. Oder eine Ebene oberhalb? In meinem Server ganz oben ist ein unbenannter gelber Ordner. Darunter ist der Ordner WordPress. Wo gehört nun die robots.txt rein? Ganz oben in den unbenannten? Oder in den Ordner WordPress? Es wäre schön, wenn Sie mir antworten könnten. Vielen Dank!
Hallo Lothar,
die robots.txt ist generell im ersten Ordner, dort, wo beispielsweise auch die .htaccess-Datei liegt oder ordner wie WP-Admin, WP-Content etc. – da gehört die robots.txt rein.
Viele Grüße
Tobias
Hallo Lothar,
mit Root-Verzeichnis ist das WordPress Stammverzeichnis gemeint, also der Ordner indem das WordPress installiert wurde. Es ist nicht das Root-Verzeichnis des Servers gemeint, dies hat vermutlich zu der Verwirrung geführt. Wenn ich ihre Mail richtige interpretiere dann ist das WordPress-Root-Verzeichnis bei Ihnen der Ordner WordPress. Innerhalb des Ordners WordPress sollte sich im Normalfall die wp-config.php, die robots.txt und auch die .htaccess-Datei befinden.
Ich schreibe im Normallfall, weil es auch Möglichkeiten gibt einige Dateien und Verzeichnisse aus dem WordPress-Root-Verzeichnis herauszunehmen. Dies ist aber nicht ohne weitere Anpassungen möglich und bei Ihnen vermutlich nicht der Fall. Wenn Sie also eine Standard WordPress-Installation verwenden, dann bitte wie oben beschrieben alle genannten Dateien in das Verzeichnis WordPress legen, denn ohne die wp-config.php wird die Website nicht mehr funktionieren, da hier die Zugangsdaten für die Datenbank hinterlegt sind.
Ich hoffe ich konnte die Unklarheiten beseitigen.
Viele Grüße
Tobias
Das mit der Indexierung ist doch Unsinn. Eine robots.txt schützt in keinem Fall vor Indexierung. Sonst gäbe es nicht diese Vielzahl von Ergebnissen im Google Index, an denen der Hinweis erscheint, dass Google nicht mehr dazu verraten kann, weil die robots.txt die Seite für Google sperrt.
Also eine robots.txt dient der Einschränkung des Crawlings, nicht der Einschränkung der Indexierung.
Hallo Michael,
da hast du vollkommen recht. Dies schreibt Phillip ja auch unter der Überschrift „Alternativen zur robots.txt“ und empfiehlt stattdessen das noindex-Meta-Tag, wenn man sichergehen möchte, dass Inhalte nicht indexiert werden.
Liebe Grüße,
Gesa
Ich habe das mit den veralteten Metatags leider immer noch nicht richtig verstanden ?
Hallo Markus,
vielleicht hilft dir da unser Glossar-Eintrag zu den Meta-Tags weiter: https://www.seo-trainee.de/glossar/meta-tags/
Viele Grüße,
Sabine
Hi Sabine,
ok hab ich soweit verstanden, warum aber zeigt w3c bei manchen metas fehler an ?
Hi Markus,
das kann ich dir ohne genaue Informationen leider nicht sagen. Vielleicht ist ein Fehler in der Syntax deines HTML-Codes.
Falls du den Validator vom W3C genutzt hast, gibt es hier Tipps dazu:
http://validator.w3.org/docs/help.html
Ansonsten kannst du auch im XHTML-Forum nachschauen:
http://xhtmlforum.de/
Viele Grüße,
Sabine
Wenn ich die „Alternativen zur Robots.txt“ benutze bin ich da auf der sicheren Seite oder ist das eher schlecht. Eine Seite von mir bekommt das stets bei Seitwert „Die Datei robots.txt wurde nicht gefunden“ angezeigt, aber ich benutze ja den meta tag.
Hallo Phillip,
wie sieht es mittlerweile mit der Allow-Anweisung aus?
In meiner Robot.txt ist folgendes enthalten:
# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
Danke für den Beitrag und viele Grüße
Andreas
Hallo,
habe leider noch keine Lösung gefunden. Wer kann mir helfen?
Wie kann ich der virtuellen robots.txt des WordPress-Plugins ‚Google XML Sitemap‘ Absätze hinzufügen? (betrifft Sachen die nicht in den Plugin-Einstellungen vorhanden sind)
Danke im voraus und liebe Grüsse
Daniela
Danke für das informative Artikel. Habe ebene diese Informationen gesucht!
Vielen Dank für den super Artikel. Genau was ich gesucht habe. Sehr hilfreich.
Hallo,
danke für den auführlichen Kommentar. Ich nutze ebenfalls die virtuelle robots.txt von WordPress, was super funktioniert.
Eine Frage hätte ich noch dazu: Wie kann ich in dieser virtuellen Datei Änderungen vornehmen um einzelne Teile der Webseite auszuschließen? Bei den Webmaster-tools habe ich zwar unter Status – Blockierte URLs die Möglichkeit zum testen, aber diese Änderungen werden nicht gespeichert.
Danke. LG Daniela
Einfach nur gut!
Vielen Dank – konnte vor dem Artikel net wirklich viel mit Robots.txt anfangen, das hat sich nun geändert 🙂
lg
Hey Phil 🙂
Wie immer mal wieder ein sehr aufschlußreicher Artikel. Besonders das Video von Matt hat mir sehr gut gefallen und jetzt verstehe ich das mit der robots.txt auch besser…eigentlich will ich gar nichts ausschließen aber ich habe gelesen, dass das reine Vorhandensein der (leere) Datei bereits etwas bringen soll, da es wie eine Einladung gewertet wird. Frei nach dem Motto „Immer hereinspaziert Ihr Robots..hier gibts nix was nicht gesehen werden darf“ 🙂 Hoffe das meine Info an der Stelle korrekt ist. Ich freue mich schon auf weiteren Input von Euch – weiter so!
Wirklich klasse erklärt, Respekt!
Viele Grüße Mika
Hallo, na endlich mal ne schöne ausführliche Beschreibung zur Robots.txt. Danke schön geschrieben. Mal sehen ob ich das alles Fehlerfrei umsetze.
Vielen Dank, für das tolle und ausführliche Tutorial. Habe mich davor noch nie mit der Robots beschäftigt, weil ich keine Ahnung davon hatte. Jetzt kann ich mich auch mal an das Thema ran wagen.
Vielen Dank für das große Lob. Freut mich das es euch gefallen hat, mal sehen was wir uns als nächstes einfallen lassen ;).
Beste Grüße
Phillip
Danke für die Super-Erklärung. Das wurde wirklich mal sehr ausführlich behandelt und führt alle Möglichkeiten auf, wie robots.txt so zu erstellen ist, wie man es für die eigene Website braucht und die Suchroboter diese auch exakt lesen können.
Danke für die Erklärung! Es geistern ja einige fertige Copy&Paste-robots.txt im Netz herum, bei denen aber teilweise noch die Feed-Seite ausgesperrt wird. Früher dachte man dass das zu DC führen könnte… tut es nicht. Wessen Blog also nicht in der Google-Blogsuche erscheint, sollte mal seine robots checken.
Vielen Dank für die Erläuterungen. Ich habe gerade einen neune Blog angefangen und da erstmal einen Beitrag draufgestellt. Das mit der robots.txt wusste ich gar nicht und habe es gleich mal ergänzt.
Ich danke sehr herzlich für die Tipps. Sind die zwei Microsoftbots eigentlich unterschiedlich, das heißt muss ich beide ausstellen, oder genügt es, den bingbot zu kappen?
Hi David,gerne doch. Das kann ich dir nicht sicher beantworten, im Zweifel würde ich einfach beide ansprechen. Du hast ja die Möglichkeit, eine Regel auch für zwei User Agents anzulegen.
Beste Grüße
Phillip
Vielen Dank euch für den Artikel, als ob ihr Gedanken lesen könntet, genau das To Do, was ich diese Tage brauchen werde.
Hallo,
das ist eine sehr interessante Zusammenfassung und wirklich gute Erklärung, echt top.
Ich hätte zu dem Thema zwei Fragen. Werden die Angaben in der robots.txt gegenüber den Angaben im Meta-Tag bevorzugt behandelt?
Ich nutze in meionem Blog das Google XML Sitemaps Plugin, dort wird von einer virtuellen robots.txt von WordPress gesprochen. Kann man diese irgendwie einsehen?
Gruß Otti
Moin Otti,
vielen Dank. Freut mich, dass dir der Artikel gefällt.
Zu deinen ersten Frage:
Soweit ich weiß, wird die robots.txt nicht bevorzugt behandelt, die Robots der Suchmaschinen schauen sich in der Regel beide Varianten an, bevor Sie eine Webseite besuchen. Es gibt jedoch ein kleinen Unterschied zwischen den Angaben in der Robots.txt und den in den Metas, der in dem angehängten Video von Matt Cutts deutlich wird. Eine Seite die durch die robots.txt von der Indexierung ausgeschlossen wird, kann trotzdem in den Serps auftauchen, wenn Google der Meinung ist, dass diese Seite wichtig ist. Dies kann beispielsweise dann der Fall sein, wenn die Seite sehr stark von außen verlinkt ist.
Um sicherzugehen, dass die Seite nicht im Index auftaucht, musst du die Meta-Angabe setzen. Zusätzlich bieten die Webmaster-Tools noch die Möglichkeit bestimmte Seiten aus dem Index zu entfernen.
Zu der zweiten Frage:
Das ist richtig, WordPress legt immer dann eine virtuelle robots.txt an, wenn keine physische robots.txt in deinem Root-Verzeichnis liegt. Du musst einfach mal versuchen deine-domain.de/robots.txt aufzurufen, dann solltest du sie sehen können. Sobald du eine eigene robots.txt angelegt hast, ist die virtuelle von WordPress eh hinfällig.
Beste Grüße
Phillip
Hallo Phillip,
vielen Dank für die ausführliche und klärende Rückantwort.
Ok, den Aufruf der robots.txt in Bezug auf die virtuell erstellte Datei von WordPress, hätte ich mir denken können bzw. sollen. 😉 *facepalm*
So kann ich also ruhig meine robtos.txt von Hand anlegen, den Inhalt der virtuell erstellten Datei dort einfügen und um meine gewünschten Optionen ergänzen. Ich werde mich ein wenig näher damit befassen und Deine weiterführenden Links dazu nutzen. Es scheint ja doch eine ganze Menge möglich zu sein.
Gruß Otti