Duplicate Content wurde in letzter Zeit häufig diskutiert, nicht zuletzt auch aufgrund von widersprüchlichen Aussagen von Google selbst. Doch beginnen wir von vorne: In diesem Fachartikel will ich klären, was Duplicate Content überhaupt ist, wie man ihn vermeidet und natürlich, ob er wirklich schädlich ist.
Was ist Duplicate Content?
Als Duplicate Content (DC) oder doppelten Inhalt bezeichnet man sich wiederholende oder ähnliche Textpassagen bzw. Inhalte, die über verschiedene URLs aufzurufen sind. Diese können innerhalb einer Domain auftreten oder es handelt sich um gleiche Inhalte auf unterschiedlichen Domains. Suchmaschinen haben den Anspruch, ihren Usern nur einzigartige Ergebnisse anzuzeigen. Wenn eine Suchmaschine auf Duplicate Content stößt und ihn als solchen erkennt, zeigt sie häufig nur eines der Ergebnisse in den SERPs an und wählt nach eigenen Kriterien aus, welches der Ergebnisse angezeigt wird. Welche Kriterien das sind, lest ihr in der folgenden Infografik, die ich auf searchengineland gefunden habe:
Wenn andere Domains auf den Inhalt der Website verlinken, wird das Problem größer. Einige verlinken auf den Content unter URL A, andere auf denselben Content unter URL B. Da nur eine der URLs von Google gewertet wird, geht wertvolle Power verloren. Mit DC kann man also nicht sein ganzes Ranking-Potenzial ausschöpfen.
Wie kommt es zu Duplicate Content?
Die Gründe, wieso es zu doppelten Inhalten kommt, sind sehr vielseitig. Häufig liegen technische Fehler vor:
Durch identische Produktbeschreibungen, Texte und Metaangaben
Häufig werden Produktbeschreibungen der Einfachheit halber kopiert oder es werden keine individuellen Titles und Descriptions im Quellcode hinterlegt, sodass Duplicate Content entsteht.
Durch URL-Parameter
URL-Parameter ermöglichen viele nützliche Funktionen, wie das Tracken von Traffic-Quellen. Für die Suchmaschine entstehen durch jegliche Parameter unterschiedliche URLs und damit Duplicate Content.
Durch Kommentarpaginierung
In einigen Content-Management-Systemen gibt es die Option, die Kommentare per Paginierung auf verschiedenen Seiten zu verteilen. Es entsteht dadurch www.beispiel.de sowie www.beispiel.de/kommentarseite-1/, www.beispiel.de/kommentarseite-2/ usw.
Durch Print-Versionen der Seiten
Wenn die Artikelseiten einer Website auf die Print-Versionen verlinken, stößt auch der Google-Bot auf sie und wird dann DC feststellen.
Durch Session-IDs
Um die Besucher einer Website zu tracken, vergibt man Sessions. Sessions ermöglichen es beispielsweise, dass der User Produkte in den Warenkorb legen kann. Die Session-IDs dienen dabei als einzigartiges Identifikationsmerkmal. Da jedem User eine neue Session-ID zugeordnet wird, besteht die Gefahr von DC.
Durch andere Domains, die den Inhalt ebenfalls veröffentlichen
Tatsächlich liegen die Gründe von Duplicate Content häufig innerhalb der Domain und sind auf „Fehler“ des Webmasters zurückzuführen. Es entstehen aber auch doppelte Inhalte, wenn andere Websites den Content ebenfalls bei sich selber online stellen, evtl. sogar mit Genehmigung des Urhebers. Wenn allerdings nicht auf die Originalquelle verlinkt wird, kann Google nicht erkennen, wem der Vorzug in den Suchergebnissen gegeben werden soll.
Durch URLs mit und ohne www
Wenn die Seite mit und ohne www davor aufrufbar ist, handelt es sich um Duplicate Content. Häufig erkennt die Suchmaschine trotz unterschiedlicher Schreibweisen, dass es sich um dieselbe Seite handelt. Dasselbe gilt für http und https. Allerdings ist es besser, sich nicht darauf zu verlassen, denn manchmal erkennt die Suchmaschine es eben doch nicht.
Durch Groß- und Kleinschreibung in URLs
Es empfiehlt sich, ausschließlich Kleinschreibung in der URL zu verwenden. Aus derselben URL mit Groß- und Kleinschreibung erkennt Google sonst zwei unterschiedliche Seiten: www.beispiel.de/Beispielseite und www.beispiel.de/beispielseite.
Durch unterschiedliche Reihenfolge von Parametern
URL-Parameter sollten generell im Hinblick auf Duplicate Content vermieden werden. Die Parameter in einer URL sind in ihrer Reihenfolge austauschbar, das heißt: www.beispiel.de/?cat=2&id=1 ist dieselbe Seite wie www.beispiel.de/?id=1&cat=2. Für die Suchmaschine sind das zwei komplett unterschiedliche Seiten.
Durch gewollte Manipulation der Suchergebnisse
Wer denselben Content absichtlich auf mehreren Seiten veröffentlicht, um besser zu ranken oder mehr Traffic zu generieren, riskiert eine Abstrafung von Google. Meist wird DC aber unbeabsichtigt geschaffen. Google selber sagt: Nur wer DC als Manipulationsinstrument nutzt, muss eine Abstrafung von Google fürchten.
Duplicate Content finden
Um zu prüfen, ob eine Website von Duplicate Content betroffen ist, bietet sich die Google-Suche an. Dazu kopiert man in das Suchfeld einen Satz, der auf der Website steht. Erhält man mehr als einen Treffer, gibt es Duplicate Content, den die Suchmaschine noch nicht herausgefiltert hat. Wenn die Suchmaschine Duplicate Content herausfiltert, wird er erstmal nicht in den SERPs angezeigt. Der folgende Text von Google, der in den SERPs erscheinen kann, lässt auf Duplicate Content schließen:
Im Falle, dass dieser Text angezeigt wird, sollte man sich auch die herausgefilterten Ergebnisse anzeigen lassen, um DC aufzudecken. Auch bestimmte Parameter sind bei der Google-Suche hilfreich. Die Abfrage Site:beispiel.de intitle:“Beispielseite“ zeigt alle Seiten der Domain www.beispiel.de an, die das Keyword „Beispielseite“ im Title enthalten. Eine weitere Möglichkeit: In den Webmaster Tools bekommt man unter Search Appearance > HTML Improvements doppelte Title-Tags angezeigt.
Interner Duplicate Content lässt sich weiterhin sehr gut mit dem Screaming Frog entdecken. Hier könnt ihr euren Crawl nach dem „Hash“ sortieren. Duplicate Content wird im Screaming Frog durch einen identischen Hash angezeigt.
Duplicate Content vermeiden
Weiterleitungen
Wenn Inhalte auf einer Seite umgezogen werden, was im Rahmen eines Relaunches häufig vorkommt, dann muss man konsequent auf Weiterleitungen achten. Dazu kann man in der htaccess-Datei die Statuscodes 301 und 302 anwenden. 301 ist für eine dauerhafte Weiterleitung gedacht, vererbt den Linkjuice weiter und sollte daher für permanente Veränderungen vorgezogen werden. 302 ist nur für temporäre Weiterleitungen empfehlenswert, da sie den Linkjuice nicht vererbt. Für eine genaue Anleitung kann ich diesen SEO-Trainee-Artikel empfehlen.
Canonical-Tag
Das Canonical Tag verweist auf eine in den SERPs zu bevorzugende Version der angezeigten URL. Es kommt daher besonders bei Onlineshops zum Einsatz, die auf mehreren Seiten identische Produkte anzeigen. Das Canonical Tag kann aber auch domain-übergreifend angewendet werden, wenn eine andere Quelle zitiert wird und man Google zeigen möchte, wer der Urheber des Textes ist. Das Tag wird als Meta Tag im Head-Bereichs des HTML-Dokuments gesetzt: <link href=“http://www.beispiel.de/kanonische-version-dieser-seite/“ rel=“canonical“ />
Interne Verlinkung
Die interne Verlinkung sollte einheitlich erfolgen. Ist die kanonische Seite als http://www.beispiel.de definiert, sollte immer auf die URL-Version mit http:// und www. verlinkt werden (z. B. auf http://www.beispiel.de/beispiel.html und nicht auf http://beispiel.de/seite.html).
CC TLDs nutzen
Um länderspezifischen Content kenntlich zu machen, empfiehlt Google, die Country Code Top Level Domains .de, .co.uk, .fr usw. zu nutzen. Also lieber http://www.beispiel.de als http://www.beispiel.com/de.
Google Webmaster Tools nutzen
Über die Webmaster Tools kann man Google mitteilen, wie die Domain indexiert werden soll: zum Beispiel http://www.beispiel.de oder http://beispiel.de. Außerdem kann man Google über das Parameter Handling Tool mitteilen, wie mit unterschiedlichen URL-Parametern umgegangen werden soll.
Einzigartige Inhalte schaffen
Für Produkte, die sich ähneln, sind trotzdem individuelle Produktbeschreibungen sinnvoll.
Das Meta-Tag „noindex, follow“ nutzen
Mit dem „noindex, follow“-Tag versehene Seiten werden von Google nicht indexiert.
Auf Originalquelle verweisen
Wenn das Setzen des Canonical-Tags nicht möglich sein sollte (z. B. kein Zugriff auf den Head-Bereich im HTML-Dokument), kann immer per Link auf die Originalquelle verwiesen werden.
Weg mit Platzhalterseiten
Wenn noch Content für eine Seite fehlt, sollte sie bestenfalls nicht veröffentlicht werden. Alternativ kann das Meta-Tag „noindex“ verwendet werden.
Das eigene Content-Management-System (CMS) verstehen
Inhalte werden vom CMS teilweise automatisch unter verschiedenen URLs veröffentlicht. Blogger kennen das: Der Blog-Post erscheint gleichzeitig auf der Homepage, im Archiv und unter der Seite, unter der alle Artikel zu demselben Schlagwort erschienen sind.
Wie schädlich ist Duplicate Content wirklich?
Darüber, wie schädlich doppelte Inhalte wirklich sind, wird unter SEOs viel diskutiert. Schenkt man dem Video von Matt Cutts Glauben, schadet DC nur, wenn er spammy ist oder Keyword-Stuffing enthält.
Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Allerdings ist es eine Sache, einer Abstrafung wegen DC zu entgehen, und eine andere Sache, sein Ranking-Potenzial voll und ganz auszunutzen. Denn DC ist, auch wenn er nicht zur Abstrafung führt, eine verschenkte Chance. Mehr einzigartige Inhalte bedeuten a) eine bessere User-Experience und b) das Ausschöpfen von Keyword-Potenzialen. Sowohl die Suchmaschine als auch der Nutzer können bei der Vermeidung von Duplicate Content die Struktur einer Seite besser verstehen: Wo sind welche Inhalte zu finden? Welche Seiten sind für welches Keyword wirklich relevant? Im Hinblick auf Duplicate Content sollte man also nicht nur für Google optimieren, sondern auch für den Nutzer. Denn dann ist auch Google glücklich!
Noch eine schöne Restwoche wünschen euch
Gesa und die SEO Trainees
35 Antworten
Anscheinend gibt es ein neues Tool, das sehr zuverlässig doppelten Content in Google finden kann. Hier der Post bei Abakus:
https://goo.gl/h2PIi5
Gruß Sven
Hallo, guter Artikel aber eins ist mir nicht klar geworden;
Ich und auch sehr viele andere verwenden von WIKIPEDIA Text / ganze Seiten, muss der Canonical-Tag also immer auf WikiPedia gesetzt werden ?
Hallo Marcel,
genauso ist es! Das Canonical Tag muss auf Wikipedia gesetzt werden.
Viele Grüße
Tobias
DANKE, jetzt ist alles klar!
Vielen Dank für diesen sehr hilfreichen Artikel!
seo content ist sehr wichtig für google Rank oder auch Traffic
Hello from USA, Gesa,
I’ve been referred to this article as a great resource regarding duplicate content for e-commerce sites. It looks like a lot of great information. Do you have this in an english version by any chance? I’m sure a lot more people could benefit from this knowledge!
Thanks,
Gibt da eine ganz gute Möglichkeit, die Webseite überprüfen zu lassen.
http://www.seitenreport.de
Aber is alles mit Vorsicht zu genießen, weil keiner genau weiß, was Google wirklich will..;-)
„Auf Originalquelle verweisen
Wenn das Setzen des Canonical-Tags nicht möglich sein sollte (z. B. kein Zugriff auf den Head-Bereich im HTML-Dokument), kann immer per Link auf die Originalquelle verwiesen werden.“
Ist das verifiziert?
D.h. ich schreibe einfach unter meinen Text:
„Dieser Beitrag XYZ wurde veröffentlicht auf meinedomain.de.“ …und verlinke diesen Teil auf den Original-Artikel?
Dann habe/bekomme ich kein DC Problem?
Hi Chris,
ja, so in etwa würde ich mir das vorstellen! Hier ein Zitat von Google dazu: „However, it is helpful to ensure that each site on which your content is syndicated includes a link back to your original article.“
Guten Tag,
wie kann ich prüfen ob meine Internetseite Dublicate Content aufweisst ?
Meine WEbseite lautet : http://www.limo-mieten.com
Vielen Dank!
zum Beispiel mit http://www.copyscape.com für 1 oder 2 cent je Seite …
Gut, dann will ich hier mal eine Frage in den Raum stellen. Ich habe eine kleine Affilite-Seite. Ich beobachte meine Konkurrenz. Und muss sagen, dass die 2 stärksten Seiten in diesem Metier mehrmals pro Monat eine Pressemitteilung aus irgendeinem Presseportal fast wortwörtlich als Artikel dahin stellen. Unter der Rubrik „News“. Die beiden Seiten, die das machen, wären – wenn sie von Google abgestraft würden – sicher nicht die 2 stärksten Seiten. Für mich stellt sich die Frage, ob ich das auch machen soll. So dass ca. jeder 5. Artikel eine Pressemitteilung ist. Die ich aber etwas umschreiben würde. Reines Kopieren gibts bei mir nicht.
Frage 1 wäre also: was meint ihr dazu? Frage 2 wäre: hat jemand eine Ahnung, ob man Pressemitteilungen einfach so nehmen darf. Auch wenn man sie umschreibt. Es geht bei dieser Frage um Uhrheberrecht.
Ich freue mich auf eure Antworten. Vielen Dank!
Wo ich mir trotzdem nicht sicher bin:
Wenn in einem Webshop 2x der gleiche Artikel auftaucht (unter der selben Domain) – einmal in weiß und eimal in schwarz und die Produktbeschreibung im Fließtext identisch ist, ist das dann DC oder nicht?
Herzlichen Dank schon mal für eure fachmännische Antwort!
Hallo Patricia,
ja da würde man von DC sprechen – wie Google damit umgeht ist aber nicht immer absehbar. Ich würde sagen, lieber auf Nummer sicher gehen. 🙂 Wer genügend Ressourcen hat, erstellt im Idealfall individuelle Produktbeschreibungen, so dass man mit beiden Produkten bei Google ranken kann. So wirst du gefunden, wenn jemand nach „Pullover schwarz“ als auch „Pullover weiß“ sucht. Google liebt einzigartige Inhalte! Allerdings ist das sicherlich sehr aufwendig. Wer also identische Produktbeschreibungen für zwei unterschiedliche Produkte einsetzt, sollte unbedingt das Canonical Tag benutzen. Ich hoffe, ich konnte helfen?
Liebe Grüße
Gesa
Ja, vielen Dank!
Hatte mir etwas weniger Arbeit erhofft 😉
Hallo Patricia,
es gibt Abkürzungen, die zwar etwas umstritten sind, aber derzeit super funktionieren. Dabei handelt es sich um sogenanntes Text-Spinning.
Beim Spinning macht man durch Hinzufügen von Absatz-, Satz- und weiteren Synonymen aus einem 20, 50 oder noch mehr Texte. Diese Maßnahme ist besonders kosteneffizient für die Kategorie-Beschreibungen von Online-Shops. Mehr dazu hier: http://www.hewo-internetmarketing.de/anleitungen/seo-suchmaschinenoptimierung/text-spinning/
Wichtig dabei ist, dass man sehr „tief“ spinnen muss, damit es wirklich kein Duplicate Content ist. Und man sollte natürlich auf die Leserlichkeit achten, damit man seine Besucher nicht vergrault.
Bei Fragen kannst du mich gerne ansprechen.
Grüße
Hendrik
Danke dir Henrik!
Bei meinem aktuellen Projekt lassen es Umfang und Budget leider nicht zu so tief und technisch einzusteigen, aber vielleicht brauch ich das ein andermal.
Viele Grüße
Patricia
Sehr guter Beitrag, der die Problematik des Dublicate Content sehr gut umschreibt. Bei massiven Verletzungen kann Google jemanden dadurch empfindlich abstrafen. Interessant wäre noch die Frage, ab welchen und wie vielen Modifikationen ein Text nicht mehr als DC definiert wird.
Hey,
vielen Dank für den guten Beitrag.
Auf dem Gebiet kenne Ich mich noch nicht wirklich aus. Meine Seite hat da definitiv noch Defzite.
Aber mit Hilfe von eurem Blog weiss Ich nun wieder etwas mehr.
Vielen Dank hierfür.
Schönen Abend,
Patrick
Hi Patrick,
an dieser Stelle ein altkluger Spruch: Im SEO lermt man nie aus und man muss sich ständig weiterbilden! Daher schön, wenn du unseren Blog liest 😉
Endlich ein schöner Artikel zu DC!!!
Dem Thema „Durch gewollte Manipulation der Suchergebnisse“ habe ich mich am Beispiel der Presseportale angenommen und nebst rel=canonical auch rel=nofollow betrachtet: http://primweb.de/presseportale-seo-tod/
Hi Harald,
danke für deine Ergänzungen.
Liebe Grüße
Gesa
Hallo,
sehr anschaulicher und ausführlich beschreibender Artikel, bei dem die wichtigsten Aspekte über duplicate content gut ausgeführt werden. Danke.
Grüße
Danke für das Kompliment. Immer wieder gerne 🙂
Hallo Lara,
Es ist erstaunlich wie viel man beim Online Marketing beachten muss. „Nur wer DC als Manipulationsinstrument nutzt, muss eine Abstrafung von Google fürchten.“
Dies ist zwar keine eindeutige Angabe darüber, ab wann ein Dublicate Content kreiert wird, aber es ist doch eindeutig feststellbar, ob ein Teil eines Satzes zufällig identisch ist mit dem eines anderen Textes, oder ob der Text aus anderem Content übernommen wurde.
Ich freue mich schon auf weitere Beiträge 🙂
Huhu Maria,
danke für deinen Kommentar. Weitere Beiträge werden folgen 🙂
Liebe Grüße
Gesa
Witzigerweise habe ich mir vor wenigen Stunden genau die Frage gestellt, die auch Lara hat: Ab wann ist DC DC? – Antworten darauf habe ich bisher leider auch noch nicht finden können.
Danke für den Artikel und die gute Zusammenfassung Gesa. Schön, hier nochmal alles wichtige auf einen Blick zu haben.
Ja, das stimmt! Selbst bei intensiver Recherche findet man nicht die Antworten auf alle Fragen und das macht es doch sehr schwierig. So müssen wir selber ausprobieren oder auf ein „Häppchen“ von Matt Cutts warten, wenn mal wieder ein neues Webmaster Help Video zum Thema DC erscheint.
Hallo Gesa,
vielen Dank für diese ausführliche Beleuchtung. Am besten entgeht man dem DC-Problem, wenn man tatsächlich einzigartigen Inhalt veröffentlicht. Problematisch sehe ich dies nur bei Zitaten und bei Pressemitteilungen. Ohnehin wundert es mich, das identische Pressemitteilungen und Artikel in Artikelverzeichnissen ranken, obgleich es offensichtlich der identische Inhalt ist.
Die Frage die auch interessant ist, ist die Menge an DC. Ist es problematisch, wenn der Inhalt zu 10%, 20%, 30% 40% identisch ist, oder wird dies womöglich als Erweiterung/ Vertiefung eines Themas interpretiert?
Antworten darauf habe ich weder bei den google webmaster hilfen noch in anderen Foren gefunden. Also müssen wir wohl selber testen.
Viele Grüsse
Lara
Hi Lara,
danke für deine Meinung! Ich denke, Google wird uns nie genügend Informationen zur Verfügung stellen, um das Puzzle „Algorithmus“ zu lösen. Es bleibt also beim Ausprobieren. 🙂 Hier ein Video von Matt Cutts in dem auch das Thema Pressemitteilungen angesprochen wird. Bei Pressemitteilungen ist man auf jeden Fall auf der sicheren Seite, wenn man sie zuerst auf der eigenen Website veröffentlicht und in der Mitteilung auf diese Originalquelle verweist. Aber viele Fragen bleiben offen…
Liebe Grüße
Gesa