Duplicate Content Teil 1: Interner DC
13. Februar 2009 | SEO GedankenIch habe hier schon lange nichts mehr geschrieben, das tut mir (an alle treuen Feed-Leser) recht leid. Teilweise hatte ich nicht den richtigen Elan, teilweise keine rechten Ideen. Ich wage zu bezweifeln, ob es jemandem geholfen hätte, hier nochmal über PR-Abstrafung in Japan oder Spam-Alerts bei Google zu lesen. Nun war ich ein wenig rum, auch auf dem SEO-Stammtisch in Bonn (danke nochmal an Johannes) und habe mich unter anderem fabelhaft mit Sasa Ebach und Alex Bald unterhalten.
Inspiriert hat mich das Ganze, hier mal eine grundsätzliche Schreibe über Duplicate Content (DC) zu machen. Viele können sehr wahrscheinlich gar nichts damit anfangen, andere denken, interner DC ist nicht so schlimm. Ich will versuchen, das ein wenig aufzuklären, denn es ist doch schlimm.
Was ist interner DC? | Häufigste Fälle von DC | Internen DC vermeiden
Was ist interner Duplicate Content?
Nun, was ist Duplicate Content überhaupt? Interner Duplicate Content kann eigentlich ganz einfach beschrieben werden:
(1) Jede Seite einer Website, die unter mehr als einer URL aufrufbar ist, stellt Duplicate Content dar.
Ganz einfach oder? – Nun ja, leider ist es dann doch nicht soo einfach. Da kommt dann noch ein wenig dabei, nämlich potentieller Duplicate Content.
(2) Jede sortierte Liste ist potentieller Duplicate Content.
Gut, einen Schritt weiter. Fehlt aber noch ein Punkt.
(3) Jede ähnliche Seite ist potentieller Duplicate Content.
Jetzt sind wir soweit vollständig, was internen (nicht vergessen!) DC angeht. Ich will ein paar Beispiele geben, die verdeutlichen, was dahinter steckt. Ich will keine Seiten zeigen, die es vielleicht machen, daher müsst Ihr mit einer gewissen Abstraktion leben.
(1) Gleiche Seite auf verschiedenen URLs
- http://www.beispiel.de
- http://www.beispiel.d?IchBinEinParameter
Das kann vor allem fies werden, wenn Ihr Affiliate-Links von außen reinkommen habt, die von Euch natürlich getraclt werden wollen. Es gibt sicherlich einige Leute, die mit Affiliate-Links versuchen, Linkpower aufzubauen – mit parametrisierten URLs funktioniert das leider aber eher mit entgegengesetztem Effekt.
Probiert es aus, hängt an eine Eurer Seiten einen beliebigen Parameter an – voila. DC.
(2) Sortierte Listen
Stellt Euch vor, Ihr habt einen Shop und verkauft Rucksäcke. Nun habt Ihr eine wunderschöne Liste mit Rucksäcken, die der User mit den tollsten Parametern und Wünschen sortieren kann, z.B. nach dem Preis. Das macht er auch fleißig. Ebenso wie der Googlebot. Klick, klick, klick.
Nun habt Ihr vielleicht nur eine Seite mit Rucksäcken, weil das echt super seltene Teile sind. Meint Ihr, Google würde nicht merken, dass der Content auf der Seite einfach nur irgendwie gedreht ist, aber genau die gleichen Inhalte hat?
Wenn Ihr das denkt, dann produziert Ihr reinsten Gewissens den schönsten DC.
(3) Ähnlicher Content
Ein wenig ähnlich gelagert wie die Sache mit der Sortierung, aber doch anders. Ihr habt eine Seite mit – ach, sagen wir mal Rucksäcken, diesmal aber eine Detailseite. Der User kann hier Farben auswählen und Ihr liefert eine neue URL aus, weil vielleicht wird der rote Rucksack ja verlinkt und der blaue auch (das wäre toll)?
Nunja. Vielleicht fällt Euch auf, dass sich auf der Seite kaum Inhalt ändert. Der Rucksack wird blau (denn Ihr habt nen wirklich coolen Shop) und die Überschrift ändert sich vielleicht.die Seite sieht ja wirklich ganz anders aus als vorher!
Nun, zählt mal Eure Wörter zusammen, Ihr habt mit Sicherheit eine Ähnlichkeit von 99%. Glaubt Ihr das reicht? – DC.
Die häufigsten Fälle von internem DC
Es bedarf einer gewissen Nase für internen Duplicate Content, gerade weil die meisten Leute ihn nicht schlimm finden und denken “Google wirds schon richten und erkennen”. Denkste. Wie wir mit Duplicate Content umgehen und ihn steuern bzw. entfernen, das kommt in einem weiteren Teil der Duplicate Content-Reihe.
Hier will ich aber kurz Hilfestellung zur Erkennung leisten – schaut einfach mal, ob Ihr auf Eurer Seite das ein oder andere Problemchen findet. Ich bleibe bewusst hier auch mal bei WordPress-Themen, weil die die Blogosphäre im Gesamten betreffen, die Probleme sind aber transferierbar.
- Kanonische URL: Ist Eure Domain mit http://www.domain.de und mit http://domain.de, vielleicht noch mit http://domain.de/index.php aufrufbar?
- IP als Komplett-DC: Ursächlich technisch kann es auch sein, wenn Eure IP aus Gründen in den Index gelangt. Heise, Golem und einige andere größere Seiten haben dieses Problem. Man muss es nur erkennen und das ist meist zufällig. Das echte Problem ist aber: der komplette Inhalt der Domain wird gespiegelt bzw. dupliziert. Nicht gut.
- Unnütze Parameter: Klick mal bei Eurem WordPress-Blog einfach auf die Suche, ohne ein Suchwort einzugeben. Na? Genau. Domain-DC/Startseiten-DC (das Schlimmste was passieren kann) – und Google klickt auf Buttons, das wissen wir.
- Zugänglichmachung: Euer Blog benutzt Tags, Kategorien, Datumsarchive, alles, was geht. Leider ist das alles potentieller DC. Entscheidet Euch für eine Version von Listen, die Ihr indexieren lassen wollt.
- Artikelseiten unter verschiedenen URLs: Besonders ein WordPress-Problem – Ihr könnt jede URL in Eurem WP-Blog manipulieren. Das macht man natürlich nicht freiwillig, aber vielleicht ändert Ihr unbewusst mal die Kategorie eines Beitrages. Zack, habt Ihr zwei valide URLs, denn – probiert’s mal aus: Ihr könnt den Kategorienamen in der URL durch eine andere Kategorie Eures Blogs ersetzen. Ein falscher Link genügt und Ihr habt DC.
- Sortierungen und Auswahlen: Die Beispiele von weiter oben. Sortierte Listen und parametrisierte Artikel/Detailseiten sind DC.
Wenn Ihr über Eure Seiten guckt, werdet Ihr mit Sicherheit irgendwo DC finden, ganz sicher ist keine Seite hier perfekt und sei es wegen technischer Restriktionen (CMS, Blogsystem etc.). Wenn ihr allerdings wisst, wie Ihr DC erkennt, habt Ihr den ersten wirklich wichtigen Schritt getan, ihn auch zu vermeiden.
Tipps und Tricks zur Erkennung von DC
Gerade die Erkennung von ähnlichen Seiten als Duplicate Content kann einem zu schaffen machen. Ihr müsst Euch generell Eure Navigation, den Footer und den ganzen Kram wegdenken, denn das kann Google auch ganz gut. Dann vergleicht Ihr die übrigen Text- und Bild-Elemente des eigentlichen Inhalts der beiden in Frage kommenden Seiten. Wenn Ihr einen Wert über 80% erreicht, seid Ihr auf der sicheren Seite, dass Ihr gerade DC produziert habt. (Es gibt hier auch Tools, die Euch so was ausrechnen, mit Verstand gehts aber am einfachsten)
Nutzt Google! Leider ist für diesen Tipp das Kind wohl schon in den Brunnen gefallen. Macht eine Site-Abfrage Eurer Seite und grenzt Sie soweit ein, dass Ihr eine solide Anzahl von Seiten ausgegeben bekommen müsstet. Google schneidet nun das, was als Duplikat (Near Duplicate) gewertet werden könnte, bzw. sehr ähnlich anderen Seiten Eurer Website ist, ab. Das sieht dann z.B. so aus: Site Abfrage.
Geht einfach mal davon aus, dass alles, was dort abgeschnitten, wird potentiell ein kleineres Problem hat. Und tatsächlich – Wenn Ihr den Link anklickt, bekommt Ihr ganz viele schöne paginierte Seiten, die dem Googlebot zur Indexierung in den Rachen geworfen werden.
Wie kann ich DC vermeiden/umgehen/ausschalten?
Und wie das geht, kommt in der nächsten Runde – wenn Ihr mögt.
Mehr zum Thema Duplicate Content auf Whiteside




(insg. 16 mal abgestimmt) Gefällt Dir der Beitrag?








(4.20 von 5)









27 Kommentare
Hallo,
super Beitrag, so kann es gerne weitergehen
Grüße
Gretus
Gretus am Feb 14, 2009
Schöne Zusammenfassung.
Mein Tipp für alle Übersichtsseiten, Suchen u.s.w.: “noindex, follow” in den Header. Dann brauchst du dir da keine Sorgen mehr um doppelten Content zu machen – und hast trotzdem die Kraft der guten Durchblutung.
In WordPress kannst du das mit einem guten SEO-Plugin automatisch machen, ich verwende WPSEO, aber das machen sicher auch andere…
eric
eric am Feb 14, 2009
Gretus: Danke
Ich bemühe mich. Dein Kommentar war leider im Spamordner versunken.
Eric: Auch Danke. Dein Tipp wird mit Sicherheit in der Folge zur Vermeidung von DC auftauchen.
hannes am Feb 14, 2009
Da fällt mir ein, dass der Rucksack mit den unterschiedlichen Farben natürlich jetzt auch ganz “white” behandelt werden kann: Wenn bei den “Nebenfarben” noch ein Cannonical-Link auf den Hauptbeitrag geht. Das hat Google ja gerade eingeführt.
Allerdings muss man schon mal schauen, ob das überhaupt funzt…
eric
eric am Feb 14, 2009
Auch das ist eine Lösung
hannes am Feb 14, 2009
Hi Hannes, ich seh schon du tickst genauso wie ich: Lieber etwas seltener bloggen und weniger mainstreamig, dafür aber wenn du mal was bloggst richtig interessant und mal eine andere Perspektive.
Find ich gut
Fabian am Feb 14, 2009
Sehr schöner Post, ich freue mich schon auf Teil2!
Benni am Feb 15, 2009
Fabian: Danke, das hatte ich mir eigentlich vorgenommen
Trotzdem kann man sich manchmal nicht zurückhalten, der Blogosphäre zu folgen (dafür ist sie ja eigentlich da..)
. Der zweite Teil wird sich wohl zunächst mit externem DC (wer hätte das gedacht) befassen.
Benni: Danke
hannes am Feb 15, 2009
Hannes, bist Du wirklich sicher, dass Google Header, Navi und Footer erkennt? In der Theorie ist das sicher kein Problem, aber gibt es dazu denn auch wirklich nachvollziehbare Tests?
Ein Beispiel von einem Bekannten lässt mich eigentlich nicht an die Erkennung/Berücksichtigung von Header, Navigation usw. glauben.
Quelltext Variante 1:
1. Header
2. Navi
3. Inhalt
4. Footer
Ergebnis: wenig Google Traffic
Vermutung: für G sehen alle Seiten erstmal gleich aus, da der body-Quelltext am Anfang immer gleich ist -> DC
Quelltext Variante 2:
1. Inhalt
2. Header
3. Navi
4. Footer
Ergebnis: wesentlich mehr Google Traffic
Vermutung: für G sehen die Seiten unterschiedlich aus -> kein DC
Tom am Feb 16, 2009
Was ich schrieb bezog sich auf immer gleiche Quelltextstrukturen innerhalb einer Seite.
Den relevanten Inhalt im Quelltext nach oben zu stellen ist immer gut, denn den findet der Bot zuerst.
(sind in beiden Fällen gleiche Inhalte auf der Seite??)
Daher kann es durchaus sein, dass Ihr mit dieser Änderungen mehr Traffic und besseres Ranking erhaltet.
Die Navigation allerdings sollte man eigentlich an den Anfang stellen, denn das sind auch die verteilenden Links, die der Bot zuerst findet. Jedenfalls ein interessanter Fall
hannes am Feb 16, 2009
>sind in beiden Fällen gleiche Inhalte auf der Seite??
Ja, die neue Reihenfolge wurde nur durch Änderungen im Template erzeugt.
Tom am Feb 16, 2009
Tom, das eine muss das andere nicht zwangsläufig ausschließen.
Ich gehe mal von 2 Szenarien aus:
(1) Beide Seiten haben den gleichen Inhalt und sind gelichzeitig online (interner DC). Seite 1 mit Template A, Seite 2 mit Template B.
Hier trifft der Fall des internen Duplicate Content mit der Sortierungs-Geschichte zu, die ich oben erläutert habe. Nur, dass nicht Dein Inhalt, sondern der komplette Quelltext “vermischt” wurde. Google wird die relevantere Version als Original erkennen (hoffentlich), gleichzeitig müsstest Du sehen, dass die erste Seite Traffic verliert.
(2) Beide Seiten haben den gleichen Inhalt, aber sind _nicht_ gleichzeitg online, bzw. die Template-Änderung geschah auf ein und derselben Seite.
Das stellt grundsätzlich keinen internen DC dar. Allerdings hast du jetzt einen super Testfall, was passiert, wenn Du weitere Seite auf das neue Template umstellst. Aber Vorsicht: wie gesagt, sollte die Navigation (imho) durchaus den höchsten Einstieg haben (kommt auf die Größe der Seite an).
Und nochmal: Google erkennt wiederkehrende Strukturen, wenn Du alles umstellst, tritt dieser Fall wieder auf (mit dem für Dich besseren Outcome an Relevanz)
hannes am Feb 16, 2009
WordPress ist in der Tat eine wahre DC-Schmiede: Archive, Kategorien, etc. pp. Müsste man tatsächlich mal genauer unter die Lupe nehmen und dem Übel gezielt mit nofollow-Ergänzungen zu Leibe rücken.
Korwisi am Feb 17, 2009
Korwisi, Nofollow halte ich in diesem Fall für ungeeignet, weil es nciht vor Indexierung schützt (das könnte, würde es richtig bahendelt nur robots-meta nofollow). Es gibt allerdings sicherlich andere Lösungsansätze (dazu später mehr)
hannes am Feb 17, 2009
Dann freue ich mich auf später und die Vorstellung der anderen Lösungsansätze!
Korwisi am Feb 17, 2009
What about different versions of the same Website, e.g. one Website for normal desktop devices and one for mobile devices?
http://www.useit.com/alertbox/mobile-usability.html
In this case identical or near identical content is unavoidable. Different stylesheets do not really work. What is the recommended solution?
Otto Janko am Feb 17, 2009
Otto, usually, should use some sort of switch to guide those users from a mobile device as those from a desktop computer. This switch should also guide Googles MobileBot to the mobile site et vice versa. As mobile and net-index are two different indexes, there should be no problem with duplicate content.
Falls man mein Englisch nicht versteht: Mobilen und normalen Content sollte man durch eine mobile User-Agent-Weiche teilen. Dadurch gelangen die entsprechenden Bot auf die jeweils richtige Seite. Da es sich um zwei verschiedene Indizes handelt, sollte DC keine Rolle spielen.
hannes am Feb 18, 2009
Jaaa, will zweiten Teil
Hab auch letzens erst noch drüber im Zusammenhang mit CMSen geschrieben: Duplicate Content vermeiden und Allgemeine Prinzipien zur Verhinderung doppelter Inhalte.
Und jetzt gerade ist der „Canonical“-Tag rausgekommen. Damit lassen sich einige Problemfälle lösen. Andere nicht, wie die Indizierungstiefe verbessern. Obwohl wir das noch abwarten könnten. Ist die Frage, ob Google bei 100 gewollten, einzulesenden Seiten die „Canonicals“ nicht mitzählt. Wäre eigentlich technisch korrekt…
Viele Grüße
Sasa
Sasa Ebach am Feb 18, 2009
Klasse Beitrag, das macht neugierig auf die fortsetzung. Ist der den schon nach zu lesen?
michael sommer am Jun 18, 2009
Hm. das ist ein bisschen zu einfach. Den Beitrag gibts eins weiter höher und für Dich keinen Link.
hannes am Jun 19, 2009
Der Trick mit der “Site-Abfrage” und die Wertung der entsprechend hinten abgeschnittenen Suchergebnissen als DC-verdächtig ist mir so neu wie in der Anwendung gut gewesen! Besten Dank!
Köln | Dialog am Jul 18, 2009