Duplicate Content Teil 1: Interner DC

13. Februar 2009 | SEO Gedanken

duplicate-content-intern

Ich habe hier schon lange nichts mehr geschrieben, das tut mir (an alle treuen Feed-Leser) recht leid. Teilweise hatte ich nicht den richtigen Elan, teilweise keine rechten Ideen. Ich wage zu bezweifeln, ob es jemandem geholfen hätte, hier nochmal über PR-Abstrafung in Japan oder Spam-Alerts bei Google zu lesen. Nun war ich ein wenig rum, auch auf dem SEO-Stammtisch in Bonn (danke nochmal an Johannes) und habe mich unter anderem fabelhaft mit Sasa Ebach und Alex Bald unterhalten.

Inspiriert hat mich das Ganze, hier mal eine grundsätzliche Schreibe über Duplicate Content (DC) zu machen. Viele können sehr wahrscheinlich gar nichts damit anfangen, andere denken, interner DC ist nicht so schlimm. Ich will versuchen, das ein wenig aufzuklären, denn es ist doch schlimm.

Was ist interner DC? | Häufigste Fälle von DC | Internen DC vermeiden

Was ist interner Duplicate Content?


Nun, was ist Duplicate Content überhaupt? Interner Duplicate Content kann eigentlich ganz einfach beschrieben werden:

(1) Jede Seite einer Website, die unter mehr als einer URL aufrufbar ist, stellt Duplicate Content dar.

Ganz einfach oder? – Nun ja, leider ist es dann doch nicht soo einfach. Da kommt dann noch ein wenig dabei, nämlich potentieller Duplicate Content.

(2) Jede sortierte Liste ist potentieller Duplicate Content.

Gut, einen Schritt weiter. Fehlt aber noch ein Punkt.

(3) Jede ähnliche Seite ist potentieller Duplicate Content.

Jetzt sind wir soweit vollständig, was internen (nicht vergessen!) DC angeht. Ich will ein paar Beispiele geben, die verdeutlichen, was dahinter steckt. Ich will keine Seiten zeigen, die es vielleicht machen, daher müsst Ihr mit einer gewissen Abstraktion leben.

(1) Gleiche Seite auf verschiedenen URLs

  • http://www.beispiel.de
  • http://www.beispiel.d?IchBinEinParameter

Das kann vor allem fies werden, wenn Ihr Affiliate-Links von außen reinkommen habt, die von Euch natürlich getraclt werden wollen. Es gibt sicherlich einige Leute, die mit Affiliate-Links versuchen, Linkpower aufzubauen – mit parametrisierten URLs funktioniert das leider aber eher mit entgegengesetztem Effekt.

Probiert es aus, hängt an eine Eurer Seiten einen beliebigen Parameter an – voila. DC.

(2) Sortierte Listen

Stellt Euch vor, Ihr habt einen Shop und verkauft Rucksäcke. Nun habt Ihr eine wunderschöne Liste mit Rucksäcken, die der User mit den tollsten Parametern und Wünschen sortieren kann, z.B. nach dem Preis. Das macht er auch fleißig. Ebenso wie der Googlebot. Klick, klick, klick.

Nun habt Ihr vielleicht nur eine Seite mit Rucksäcken, weil das echt super seltene Teile sind. Meint Ihr, Google würde nicht merken, dass der Content auf der Seite einfach nur irgendwie gedreht ist, aber genau die gleichen Inhalte hat?

Wenn Ihr das denkt, dann produziert Ihr reinsten Gewissens den schönsten DC.

(3) Ähnlicher Content

Ein wenig ähnlich gelagert wie die Sache mit der Sortierung, aber doch anders. Ihr habt eine Seite mit – ach, sagen wir mal Rucksäcken, diesmal aber eine Detailseite. Der User kann hier Farben auswählen und Ihr liefert eine neue URL aus, weil vielleicht wird der rote Rucksack ja verlinkt und der blaue auch (das wäre toll)?

Nunja. Vielleicht fällt Euch auf, dass sich auf der Seite kaum Inhalt ändert. Der Rucksack wird blau (denn Ihr habt nen wirklich coolen Shop) und die Überschrift ändert sich vielleicht.die Seite sieht ja wirklich ganz anders aus als vorher!

Nun, zählt mal Eure Wörter zusammen, Ihr habt mit Sicherheit eine Ähnlichkeit von 99%. Glaubt Ihr das reicht? – DC.

Die häufigsten Fälle von internem DC


Es bedarf einer gewissen Nase für internen Duplicate Content, gerade weil die meisten Leute ihn nicht schlimm finden und denken “Google wirds schon richten und erkennen”. Denkste. Wie wir mit Duplicate Content umgehen und ihn steuern bzw. entfernen, das kommt in einem weiteren Teil der Duplicate Content-Reihe.

Hier will ich aber kurz Hilfestellung zur Erkennung leisten – schaut einfach mal, ob Ihr auf Eurer Seite das ein oder andere Problemchen findet. Ich bleibe bewusst hier auch mal bei WordPress-Themen, weil die die Blogosphäre im Gesamten betreffen, die Probleme sind aber transferierbar.

  • Kanonische URL: Ist Eure Domain mit http://www.domain.de und mit http://domain.de, vielleicht noch mit http://domain.de/index.php aufrufbar?
  • IP als Komplett-DC: Ursächlich technisch kann es auch sein, wenn Eure IP aus Gründen in den Index gelangt. Heise, Golem und einige andere größere Seiten haben dieses Problem. Man muss es nur erkennen und das ist meist zufällig. Das echte Problem ist aber: der komplette Inhalt der Domain wird gespiegelt bzw. dupliziert. Nicht gut.
  • Unnütze Parameter: Klick mal bei Eurem WordPress-Blog einfach auf die Suche, ohne ein Suchwort einzugeben. Na? Genau. Domain-DC/Startseiten-DC (das Schlimmste was passieren kann) – und Google klickt auf Buttons, das wissen wir.
  • Zugänglichmachung: Euer Blog benutzt Tags, Kategorien, Datumsarchive, alles, was geht. Leider ist das alles potentieller DC. Entscheidet Euch für eine Version von Listen, die Ihr indexieren lassen wollt.
  • Artikelseiten unter verschiedenen URLs: Besonders ein WordPress-Problem – Ihr könnt jede URL in Eurem WP-Blog manipulieren. Das macht man natürlich nicht freiwillig, aber vielleicht ändert Ihr unbewusst mal die Kategorie eines Beitrages. Zack, habt Ihr zwei valide URLs, denn – probiert’s mal aus: Ihr könnt den Kategorienamen in der URL durch eine andere Kategorie Eures Blogs ersetzen. Ein falscher Link genügt und Ihr habt DC.
  • Sortierungen und Auswahlen: Die Beispiele von weiter oben. Sortierte Listen und parametrisierte Artikel/Detailseiten sind DC.

Wenn Ihr über Eure Seiten guckt, werdet Ihr mit Sicherheit irgendwo DC finden, ganz sicher ist keine Seite hier perfekt und sei es wegen technischer Restriktionen (CMS, Blogsystem etc.). Wenn ihr allerdings wisst, wie Ihr DC erkennt, habt Ihr den ersten wirklich wichtigen Schritt getan, ihn auch zu vermeiden.

Tipps und Tricks zur Erkennung von DC


Gerade die Erkennung von ähnlichen Seiten als Duplicate Content kann einem zu schaffen machen. Ihr müsst Euch generell Eure Navigation, den Footer und den ganzen Kram wegdenken, denn das kann Google auch ganz gut. Dann vergleicht Ihr die übrigen Text- und Bild-Elemente des eigentlichen Inhalts der beiden in Frage kommenden Seiten. Wenn Ihr einen Wert über 80% erreicht, seid Ihr auf der sicheren Seite, dass Ihr gerade DC produziert habt. (Es gibt hier auch Tools, die Euch so was ausrechnen, mit Verstand gehts aber am einfachsten)

Nutzt Google! Leider ist für diesen Tipp das Kind wohl schon in den Brunnen gefallen. Macht eine Site-Abfrage Eurer Seite und grenzt Sie soweit ein, dass Ihr eine solide Anzahl von Seiten ausgegeben bekommen müsstet. Google schneidet nun das, was als Duplikat (Near Duplicate) gewertet werden könnte, bzw. sehr ähnlich anderen Seiten Eurer Website ist, ab. Das sieht dann z.B. so aus: Site Abfrage.

Geht einfach mal davon aus, dass alles, was dort abgeschnitten, wird potentiell ein kleineres Problem hat. Und tatsächlich – Wenn Ihr den Link anklickt, bekommt Ihr ganz viele schöne paginierte Seiten, die dem Googlebot zur Indexierung in den Rachen geworfen werden.

Wie kann ich DC vermeiden/umgehen/ausschalten?


Und wie das geht, kommt in der nächsten Runde – wenn Ihr mögt.

Mehr zum Thema Duplicate Content auf Whiteside

Abstimmen für Duplicate Content Teil 1: Interner DC
1 SEO Stern2 SEO Sterne3 SEO Sterne4 SEO Sterne5 SEO Sterne (insg. 16 mal abgestimmt) Gefällt Dir der Beitrag?
Loading...Loading...
Duplicate Content Teil 1: Interner DC weitersagen
 Mr. Wong  Webnews  Readster  Del.icio.us  Facebook
 Yahoo  Google
Anzeige
Werbung
Mehr Whiteside-SEO

Ähnliche Beiträge
  1. 36 Kommentare

  2. Hallo,

    super Beitrag, so kann es gerne weitergehen ;-)

    Grüße

    Gretus

    Gretus am Feb 14, 2009

  3. Schöne Zusammenfassung.
    Mein Tipp für alle Übersichtsseiten, Suchen u.s.w.: “noindex, follow” in den Header. Dann brauchst du dir da keine Sorgen mehr um doppelten Content zu machen – und hast trotzdem die Kraft der guten Durchblutung.
    In WordPress kannst du das mit einem guten SEO-Plugin automatisch machen, ich verwende WPSEO, aber das machen sicher auch andere…

    eric

    eric am Feb 14, 2009

  4. Gretus: Danke :) Ich bemühe mich. Dein Kommentar war leider im Spamordner versunken.
    Eric: Auch Danke. Dein Tipp wird mit Sicherheit in der Folge zur Vermeidung von DC auftauchen.

    hannes am Feb 14, 2009

  5. Da fällt mir ein, dass der Rucksack mit den unterschiedlichen Farben natürlich jetzt auch ganz “white” behandelt werden kann: Wenn bei den “Nebenfarben” noch ein Cannonical-Link auf den Hauptbeitrag geht. Das hat Google ja gerade eingeführt.

    Allerdings muss man schon mal schauen, ob das überhaupt funzt…

    eric

    eric am Feb 14, 2009

  6. Auch das ist eine Lösung ;)

    hannes am Feb 14, 2009

  7. Hi Hannes, ich seh schon du tickst genauso wie ich: Lieber etwas seltener bloggen und weniger mainstreamig, dafür aber wenn du mal was bloggst richtig interessant und mal eine andere Perspektive.
    Find ich gut ;)

    Fabian am Feb 14, 2009

  8. Sehr schöner Post, ich freue mich schon auf Teil2!

    Benni am Feb 15, 2009

  9. Fabian: Danke, das hatte ich mir eigentlich vorgenommen :) Trotzdem kann man sich manchmal nicht zurückhalten, der Blogosphäre zu folgen (dafür ist sie ja eigentlich da..)
    Benni: Danke ;) . Der zweite Teil wird sich wohl zunächst mit externem DC (wer hätte das gedacht) befassen.

    hannes am Feb 15, 2009

  10. Hannes, bist Du wirklich sicher, dass Google Header, Navi und Footer erkennt? In der Theorie ist das sicher kein Problem, aber gibt es dazu denn auch wirklich nachvollziehbare Tests?

    Ein Beispiel von einem Bekannten lässt mich eigentlich nicht an die Erkennung/Berücksichtigung von Header, Navigation usw. glauben.

    Quelltext Variante 1:
    1. Header
    2. Navi
    3. Inhalt
    4. Footer
    Ergebnis: wenig Google Traffic
    Vermutung: für G sehen alle Seiten erstmal gleich aus, da der body-Quelltext am Anfang immer gleich ist -> DC

    Quelltext Variante 2:
    1. Inhalt
    2. Header
    3. Navi
    4. Footer
    Ergebnis: wesentlich mehr Google Traffic
    Vermutung: für G sehen die Seiten unterschiedlich aus -> kein DC

    Tom am Feb 16, 2009

  11. Was ich schrieb bezog sich auf immer gleiche Quelltextstrukturen innerhalb einer Seite.

    Den relevanten Inhalt im Quelltext nach oben zu stellen ist immer gut, denn den findet der Bot zuerst.
    Daher kann es durchaus sein, dass Ihr mit dieser Änderungen mehr Traffic und besseres Ranking erhaltet.
    Die Navigation allerdings sollte man eigentlich an den Anfang stellen, denn das sind auch die verteilenden Links, die der Bot zuerst findet. Jedenfalls ein interessanter Fall :) (sind in beiden Fällen gleiche Inhalte auf der Seite??)

    hannes am Feb 16, 2009

  12. >sind in beiden Fällen gleiche Inhalte auf der Seite??

    Ja, die neue Reihenfolge wurde nur durch Änderungen im Template erzeugt.

    Tom am Feb 16, 2009

  13. Tom, das eine muss das andere nicht zwangsläufig ausschließen.
    Ich gehe mal von 2 Szenarien aus:

    (1) Beide Seiten haben den gleichen Inhalt und sind gelichzeitig online (interner DC). Seite 1 mit Template A, Seite 2 mit Template B.
    Hier trifft der Fall des internen Duplicate Content mit der Sortierungs-Geschichte zu, die ich oben erläutert habe. Nur, dass nicht Dein Inhalt, sondern der komplette Quelltext “vermischt” wurde. Google wird die relevantere Version als Original erkennen (hoffentlich), gleichzeitig müsstest Du sehen, dass die erste Seite Traffic verliert.

    (2) Beide Seiten haben den gleichen Inhalt, aber sind _nicht_ gleichzeitg online, bzw. die Template-Änderung geschah auf ein und derselben Seite.
    Das stellt grundsätzlich keinen internen DC dar. Allerdings hast du jetzt einen super Testfall, was passiert, wenn Du weitere Seite auf das neue Template umstellst. Aber Vorsicht: wie gesagt, sollte die Navigation (imho) durchaus den höchsten Einstieg haben (kommt auf die Größe der Seite an).

    Und nochmal: Google erkennt wiederkehrende Strukturen, wenn Du alles umstellst, tritt dieser Fall wieder auf (mit dem für Dich besseren Outcome an Relevanz)

    hannes am Feb 16, 2009

  14. WordPress ist in der Tat eine wahre DC-Schmiede: Archive, Kategorien, etc. pp. Müsste man tatsächlich mal genauer unter die Lupe nehmen und dem Übel gezielt mit nofollow-Ergänzungen zu Leibe rücken.

    Korwisi am Feb 17, 2009

  15. Korwisi, Nofollow halte ich in diesem Fall für ungeeignet, weil es nciht vor Indexierung schützt (das könnte, würde es richtig bahendelt nur robots-meta nofollow). Es gibt allerdings sicherlich andere Lösungsansätze (dazu später mehr)

    hannes am Feb 17, 2009

  16. Dann freue ich mich auf später und die Vorstellung der anderen Lösungsansätze!

    Korwisi am Feb 17, 2009

  17. What about different versions of the same Website, e.g. one Website for normal desktop devices and one for mobile devices?

    http://www.useit.com/alertbox/mobile-usability.html

    In this case identical or near identical content is unavoidable. Different stylesheets do not really work. What is the recommended solution?

    Otto Janko am Feb 17, 2009

  18. Otto, usually, should use some sort of switch to guide those users from a mobile device as those from a desktop computer. This switch should also guide Googles MobileBot to the mobile site et vice versa. As mobile and net-index are two different indexes, there should be no problem with duplicate content.

    Falls man mein Englisch nicht versteht: Mobilen und normalen Content sollte man durch eine mobile User-Agent-Weiche teilen. Dadurch gelangen die entsprechenden Bot auf die jeweils richtige Seite. Da es sich um zwei verschiedene Indizes handelt, sollte DC keine Rolle spielen.

    hannes am Feb 18, 2009

  19. Jaaa, will zweiten Teil :)

    Hab auch letzens erst noch drüber im Zusammenhang mit CMSen geschrieben: Duplicate Content vermeiden und Allgemeine Prinzipien zur Verhinderung doppelter Inhalte.

    Und jetzt gerade ist der „Canonical“-Tag rausgekommen. Damit lassen sich einige Problemfälle lösen. Andere nicht, wie die Indizierungstiefe verbessern. Obwohl wir das noch abwarten könnten. Ist die Frage, ob Google bei 100 gewollten, einzulesenden Seiten die „Canonicals“ nicht mitzählt. Wäre eigentlich technisch korrekt…

    Viele Grüße
    Sasa

    Sasa Ebach am Feb 18, 2009

  20. Klasse Beitrag, das macht neugierig auf die fortsetzung. Ist der den schon nach zu lesen?

    michael sommer am Jun 18, 2009

  21. Hm. das ist ein bisschen zu einfach. Den Beitrag gibts eins weiter höher und für Dich keinen Link.

    hannes am Jun 19, 2009

  22. Der Trick mit der “Site-Abfrage” und die Wertung der entsprechend hinten abgeschnittenen Suchergebnissen als DC-verdächtig ist mir so neu wie in der Anwendung gut gewesen! Besten Dank!

    Köln | Dialog am Jul 18, 2009

  23. Die Frage die sich stellt ist allerdings immer wo der Duplicate Content wirklich anfängt. Gerade bei Presseportalen, die alle oftmals den gleichen Input bekommen ist doch quasi nur Double Content. Trotzdem gibt es zig Seiten was doch dafür spricht, dass es irgendwie doch läuft, keine großartigen Penalties von Google gibt und sich lohnt.

    Maik am Apr 12, 2011

  24. Ich hätte noch eine Frage und zwar biete ich eigentlich auf meiner Seite hin und wieder kostenlos geschriebene Inhalte zur Weiterverbreitung an. Sprich das wäre ja auch Double Content, schadet das dann mir der Ursprungsquelle, den Kopierern oder allen?

    Vielleicht antwortet mir ja mal einer auf die Frage an
    killedchicken@yahoo.de

    Grüße aus Köln…

    Maik

    Maik am Apr 12, 2011

  25. Hallo!!

    Sehr Interessant! Mir stellt sich gerade auch eine Frage zum DC. Vielleicht kann mir ja jemand Antworten geben?

    Ist es bereits DC wenn ich auf einer Unterseite für Pressemitteilungen zu der eigentlichen Pressemitteilung eine PDF mit gleichem Inhalt bereit stelle? Sollte man die PDF vom Index ausschließen?? Wenn ja wie?

    Tausend Dank!!
    Steffen

    Steffen am Jun 14, 2011

  26. Hi Hannes,

    dein Artikel ist sehr informativ und verständlich geschrieben.

    Kurze Frage: auf der oben gen. Site gibt es 2 Wege zur ca. 10 gleichen Seiten. Ist das int. duplicate content?
    Beispiel: http://www.agentur-texte.de/ghostwriter-hausarbeiten-seminararbeiten.html und http://www.agentur-texte.de/leistungen/hausarbeit-seminararbeit-ghostwriter.html

    LG Martin

    Martin Sai am Mrz 18, 2012

  1. 11 Trackback(s)

  2. Feb 17, 2009: Was ist Duplicate Content?
  3. Feb 20, 2009: Der SEOdiotische Wochenrückblick - KW 08/09 | Der SEOdiot
  4. Feb 22, 2009: Top 10 der Woche 08/09 « Wochenrückblicke
  5. Feb 23, 2009: Duplicate Content Teil 3: DC vermeiden - WhiteSide SEO
  6. Nov 15, 2009: SEO-Sunday: Duplicate Content – Das ewige Thema « rankingCHECK Blog
  7. Feb 7, 2010: 7 Tipps für Städte-Landingpages « Werbeagentur Köln vs. Werbeagentur Düsseldorf
  8. Sep 20, 2010: Duplicate Content – Was ist das eigentlich? (2) | seo-gold.de
  9. Sep 8, 2011: SEO Texte richtig schreiben
  10. Okt 21, 2011: Duplicate Content vermeiden | ESTUGO.net Webhosting
  11. Sep 21, 2012: Duplicate Content vermeiden › ESTUGO.net Webhosting
  12. Mrz 17, 2013: SEO CAMPIXX: Liveblog vom Müggelsee

Kommentar schreiben zu
“Duplicate Content Teil 1: Interner DC”