Duplicate Content Teil 2: Externer DC

15. Februar 2009 | SEO Gedanken

duplicate-content-extern

Willkommen zum zweiten Teil der Duplicate-Content-Reihe. Dieses Mal werde ich versuchen, Euch externen DC ein wenig näher zu bringen. Wenn wir über externen DC sprechen, dann ist das genau der DC, vor dem sich alle fürchten und der in der landläufigen Meinung der schlimmere von beiden Duplicate Content-Arten ist.

Ob dem wirklich so ist, kommt immer auf die Art des Projektes an. Tatsache ist: Externer Duplicate Content kann durchaus zu einer Abstrafung führen (das Wort Penalty möchte ich nich in den Mund nehmen) oder zumindest zum Verschwinden in einem Filter.

Was ist externer DC? | Wem gehört der Content | Externen DC erkennen | Externen DC vermeiden

Kurz vorab: Ich habe von externem DC nicht halb soviel Ahnung wie von internem, ich finde allerdings, dass eine DC-Reihe ohne externen DC nicht vollständig ist und möchte daher zumindest einige Punkte anreißen. Wenn Euch also etwas komisch vorkommt oder ich sogar etwas falsche sage, zögert nicht, mir einen Diss in den Kommentar zu schreiben.

Was ist externer Duplicate Content?

Externer Duplicate Content bezieht sich auf duplizierte Inhalte außerhalb der eigenen Domain. Das kann sowohl im eigenen Netzwerk, als auch auf Websites der Konkurrenz der Fall sein. Nach meiner Erfahrung wird auch doppelter Inhalt auf Subdomains des eigenen Projektes als externer Duplicate Content gewertet.

“Meine Website sieht doch ganz anders aus, als die des Konkurrenten, ich habe einen anderen Header und Footer und andere Seitenelemente!”

Wer so an die Analyse von externem DC herangeht, der hat verloren und genau derjenige sollte sich den folgenden Hinweis sehr zu Herzen nehmen.

  • Google und andere Suchmaschinen erkennen seitenweit wiederkehrende Strukturen wie Navigationselemente, Footerbereiche oder Sidebar-Elemente auf Websites.
  • Das heisst, Google kann sehr wohl unterscheiden, was Inhalt und was Ausstattung ist.

Wichtig ist also wirklich nur die Betrachtung des Inhalts (im besten Falle das, was unterhalb der H1 steht). Nun, wer sich an die Einteilung des ersten Teils (Interner Duplicate Content) erinnert, der wird die folgende Aufzählung in Teilen wieder erkennen.

(1) Gleiche Inhalte auf verschiedenen Domains ist externer Duplicate Content

Das ist klar und kann jeder verstehen.

(2) Ähnliche Inhalte auf verschiedenen Domains sind potentieller Duplicate Content

Auch das ist, wenn wir uns die Ergebnisse des ersten Teils zum internen DC vor Augen halten deutlich. Sortierungen, Listen, Ergebnisse, das alles kann DC bedeuten – wie intern so auch extern.

(3) Eure Domain ist komplett dupliziert oder gespiegelt

Das ist bei weitem die fieseste aller Angelegenheiten. Wenn die Startseite eures Produktes als DC erkannt wird oder dupliziert im Internet auftaucht, solltet Ihr wirklich schnell versuchen, die Duplikate zu beseitigen. Wie Ihr vorgeht, um solche Fälle aufzudecken seht Ihr weiter unten.

Wem gehört der originale Content?

Wenn die Suchmaschinen Duplicate Content finden, müssen sie entscheiden, wem der originale Content gehört. Das machen sie nach algorithmischen Vorlagen, die im Grunde einfach zu verstehen sind, allerdings im Outcome nicht immer richtig oder eindeutig sind.

  • Fingerprint/Timestamp: Gefundener Content bekommt im Regelfall eine Art Versionierung von den Suchmaschinen. Das kann man auch Fingerprint nennen. Es wird vermerkt (wie eigentlich alles immer überall vermerkt wird), wann der Content wo gefunden wurde. Wenn dieser Fingerprint festgelegt wurde, bekommt die Seite, die als erstes mit dem Content identifiziert wurde in der Regel den Content als Original zugesprochen.
  • Google News: Ich bin in diesem Fall kein Experte, daher kann ich nur oberflächlich schreiben. Bei News sieht man aber deutlich, dass das Prinzip gilt: First Come, First Serve. Die meisten Zeitungen kommen mit DPA-Meldungen daher, die in der Regel, ebenso wie Pressemitteilungen (Achtung bei Artikelverzeichnissen, Presseverzeichnissen etc.) DC sind.
  • Diebstahl/Content-Klau: Durchaus problematisch ist Content-Diebstahl. Das können Texte sein oder Bilder. Es wird ja nicht seit gestern erst darüber berichtet, dass Content geklaut und auf anderen Seiten 1 zu 1 veröffentlicht wird. Das ist sehr ärgerlich, aber leider nicht immer vermeidbar. Wenn zudem die fremde Seite außerhalb des deutschen Rechtsraumes liegt, könnt Ihr selbst rechtlich nicht viel dagegen machen. Kleine technische Dinge werde ich aber im nächsten Teil “Duplicate Content vermeiden” erläutern.
  • Trust und Domainstärke: Sowohl bei Fingerprint als auch bei geklautem Inhalt gilt zu einem guten Teil der Trust bzw. die Stärke einer Domain als Faktor für die Originalität des Content. Ein kleines Beispiel: Eure Domain mit dem Originalinhalt ist 3 Jahre alt und hat verschiedene Themenbereiche. Jetzt kommt einer daher (vielleicht Ihr selbst) und übernimmt diesen Content auf einer Domain, die vielleicht 6 Jahre alt ist, mehr Links hat und sich nur mit diesem Thema beschäftigt. Der Content wird mit Wahrscheinlichkeit dieser Domain zugerechnet und Euer eigener Traffic kracht ab.

Wie erkenne ich externen Duplicate Content?

(1) Gleiche Inhalte auf verschiedenen Domains

Solche Fälle kann man sehr gut mit einer Quotation-Abfrage bei Google machen. Nehmt Euch einfach einen Teil des Inhalts Eurer Seite und kopiert in “in Anführungsstrichen” bei Google in die Suchbox. Vielleicht findet Ihr ähnliche Einträge, die evtl. einen Fingerprint haben könnten. Datum und Cache vergleichen hilft bei der Bewertung. Auch hier gibt es Tools, die das Aufspüren von geklauten Bildern oder Text möglich machen.

(2) Ähnliche Inhalte auf verschiedenen Domains

Das typische Zeitungen/DPA-Problem. Hier kann ich wirklich nicht viel zu sagen, weil ich gerade im News-Bereich einige Lücken habe. Hanns Kronenberg hat eine sehr gute Fallstudie zu Google News geschrieben, vielleicht hilft Euch das schon mal weiter. Generell gilt aber wie beim internen DC: Je höher die Vergleichbarkeit der Textelemente, desto eher handelt es sich um DC.

(3) Duplizierung der Domain oder Startseite

Das ist der Obergau und Ihr solltet generell aufpassen, dass Euch keine Duplikate Eurer Startseite in den Index gelangen. Manchmal werden Domains gespiegelt, manchmal passieren solche Dinge, weil Ihr eine IP im Index habt (auch das ist externer DC) und somit Eure komplette Domain spiegelt. Je mehr Trust und je älter das Projekt ist, desto eher könnt Ihr bei solchen Fällen allerdings auch gut wegkommen. Die Telekom hat massig von Domains, die den gleichen Content haben, Heise und ähnlich Projekte sind mit IPs im Index verteten und es schadet (noch nicht). Bei kleineren Projekten kann das aber durchaus schädlich sein.

Ihr könnt solch eine Duplizierung entdecken, indem Ihr den Titel Eurer Startseite bei Google via intitle-Abfrage sucht und entsprechende gleiche Seiten genauer unter die Lupe nehmt. Ich habe über dieses Problem bereits ausführlicher geschrieben und auch, was Ihr tun solltet, wenn so etwas passiert (z.B. auch mit WGet snapshoten etc.)

Wie kann ich DC vermeiden/umgehen/ausschalten?

Und wie das geht, kommt in der nächsten Runde – wenn Ihr mögt.

Mehr zum Thema Duplicate Content auf Whiteside

Abstimmen für Duplicate Content Teil 2: Externer DC
1 SEO Stern2 SEO Sterne3 SEO Sterne4 SEO Sterne5 SEO Sterne (insg. 6 mal abgestimmt) Gefällt Dir der Beitrag?
Loading...Loading...
Duplicate Content Teil 2: Externer DC weitersagen
 Mr. Wong  Webnews  Readster  Del.icio.us  Facebook
 Yahoo  Google
Anzeige
Mehr Whiteside-SEO

Ähnliche Beiträge
  1. 25 Kommentare

  2. Fein. Aber die einfachste Weise, DC aufzuspüren, ist mal mit Copyscape zu schauen: http://www.copyscape.com. Das ist treffsicher…

    Contentman

    eric am Feb 16, 2009

  3. Sicher, Copyscape ist eine Lösung. Ich hab’s selbst noch nie benutzt, weil ich solche Geschichten alle mit Google mache. Weißt Du, ob Copyscape auch nicht von Google indexierte scannt? Immerhin nutzen die auch eine API dorthin (bin eben kurz mal rübergeflogen).

    hannes am Feb 16, 2009

  4. Ich glaube nicht, dass auch nicht-indexierte Seiten gefunden werden. Aber ich nutze das sehr viel – und mit ein wenig Gespür findet man *immer* was. Verblüffend.
    Es gibt auch einen Pro-Account, bei dem jede Abfrage 5 Cent kostet. Der Vorteil: Da kann man auch einen Text in ein Textfeld kopieren und schauen, ob der schon irgendwo vorhanden ist.
    Ein Tool, dass wir niemals den Lehrern unserer Kinder verraten dürfen, weil die sonst gleich finden, wo abgeschrieben wurde ;-)
    eric

    eric am Feb 16, 2009

  5. Neben Copyscape verrichtet auch das kostenlose Tool von Textbroker: Uncover richtig gute Dienste. Läuft als Desktop Anwendung und du kannst einzelne Texte, Webseiten oder ganze Projekte checken lassen :-) Weiß zwar nicht ob es genauso gut oder besser als Copyscape ist aber bin bislang recht zufrieden.

    Holger am Feb 17, 2009

  6. In der Tat Copyscape nutzt die Google-API, aber auch Yahoo und Co. Es ist schon ein recht mächtiges Tool. Daneben: DC ist vor allem ein Problem, wenn die geklauten Inhalte ebenfalls indiziert sind. Daher muss nicht unbedingt im Deep Web gefischt werden. Obwohl auch das interessante Suchaufträge sin dürften…

    Michael Dunker am Feb 18, 2009

  7. Du könntest noch auf Text blöcke eingehen. In irgend einem Patent erwähnt google (oder ich glaube es stand im Blog von Matt), dass es in der Lage ist nur kleine Textpassagen zu erkennen “chunks” oder so. Dadurch wird es für die Suchmaschine ein leichtes zu sehen ob du dir den einen Absatz aus Wikipedia genommen hast oder nicht.

    Axel am Feb 20, 2009

  8. Hi,

    freut mich das du meinen Beitrag zum Content Klau verlinkt hast. Mich
    hatte damals ein anderer Seitenbetreiber informiert, dessen Inhalte auf
    der Diebesseite ebenfalls gestohlen wurden.
    Statt den Seitenbetreiber anzuzeigen und uns selber viel Stress zu
    machen, haben wir das ganze einfach publik gemacht. Damit sind wir sehr
    gut gefahren und vom Aufwand her war es sehr überschaubar.
    Die Inhalte wurde innerhalb von 1-2 Wochen entfernt.

    Unter dem Firmenname des Diebes “Hertz Cooperation” stehen sind wir
    mittlerweile auf Platz 1 bei Google :)

    Florian Trautmann am Jun 19, 2009

  9. Ich mache das immer stichprobenhaft so, wenn ich feststellen will, ob die gleichen Texte auch auf anderen Webseiten vorkommen: Ich kopiere ein Stück Text der original Webseite (sollte lang genug sein, nicht nur 2 Wörter) und füge diesen in Anführungszeichen gesetzt in das Sucheingabefeld von Google, Yahoo oder Bing ein und lasse dann suchen. Ruckzuck hat man die Webseiten mit den identischen Texten.

    Helmut am Nov 20, 2009

  10. Ich bin gerade dabei eine gute Lösung für meine Webkataloge zu finden. Ziel ist es ein PHP Script zu schreiben, das mit nem Cronjob täglich aufgerufen wird, um alle Einträge auf DC zu überprüfen. Da es ziemlich viele Einträge sind, wäre das parsen der Ergebnisseiten nicht der beste Weg (da nur eine IP). Hast du da vllt schon iwelche Scripte gesehen? Möglicherweise für die Yahoo oder Google API? So ein Script wäre nicht nur für Webkataloge, sondern auch für Artikelverzeichnisse von vorteil.

    Jan am Mai 4, 2010

  11. Hi Jan, sorry – da kenne ich mich leider nicht aus. Ich würde zunächst mal prüfen, ob das den Aufwand auch wirklich wert ist, oder ob die Inhalte sich nicht anderweitig aufwerten lassen. Wenn Du viele verschiedene Webkataloge hast, ist das natürlich nicht soo einfach..

    hannes am Mai 5, 2010

  12. Ich war mit Copyscape immer zufrieden.

    Marco am Aug 11, 2010

  13. rein suchmaschinentechnisch gibt es ja gar keinen duplicate content und schon gar nicht einen slap dafür. Natürlich ist es mir auch wichtig, dass mein content nicht geklaut wird allein schon der Fairness wegen. Ich verwende hier von Zeit zu Zeit den unique content verifier 2.0

    Mike am Okt 20, 2010

  14. @ Mike:

    rein suchmaschinentechnisch gibt es ja gar
    keinen duplicate content und schon gar nicht einen slap dafür.

    Das müsstest Du mir mal erklären..

    hannes am Okt 21, 2010

  15. Ich nutze Plagaware um DC zu finden. Meist reicht dann eine Mail an den Seitenbetreiber, in der man auf das Urheberrecht hinweist.

    Sascha Oertlin am Mrz 29, 2011

  16. “rein suchmaschinentechnisch gibt es ja gar
    keinen duplicate content und schon gar nicht einen slap dafür.”

    Ich denke was gemeint ist ist folgendes: Eine Suchmaschine tut sich enorm schwer den ursprünglichen Verfasser ausfindig zu machen. Das sieht man vor allem dann wenn Blackhat Scrapeseiten vor dem Originalcontent ranken ohne dass es dafür eine andere Erklärung geben könnte. Hier liegt es eigentlich auf der Hand für den Besucher, aber leider nicht für Google. Insofern ist es nicht immer eindeutig wen Google hier abstrafen kann oder soll. Denn wenn sie nicht 100 %-ig wissen wer Urheber ist, kann schlecht der Urheber abgestraft werden. Und ja, es gibt natürlich solche Fälle, aber diese haben andere Hintergründe. Gerade mit Panda hat sich hier einiges getan, leider aber auch in die falsche Richtung in manchen Fällen…

    Tomm am Jun 11, 2011

  17. Ich kann meinem Vorredner nur Zustimmen. Es hat sich Einiges getan, öfter in der falsche Richtung als man denkt.

    Hugo am Sep 25, 2011

  18. Wir kontrollieren auch regelmäßig unsere Texte und Beiträge! Sowas wie der Fall oben kommt aber Gott sei dank selten vor…

    Aber immer gut regelmäßig darüber zu berichten.

    Alex am Dez 23, 2011

  19. Hallo,

    ja das mit dem Contentklau war und wird immer ein Problem bleiben. Das zu kontrolieren ist schlicht und einfach nicht wirklich machbar. Auch wenn man diesen aufspüren kann, oft kommt man dann an den Webseiteninhaber gar nicht ran, um was ändern zu können. Ausser, das man sich darüber ärgert, kann man oft nicht viel machen.
    Schade, aber das ist leider so.
    Frank

    Frank am Feb 29, 2012

  20. Super Artikel!

    Lisa Müller am Aug 29, 2012

  21. Super Artikel. Duplicate Content führt immer wieder zu Diskussionen. Ich habe mir zwei Videos zu diesem Thema angeschaut, die ich euch nicht vorenthalten möchte. Das erste Video von Matt Cutts zum canonical tag – http://www.youtube.com/watch?feature=player_embedded&v=Cm9onOGTgeM

    Das zweite von einem Google Mitarbeiter – http://www.youtube.com/watch?feature=player_embedded&v=6hSoXutuj0g

    Ich hoffe das hilft euch auch weiter.

    Timo Kühne am Feb 25, 2013

  22. Naja, content Klau ist immer auch in indirektes Kompliment ;-)

    App Programmierung am Mrz 21, 2013

  1. 4 Trackback(s)

  2. Feb 28, 2009: Urheberrecht - Plagiate erkennen und finden ist nicht einfach | Crazy Girls Tipps
  3. Mrz 1, 2009: Suchmaschinen & SEO - Februar 2009 - Inhouse SEO
  4. Nov 16, 2009: SEO-Sunday: Duplicate Content – Das ewige Thema « rankingCHECK Blog
  5. Jul 10, 2010: Urheberrecht – Plagiate erkennen und finden ist nicht einfach | Crazy Girls Tipps

Kommentar schreiben zu
“Duplicate Content Teil 2: Externer DC”