Duplicate Content Teil 3: DC vermeiden

23. Februar 2009 | SEO Gedanken

duplicate-content-vermeiden

So, Ihr habt lange genug gewartet und ich bin drumherum gekommen, über Karneval was zu schreiben, was eh keiner gelesen hätte. Danke vorab schon mal an Eurem Interesse an den beiden Teilen zuvor. Nun, da wir wissen, was interner DC und externer Duplicate Content ist, können wir direkt einsteigen und ihn verhindern.

Ich will mich wie in den Posts zuvor wieder einigermaßen auf WordPress beschränken, Ihr könnt Eure Erkenntnisse dann aber gerne und ganz Copyright frei auf Eure eigene Seite projizieren. Also ab auf das schwule lila Bildchen geklickt und los gehts. Der Beitrag ist übrigens extra so lang geworden, damit die, die meckern wollen beim Lesen die Lust dazu verlieren.

Internen DC vermeiden | DC in CMS | Externen DC vermeiden | Fazit

Internen Duplicate Content verhindern


Wir hatten etwas über gleiche Seiten durch URL-Verwirrung gelesen, , ebenso über ähnliche Seiten und sortierte Listen. Alle dies war bzgl. der Definition, wie wir sie Google in den Mund legen als DC deklariert worden. Diesen gilt es nun zu verhindern und wir haben einige Mittel, die wir nutzen können.

Noindex
Meiner Meinung nach ist Noindex das kolumbus’sche Ei der SEO. Alles, was Ihr Sch** findet, alles, was Euch nicht gefällt, alles, was Ihr wirklich für DC haltet – knallt ein schönes Pfund Noindex drauf. Das tolle: Links, die evtl. eingehen werden anteilig wenigstens weiter verteilt. Daher immer schön an die interne Verlinkung denken. Für WordPress gibt es da sehr schöne Tool, wie robots-meta von Joost oder All In One SEO.

Javascript/Ajax
Mit Javascript könnt Ihr wunderbar Links zu sortierten Listen, parametrisierten URLs und all so Zeug verstecken, das für Euren User sinnvoll ist, für den Bot aber DC darstellt. Ihr solltet allerdings hier Vorsicht walten lassen. Zuviel Ajax kann schnell der Crawlability schaden (dazu gibts demnächst noch was), und außerdem macht Google Fortschritte, selbst gescrambeltes Javascript zu erkennen und abzugehen (als hätten wir nicht genug Sorgen). Ein einfaches document.write nützt Euch da also leider nichts.

Robots.txt
Mit Eurer robots.txt solltet Ihr vorsichtig umgehen. Denkt immer daran: Alles, was Ihr mittels robots.txt aussperrt, wird vom Bot nicht mehr gefunden. Ihr könnt Euch also ganz schnell den Linksaft und auch die Crawlability abdrehen. Google findet die Seiten, die von robots.txt gesperrt sind natürlich, denn erst beim Aufrufen weiß der Bot, welche URL die Seite hat.

Grundsätzlich haben in der robots.txt daher keine Seiten etwas verloren, die potentiell verlinkt werden könnten. Einzelne Seiten freigeben könnt Ihr z.B. via Sitemap (Xing macht das ganz gut, da könnt Ihrs abgucken) oder Wildcards. Zur Prüfung empfehle ich aber unbedingt, im Google Webmastertools die Richtigkeit nachzuhalten, denn eigentlich sind die Wildcards (*) oder auch “allow” in der robots.txt nicht vorgesehen, die benötigt man aber öfter und sind sehr hiflreich.

Nofollow
Rel-nofollow ist absoluter Müll, um Duplicate Content zu reduzieren. Das einzige, was passiert, ist, dass Eure Links keinen Ankertext und keine Juice übergeben. Die Indexierung könnt Ihr mit nofollow nicht steuern. Schlagt Euch das aus dem Kopf. Etwas anderes ist meta-nofollow. Laut Definition sollen hier wirklich Links nicht abgegangen werden. Ich habe gerade keinen Test, glaube aber nicht, dass dem so ist.

Canonical-Tag
Ganz neu und toll: Das Canonical-Tag. Ich will hier keine Empfehlung geben, ob das was taugt, dazu ist es noch zu früh. Im Grunde finde ich den Tag für verschiedene Dinge ganz geeignet. Das hat vor allem mit dem Umleiten von Linkpower von Noindex-Seiten zu tun, die man nicht 301en kann. Ich denke allerdings, dass wir uns hüten sollten, einen zweiten nofollow- oder PageRank-Sculpting-Hype auszulösen. Das Tag ist zu aufwändig, als dass es wirklich sinnvoll eingesetzt werden könnte. Dass es da unterschiedliche Meinungen gibt, brauche ich aber wohl nicht sagen. Testen ist angesagt. Vor allem aber gilt:

Legt eure Seitenstruktur weise und profund fest, dann braucht Ihr weder Sculpting noch Canonical

(Tracking per) URL-Parameter vermeiden
Oftmals passiert im Web folgendes: Marketing Manager möchte Werbung machen, startet Affiliate-Programm und freut sich über die gleichzeitig eingehenden Links. Schade nur, dass die zum Tracking alle internen DC erzeugen, weil sie mit Parameter ausgeliefert werden (z.B. domain.de?afflink=123). Es gibt hier verschiedene Lösungen: Cookies einsetzen und damit tracken, die Parameter noindex setzen oder einfach nicht tracken.

SEOmoz zeigte letzte Woche noch eine feine Idee:  Hash (Raute) anstatt ?-Parameter benutzen (also domain.de#afflink=123). Wen das näher interessiert: Hier gibts das Whiteboard-Friday-Video und einen nettes Shopbeispiel, wie man Paginierung eben mit # darstellen kann (freut Euch, es ist ein Unterwäsche-Shop). Der Clou: # wird von Google nicht bewertet und all die nette Linkpower fließt der Originalseite zu.

Probleme gibts aber auch, die sind im SEOmoz-Post nachzulesen. Achtung: Wenn Ihr mit den Paginierungen Detailseiten zugänglich machen wollt, passt auf, dass nicht zuviele Links auf einer Seite stehen (die Menge müsst Ihr selbst rausfinden, dieses Blog dürfte ca. 100 vertragen). Der Beispiel-Shop hate keine Details und fährt daher sehr gut mit dem Programm. Generelle Infos zu Tracking und URLs gibt’s dann noch schön bei janeandrobot.com.

Nun, Mittel sind eines, ein paar Beispiele sind natürlich viel viel cooler. Also los.

Kategoriensystematik in WordPress
Nun, ich hatte das kurz bereits angesprochen. Auch in SEO-Blogs sieht man häufig immer die gleichen Systematiken: Navigation bzw. Zugänglichmachung der Detailseiten via: Tags, Autoren-Archive, Kategorienarchive, Datumsarchive. Was wir aus der Fingerprint-Systematik, die Sasa beschreibt (genauer weiter unten) ist, dass ein Teaser fast so gut ist, wie eine Detailseite. Umso unverständlicher ist es für mich, das Ganze Gerödel an Kategorien und Tags un allem drum und dran auch noch indexieren zu lassen.

Mit noindex wäre das doch so einfach zu umgehen und schließlich sind ja die Detailseiten das, was wichtig sein sollte, die irgendeine Kategorie. Richtig schwieirg finde ich in diesem Zusammenhang dann Systeme oder Plugins, die automatisch Buzzwords auf Tag-Seiten verlinken.. Furchtbar. Nur um das klarzustellen: Es gibt mit Sicherheit gute Gründe, dies oder das indexieren zu lassen, in manchen Fällen können Kategorien sicher auch besser funktionieren als Details. Was allerdings sehr sorgfältig geprüft werden muss, ist der Einsatz mehrere dieser Archive gleichzeitig. Das gleiche gilt im Übrigen auch für indexierbare (Full)feeds.

Vor allem die Indexierung von Tag-Seiten solltet Ihr genau prüfen. Ich habe im Durchschnitt 4-6 Tags pro Beitrag. Das heißt, ich würde (wenn ich jeden Beitrag neu vertagge) potentiell 5 neue Seiten pro Beitrag in den Index kippen. Das ist zuviel.

Doppelte URLs, Parameter
Lasst Eure Suchseiten nicht indexieren und leitet Eure Seite meinblog.de?s= auf Eure Hauptseite um, denn Google drückt mit Sicherheit mal einen Button. Achtet vor allem aber auchdarauf, dass Ihr Eure Beiträge korrekt anlegt. Ein großes Problem von WordPress ist es, dass jeder Beitrag in jeder Kategorie aufrufbar ist. Das macht Euch potentiell von außen angreifbar. Vielleicht bekommt Ihr das mit einer schönen regulären Expression in den Griff.

Wenn Ihr einen Beitrag umzieht, oder generell Eure Kategoriensystematik ändern wollt, solltet Ihr in jedem Fall ein Plugin wie Redirection verwenden. Es gilt aber immer (bei SEO und bei Frauen): Vorher überlegen, denn ein 301 kann Euch die Power, die Ihr auf dem Original habt nie ganz zurückgeben.

Duplicate Content in CMS-(Systemen)


Ich muss diesem Punkt einfach eine kleine Rubrik gönnen. Sasa Ebach hat nämlich auf akademie.de ein super Skript, das die Qualität dieses Blogbeitrages mit Sicherheit übersteigt online gestellt. Es geht im Grunde genau um das, was Ihr in den Zeilen zuvor gelesen habt, allerdings mit Fokus auf CMS. Sasa hat sich lange damit beschäftigt und seine Erfahrungen vor allem mit DC in seinem Skript gebündelt. Sehr lesenswert, vor allem auch, wenn Ihr mir hier nicht glaubt und Ihr Euch noch eine zweite Meinung einholen wollt.

Er geht hier auch auf die Problematiken mit Fingerprint bei Teasering (Anreißer) ein, die wir im Tag/Archiv/Kategoriensystem von WordPress kennen, aber auch auf Nachrichtenseiten (eigentlich überall) zum Einsatz kommen. Also nochmal: Absolute Leseempfehlung.

Externen Duplicate Content verhindern


Externen DC zu vermeiden ist ungleich schwieriger, als internen DC zu beeinflussen, da zumeist Euer Einfluss auf die Seite, die den externen Duplicate Content bereitstellt außerhalb Eures Einflussbereiches liegt. Dennoch kann man mit ein paar grundlegenden und einfachen Regeln gut vorarbeiten, um Duplicate Content in vielen Fällen bereits vor der Entstehung wirksam zu vermeiden.

Kooperationen organisieren
Kooperationspartner, die Euren Content aufgrund von was auch immer ausspielen (Content-Tausch, Abspielfläche, Verkauf etc.) sollten den Content mindestens auf noindex setzen. Wenn ein Ausschluss des Crawlings durch die robots.txt machbar ist, sollte auch das getan werden. Externe Kooperationen können gefährlich sein, was DC angeht. Ihr solltet bereits beim Denken daran ganz heftig mit der noindex-Fahne wedeln.

Unique Content
Beispiel: DPA-Meldungen. Wie oft lest Ihr im Netz das Gleiche. Und mit Sicherheit möchte jeder dieser Publisher im Netz gefunden werden. Da hilft aber meistens und leider nur eins: Wenn Ihr nicht absolut am Schnellsten publizieren könnt, dann müsst Ihr wohl oder übel auf echte redaktionell Mittel zurückgreifen und den Text verändern (omg! copy&paste geht nicht mehr??)

Fingerprints
Was intern bei Kategorie-Listen möglich ist, das kann natürlich auch extern passieren. Da ist es meist nur schlimmer, da sich Google den Besitzer des ursprünglichen Fingerprints selbst aussucht. Was hier hilft ist nur Unique Content. Wenn Ihr teilweise duplizierten Content habt, verändert ihn, wenn es Eure Zeit zulässt und Ihr einen positiven ROI erwartet. Wenn beides nicht zutrifft, macht Eure Seite dicht und überlegt Euch eine neue Aufgabe für Euren Webserver.

Content-Klau und Domain-Spiegelung
Ich will mich hier nicht groß aufhalten. Torsten Maue hat da einen guten Beitrag geschrieben. Wenn Ihr Content gestohlen bekommt (Bilder oder Text) ist es natürlich immer sinnvoll, absolute Links zu setzen und auch, ein Copyright einzusetzen. Und, wenn es geht – natürlich weitere Schritte einzuleiten. Vor allem, wenn Eure komplette Seite gespiegelt wird, ist es immer gut, absolute URLs zu haben, so kommen wenigstens die Klicks, die die User auf der Fake-Seite produzieren wieder zu Euch zurück.

Fazit


Wie Ihr seht, ist Noindex wirklich einer meiner Lieblinge. Das Meta ist ein mächtiges Werkzeug, wenn man es richtig einsetzt. Es gibt mit Sicherheit noch weitere Möglichkeiten, DC zu vermeiden, vielleicht habe ich auch eine echt wichtige vergesse.

Ihr dürft daher gerne und fleißig kommentieren (sofern Ihr es bis hierher geschafft habt, durchzuhalten).

Merke also: Nur nicht indexierter Duplicate Content ist guter Duplicate Content.

Mehr zum Thema Duplicate Content auf Whiteside

Abstimmen für Duplicate Content Teil 3: DC vermeiden
1 SEO Stern2 SEO Sterne3 SEO Sterne4 SEO Sterne5 SEO Sterne (insg. 6 mal abgestimmt) Gefällt Dir der Beitrag?
Loading ... Loading ...
Duplicate Content Teil 3: DC vermeiden weitersagen
 Mr. Wong  Webnews  Readster  Del.icio.us  Facebook
 Yahoo  Google
Anzeige
Mehr Whiteside-SEO

Ähnliche Beiträge
  1. 21 Kommentare

  2. Nun, ich bin ein Freund von einer Tag & Kategoriennavigation. Die eine ist thematisch organisiert, die andere meist auf Facetten. Und beides kann sehr gut ranken. Man sollte halt systematisch vorgehen und die Paginierungen raushauen. Dann funktioniert es wunderbar und bringt wirklich sehr viel Traffic. Also, bitte immer eine Version der Navi auf noindex setzen, ich nehme den Traffic nämlich gerne ;-)

    jens am Mrz 1, 2009

  3. Zu Canonical: Auch Matt Cutts sagt, dass es immer besser ist, wenn es erst gar nicht zu DC kommt, bzw. wenn es “upstream” möglich ist, das System so zu programmieren, dass ein Einsatz von Canonical gar nicht notwendig ist.

    Canonical Link Element

    Duplicate content for SEO and SEO for duplicate content von Michael Martinez ist auch noch sehr gut und ausführlich.

    Viele Grüße
    Sasa

    PS: Sehe deine Beiträge auch immer erst, wenn sie bei SEOIgg auftauchen. Muss direkt mal abonnieren.

    Sasa Ebach am Mrz 1, 2009

  4. Jens, klar, Tags können auch gut ranken, Suchen auch wenn du sie lässt. Es kommt natürlich immer drauf an. Problematisch ist es eben wirklich, wenn Du pro Beitrag viele Tags hast und die Tags nicht wirklich methodisch setzt. Paginierung geb ich Dir aber auf jeden Fall recht, die sollte auch bei Kategorien auf NOINDEX.

    Sasa, das ist schön, danke :), bei SEOigg dauerts manchmal eben bisschen länger, bis ich da durchkomme. Das Video muss ich mir mal in Ruhe ansehen, ich halte mich mit meiner Einschätzung was Canonical angeht aber nach wie vor eher zurück. Der Beitrag von Martinez ist wirklich gut, danke dafür.

    hannes am Mrz 2, 2009

  5. Sehr schöner Dreiteiler. Wunderbar…

    Paul am Mrz 9, 2009

  6. Das “DC-Problem” mal scharf und klar beleuchtet – besten Dank im Namen der SEO-Gemeinde!

    KÖLN | DIALOG am Jul 22, 2009

  7. DC lässt sich am besten vermeiden, indem man selbst schreibt. Auch beim Umformulieren von vorhandenen Texten ist es bei mir laut Copyscape noch nie zu DC gekommen.

    Steve am Aug 26, 2009

  8. Guter Beitrag – hat etwas Licht ins Dunkel gebracht

    Oliver am Sep 23, 2009

  9. Ich habe es bis zum Ende gschafft. Mir fällt auch nichts mehr ein.

    Danke!

    Keyword gelöscht am Sep 24, 2009

  10. Ich finde auch das noindex das Beste Mittel ist, doch wenn man ein CMS benutzt, dann wird es schwer die Metas zu verändern. Gut für WordPress gibt es WpSEO, dass seinen Dienst auch gut macht aber bei anderen CMS oder gar Foren sieht es da schlecht aus.

    Ideal wäre es, wenn man noindex in der Robots.txt setzen könnte. Das würde vieles vereinfachen.

    Matthias am Dez 2, 2009

  11. Danke für die vielen nützlichen Tipps.
    Erwähnenswert erscheint mir noch, dass etwa die Google-Webmastertools Optionen bieten, um bestimmte Parameter vom Google-Bot ignorieren zu lassen. Das ersetzt natürlich nicht die On-Page-Optimierung.

    ingo am Apr 26, 2010

  12. Ich persönlich nutze für WordPress All-in-one-Seo als Plugin und habe alles außer der Startseite und den jeweiligen Posts/Pages auf Noindex gesetzt. Ein weiterer ganz interessanter Ansatz, der bei Blogs mit sehr vielen Posts auch gut funktioniert, nur leider nicht gerade schön aussieht, ist es alle Posts auf Tag-/Category-/Navigationsseiten durch Excerpts zu ersetzen. Diese dann natürlich eher kurz gehalten. Nutzerfreundlich wäre das aber nicht unbedingt.

    Florian am Jun 17, 2010

  13. All-in-one-Seo Pluginn für WordPress ist sehr zu empfehlen. Nicht zuletzt ist es im Gegensatz zu anderen Plugins auch gut für die meisten Redaktuere zu benutzen, die jetzt nicht Vollprofis sind.

    tom am Jul 18, 2010

  14. Wie Ihr seht, ist Noindex wirklich einer meiner Lieblinge. Das Meta ist ein mächtiges Werkzeug, wenn man es richtig einsetzt. Es gibt mit Sicherheit noch weitere Möglichkeiten, DC zu vermeiden, vielleicht habe ich auch eine echt wichtige vergesse.

    Bei mir ist es Canonical. Ganz einfach weil die Noindex Seite nicht ranken soll. Warum soll ich “anteilig” etwas vererben, wenn ich doch auch die ganze Power in einem Link bündeln kann ;)

    Hab meine eigene Duplicate Content Meinung grad bei mir “publiziert”. Fall dich die Algorithmen zur Erkennung ein wenig interessieren kannst du mal unter http://www.mywebsolution.de/artikel/20/show_Unique-und-Duplicate-Content.html reinschauen :)

    Grüße
    Pascal

    Pascal am Dez 6, 2010

  15. Duplicate Content ist wie hier so passend beschrieben ein wichtiges Thema und ist in Sachen SEO immer einer der ersten Punkte, um die man sich kümmern sollte. Meine Erfahrung ist, dass die meisten Seiten sich danach recht schnell in der Positionierung verbessern.

    LIQUID-ARTWORK - Lars Scheumann am Dez 29, 2010

  16. Sehr hilfreicher Beitrag.

    Aber wie leite ich korrekt die URL meinblog.de?s= auf meine Startseite um mit htaccess?

    Besteht nicht die gefahr dass dann alle Suchanfragen umgeleitet werden?

    Gruss Martin

    Martin am Mrz 21, 2011

  17. ich habe mir gerade wpSEO und All in one SEO Plugins für WordPress angeschaut, da ich so eine SEO-Erweiterung benötige. wpSEO ist aber nicht ganz billig, möchte man das Plugin für mehrere Webseiten hernehmen, All in one SEO dagegen kostenlos.

    Spielt es eine große Rolle, ob ich nun wp SEO kaufe oder mir All in one SEO kostenfrei installiere?

    Christoph am Aug 13, 2011

  18. sehr hilfreich!
    Danke

    Johannes am Mai 18, 2012

  19. Hey Hannes,

    Guter ausführlicher Artikel, hab ich Kunden weitergeleitet um ihn zu informieren.

    Aber hast du das hier schon gelesen :)
    http://dejanseo.com.au/hijacked/

    Auf jeden Fall krass, wie einfach sich Google doch austricksen lässt. Ist aber denke ich, erst recht nach der Veröffentlichung, nur eine Frage der Zeit, bis das gefixed wird.

    Ansonsten ist das sehr mies für all die kleinen Blogger. Wie war das nochmal mit “don’t be evil”?!

    Jet am Apr 29, 2013

  1. 3 Trackback(s)

  2. Mrz 2, 2009: duplicate content verhindern mit canonical | SEO Blog
  3. Mrz 3, 2009: datenschmutz.net
  4. Jan 10, 2010: Wo wir Inhouse-SEOs in 2010 reden… - Inhouse SEO

Kommentar schreiben zu
“Duplicate Content Teil 3: DC vermeiden”