Website Snapshots mit WGet – Parameter

18. Mai 2008 | SEO Tools

Es kann von Zeit zu Zeit sinnvoll sein, navigierbare Screenshots (Snapshots) von Webseiten zu erstellen und offline verfügbar zu machen. Dies einerseits kann eigene Seiten betreffen, um z.B. ein Snapshot-Archiv anzulegen, um Änderungen von Releases nachvollziehen zu können. Andererseits wird man manchmal dazu gezwungen, zur Sicherung von Beweisen Konkurrenten oder Spam-Seiten offline sicherzustellen.

Ein gutes und weit verbreitetes Tool dafür ist WGet. WGet läuft in der Shell und benötigt daher einige Parameter, um einen funktionierenden Snapshot erstellen zu können. Es gibt eine Vielzahl von Konfigurationsmöglichkeiten, allerdings dürfte eine einzige für die meisten Vorfälle genügen.

WGet ist über GNU verfügbar, dort allerdings nur unkompiliert. Christopher Lewis stellt für faule Windows-User WGet als Zip-Datei und bereits kompiliert zur Verfügung. Nun hat man das Tool also ausgepackt, startet die Shell und kann loslegen.

Eine sehr ausführliche Parameter-Sammlung führt Pro-Linux vor. Hier kann man sich nach Herzenslust bedienen und seine eigene Snapshot-”Konfiguration” zusammenstellen. Um den ersten Start zu vereinfachen hier eine Auswahl an Optionen, die mir die sinnvollsten erscheinen und die ich eigentlich immer nutze, wenn ich einen Snapshot von einer Website mache.

wget -r -l1 -N -k -x http://whiteside-seo.de

Zur Erläuterung:

  • -r | Wget läuft rekursiv über die Website und speichert auch unterliegende Verzeichnisse oder externe Verzeichnisse, die verlinkt werden. Das ist natürlich hilfreich, wenn die Seite mit Verweisen gesnapt werden soll.
  • -lx | x steht hier für die Linktiefe (level), die wget während der rekursiven Abarbeitung verfolgt. In der Regel reicht hier 1 oder 2 (also -l2).
  • -N | Wget fügt dem gespeicherten Snapshot einen Timestamp an, sodass die zeitliche Einordnung nachträglich identifizierbar ist.
  • -x | Dieser Parameter bewirkt, dass Wget die Verzeichnisstruktur der Website so übernimmt, wie es sie vorfindet. Es gibt einen gegengerichteten Parameter -nd, der bewirkt, dass alle Daten in nur ein Verzeichnis umgeschrieben werden.
  • -k | Absolute Links werden in relative Links umgewandelt. Das ist natürlich sinnvoll, um die Website offline verfügbar zu machen. In manchen Fällen (z.B. zur Beweissicherung) ist es evtl. aber nötig, dies auszulassen.

Die Shell nachdem WGet ausgeführt wurde

WGet läuft in der Shell, bis der Auftrag abgearbeitet ist. Für jede betroffene Seite wird ein gleichnamiger Ordner im WGet-Verzeichnis angelegt. Falls die Seite externe Links hat, die innerhalb der Rekursionstiefe liegen, wird für diese ein separater Ordner erstellt. Das Herunterladen von externen Seiten (über absoluten Links) kann im Übrigen mit dem Parameter -L verhindert werden.

Für weitere Parameter lohnt es sich sicherlich, die Seite von Pro-Linux zu konsultieren.

Ich möchte mich im Übrigen davon distanzieren, WGet als rechtlich relevantes Mittel zur Beweissicherung vorzustellen. Ob das Tool für diese Funktion geeignet ist, kann ich nicht beurteilen (muss ich hoffentlich auch nicht). Es lohnt sich sicher aber in jedem Fall, in gewissen Fällen auch noch andere Methoden zu ergreifen (Google Cache, Website speichern o.ä.) und natürlich einen Anwalt zu Rate zu ziehen.

Abstimmen für Website Snapshots mit WGet – Parameter
1 SEO Stern2 SEO Sterne3 SEO Sterne4 SEO Sterne5 SEO Sterne (insg. 1 mal abgestimmt) Gefällt Dir der Beitrag?
Loading...Loading...
Website Snapshots mit WGet – Parameter weitersagen
 Mr. Wong  Webnews  Readster  Del.icio.us  Facebook
 Yahoo  Google
Anzeige
Werbung
Mehr Whiteside-SEO

Ähnliche Beiträge
  1. 4 Kommentare

  2. Klingt ja interessant. Kann man mit wget auch ein Screenshot von einer Webseite erstellen? Oder gibt es dafür wieder andere Programme?

    Webagentur am Aug 8, 2008

  3. ist ja witzig, ich such gerade nach Website Snapshots in Google und wo lande ich? Natürlich bei dir *lach*
    Mensch du rankst ja echt für alles, bin letztens schon mal in ner Recherche zufällig über deine Seite gestolpert ;) ..

    Mal wieder Grüße da lass!

    Fabian am Sep 26, 2009

  4. Lol, da wüsste ich aber was von, wenn ich für -alles- ranken würde :) Danke für die Grüße, die gehen zurück. Hoffe, der Beitrag hat Dir wenigstens geholfen.

    hannes am Sep 27, 2009

  1. 1 Trackback(s)

  2. Feb 15, 2009: Externer Duplicate Content, externer DC - WhiteSide SEO

Kommentar schreiben zu
“Website Snapshots mit WGet – Parameter”