wget - Nur die Startseite

Warum Debian und/oder eine seiner Spielarten? Was muss ich vorher wissen? Wo geht es nach der Installation weiter?
Antworten
Hosenknopf
Beiträge: 105
Registriert: 28.09.2003 11:04:43
Wohnort: Hannover

wget - Nur die Startseite

Beitrag von Hosenknopf » 07.02.2008 10:28:45

Hi,

ist es möglich mit wget nur die Startseite (incl. Bilder und co) herunterzuladen? Wenn ich zum Beispiel bei meinem Safari im Activity Fenster schaue und http://www.debianforum.de lade, dann bekomme ich 26 Items. Hintergrund ist, ich möchte wissen wie groß die Startseite genau ist, da dachte ich wäre wget mein Freund. Ich brauche das unbedingt das unbedingt in einer Shell, ein GUI Tool bringt mir leider nix.

Mir ist es bislang leider nicht gelungen genau diese 26 Items mit wget herunterzuladen.

Kennt jemant ne Möglichkeit? Oder auch anderes Tool mit dem dieses möglich ist?

thx
Hosenknopf

Benutzeravatar
markus_b
Beiträge: 355
Registriert: 26.01.2006 04:57:18
Lizenz eigener Beiträge: MIT Lizenz

Beitrag von markus_b » 07.02.2008 14:17:39

Mit wget ist fast alles möglich :wink:
Lies mal die Anleitung unter info wget, da steht sowas drin.

Als Tipp: Du suchst wahrscheinlich die --page-requisites Option.

Hosenknopf
Beiträge: 105
Registriert: 28.09.2003 11:04:43
Wohnort: Hannover

Beitrag von Hosenknopf » 07.02.2008 14:43:01

Den Abschnitt hab ich bereits gelesen aber dennoch ist es mir nicht gelungen die 26 Items zu bekommen, wenn du weist wie, dann verrat es mir ;-)

jgeiss

Beitrag von jgeiss » 07.02.2008 16:18:08

Vielleicht klappt es mit

Code: Alles auswählen

wget -r -l 2 <URL>
Bye
Johannes

goecke
Beiträge: 289
Registriert: 12.01.2007 11:57:27

Beitrag von goecke » 07.02.2008 16:24:23

Hosenknopf hat geschrieben:Den Abschnitt hab ich bereits gelesen aber dennoch ist es mir nicht gelungen die 26 Items zu bekommen, wenn du weist wie, dann verrat es mir ;-)
vielleicht ist das vom Seitenbetreiber nicht gewünscht ?

=> http://www.google.de/search?hl=de&q=robots.txt
=> http://www.delorie.com/gnu/docs/wget/wget_41.html

HTH
Johannes

Hosenknopf
Beiträge: 105
Registriert: 28.09.2003 11:04:43
Wohnort: Hannover

Beitrag von Hosenknopf » 08.02.2008 08:27:40

Ne ich hab das auch schon getestet mit Webseiten, wo ich 100% weiss, dass es keine robots.txt gibt. Naja wenn bislang noch keiner "die" Lösung hatte, ist doch kein so einfaches Problem :)

Benutzeravatar
markus_b
Beiträge: 355
Registriert: 26.01.2006 04:57:18
Lizenz eigener Beiträge: MIT Lizenz

Beitrag von markus_b » 08.02.2008 09:15:06

Also bei debianforum.de liegt es wirklich an der robots.txt.
Wenn du die abschaltest, dann bekommst du die ganze Seite:

Code: Alles auswählen

wget -e robots=off --page-requisites http://www.debianforum.de/

Hosenknopf
Beiträge: 105
Registriert: 28.09.2003 11:04:43
Wohnort: Hannover

Beitrag von Hosenknopf » 08.02.2008 09:29:06

ne 100% ist das nicht.

Es sind 26 Items, mit deinem Vorschlag bekomme ich aber nur 21 heruntergeladen.

Antworten