wget - html Dateien herunterladen trotz 403

Einrichten des lokalen Netzes, Verbindung zu anderen Computern und Diensten.
Antworten
azerty
Beiträge: 965
Registriert: 15.02.2007 20:18:17

wget - html Dateien herunterladen trotz 403

Beitrag von azerty » 06.10.2009 00:08:48

Hallo

Ich möchte von einer Webseite eine relativ große Anzahl im HTML-Format gespeicherter Artikel herunterladen um diese auch offline lesen zu können. Die Artikel sind einzeln (mit klick-orgien) herunterladbar, allerdings habe ich keine Lust das mit hunderten Artikeln zu tun. Daher habe es mit wget (und dem tipp im wiki) probiert und so eingerichtet dass er alles was sich im verzeichnis library befindet runterladet, allerdings kommt dann 403, Forbidden.

Code: Alles auswählen

$ wget -r -l1 -A html www.domain.com/library/ 
--2009-10-05 23:59:55--  http://www.domain.com.com/library/
Resolving www.domain.com.com... xxx.xxx.xxx.xxx
Connecting to www.domain.com.com|xxx.xxx.xxx.xxx:80... connected.
HTTP request sent, awaiting response... 403 Forbidden
2009-10-05 23:59:56 ERROR 403: Forbidden.

Wie kann ich das umgehen, ich habe echt nicht die Nerven hunderte mal klicken zu müssen?

Danke für eure Hilfe im voraus!
.


nepos
Beiträge: 5238
Registriert: 05.01.2005 10:08:12

Re: wget - html Dateien herunterladen trotz 403

Beitrag von nepos » 06.10.2009 09:13:23

Einmal die Manpage von wget lesen würde auch helfen:
--user=user
--password=password
Specify the username user and password password for both FTP and HTTP file retrieval. These parameters can be overridden using the --ftp-user and --ftp-password options for FTP connections and the --http-user and --http-password options for HTTP connections.

azerty
Beiträge: 965
Registriert: 15.02.2007 20:18:17

Re: wget - html Dateien herunterladen trotz 403

Beitrag von azerty » 06.10.2009 12:06:41

Danke euch!
.

Benutzeravatar
smurffit
Beiträge: 164
Registriert: 22.08.2008 15:47:46
Lizenz eigener Beiträge: MIT Lizenz

Re: wget - html Dateien herunterladen trotz 403

Beitrag von smurffit » 06.10.2009 14:27:33

Manchmla werden auch bestimmte Clients gesperrt, in dem Fall hilft das:

Code: Alles auswählen

wget -U Mozilla

azerty
Beiträge: 965
Registriert: 15.02.2007 20:18:17

Re: wget - html Dateien herunterladen trotz 403

Beitrag von azerty » 01.11.2009 11:28:02

Hey

Ich versuche gerade wieder eine Website (Artikel, Texte) komplett zum offline-lesen herunterzuladen, ich verwende hierzu

Code: Alles auswählen

$: wget -m -k www.example.com
Allerdings lädt er dann nur eine einzelne index.html herunter und ignoriert alles anderes.
Es erscheint keine Fehlermeldung etc., er lädt einfach nur die index.html runter und dann fertig.

Was tun?
.

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 22455
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: wget - html Dateien herunterladen trotz 403

Beitrag von KBDCALLS » 01.11.2009 12:13:22

So könnte es gehen

Man lädt die Indexdatei erst herunter.

Beispiel: Als erster Schritt

Code: Alles auswählen

wget http://standards.ieee.org/regauth/oui/index.shtml 
Als zweiter Schritt

Code: Alles auswählen

wget -F -i /home/matthias/dm-2/.dl/standards.ieee.org/regauth/oui/index.shtml
Das passiert auf der Seite

Code: Alles auswählen

matthias@svetlana:~$ wget --spider http://standards.ieee.org/regauth/oui/index.shtml
Spider-Modus eingeschaltet.  Prüfe ob die Datei auf dem Server existiert.
--2009-11-01 12:10:30--  http://standards.ieee.org/regauth/oui/index.shtml
Auflösen des Hostnamen »standards.ieee.org«.... 140.98.193.16
Verbindungsaufbau zu standards.ieee.org|140.98.193.16|:80... verbunden.
HTTP Anforderung gesendet, warte auf Antwort... 200 OK
Länge: 22290 (22K) [text/html]
Datei auf dem Server existiert und könnte weitere Links enthalten,
aber Rekursion ist abgeschaltet -- kein Download.
Umwandlung von »/home/matthias/dm-2/.dl/standards.ieee.org/regauth/oui/index.shtml«... 3-0
1 Dateien in 0,001 Sekunden konvertiert.
matthias@svetlana:~$                                                                          
Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

Antworten