automatisch pdfs runterladen?

Du suchst ein Programm für einen bestimmten Zweck?
Antworten
bruellaffe
Beiträge: 22
Registriert: 07.05.2011 11:25:16
Lizenz eigener Beiträge: MIT Lizenz

automatisch pdfs runterladen?

Beitrag von bruellaffe » 02.01.2012 04:41:27

Hallo Debianfreunde :)
Ich möchte automatisch pdfs runterladen die auf einer Webseite verlinkt sind die mehrmals die Woche aktualisiert wird:

http://www.paoweb.org/de/downloads/aktuelles2.html

Superklasse wäre es noch, wenn man die gleich, anhand von Teilen des Dateinamens, in verschiedene Ordner aufteilen könnte. Und das ganze auf Lenny :mrgreen:

Freue mich wenn jemand was empfehlen kann. Allen ein schönes 2012
Brüllaffe

pferdefreund
Beiträge: 3799
Registriert: 26.02.2009 14:35:56

Re: automatisch pdfs runterladen?

Beitrag von pferdefreund » 02.01.2012 10:41:43

Sollte mit wget und find -name diedatei* -exec in nem Script machbar sein

rendegast
Beiträge: 15041
Registriert: 27.02.2006 16:50:33
Lizenz eigener Beiträge: MIT Lizenz

Re: automatisch pdfs runterladen?

Beitrag von rendegast » 02.01.2012 10:43:24

Ein erster Ansatz wäre vielleicht

Code: Alles auswählen

$ wget -r -A pdf http://www.paoweb.org/de/downloads/aktuelles2.html
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")

bruellaffe
Beiträge: 22
Registriert: 07.05.2011 11:25:16
Lizenz eigener Beiträge: MIT Lizenz

Re: automatisch pdfs runterladen?

Beitrag von bruellaffe » 04.01.2012 04:09:03

Danke für die Tipps

debianoli
Beiträge: 4165
Registriert: 07.11.2007 13:58:49
Lizenz eigener Beiträge: MIT Lizenz

Re: automatisch pdfs runterladen?

Beitrag von debianoli » 04.01.2012 08:03:52


bruellaffe
Beiträge: 22
Registriert: 07.05.2011 11:25:16
Lizenz eigener Beiträge: MIT Lizenz

Re: automatisch pdfs runterladen?

Beitrag von bruellaffe » 22.01.2012 18:08:59

Okay, erst hatte ich mir diesen Befehl zusammen gestrickt:

Code: Alles auswählen

 wget -c -r -nc -A pdf --no-cookies --retry-connrefused  --no-parent http://www.paoweb.org/de/downloads/aktuelles_12_01.html
Das hab ich dann in meine Crontab eingtragen in der Hoffung, die neusten PDFs halt gleich auf den Rechner zu kriegen. Aber Just als ich fertig war, fiel denen ein, sie könnten ja ein web relaunch machen und jetzt wird die Seite anscheinend nicht mehr weiter gepflegt. Stattdessen gibt es: http://paoweb.org/channelings/neueste-channelings

Dort befinden sich die pdfs offensichtlich in einer anderen Verzeichnisstruktur; daher habe ich den Parameter

Code: Alles auswählen

--no-parent
entfernt. Der Vorteil ist dass so die pdfs gleich richtig geordnet sind. Auf der Konsole hat es so funktioniert; ich hoffe jetzt dass es per cronjob auch klappt.

Zu wünschen bliebe eine Funktion, die Sonderzeichen (wie leerzeichen etc) automatisch aus Dateinamen zu entfernen, um eine "echte" webtaugliche URL zu bekommen zum kopieren auf Windows etc. und vielleicht eine Möglichkeit, ein Datum in der Form YYYYMMDD in den Dateinamen einzufügen :)

Vielen Dank für eure Hilfe auf jeden Fall :)

Antworten