Hallo Debianfreunde
Ich möchte automatisch pdfs runterladen die auf einer Webseite verlinkt sind die mehrmals die Woche aktualisiert wird:
http://www.paoweb.org/de/downloads/aktuelles2.html
Superklasse wäre es noch, wenn man die gleich, anhand von Teilen des Dateinamens, in verschiedene Ordner aufteilen könnte. Und das ganze auf Lenny
Freue mich wenn jemand was empfehlen kann. Allen ein schönes 2012
Brüllaffe
automatisch pdfs runterladen?
-
- Beiträge: 22
- Registriert: 07.05.2011 11:25:16
- Lizenz eigener Beiträge: MIT Lizenz
-
- Beiträge: 3799
- Registriert: 26.02.2009 14:35:56
Re: automatisch pdfs runterladen?
Sollte mit wget und find -name diedatei* -exec in nem Script machbar sein
Re: automatisch pdfs runterladen?
Ein erster Ansatz wäre vielleicht
Code: Alles auswählen
$ wget -r -A pdf http://www.paoweb.org/de/downloads/aktuelles2.html
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")
-
- Beiträge: 22
- Registriert: 07.05.2011 11:25:16
- Lizenz eigener Beiträge: MIT Lizenz
Re: automatisch pdfs runterladen?
Danke für die Tipps
-
- Beiträge: 22
- Registriert: 07.05.2011 11:25:16
- Lizenz eigener Beiträge: MIT Lizenz
Re: automatisch pdfs runterladen?
Okay, erst hatte ich mir diesen Befehl zusammen gestrickt:
Das hab ich dann in meine Crontab eingtragen in der Hoffung, die neusten PDFs halt gleich auf den Rechner zu kriegen. Aber Just als ich fertig war, fiel denen ein, sie könnten ja ein web relaunch machen und jetzt wird die Seite anscheinend nicht mehr weiter gepflegt. Stattdessen gibt es: http://paoweb.org/channelings/neueste-channelings
Dort befinden sich die pdfs offensichtlich in einer anderen Verzeichnisstruktur; daher habe ich den Parameter entfernt. Der Vorteil ist dass so die pdfs gleich richtig geordnet sind. Auf der Konsole hat es so funktioniert; ich hoffe jetzt dass es per cronjob auch klappt.
Zu wünschen bliebe eine Funktion, die Sonderzeichen (wie leerzeichen etc) automatisch aus Dateinamen zu entfernen, um eine "echte" webtaugliche URL zu bekommen zum kopieren auf Windows etc. und vielleicht eine Möglichkeit, ein Datum in der Form YYYYMMDD in den Dateinamen einzufügen
Vielen Dank für eure Hilfe auf jeden Fall
Code: Alles auswählen
wget -c -r -nc -A pdf --no-cookies --retry-connrefused --no-parent http://www.paoweb.org/de/downloads/aktuelles_12_01.html
Dort befinden sich die pdfs offensichtlich in einer anderen Verzeichnisstruktur; daher habe ich den Parameter
Code: Alles auswählen
--no-parent
Zu wünschen bliebe eine Funktion, die Sonderzeichen (wie leerzeichen etc) automatisch aus Dateinamen zu entfernen, um eine "echte" webtaugliche URL zu bekommen zum kopieren auf Windows etc. und vielleicht eine Möglichkeit, ein Datum in der Form YYYYMMDD in den Dateinamen einzufügen
Vielen Dank für eure Hilfe auf jeden Fall