Hallo zusammen,
folgendes Problem: Ich warte auf eine Bekanntgabe von Informationen in einem PDF, das unter der URL xyz liegt. Wenn die Infos da sind, dann wird das PDF auf dem Server einfach bearbeitet. Daher will ich folgendes machen:
Einen Cronjob schreiben, der jede Minute das PDF runterlädt und mit der aktuellen Checksumme vergleicht.
Folgendes ist mein Plan:
vorab einmal das PDF runterladen und per md5sum x.pdf >> md5summe.dat abspeichern
1.) Download des PDFs mit wget
2.) gegencheck mit der md5summe.dat, also: md5sum --check md5summe.dat
Wenn nun das Dokument sich geändert hat, dann meldet das md5sum. Die Ausgabe auf stdout beinhaltet z.B. das Wort "Warnung".
Wie kann ich nun aus der Ausgabe von md5sum das "Warnung" rauslesen, also checken, ob Warnung drin vorkommt? Wenn ich das machen könnte könnte ich einfach das PDF anzeigen lassen um mich drauf aufmerksam zu machen.
Danke für Tipps,
chris
Datei auf Änderung überprüfen
Vielleicht brauchst du das Ding nicht immer runterladen, wenn der Server ein vernünftigen HTTP-Modified-Header liefert...
würde einen Hash liefern. Kannst aber auch einfach
benutzen
Code: Alles auswählen
wget -S --spider http://www.google.de 2>&1 | grep -E '^\W*Date' | sed 's/^\W*Date: //' | md5sum | awk '{ print $1 }'
Code: Alles auswählen
wget -S --spider http://www.google.de 2>&1 | grep -E '^\W*Date' | sed 's/^\W*Date: //'
Man braucht dafür auch nicht einmal ein Shellskript, weil wget das auch alles selbst kann.
Mehr Info dazu im Info Manual oder auch hier.info wget hat geschrieben: `-N'
`--timestamping'
Turn on time-stamping. *Note Time-Stamping::, for details.