PDFs inhaltlich vergleichen

Du suchst ein Programm für einen bestimmten Zweck?
Antworten
Benutzeravatar
Stefan.K
Beiträge: 148
Registriert: 06.03.2003 10:49:06
Wohnort: Schweiz
Kontaktdaten:

PDFs inhaltlich vergleichen

Beitrag von Stefan.K » 05.11.2007 08:33:50

Hallo,
gibt es unter Linux ein Programm mit dem ich PDFs vergleichen kann, ähnlich der Funktion im Acrobat Professional?

Grüsse,
Stefan
Ubuntu Gutsy Gibbon, 2.6.20

Zonk
Beiträge: 70
Registriert: 27.09.2005 11:00:31
Kontaktdaten:

Beitrag von Zonk » 05.11.2007 11:48:30

Hm ich wüsste kein fertiges Tool, aber du könntest mit ghostscript das PDF in lauter Bilder umwandeln lassen, und dann sitenweise die Bilder vergleichen, mit einem Tool, das einen Ahnlichkeitswert für Bilder berechnen kann. Dann musst du dir nur noch einen geeigneten Schwellwert überlegen.

Viele Grüße, Zonk
Who believes to be has stopped to become

cosmac
Beiträge: 4576
Registriert: 28.03.2005 22:24:30

Beitrag von cosmac » 05.11.2007 12:18:52

hi,

ein Spezialtool kenn' ich auch nicht, aber praktisch das Gegenteil
vom optischen Vergleich: mit pdftotext jeweils den reinen Text
aus den PDFs extrahieren und wortweise mit wdiff vergleichen.

Bei sehr einfachen PDFs geht evt. auch die Option -layout und
ein Vergleich mit diff.

pdftotext gibt's wahlweise im Paket xpdf-utils oder im neueren
poppler-utils.
Beware of programmers who carry screwdrivers.

roli
Beiträge: 3174
Registriert: 10.09.2003 17:39:58

Beitrag von roli » 05.11.2007 13:35:08

Hi,
Zonk hat geschrieben:Hm ich wüsste kein fertiges Tool, aber du könntest mit ghostscript das PDF in lauter Bilder umwandeln lassen, und dann sitenweise die Bilder vergleichen, mit einem Tool, das einen Ahnlichkeitswert für Bilder berechnen kann. Dann musst du dir nur noch einen geeigneten Schwellwert überlegen.
wenn du's wirklich so machen moechtest, dann schau dir mal Methods of Comparing Images an. Allerdings wirst du dann auch gleich diff oder cmp nutzen können, du bekommst zwar eine Aussage darüber das sich was geaendert hat, aber was genau ist mir noch nie gelungen bei solchen Differenzbildern.
Der Ansatz ueber pdftotext ist in meinen Augen der bessere, von den beiden.
Roland


"Aber wenn du schon so unwissend bist, davon noch nicht gehört zu haben,
so will ich es doch als gut ansehen, daß du lieber einmal töricht fragst,
als weiterhin nichts von etwas zu wissen, das man doch wissen sollte."
aus "Die Edda des Snorri Sturluson", "Gylfis Täuschung"

Antworten