PDF-Dateien mit äquivalentem Inhalt finden

Du suchst ein Programm für einen bestimmten Zweck?
Antworten
Benutzeravatar
Accelerometer
Beiträge: 168
Registriert: 31.01.2009 17:03:13
Lizenz eigener Beiträge: GNU Free Documentation License

PDF-Dateien mit äquivalentem Inhalt finden

Beitrag von Accelerometer » 10.03.2009 10:26:56

Hallo!

Ich suche ein Programm, mit dem ich PDF-Dateien mit gleichem Inhalt finden kann.

Mein erster Gedanke war fdupes/md5sum zu verwenden, blöderweise sind die Dateien trotz gleichen Inhalts nicht Byte-für-Byte gleich (Meta-Informationen wie der Titel sind z.B. anders).

Ich bräuchte also etwas, das nur den Inhalt vergleicht. Nur gleicher Text sollte in meinem Fall reichen.

Grüsse
Das Accelerometer.
"Ich bin ein Gegner der Religion. Sie lehrt uns, damit zufrieden zu sein, dass wir die Welt nicht verstehen."
-- Richard Dawkins, "Der Gotteswahn"

Methusalix

Re: PDF-Dateien mit äquivalentem Inhalt finden

Beitrag von Methusalix » 11.03.2009 00:55:53

Hallo,

Du kannst die Datei zunächst mit:

Code: Alles auswählen

pdftotext -layout datei.pdf datei.txt
wandeln und diese dann nach Bedarf analysieren.
Gruß
Matthias

Benutzeravatar
Accelerometer
Beiträge: 168
Registriert: 31.01.2009 17:03:13
Lizenz eigener Beiträge: GNU Free Documentation License

Re: PDF-Dateien mit äquivalentem Inhalt finden

Beitrag von Accelerometer » 11.03.2009 17:45:09

Ok, so weit war ich auch schon :)
"Ich bin ein Gegner der Religion. Sie lehrt uns, damit zufrieden zu sein, dass wir die Welt nicht verstehen."
-- Richard Dawkins, "Der Gotteswahn"

roli
Beiträge: 3174
Registriert: 10.09.2003 17:39:58

Re: PDF-Dateien mit äquivalentem Inhalt finden

Beitrag von roli » 11.03.2009 18:46:41

Hi,

ich habe auchmal sowas gesucht, bin aber immer nur auf Windows Bezahlware gestossen, fuer Linux habe ich auch nichts gefunden.
Roland


"Aber wenn du schon so unwissend bist, davon noch nicht gehört zu haben,
so will ich es doch als gut ansehen, daß du lieber einmal töricht fragst,
als weiterhin nichts von etwas zu wissen, das man doch wissen sollte."
aus "Die Edda des Snorri Sturluson", "Gylfis Täuschung"

Methusalix

Re: PDF-Dateien mit äquivalentem Inhalt finden

Beitrag von Methusalix » 12.03.2009 00:44:30

Hallo,
Ok, so weit war ich auch schon :)
Das ist schön aber erst mal nur die Voraussetzung für den Textvergleich.
Hat Dich das denn bei Deiner Problemlösung weitergebracht?
Gruß
Matthias

Antworten