PDF2txt mit extrawurst
- whisper
- Beiträge: 3379
- Registriert: 23.09.2002 14:32:21
- Lizenz eigener Beiträge: GNU Free Documentation License
-
Kontaktdaten:
PDF2txt mit extrawurst
PDF->txt Konverter gibt es ja reiclich.
pdf2text aus python-pdfminer zum Beispiel macht in meinem konkreten Fall schon das, was ich suche.
Aber, ich möchte Überschriften, Beschreibungen und Absätze erhalten oder anderweitig markieren, damit ich das Ergebnis automatisiert in eine Datenbank bekomme.
Konkret also Schriftattribute markieren, oder unsortierte Listen, Aufzählungen usw.
Meine Frage ist, gibt es ein anderes Tool, das dies leistet?
Vielleicht wäre eine Umwandlung in html und dann mit awk o.ä. weiterverarbeiten einfacher..
Andere Ansätze?
pdf2text aus python-pdfminer zum Beispiel macht in meinem konkreten Fall schon das, was ich suche.
Aber, ich möchte Überschriften, Beschreibungen und Absätze erhalten oder anderweitig markieren, damit ich das Ergebnis automatisiert in eine Datenbank bekomme.
Konkret also Schriftattribute markieren, oder unsortierte Listen, Aufzählungen usw.
Meine Frage ist, gibt es ein anderes Tool, das dies leistet?
Vielleicht wäre eine Umwandlung in html und dann mit awk o.ä. weiterverarbeiten einfacher..
Andere Ansätze?
Alter ist übrigens keine Ausrede, nur Erfahrung, die sich stapelt.
Re: PDF2txt mit extrawurst
Vielleicht Import in LO, oder gpdftext, wobei letzteres nur in pdf oder reines ascii Text speichern kann.
Und vielleicht mit den mächtigen Tex Appsm z. B. texworks, mit letzteres nicht gearbeitet, ist recht mächtig und daher relativ sehr aufwendig bis ich damit umgehen kann.
Ansonsten kenne ich nur 2 Freemium und der eine sollte in HTML exportieren können.
Und vielleicht mit den mächtigen Tex Appsm z. B. texworks, mit letzteres nicht gearbeitet, ist recht mächtig und daher relativ sehr aufwendig bis ich damit umgehen kann.
Ansonsten kenne ich nur 2 Freemium und der eine sollte in HTML exportieren können.
Systemd und PulseAudio, hmmm, nein danke.
Re: PDF2txt mit extrawurst
Plain-Text ist ohne Auszeichnungen. Du willst aber Auszeichnungen haben, folglich musst du das PDF in ein Markup-Format (HTML, Tex, ...) konvertieren und nicht nach (Plain-)Text.
Use ed once in a while!
- whisper
- Beiträge: 3379
- Registriert: 23.09.2002 14:32:21
- Lizenz eigener Beiträge: GNU Free Documentation License
-
Kontaktdaten:
Re: PDF2txt mit extrawurst
Hih, klar, das ist ein Widerspruch.Meillo hat geschrieben:06.11.2018 18:27:12Plain-Text ist ohne Auszeichnungen. Du willst aber Auszeichnungen haben, folglich musst du das PDF in ein Markup-Format (HTML, Tex, ...) konvertieren und nicht nach (Plain-)Text.
Habe schon geguckt, der erzeugte html Code ist zwar eine unsäglich <div> seuche, aber machbar.
Derzeit ist es nicht konkret, will mich nur ein wenig proaktiv damit auseinandersetzen, könnte interessant werden.
@Revod:
ich werde mal sehen, mit welchem Tool der html Code am lesbarsten (bzw. leichter zu bearbeiten) ist.
Alter ist übrigens keine Ausrede, nur Erfahrung, die sich stapelt.
Re: PDF2txt mit extrawurst
Je nachdem was genau du machen willst, kann dir vielleicht egal sein, wie der ganze Code aussieht, wenn du nur H1-Tags & Co. suchst.whisper hat geschrieben:06.11.2018 18:48:31Habe schon geguckt, der erzeugte html Code ist zwar eine unsäglich <div> seuche, aber machbar.
Je nach Input-PDFs und was du haben willst, koennte es ggf. erfolgsversprechender sein, OCR auf bestimmte Bereiche oder fuer bestimmte Schriftgroessen einzusetzen. Das nur mal als zusaetzlichen Gedankenanstoss.Derzeit ist es nicht konkret, will mich nur ein wenig proaktiv damit auseinandersetzen, könnte interessant werden.
Use ed once in a while!
Re: PDF2txt mit extrawurst
Ich stand mal vor nem ähnlichen Problem, je nachdem, wie die PDF-Datei strukturiert war, hab ich mit pdftk ganz brauchbare Ergebnisse erzielt:
Mit pdfinfo und dessen verschiedenen Optionen könnte evtl auch was sinnvolles rausfallen.
Code: Alles auswählen
pdftk 01.pdf dump_data |grep BookmarkTitle
Re: PDF2txt mit extrawurst
... kann Dir bluefish gerne empfehlen, weil es am besten die Anfang- und Abschluss Tags erkennt, sehr hilfreich bei verschachelte und lange HTML Code.whisper hat geschrieben:06.11.2018 18:48:31...
@Revod:
ich werde mal sehen, mit welchem Tool der html Code am lesbarsten (bzw. leichter zu bearbeiten) ist.
Als " wysiwyg " habe ich mich " BlueGriffon " eingewöhnt, es erkennt und färbt den <div> ein, sowie alle Tag der Syntax-
Etwas OT: Mit der Beschreibung von bluefish bin ich nicht ganz einverstanden damit, es kann viele Sprachen, doch ausgelegt ist für HTML und PHP, und kompilieren kann es nicht, daher für Software nur bedingt als solches verstehen, mächtig ist es alle Mal.
Systemd und PulseAudio, hmmm, nein danke.
Re: PDF2txt mit extrawurst
Sehr OT:
Falls Du die Paketbeschreibung meinst: die sagt auch "Perl, php5-cli, make und java-compiler sind zwar nicht vorgeschlagen, werden aber unterstützt.". D.h. Du musst die entsprechenden Compiler installieren, die dann aufgerufen werden können. Die wenigsten Editoren enthalten eigene Compiler für höhere Sprachen, in der Regel rufen die alle nur make/gcc/clang usw auf.Revod hat geschrieben:06.11.2018 19:59:11Etwas OT: Mit der Beschreibung von bluefish bin ich nicht ganz einverstanden damit, es kann viele Sprachen, doch ausgelegt ist für HTML und PHP, und kompilieren kann es nicht, daher für Software nur bedingt als solches verstehen, mächtig ist es alle Mal.
Re: PDF2txt mit extrawurst
... geany
In meinen Augen hat es nur einen Nachteil, man hätte es in gtk2 belassen sollen... doch ich schlage vor, back to Topic...
PS: Sehe sehe soeben auf der Entwicklerseite,
Ja habe ich unter " Dokument > Sprachmodus " kann man das Unterschied zwischen wie einen echtes Compiler wie Geany und Bluefish erkennen, und auch über die Menü Angebot Optionen erkennt man sehr schnell wozu es am besten geeignet ist ( Ich wüsste keine Alternative ). Doch wie gesagt, es kann auch die wichtigsten Sprachen.eggy hat geschrieben:06.11.2018 21:38:17Sehr OT:
...
Falls Du die Paketbeschreibung meinst: die sagt auch "Perl, php5-cli, make und java-compiler sind zwar nicht vorgeschlagen, werden aber unterstützt.". D.h. Du musst die entsprechenden Compiler installieren, die dann aufgerufen werden können. Die wenigsten Editoren enthalten eigene Compiler für höhere Sprachen, in der Regel rufen die alle nur make/gcc/clang usw auf.
In meinen Augen hat es nur einen Nachteil, man hätte es in gtk2 belassen sollen... doch ich schlage vor, back to Topic...
PS: Sehe sehe soeben auf der Entwicklerseite,
Ist neu für mich, sorry für meine OT Ausschweifung.Bluefish is a powerful editor targeted towards programmers and webdevelopers, ...
Systemd und PulseAudio, hmmm, nein danke.
- whisper
- Beiträge: 3379
- Registriert: 23.09.2002 14:32:21
- Lizenz eigener Beiträge: GNU Free Documentation License
-
Kontaktdaten:
Re: PDF2txt mit extrawurst
Dank eurer Vorschläge, Ideen usw. bin ich über pdf2htmlex gestolpert, der erste Eindruck ist schonmal sehr gut, wenigsten kann der Browser das Ergebnis sauber rendern. Das war mit meinen ersten Tool nicht so.
Es geht um ein 250 Seiten großes Dokument, mal so als Hausnummer.
Danke euch, wenn ich da was brauchbares zaubern kann, werde ich die Schritte dokumentieren, das Ursprungsdokument ist leider nicht öffentlich.
(Edit)
Zwischenstand, das macht den generierten html code einigermassen erträglich
Jetzt wäre das extrahieren der gewünschten Inhalte angesagt, das ist aber Zukunftsmusik. Vielleicht gar nicht, kommt auf diverse Umstände an.
Es geht um ein 250 Seiten großes Dokument, mal so als Hausnummer.
Danke euch, wenn ich da was brauchbares zaubern kann, werde ich die Schritte dokumentieren, das Ursprungsdokument ist leider nicht öffentlich.
(Edit)
Code: Alles auswählen
pdf2htmlEX -f 30 -l 200 --process-nontext 0 --process-outline 0 --optimize-text 1 --decompose-ligature 1 --embed-css 0 --embed-javascript 0 --embed-outline 0 --embed-font 1 --embed-image 0 --css-filename EinKatalog.css EinKatalog.pdf EinKatalog.html
Jetzt wäre das extrahieren der gewünschten Inhalte angesagt, das ist aber Zukunftsmusik. Vielleicht gar nicht, kommt auf diverse Umstände an.
Alter ist übrigens keine Ausrede, nur Erfahrung, die sich stapelt.