OCRmyPDF, worin besteht der output?

michaa7 · Beitrag von **michaa7** » 21.08.2024 19:16:24

Nachdem ich, angeblich erfolgreich, ein PDF mit OCRmyPDF gescannt habe frage ich mich worin der output besteht? Oder ganz banal gefragt: Ich würde gerne auf einzelne Worte und Buchstaben zugreifen können. Geht das?

Das Ursprungsdokument ist ein gut leserliches, kontraststarkes Nur-Text Dokument, die "Umwandlung" mittels "ocrmypdf -l deu alt.pdf neu.pdf" verlief schnell und problemlos.

Worin besteht jetzt das Ergebnis ... ausser in einem neuen Dokument? Erkennt tesseract nur ein Bitmuster mit dem es was weiß ich macht oder Glyphen? Wenn letzters dann sollte doch irgendwie eine Textausgabe, im gelichen oder in einem ähnlichen Textstil möglich sein (wobei das Ursprungsdokument offenbar in einer serifenlosen allerwelts MS-Word Schrift verfasst wurde)? Das sollte doch der Sinn der ganzen Angelegenheit sein.

slu · Beitrag von **slu** » 21.08.2024 23:17:23

Normal wird der erkannte Text in weißer Schrift über das original gelegt, damit kann man in PDFs suchen und Programme
können den Inhalt indexieren.

Wenn Du das PDF im Evince öffnest solltest Du den Text markieren können und einfach mit Strg+c kopieren.

Ich hoffe ich habe deine Frage richtig verstanden.

slu · Beitrag von **slu** » 21.08.2024 23:19:14

Mit pdftotext dokument.pdf - kannst Du sehen was erkannt wurde.
Wenn Du es ohne - aufrufst wird ein dokuemnt.txt mit dem Text erstellt.

michaa7 · Beitrag von **michaa7** » 21.08.2024 23:59:52

slu hat geschrieben:
21.08.2024 23:17:23
Normal wird der erkannte Text in weißer Schrift über das original gelegt,

davon habe ich ncihts gesehen, wie auch, das läuft doch auf der Kommandozeile???

slu hat geschrieben:
21.08.2024 23:17:23
damit kann man in PDFs suchen und Programme
können den Inhalt indexieren.

Ist das Theorie oder hast du das gesehen? Wo , wie?

slu hat geschrieben:
21.08.2024 23:17:23
Wenn Du das PDF im Evince öffnest solltest Du den Text markieren können und einfach mit Strg+c kopieren.

Das ging so lala. Aber Es geht nicht den Text zu editieren.

slu hat geschrieben:
21.08.2024 23:17:23
Ich hoffe ich habe deine Frage richtig verstanden.

vollkommen! Danke!

michaa7 · Beitrag von **michaa7** » 22.08.2024 00:02:38

slu hat geschrieben:
21.08.2024 23:19:14
Mit pdftotext dokument.pdf - kannst Du sehen was erkannt wurde.
Wenn Du es ohne - aufrufst wird ein dokuemnt.txt mit dem Text erstellt.

Die Existenz des Programms pdftotext war mir nicht klar. Es macht genau was du sagst. Danke für die Erklärung!

debianforum.de

OCRmyPDF, worin besteht der output?

OCRmyPDF, worin besteht der output?

Re: OCRmyPDF, worin besteht der output?

Re: OCRmyPDF, worin besteht der output?

Re: OCRmyPDF, worin besteht der output?

Re: OCRmyPDF, worin besteht der output?