Nachdem ich, angeblich erfolgreich, ein PDF mit OCRmyPDF gescannt habe frage ich mich worin der output besteht? Oder ganz banal gefragt: Ich würde gerne auf einzelne Worte und Buchstaben zugreifen können. Geht das?
Das Ursprungsdokument ist ein gut leserliches, kontraststarkes Nur-Text Dokument, die "Umwandlung" mittels "ocrmypdf -l deu alt.pdf neu.pdf" verlief schnell und problemlos.
Worin besteht jetzt das Ergebnis ... ausser in einem neuen Dokument? Erkennt tesseract nur ein Bitmuster mit dem es was weiß ich macht oder Glyphen? Wenn letzters dann sollte doch irgendwie eine Textausgabe, im gelichen oder in einem ähnlichen Textstil möglich sein (wobei das Ursprungsdokument offenbar in einer serifenlosen allerwelts MS-Word Schrift verfasst wurde)? Das sollte doch der Sinn der ganzen Angelegenheit sein.
OCRmyPDF, worin besteht der output?
OCRmyPDF, worin besteht der output?
gruß
michaa7
-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)
michaa7
-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)
Re: OCRmyPDF, worin besteht der output?
Normal wird der erkannte Text in weißer Schrift über das original gelegt, damit kann man in PDFs suchen und Programme
können den Inhalt indexieren.
Wenn Du das PDF im Evince öffnest solltest Du den Text markieren können und einfach mit Strg+c kopieren.
Ich hoffe ich habe deine Frage richtig verstanden.
können den Inhalt indexieren.
Wenn Du das PDF im Evince öffnest solltest Du den Text markieren können und einfach mit Strg+c kopieren.
Ich hoffe ich habe deine Frage richtig verstanden.
Gruß
slu
Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.
Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER
slu
Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.
Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER
Re: OCRmyPDF, worin besteht der output?
Mit pdftotext dokument.pdf - kannst Du sehen was erkannt wurde.
Wenn Du es ohne - aufrufst wird ein dokuemnt.txt mit dem Text erstellt.
Wenn Du es ohne - aufrufst wird ein dokuemnt.txt mit dem Text erstellt.
Gruß
slu
Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.
Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER
slu
Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.
Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER
Re: OCRmyPDF, worin besteht der output?
davon habe ich ncihts gesehen, wie auch, das läuft doch auf der Kommandozeile???slu hat geschrieben:21.08.2024 23:17:23Normal wird der erkannte Text in weißer Schrift über das original gelegt,
Ist das Theorie oder hast du das gesehen? Wo , wie?slu hat geschrieben:21.08.2024 23:17:23damit kann man in PDFs suchen und Programme
können den Inhalt indexieren.
Das ging so lala. Aber Es geht nicht den Text zu editieren.slu hat geschrieben:21.08.2024 23:17:23Wenn Du das PDF im Evince öffnest solltest Du den Text markieren können und einfach mit Strg+c kopieren.
vollkommen! Danke!
Zuletzt geändert von michaa7 am 22.08.2024 00:04:30, insgesamt 1-mal geändert.
gruß
michaa7
-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)
michaa7
-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)
Re: OCRmyPDF, worin besteht der output?
Die Existenz des Programms pdftotext war mir nicht klar. Es macht genau was du sagst. Danke für die Erklärung!slu hat geschrieben:21.08.2024 23:19:14Mit pdftotext dokument.pdf - kannst Du sehen was erkannt wurde.
Wenn Du es ohne - aufrufst wird ein dokuemnt.txt mit dem Text erstellt.
gruß
michaa7
-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)
michaa7
-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)