OCRmyPDF, worin besteht der output?

Einrichten des Druckers und des Drucksystems, Scannerkonfiguration und Software zum Scannen und Faxen.
Antworten
michaa7
Beiträge: 4916
Registriert: 12.12.2004 00:46:49
Lizenz eigener Beiträge: MIT Lizenz

OCRmyPDF, worin besteht der output?

Beitrag von michaa7 » 21.08.2024 19:16:24

Nachdem ich, angeblich erfolgreich, ein PDF mit OCRmyPDF gescannt habe frage ich mich worin der output besteht? Oder ganz banal gefragt: Ich würde gerne auf einzelne Worte und Buchstaben zugreifen können. Geht das?

Das Ursprungsdokument ist ein gut leserliches, kontraststarkes Nur-Text Dokument, die "Umwandlung" mittels "ocrmypdf -l deu alt.pdf neu.pdf" verlief schnell und problemlos.

Worin besteht jetzt das Ergebnis ... ausser in einem neuen Dokument? Erkennt tesseract nur ein Bitmuster mit dem es was weiß ich macht oder Glyphen? Wenn letzters dann sollte doch irgendwie eine Textausgabe, im gelichen oder in einem ähnlichen Textstil möglich sein (wobei das Ursprungsdokument offenbar in einer serifenlosen allerwelts MS-Word Schrift verfasst wurde)? Das sollte doch der Sinn der ganzen Angelegenheit sein.
gruß

michaa7

-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)

slu
Beiträge: 2234
Registriert: 23.02.2005 23:58:47

Re: OCRmyPDF, worin besteht der output?

Beitrag von slu » 21.08.2024 23:17:23

Normal wird der erkannte Text in weißer Schrift über das original gelegt, damit kann man in PDFs suchen und Programme
können den Inhalt indexieren.

Wenn Du das PDF im Evince öffnest solltest Du den Text markieren können und einfach mit Strg+c kopieren.

Ich hoffe ich habe deine Frage richtig verstanden.
Gruß
slu

Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.

Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER

slu
Beiträge: 2234
Registriert: 23.02.2005 23:58:47

Re: OCRmyPDF, worin besteht der output?

Beitrag von slu » 21.08.2024 23:19:14

Mit pdftotext dokument.pdf - kannst Du sehen was erkannt wurde.
Wenn Du es ohne - aufrufst wird ein dokuemnt.txt mit dem Text erstellt.
Gruß
slu

Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.

Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER

michaa7
Beiträge: 4916
Registriert: 12.12.2004 00:46:49
Lizenz eigener Beiträge: MIT Lizenz

Re: OCRmyPDF, worin besteht der output?

Beitrag von michaa7 » 21.08.2024 23:59:52

slu hat geschrieben: ↑ zum Beitrag ↑
21.08.2024 23:17:23
Normal wird der erkannte Text in weißer Schrift über das original gelegt,
davon habe ich ncihts gesehen, wie auch, das läuft doch auf der Kommandozeile???
slu hat geschrieben: ↑ zum Beitrag ↑
21.08.2024 23:17:23
damit kann man in PDFs suchen und Programme
können den Inhalt indexieren.
Ist das Theorie oder hast du das gesehen? Wo , wie?
slu hat geschrieben: ↑ zum Beitrag ↑
21.08.2024 23:17:23
Wenn Du das PDF im Evince öffnest solltest Du den Text markieren können und einfach mit Strg+c kopieren.
Das ging so lala. Aber Es geht nicht den Text zu editieren.
slu hat geschrieben: ↑ zum Beitrag ↑
21.08.2024 23:17:23
Ich hoffe ich habe deine Frage richtig verstanden.
vollkommen! Danke!
Zuletzt geändert von michaa7 am 22.08.2024 00:04:30, insgesamt 1-mal geändert.
gruß

michaa7

-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)

michaa7
Beiträge: 4916
Registriert: 12.12.2004 00:46:49
Lizenz eigener Beiträge: MIT Lizenz

Re: OCRmyPDF, worin besteht der output?

Beitrag von michaa7 » 22.08.2024 00:02:38

slu hat geschrieben: ↑ zum Beitrag ↑
21.08.2024 23:19:14
Mit pdftotext dokument.pdf - kannst Du sehen was erkannt wurde.
Wenn Du es ohne - aufrufst wird ein dokuemnt.txt mit dem Text erstellt.
Die Existenz des Programms pdftotext war mir nicht klar. Es macht genau was du sagst. Danke für die Erklärung!
gruß

michaa7

-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)

Antworten