Praktikable OCR-Lösung

Du suchst ein Programm für einen bestimmten Zweck?
Antworten
Ozelot
Beiträge: 1515
Registriert: 18.11.2007 09:52:58

Praktikable OCR-Lösung

Beitrag von Ozelot » 09.06.2023 13:48:09

Hat hier jemand vielleicht Erfahrungen mit OCR Programmen? Mit Tesseract und Cuneiform bekomme ich zwar Ergebnisse auf der Konsole, aber mit allerlei Haken (keine Auswahl des Textbereichs, Fussnoten zerhächselt, und jede Seite einzeln). Mit graphischen Frontends (OCRFeed und YAGF) dagegen habe ich bisher nur leere Seiten produziert. Die Howtos im Netz haben mich bisher nicht weitergebracht. Kennt sich da jemand aus?

slu
Beiträge: 2234
Registriert: 23.02.2005 23:58:47

Re: Praktikable OCR-Lösung

Beitrag von slu » 09.06.2023 14:10:57

Ich bearbeite meine PDFs vom Scanner direkt mit Debianocrmypdf:

Code: Alles auswählen

ocrmypdf --force-ocr --quiet --deskew --clean --language deu+eng --author "slu" "INPUT_PDF" "OUTPUT_PDF_OCR"
Meintest Du so etwas?
Gruß
slu

Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.

Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER

Ozelot
Beiträge: 1515
Registriert: 18.11.2007 09:52:58

Re: Praktikable OCR-Lösung

Beitrag von Ozelot » 09.06.2023 14:20:29

Ich habe oft nur schlecht abfotographierte Bilder von Texten, gerne mal 30, 60, 90 Seiten.
Tesseract schafft das prinzipiell ganz gut, aber ich müsste hinkriegen, dass es das ganze im Batch macht, das Layout erkennt, nur den zentralen Text und die Fussnoten sauber umwandelt und das ganze in ein Dokument gießt. So in etwa. Vielleicht geht das mit Kommandozeile, aber ich hab mich noch nicht durch alle Optionen gekämpft. Ich glaube aber nicht, v.a. die Sache mit dem Layout.

slu
Beiträge: 2234
Registriert: 23.02.2005 23:58:47

Re: Praktikable OCR-Lösung

Beitrag von slu » 09.06.2023 14:24:55

Das wird schwierig, man kann tesseract viele Optionen mitgeben, es könnte sich lohnen damit zu "spielen".
Kann aber nicht abschätzen wie viele Dokumente das sind und ob sich das für dich lohnt.
Gruß
slu

Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.

Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER

rodney
Beiträge: 373
Registriert: 09.12.2016 04:15:59

Re: Praktikable OCR-Lösung

Beitrag von rodney » 09.06.2023 19:40:54

Mir hat mal bei einem aehnlichen Problem die Debiantesseract Option -psm geholfen bzw ein Artikel[1] ueber die verschiedenen "Page Segmentation Modes"

[1] https://pyimagesearch.com/2021/11/15/te ... -accuracy/

Antworten