Praktikable OCR-Lösung
Praktikable OCR-Lösung
Hat hier jemand vielleicht Erfahrungen mit OCR Programmen? Mit Tesseract und Cuneiform bekomme ich zwar Ergebnisse auf der Konsole, aber mit allerlei Haken (keine Auswahl des Textbereichs, Fussnoten zerhächselt, und jede Seite einzeln). Mit graphischen Frontends (OCRFeed und YAGF) dagegen habe ich bisher nur leere Seiten produziert. Die Howtos im Netz haben mich bisher nicht weitergebracht. Kennt sich da jemand aus?
Re: Praktikable OCR-Lösung
Ich bearbeite meine PDFs vom Scanner direkt mit ocrmypdf:
Meintest Du so etwas?
Code: Alles auswählen
ocrmypdf --force-ocr --quiet --deskew --clean --language deu+eng --author "slu" "INPUT_PDF" "OUTPUT_PDF_OCR"
Gruß
slu
Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.
Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER
slu
Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.
Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER
Re: Praktikable OCR-Lösung
Ich habe oft nur schlecht abfotographierte Bilder von Texten, gerne mal 30, 60, 90 Seiten.
Tesseract schafft das prinzipiell ganz gut, aber ich müsste hinkriegen, dass es das ganze im Batch macht, das Layout erkennt, nur den zentralen Text und die Fussnoten sauber umwandelt und das ganze in ein Dokument gießt. So in etwa. Vielleicht geht das mit Kommandozeile, aber ich hab mich noch nicht durch alle Optionen gekämpft. Ich glaube aber nicht, v.a. die Sache mit dem Layout.
Tesseract schafft das prinzipiell ganz gut, aber ich müsste hinkriegen, dass es das ganze im Batch macht, das Layout erkennt, nur den zentralen Text und die Fussnoten sauber umwandelt und das ganze in ein Dokument gießt. So in etwa. Vielleicht geht das mit Kommandozeile, aber ich hab mich noch nicht durch alle Optionen gekämpft. Ich glaube aber nicht, v.a. die Sache mit dem Layout.
Re: Praktikable OCR-Lösung
Das wird schwierig, man kann tesseract viele Optionen mitgeben, es könnte sich lohnen damit zu "spielen".
Kann aber nicht abschätzen wie viele Dokumente das sind und ob sich das für dich lohnt.
Kann aber nicht abschätzen wie viele Dokumente das sind und ob sich das für dich lohnt.
Gruß
slu
Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.
Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER
slu
Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.
Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER
Re: Praktikable OCR-Lösung
Mir hat mal bei einem aehnlichen Problem die tesseract Option -psm geholfen bzw ein Artikel[1] ueber die verschiedenen "Page Segmentation Modes"
[1] https://pyimagesearch.com/2021/11/15/te ... -accuracy/
[1] https://pyimagesearch.com/2021/11/15/te ... -accuracy/