[Erledigt] Schrifterkennung in eingescannten Dokumenten
- ottonormal
- Beiträge: 3404
- Registriert: 20.01.2014 22:25:29
[Erledigt] Schrifterkennung in eingescannten Dokumenten
Hallo,
gibt es ein Linux-Programm zur Schrifterkennung von eingescannten Dokumenten?
Gruß, ottonormal
gibt es ein Linux-Programm zur Schrifterkennung von eingescannten Dokumenten?
Gruß, ottonormal
Zuletzt geändert von ottonormal am 28.06.2014 11:23:43, insgesamt 1-mal geändert.
- ottonormal
- Beiträge: 3404
- Registriert: 20.01.2014 22:25:29
Re: Schrifterkennung in eingescannten Dokumenten
Grade auf diese Seite Gestoßen:
http://wiki.ubuntuusers.de/Texterkennung
Hat zufällig jemand Erfahrung mit einem der da aufgeführten Programme?
http://wiki.ubuntuusers.de/Texterkennung
Hat zufällig jemand Erfahrung mit einem der da aufgeführten Programme?
Re: Schrifterkennung in eingescannten Dokumenten
Ich habe mal tesseract-ocr verwendet. War wohl rein textbasiert und lies sich somit gut scripten und auf dem Server einsetzen. Erfolgsquote hängt vom Bildformat ab.
Re: Schrifterkennung in eingescannten Dokumenten
ich habe von gscan2pdf aus die Texterkennung verwendet. Dabei unterstützt es drei verschiedene Texterkennungen tesseract-ocr, gocr und cuneiform. Ohne mich näher damit beschäftigt zu haben, habe ich einfach tesseract installiert und verwendet — nur gocr habe ich davor einmal auf der Kommandozeile ausprobiert, das hat aber hauptsächlich Buchstabensalat geliefert.
gscan2pdf hat mit tesseract eigentlich recht gut funktioniert. Zwar waren schon einige Fehler drin, aber als zusätzliche Textebene damit die gescannten PDFs durchsuchbar werden, hat es mir auch ohne Korrektur gereicht.
Ganz ähnlich zu gscan2pdf, aber mit QT statt gtk ist übrigens yagf, das zumindest auch tesseract und cuneiform unterstützt. (Ich gehe einmal davon aus, dass du eine grafische Bedienoberfläche willst)
gscan2pdf hat mit tesseract eigentlich recht gut funktioniert. Zwar waren schon einige Fehler drin, aber als zusätzliche Textebene damit die gescannten PDFs durchsuchbar werden, hat es mir auch ohne Korrektur gereicht.
Ganz ähnlich zu gscan2pdf, aber mit QT statt gtk ist übrigens yagf, das zumindest auch tesseract und cuneiform unterstützt. (Ich gehe einmal davon aus, dass du eine grafische Bedienoberfläche willst)
Re: Schrifterkennung in eingescannten Dokumenten
Benutze abbyy. Ist kommerziell, liefert aber sehr brauchbare Ergebnisse. Verarbeite damit meine eingehende Post.
- ottonormal
- Beiträge: 3404
- Registriert: 20.01.2014 22:25:29
Re: Schrifterkennung in eingescannten Dokumenten
Danke für alle Antworten.
Also, eine grafische Oberfläche sollte schon vorhanden sein, für Kommandozeilenprogramme bin ich zu simpel gestrickt.
Bisher habe ich installiert: OCRFeeder und gscan2pdf. Aus beiden bekomme ich aber nichts bzw. nur Salat heraus.
Die Demoversion von ABBYY hatte ich schon vorher in meinem Virtual-XP installiert. Das funktioniert ganz gut, bedarf aber
auch noch einiger Nacharbeiten.
Ich hatte ja gehofft etwas ähnliches gäbe es auch für Linux. Wahrscheinlich muss ich mich da einfach noch mehr hereinknieen.
Gibt es vielleicht für die o.a. Programme irgendwo eine deutschsprachige Anleitung?
Also, eine grafische Oberfläche sollte schon vorhanden sein, für Kommandozeilenprogramme bin ich zu simpel gestrickt.
Bisher habe ich installiert: OCRFeeder und gscan2pdf. Aus beiden bekomme ich aber nichts bzw. nur Salat heraus.
Die Demoversion von ABBYY hatte ich schon vorher in meinem Virtual-XP installiert. Das funktioniert ganz gut, bedarf aber
auch noch einiger Nacharbeiten.
Ich hatte ja gehofft etwas ähnliches gäbe es auch für Linux. Wahrscheinlich muss ich mich da einfach noch mehr hereinknieen.
Gibt es vielleicht für die o.a. Programme irgendwo eine deutschsprachige Anleitung?
- peschmae
- Beiträge: 4844
- Registriert: 07.01.2003 12:50:33
- Lizenz eigener Beiträge: MIT Lizenz
- Wohnort: nirgendwo im irgendwo
Re: Schrifterkennung in eingescannten Dokumenten
Kommt drauf an was du genau willst. Ich benutze das nur um in PDFs eine unsichtbare Ebene mit Text zu erstellen; lesen tut man dann das Bild. Da ists dann auch nicht so schlimm wenn er mal was falsch erkennt - es geht nur um die Volltextsuche. Tesseract funktioniert mittlerweile ganz gut - längstens ausreichend für diesen Anwendungsfall.
Ich denke mal die diversen guis können das auch irgendwie als Backend verwenden. Mit den anderen Engines habe ich vergleichsweise schlechtere Erfahrungen gemacht.
MfG Peschmä
Ich denke mal die diversen guis können das auch irgendwie als Backend verwenden. Mit den anderen Engines habe ich vergleichsweise schlechtere Erfahrungen gemacht.
MfG Peschmä
"er hätte nicht in die usa ziehen dürfen - die versauen alles" -- Snoopy
Re: Schrifterkennung in eingescannten Dokumenten
Die bieten beide ja nur die grafische Oberfläche für die eigentliche Texterkennung. Welche hast du denn da verwendet?ottonormal hat geschrieben:[…]
Bisher habe ich installiert: OCRFeeder und gscan2pdf. Aus beiden bekomme ich aber nichts bzw. nur Salat heraus.[…]
Bei gocr kann ich dein Ergebnis einigermaßen nachvollziehen ☺
Mit tesseract war ich dagegen — genauso wie pschmae es beschreibt — recht zufrieden und auf das können gscan2pdf, OCRFeeder und auch das von mir erwähnte yagf zuückgreifen. Anleitung kenne ich für keine der 3 weder deutsch noch englisch, aber zumindest bei gscan2pdf hat eigentlich alles auf Knopfdruck funktioniert.
- ottonormal
- Beiträge: 3404
- Registriert: 20.01.2014 22:25:29
Re: Schrifterkennung in eingescannten Dokumenten
Tesseract ist installiert und zumindest in OCRFeeder auch vorausgewählt.
Ich möchte damit eingescannte Dokumente, z.B. Notentexte oder auch Texte und Tracklisten aus CD-Begleitheften, in ein
normales Textformat umwandeln und das dann weiterverarbeiten. Wenn ich das alles abschreibe, dauert mir das einfach
mit meinem Einfingersuchsystem zu lang. Zum Nurlesen reicht natürlich auch das Original oder auch Ergebnisse mit
leichten Fehlern.
Ich möchte damit eingescannte Dokumente, z.B. Notentexte oder auch Texte und Tracklisten aus CD-Begleitheften, in ein
normales Textformat umwandeln und das dann weiterverarbeiten. Wenn ich das alles abschreibe, dauert mir das einfach
mit meinem Einfingersuchsystem zu lang. Zum Nurlesen reicht natürlich auch das Original oder auch Ergebnisse mit
leichten Fehlern.
Re: Schrifterkennung in eingescannten Dokumenten
Auweia, ich glaube das ist nicht ganz so einfach. Bei so manchen CD-Begleitheftchen tun sich ja sogar Menschen schwer, das zu lesen, weil es so grob gedruckt, der Hintergrund so unruhig, der Kontrast relativ schlecht, die Schrift klein oder alles auf einmal der Fall ist.
Für Notentexte, wobei ich davon so gut wie keine Ahnung habe (!), könntest du dir OpenOMR und Audiveris ansehen:
- http://sourceforge.net/projects/openomr/
- https://audiveris.kenai.com/
Für Notentexte, wobei ich davon so gut wie keine Ahnung habe (!), könntest du dir OpenOMR und Audiveris ansehen:
- http://sourceforge.net/projects/openomr/
- https://audiveris.kenai.com/
Re: Schrifterkennung in eingescannten Dokumenten
Um was geht's dir jetzt eigentlich? Noten (ich nehme mal an, du meinst Musik-Noten) sind kein Text, eine Linux-"Text(?)"erkennung dafür ist mir noch nicht untergekommen. Tesseract arbeitet hervorragend. Schriftgröße und Auflösung speielen dabei nach meinen Erfahrungen kaum ein Rolle, eher schon die Sauberkeit des Drucks und damit sozusagen der "Verschmutzungsgrad" der Vorlage.Du kannst Tesseract als Texterkennung in xsane einbinden, aber das Layout deiner Vorlage kannst du damit nicht "kopieren". Inwieweit es dafür mittlerweile brauchbare Linux-Tools gibt weiß ich nicht.
Grüße, Günther
Grüße, Günther
- ottonormal
- Beiträge: 3404
- Registriert: 20.01.2014 22:25:29
Re: Schrifterkennung in eingescannten Dokumenten
Ja, es geht um Musiknoten (ob das auch mit Banknoten geht? ), das sollte aber nur ein Beispiel sein.
Für Musiknoten habe ich immer noch ein Windows-System mit Capella und Capella-Scan darauf. Damit geht das ganz hervorragend.
Aber immer nur Noten mit Text, nicht den Text allein.
In der Hauptsache soll das aber nur ganz normaler Text sein, mit ABBYY unter Windows geht es ja, dann muss es auch mit Linux gehen.
Ich werde mich ich also mal näher mit Tesseract beschäftigen. Wenn alle damit gute Erfahrungen machen und bei mir klappt das nicht,
dann muss ich da wohl was tun.
Für Musiknoten habe ich immer noch ein Windows-System mit Capella und Capella-Scan darauf. Damit geht das ganz hervorragend.
Aber immer nur Noten mit Text, nicht den Text allein.
In der Hauptsache soll das aber nur ganz normaler Text sein, mit ABBYY unter Windows geht es ja, dann muss es auch mit Linux gehen.
Ich werde mich ich also mal näher mit Tesseract beschäftigen. Wenn alle damit gute Erfahrungen machen und bei mir klappt das nicht,
dann muss ich da wohl was tun.
Re: Schrifterkennung in eingescannten Dokumenten
Ich arbeite seit Jahren mit tesseract und bin damit sehr zufrieden. Komplizierte Vorlagen habe ich nicht, aber eine DIN A4 Seite Text einscannen, da liegt bei mir die Trefferquote bei 99%.
Wer nicht lieben kann, muß hassen. Wer nicht aufbauen kann muß zerstören. Wer keine Brücken baut, muß spalten.
Re: Schrifterkennung in eingescannten Dokumenten
Bin mir nicht sicher, ich glaube die "notation fontt" (oder so ähnlich) müssen auch installiert sein.
OCRFeeder finde ich sehr komfortabel
OCRFeeder finde ich sehr komfortabel
Systemd und PulseAudio, hmmm, nein danke.
- ottonormal
- Beiträge: 3404
- Registriert: 20.01.2014 22:25:29
Re: Schrifterkennung in eingescannten Dokumenten
Danke noch mal für alle Antworten.
Ich habe mich jetzt nochmal etwas eingehender mit Tesseract beschäftigt. Es funktioniert!
Es ist zwar, zumindest bei meinen Testdateien, noch einiges an Nacharbeit erforderlich, aber ich kann damit arbeiten.
Entscheidend ist aber auch die Qualität der Vorlage. Wenn ich einen einfachen Text in sehr guter Qualität habe, ist das
Ergebnis auch sehr gut. Ist der Text etwas komplizierter aufgebaut (mehrspaltig, Nummerierungen usw.) und dann noch
die Qualität nicht so gut, ist es wohl doch besser das ganze einfach abzuschreiben.
Aber wie gesagt, ich kann damit arbeiten.
Ach ja, mit den grafischen Oberflächen hatte ich keine so guten Erfahrungen gemacht, da hatte ein einfaches
tesseract test.png test -l deu
die Nase vorn. Damit erkläre ich das Theme erstmal für erledigt.
Ich habe mich jetzt nochmal etwas eingehender mit Tesseract beschäftigt. Es funktioniert!
Es ist zwar, zumindest bei meinen Testdateien, noch einiges an Nacharbeit erforderlich, aber ich kann damit arbeiten.
Entscheidend ist aber auch die Qualität der Vorlage. Wenn ich einen einfachen Text in sehr guter Qualität habe, ist das
Ergebnis auch sehr gut. Ist der Text etwas komplizierter aufgebaut (mehrspaltig, Nummerierungen usw.) und dann noch
die Qualität nicht so gut, ist es wohl doch besser das ganze einfach abzuschreiben.
Aber wie gesagt, ich kann damit arbeiten.
Ach ja, mit den grafischen Oberflächen hatte ich keine so guten Erfahrungen gemacht, da hatte ein einfaches
tesseract test.png test -l deu
die Nase vorn. Damit erkläre ich das Theme erstmal für erledigt.
Re: [Erledigt] Schrifterkennung in eingescannten Dokumenten
Ich sagte doch, layout geht halt nicht. Bei mehrspaltigen Vorlagen kannst du in xsane spaltenweise per Stapelverarbeitung scannen. Das lässt sich in vergrößerter Vorschau eigentlich ganz gut einstellen, geht wohl auch nachträglich über Bildbearbeitung mit gimp, aber das ist wohl eher keine so gute Idee. Zeilennummerierungen dito, die darf man nicht mitscannen. Andere Nummerierungen sind wohl mit Einrückungen, etc. verbunden, ergo layout, und das geht eben nicht, jedenfalls nicht besonders sinnvoll.Ist der Text etwas komplizierter aufgebaut (mehrspaltig, Nummerierungen usw.) ...
Grüße, Günther
Re: [Erledigt] Schrifterkennung in eingescannten Dokumenten
yagf sollte wohl zumindest Spalten automatisch erkennen und nur weil ein Frontend verwendet wird, sollte das Ergebnis keinesfalls schlechter werden. Eine rudimentäre deutsche Beschreibung gibt's im Ubuntuwiki: http://wiki.ubuntuusers.de/YAGF
- ottonormal
- Beiträge: 3404
- Registriert: 20.01.2014 22:25:29
Re: [Erledigt] Schrifterkennung in eingescannten Dokumenten
YAGF hatte ich installiert. Sobald ich ein gescanntes Bild laden wollte stürzte es reproduzierbar ab.
Wenn ich damit scannen will, bzw. mit xsane, geht garnichts mehr. Das ganze Programm, YAGF und xsane, finde ich schlicht besch...eiden.
Einstellungen werden nicht gespeichert, von Intuitivität nicht die Spur, kurzum, für mich unbrauchbar.
Aber wie ich schon schrieb, die Bedienung und die Ergebnisse mit der Kommandozeile sind mir ausreichend.
Deshalb möchte ich auf solche Programme verzichen.
Wenn ich damit scannen will, bzw. mit xsane, geht garnichts mehr. Das ganze Programm, YAGF und xsane, finde ich schlicht besch...eiden.
Einstellungen werden nicht gespeichert, von Intuitivität nicht die Spur, kurzum, für mich unbrauchbar.
Aber wie ich schon schrieb, die Bedienung und die Ergebnisse mit der Kommandozeile sind mir ausreichend.
Deshalb möchte ich auf solche Programme verzichen.