[Erledigt] Schrifterkennung in eingescannten Dokumenten

Du suchst ein Programm für einen bestimmten Zweck?
Antworten
Benutzeravatar
ottonormal
Beiträge: 3404
Registriert: 20.01.2014 22:25:29

[Erledigt] Schrifterkennung in eingescannten Dokumenten

Beitrag von ottonormal » 27.06.2014 12:17:08

Hallo,

gibt es ein Linux-Programm zur Schrifterkennung von eingescannten Dokumenten?

Gruß, ottonormal
Zuletzt geändert von ottonormal am 28.06.2014 11:23:43, insgesamt 1-mal geändert.

Benutzeravatar
ottonormal
Beiträge: 3404
Registriert: 20.01.2014 22:25:29

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von ottonormal » 27.06.2014 12:37:21

Grade auf diese Seite Gestoßen:

http://wiki.ubuntuusers.de/Texterkennung

Hat zufällig jemand Erfahrung mit einem der da aufgeführten Programme?

uname
Beiträge: 12427
Registriert: 03.06.2008 09:33:02

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von uname » 27.06.2014 12:55:17

Ich habe mal Debiantesseract-ocr verwendet. War wohl rein textbasiert und lies sich somit gut scripten und auf dem Server einsetzen. Erfolgsquote hängt vom Bildformat ab.

Benutzeravatar
smutbert
Beiträge: 8345
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von smutbert » 27.06.2014 13:01:44

ich habe von Debiangscan2pdf aus die Texterkennung verwendet. Dabei unterstützt es drei verschiedene Texterkennungen Debiantesseract-ocr, Debiangocr und Debiancuneiform. Ohne mich näher damit beschäftigt zu haben, habe ich einfach tesseract installiert und verwendet — nur gocr habe ich davor einmal auf der Kommandozeile ausprobiert, das hat aber hauptsächlich Buchstabensalat geliefert.
gscan2pdf hat mit tesseract eigentlich recht gut funktioniert. Zwar waren schon einige Fehler drin, aber als zusätzliche Textebene damit die gescannten PDFs durchsuchbar werden, hat es mir auch ohne Korrektur gereicht.

Ganz ähnlich zu gscan2pdf, aber mit QT statt gtk ist übrigens Debianyagf, das zumindest auch tesseract und cuneiform unterstützt. (Ich gehe einmal davon aus, dass du eine grafische Bedienoberfläche willst)

Liffi
Beiträge: 2345
Registriert: 02.10.2004 01:33:05

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von Liffi » 27.06.2014 13:12:21

Benutze abbyy. Ist kommerziell, liefert aber sehr brauchbare Ergebnisse. Verarbeite damit meine eingehende Post.

Benutzeravatar
ottonormal
Beiträge: 3404
Registriert: 20.01.2014 22:25:29

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von ottonormal » 27.06.2014 13:31:25

Danke für alle Antworten.
Also, eine grafische Oberfläche sollte schon vorhanden sein, für Kommandozeilenprogramme bin ich zu simpel gestrickt. :(
Bisher habe ich installiert: OCRFeeder und gscan2pdf. Aus beiden bekomme ich aber nichts bzw. nur Salat heraus.
Die Demoversion von ABBYY hatte ich schon vorher in meinem Virtual-XP installiert. Das funktioniert ganz gut, bedarf aber
auch noch einiger Nacharbeiten.
Ich hatte ja gehofft etwas ähnliches gäbe es auch für Linux. Wahrscheinlich muss ich mich da einfach noch mehr hereinknieen.
Gibt es vielleicht für die o.a. Programme irgendwo eine deutschsprachige Anleitung?

Benutzeravatar
peschmae
Beiträge: 4844
Registriert: 07.01.2003 12:50:33
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: nirgendwo im irgendwo

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von peschmae » 27.06.2014 13:35:21

Kommt drauf an was du genau willst. Ich benutze das nur um in PDFs eine unsichtbare Ebene mit Text zu erstellen; lesen tut man dann das Bild. Da ists dann auch nicht so schlimm wenn er mal was falsch erkennt - es geht nur um die Volltextsuche. Tesseract funktioniert mittlerweile ganz gut - längstens ausreichend für diesen Anwendungsfall.

Ich denke mal die diversen guis können das auch irgendwie als Backend verwenden. Mit den anderen Engines habe ich vergleichsweise schlechtere Erfahrungen gemacht.

MfG Peschmä
"er hätte nicht in die usa ziehen dürfen - die versauen alles" -- Snoopy

Benutzeravatar
smutbert
Beiträge: 8345
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von smutbert » 27.06.2014 14:00:07

ottonormal hat geschrieben:[…]
Bisher habe ich installiert: OCRFeeder und gscan2pdf. Aus beiden bekomme ich aber nichts bzw. nur Salat heraus.[…]
Die bieten beide ja nur die grafische Oberfläche für die eigentliche Texterkennung. Welche hast du denn da verwendet?

Bei gocr kann ich dein Ergebnis einigermaßen nachvollziehen ☺

Mit tesseract war ich dagegen — genauso wie pschmae es beschreibt — recht zufrieden und auf das können gscan2pdf, OCRFeeder und auch das von mir erwähnte yagf zuückgreifen. Anleitung kenne ich für keine der 3 weder deutsch noch englisch, aber zumindest bei gscan2pdf hat eigentlich alles auf Knopfdruck funktioniert.

Benutzeravatar
ottonormal
Beiträge: 3404
Registriert: 20.01.2014 22:25:29

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von ottonormal » 27.06.2014 14:06:15

Tesseract ist installiert und zumindest in OCRFeeder auch vorausgewählt.
Ich möchte damit eingescannte Dokumente, z.B. Notentexte oder auch Texte und Tracklisten aus CD-Begleitheften, in ein
normales Textformat umwandeln und das dann weiterverarbeiten. Wenn ich das alles abschreibe, dauert mir das einfach
mit meinem Einfingersuchsystem zu lang. Zum Nurlesen reicht natürlich auch das Original oder auch Ergebnisse mit
leichten Fehlern.

Benutzeravatar
smutbert
Beiträge: 8345
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von smutbert » 27.06.2014 14:40:27

Auweia, ich glaube das ist nicht ganz so einfach. Bei so manchen CD-Begleitheftchen tun sich ja sogar Menschen schwer, das zu lesen, weil es so grob gedruckt, der Hintergrund so unruhig, der Kontrast relativ schlecht, die Schrift klein oder alles auf einmal der Fall ist.

Für Notentexte, wobei ich davon so gut wie keine Ahnung habe (!), könntest du dir OpenOMR und Audiveris ansehen:
- http://sourceforge.net/projects/openomr/
- https://audiveris.kenai.com/

guennid

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von guennid » 27.06.2014 15:00:50

Um was geht's dir jetzt eigentlich? Noten (ich nehme mal an, du meinst Musik-Noten) sind kein Text, eine Linux-"Text(?)"erkennung dafür ist mir noch nicht untergekommen. Tesseract arbeitet hervorragend. Schriftgröße und Auflösung speielen dabei nach meinen Erfahrungen kaum ein Rolle, eher schon die Sauberkeit des Drucks und damit sozusagen der "Verschmutzungsgrad" der Vorlage.Du kannst Tesseract als Texterkennung in xsane einbinden, aber das Layout deiner Vorlage kannst du damit nicht "kopieren". Inwieweit es dafür mittlerweile brauchbare Linux-Tools gibt weiß ich nicht.

Grüße, Günther

Benutzeravatar
ottonormal
Beiträge: 3404
Registriert: 20.01.2014 22:25:29

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von ottonormal » 27.06.2014 17:02:37

Ja, es geht um Musiknoten (ob das auch mit Banknoten geht? :mrgreen: ), das sollte aber nur ein Beispiel sein.
Für Musiknoten habe ich immer noch ein Windows-System mit Capella und Capella-Scan darauf. Damit geht das ganz hervorragend.
Aber immer nur Noten mit Text, nicht den Text allein.
In der Hauptsache soll das aber nur ganz normaler Text sein, mit ABBYY unter Windows geht es ja, dann muss es auch mit Linux gehen.
Ich werde mich ich also mal näher mit Tesseract beschäftigen. Wenn alle damit gute Erfahrungen machen und bei mir klappt das nicht,
dann muss ich da wohl was tun. :)

Benutzeravatar
ralli
Beiträge: 4383
Registriert: 02.03.2008 08:03:02

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von ralli » 27.06.2014 17:33:30

Ich arbeite seit Jahren mit tesseract und bin damit sehr zufrieden. Komplizierte Vorlagen habe ich nicht, aber eine DIN A4 Seite Text einscannen, da liegt bei mir die Trefferquote bei 99%.
Wer nicht lieben kann, muß hassen. Wer nicht aufbauen kann muß zerstören. Wer keine Brücken baut, muß spalten.

Benutzeravatar
Revod
Beiträge: 3788
Registriert: 20.06.2011 15:04:29
Lizenz eigener Beiträge: MIT Lizenz

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von Revod » 28.06.2014 00:42:26

Bin mir nicht sicher, ich glaube die "notation fontt" (oder so ähnlich) müssen auch installiert sein.

OCRFeeder finde ich sehr komfortabel
Systemd und PulseAudio, hmmm, nein danke.

Benutzeravatar
ottonormal
Beiträge: 3404
Registriert: 20.01.2014 22:25:29

Re: Schrifterkennung in eingescannten Dokumenten

Beitrag von ottonormal » 28.06.2014 11:22:02

Danke noch mal für alle Antworten.
Ich habe mich jetzt nochmal etwas eingehender mit Tesseract beschäftigt. Es funktioniert!
Es ist zwar, zumindest bei meinen Testdateien, noch einiges an Nacharbeit erforderlich, aber ich kann damit arbeiten.
Entscheidend ist aber auch die Qualität der Vorlage. Wenn ich einen einfachen Text in sehr guter Qualität habe, ist das
Ergebnis auch sehr gut. Ist der Text etwas komplizierter aufgebaut (mehrspaltig, Nummerierungen usw.) und dann noch
die Qualität nicht so gut, ist es wohl doch besser das ganze einfach abzuschreiben.
Aber wie gesagt, ich kann damit arbeiten.
Ach ja, mit den grafischen Oberflächen hatte ich keine so guten Erfahrungen gemacht, da hatte ein einfaches

tesseract test.png test -l deu

die Nase vorn. Damit erkläre ich das Theme erstmal für erledigt.

guennid

Re: [Erledigt] Schrifterkennung in eingescannten Dokumenten

Beitrag von guennid » 28.06.2014 12:45:24

Ist der Text etwas komplizierter aufgebaut (mehrspaltig, Nummerierungen usw.) ...
Ich sagte doch, layout geht halt nicht. Bei mehrspaltigen Vorlagen kannst du in xsane spaltenweise per Stapelverarbeitung scannen. Das lässt sich in vergrößerter Vorschau eigentlich ganz gut einstellen, geht wohl auch nachträglich über Bildbearbeitung mit gimp, aber das ist wohl eher keine so gute Idee. Zeilennummerierungen dito, die darf man nicht mitscannen. Andere Nummerierungen sind wohl mit Einrückungen, etc. verbunden, ergo layout, und das geht eben nicht, jedenfalls nicht besonders sinnvoll.

Grüße, Günther

Benutzeravatar
smutbert
Beiträge: 8345
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: [Erledigt] Schrifterkennung in eingescannten Dokumenten

Beitrag von smutbert » 28.06.2014 14:28:55

Debianyagf sollte wohl zumindest Spalten automatisch erkennen und nur weil ein Frontend verwendet wird, sollte das Ergebnis keinesfalls schlechter werden. Eine rudimentäre deutsche Beschreibung gibt's im Ubuntuwiki: http://wiki.ubuntuusers.de/YAGF

Benutzeravatar
ottonormal
Beiträge: 3404
Registriert: 20.01.2014 22:25:29

Re: [Erledigt] Schrifterkennung in eingescannten Dokumenten

Beitrag von ottonormal » 28.06.2014 15:52:37

YAGF hatte ich installiert. Sobald ich ein gescanntes Bild laden wollte stürzte es reproduzierbar ab.
Wenn ich damit scannen will, bzw. mit xsane, geht garnichts mehr. Das ganze Programm, YAGF und xsane, finde ich schlicht besch...eiden.
Einstellungen werden nicht gespeichert, von Intuitivität nicht die Spur, kurzum, für mich unbrauchbar.
Aber wie ich schon schrieb, die Bedienung und die Ergebnisse mit der Kommandozeile sind mir ausreichend.
Deshalb möchte ich auf solche Programme verzichen.

Antworten