OCR Programm
OCR Programm
Hallo liebe Debiangemeinde, es gibt in den PAcketquellen ein Packet namens gocr für die Texterkennung. Dieses ist allerdings nicht wirklich brauchbar, kennt jemand ein Tool mit dem man brauchbare Ergebnisse erzielen kann?
Gruss
casi
Gruss
casi
Zuletzt geändert von casu4711 am 18.04.2012 20:11:51, insgesamt 1-mal geändert.
- whisper
- Beiträge: 3387
- Registriert: 23.09.2002 14:32:21
- Lizenz eigener Beiträge: GNU Free Documentation License
-
Kontaktdaten:
Re: OCR Progremm
Alter ist übrigens keine Ausrede, nur Erfahrung, die sich stapelt.
Re: OCR Progremm
Die einzige OCR-Software unter Linux, die diesen Namen verdient, ist tesseract-ocr. Den Rest kannst du vergessen. Ist allerdings 'ne Weile her, das ich was anderes getestet hätte, da die Trefferquote von tesseract tatsächlich mit der von win-Programmen vergleichbar ist.
Was die GUIs dafür leisten, kann ich nicht beurteilen. Mit tesseract, eingebunden in xsane, habe ich mich bisher zufrieden gegeben.
Hat jemand Kenntnisse, ob was dabei ist, dass mittlerweile die verschiedenen Bereiche eines Bildes (Textspalten und Bilder [von Tabellen will ich gar nicht erst anfangen]) selbständig markiert und z.B. LO nutzt, um ein adäqutes Ziellayout zu generieren?
Was die GUIs dafür leisten, kann ich nicht beurteilen. Mit tesseract, eingebunden in xsane, habe ich mich bisher zufrieden gegeben.
Hat jemand Kenntnisse, ob was dabei ist, dass mittlerweile die verschiedenen Bereiche eines Bildes (Textspalten und Bilder [von Tabellen will ich gar nicht erst anfangen]) selbständig markiert und z.B. LO nutzt, um ein adäqutes Ziellayout zu generieren?
- whisper
- Beiträge: 3387
- Registriert: 23.09.2002 14:32:21
- Lizenz eigener Beiträge: GNU Free Documentation License
-
Kontaktdaten:
Re: OCR Progremm
Also cuneiform funkioniert ganz gut, gerade mal mit einem Screenshot von einem Blog getestet.
Alter ist übrigens keine Ausrede, nur Erfahrung, die sich stapelt.
Re: OCR Progremm
Auch ich habe mit tesseract die allerbesten Erfahrungen gemacht.
Wer nicht lieben kann, muß hassen. Wer nicht aufbauen kann muß zerstören. Wer keine Brücken baut, muß spalten.
Re: OCR Programm
Schau ich mir noch an dieses tesseract, hab inzwischen meinen finereader unter wine zum Laufen bekommen da die anderen Tools vom Ergebnis her eher mangelhaft waren, läuft asta die Bohne, einziger Wehrmutstropfen, er scannt nicht von meinem Canon MP510, auf den Drucker kann ich ansonsten zugreifen von windeanwendungen, hier kommt nur:
Kann mit dem Fehler jemand was anfangen?
gruss
casi
Code: Alles auswählen
Interner Programmfehler Fehler:c:\finereader7\scanman\src\scanprocessmanager.cpp,669
gruss
casi
Re: OCR Programm
Ich hab sehr gute Erfahrungen mit der Abbyy Engine gemacht. Die kostet dafuer auch ein bisschen was.
Re: OCR Programm
Wine ist nicht gleich WIne. Es kann ja mit verschiedenen Windows Versionen umgehen. Standardmäßig dürfte es auf Windows XP eingestellt sein. Und die aktuelle stabile Version ist 1.4. Austesten und probieren. Es gab mal eine finereader Version, die frei erhältlich war, hast Du diese? Gibt es die noch irgendwie zum Download? Läuft die auch normal unter Windows 98? Dann würde ich das mal antesten. Mir selber genügt normalerweise tesseract, für das ich mit Lazarus und Objektpascal eine GUI mit Texteditor erstellt habe. Das Programm heißt OcrMaker und ist zur Zeit noch auf meine eigenen Bedürfnisse abgestellt. Aber ich habe schon länger vor, eine Konfigurationsmöglichkeit für jeden Scanner hinzuzufügen und das auch Dokumentengröße , Auflösung und verschiedene Scanmodi frei eingestellt werden können. Wenn das fertig ist, und Bedarf besteht, kann ich es gerne der Allgemeinheit zur Verfügung stellen.
Wer nicht lieben kann, muß hassen. Wer nicht aufbauen kann muß zerstören. Wer keine Brücken baut, muß spalten.
Re: OCR Programm
Jo Ralli, das wär ja mal ne feine Sache, ich hab übrigens Wine 1.4 am LAufen mit win7 Einstellung.
@Lili, ic hschau mir das mal an ,mit Abby
Danke
gruss
casi
@Lili, ic hschau mir das mal an ,mit Abby
Danke
gruss
casi
Re: OCR Programm
Gerne, dann will ich mich mal an die Arbeit machen.
Wer nicht lieben kann, muß hassen. Wer nicht aufbauen kann muß zerstören. Wer keine Brücken baut, muß spalten.
Re: OCR Programm
Lili? *hust*casu4711 hat geschrieben: @Lili, ic hschau mir das mal an ,mit Abby
Re: OCR Programm
@ralli
Ich habe 'ne Pascal-Frage, die ich gerne per PN stellen würde, kannst Du das nicht vielleicht mal für ein, zwei Tage aktivieren?
Grüße, Günther
Ich habe 'ne Pascal-Frage, die ich gerne per PN stellen würde, kannst Du das nicht vielleicht mal für ein, zwei Tage aktivieren?
Grüße, Günther
Re: OCR Programm
Günter, Ist bereits passiert, denn mal los, mal sehen ob ich helfen kann.guennid hat geschrieben:@ralli
Ich habe 'ne Pascal-Frage, die ich gerne per PN stellen würde, kannst Du das nicht vielleicht mal für ein, zwei Tage aktivieren?
Grüße, Günther
Wer nicht lieben kann, muß hassen. Wer nicht aufbauen kann muß zerstören. Wer keine Brücken baut, muß spalten.
Re: OCR Programm
Gerne.guennid hat geschrieben:Danke!
Wer nicht lieben kann, muß hassen. Wer nicht aufbauen kann muß zerstören. Wer keine Brücken baut, muß spalten.
Re: OCR Programm
Hallo Forum,
wie mehrfach angegeben, nach einigen Tests ist cuney und tesseract der Winner. Allerdings bei mir mit SimpleScan und eigenem Skript (~GUI). Die Quote lag fast bei 97,314% ((;-o . Sicher - es kommt auf die Vorlage an - aber die Skript-Automatisation kommt der WIN angenehm nah. Einzige was ich vermisse, ist die fehlende Textrahmen-Verkettung (Spalten Verknüpfung).
Die Anfragen bei 'Machern' liefen ins Leere, bzw. wurden - wie auch immer - nicht beantwortet. CU
wie mehrfach angegeben, nach einigen Tests ist cuney und tesseract der Winner. Allerdings bei mir mit SimpleScan und eigenem Skript (~GUI). Die Quote lag fast bei 97,314% ((;-o . Sicher - es kommt auf die Vorlage an - aber die Skript-Automatisation kommt der WIN angenehm nah. Einzige was ich vermisse, ist die fehlende Textrahmen-Verkettung (Spalten Verknüpfung).
Die Anfragen bei 'Machern' liefen ins Leere, bzw. wurden - wie auch immer - nicht beantwortet. CU
Re: OCR Programm
Hat jemand Erfahrung, inwieweit es etwas bringt, die 'Bilder' vorher in s/w zu konvertieren? Ich hab das irgendwo mal aufgeschnappt, dass das die Fehlerrate verringern würde. Wäre dem aber so, würde ich nicht verstehen, wieso tesseract das nicht intern macht...
Re: OCR Programm
Das bringt auf jeden Fall etwas. Ich wähle beim Scannen (xsane) grundsätzlich schwarz-weiß, mitunter bringt auch Graustufen noch etwas mehr Qualität. Von welchem Bild(format?) du redest, das tesseract intern als schwarz-weißes behandeln könnte, weiß ich nicht. In der Regel speichere ich das scan-Ergebnis gar nicht als Bild. Man kann es (das Ergebnis) in xsane direkt an tesseract übergeben. Solltest du auf Bilder zurückgreifen müssen, ist tiff wohl verboten. Mit png habe ich ebenfalls häufig (immer?) Schiffbruch erlitten. Desewegen speichere ich in diesem Fall als jpg.
Grüße, Günther
Grüße, Günther
Re: OCR Programm
War immer der Meinung, dass tesseract nur für OCR zuständig ist. Mit dem s/w habe ich es auch gehört - vermutlich um die Retuschierungs-Qualität zu verbessern. Nun ist mir überhaupt nicht klar, wie man es in Buntbilder zurück verwandelt? Möglicherweise gibt es irgendwo ein Artikel darüber.
CU, kezal
CU, kezal
Re: OCR Programm
Afaik gar nicht. Ein Programm könnte nur raten, was die Ursprungsfarbe war.kezal hat geschrieben:Nun ist mir überhaupt nicht klar, wie man es in Buntbilder zurück verwandelt? Möglicherweise gibt es irgendwo ein Artikel darüber.
Re: OCR Programm
Ich habe viele über Jahre angesammelte jpgs, die scans von Dokumenten sind. Teilweise wurden die Originale danach weggeschmissen, teilweise in irgendwelchen Ordnern abgelegt. Jetzt ist das bisher so gehandhabt, dass der Dateiname den Inhalt ausreichend kodiert.
Schön wäre jedoch, zusätzlich durch die Files greppen zu können, wenn man mal etwas sucht.
Es wäre kein Problem, tesseract per for-loop über alle Ordner und Files laufen zu lassen, und ein gleichnamiges .txt 'neben' jedem JPG abzulegen, so dass das Durchsuchen möglich ist. Bisher sind die Ergebnisse allerdings nicht so berauschend. Deshalb meine Frage, ob es Verbesserung bringt, vorher in schwarz-weiß zu konvertieren.
Im for-loop ginge dass dann so
<pseudo>
for {i in alle_jpgs} ; do 'convert to s/w' && 'tesseract s/w bild' ; 'rm s/w bild' ; done
</pseudo>
Mit den Hinweisen von hier, dass es was bringen könnte, probier' ich es glaube ich einfach mal aus.
Viele Grüße
Schön wäre jedoch, zusätzlich durch die Files greppen zu können, wenn man mal etwas sucht.
Es wäre kein Problem, tesseract per for-loop über alle Ordner und Files laufen zu lassen, und ein gleichnamiges .txt 'neben' jedem JPG abzulegen, so dass das Durchsuchen möglich ist. Bisher sind die Ergebnisse allerdings nicht so berauschend. Deshalb meine Frage, ob es Verbesserung bringt, vorher in schwarz-weiß zu konvertieren.
Im for-loop ginge dass dann so
<pseudo>
for {i in alle_jpgs} ; do 'convert to s/w' && 'tesseract s/w bild' ; 'rm s/w bild' ; done
</pseudo>
Mit den Hinweisen von hier, dass es was bringen könnte, probier' ich es glaube ich einfach mal aus.
Viele Grüße
Re: OCR Programm
@crwd
Vielleicht ist das, was du da vorhast, ein paar Nummern zu groß für mich und ich weiß auch nicht, wie deine jpgs aussehen.
Aber sei gewarnt: Teseract kann, soweit mir bekannt, keinerlei layout, sobald du Spaltentext oder Bilder in deinen Scans hast, wird das nichts und da spielt das Farbformat dann gar keine Rolle mehr. Die geplante batch-Orgie wird wohl nur was, wenn die jpgs ausmahmslos aus reinem einspaltigen Text bestehen. Ansonsten bleibt nur übrig, einspaltigen Text separat in neuen jpgs zu speichern und tersseract darauf loszulassen.
Grüße, Günther
Vielleicht ist das, was du da vorhast, ein paar Nummern zu groß für mich und ich weiß auch nicht, wie deine jpgs aussehen.
Aber sei gewarnt: Teseract kann, soweit mir bekannt, keinerlei layout, sobald du Spaltentext oder Bilder in deinen Scans hast, wird das nichts und da spielt das Farbformat dann gar keine Rolle mehr. Die geplante batch-Orgie wird wohl nur was, wenn die jpgs ausmahmslos aus reinem einspaltigen Text bestehen. Ansonsten bleibt nur übrig, einspaltigen Text separat in neuen jpgs zu speichern und tersseract darauf loszulassen.
Grüße, Günther
Re: OCR Programm
Tesseract ist für Layouts nicht gemacht worden und deshalb dafür auch nicht geeignet. Aber das, was es kann, macht es wirklich gut und mit einer hohen Erkennungsrate.
Wer nicht lieben kann, muß hassen. Wer nicht aufbauen kann muß zerstören. Wer keine Brücken baut, muß spalten.
Re: OCR Programm
Gute Idee, finde ich. Je nach Anzahl gleichartiger Vorlagen würde sich da ein Script lohnen, das die Bilder sinnvoll zerschneidet …Ansonsten bleibt nur übrig, einspaltigen Text separat in neuen jpgs zu speichern und tersseract darauf loszulassen.
cu,
niemand
Re: OCR Programm
Solange es nur darum geht, einen Suchindex zu generieren ist es doch wurscht ob Tesseract die Spalten erkennt oder auch nicht.
Übrigens mache ich das seit Jahren so, früher mit dem Scanner, heute mit einer Kamera: Jeder Brief wird abfotografiert und durch die OCR laufen gelassen. Dann wird alles einfach chronologisch abgelegt, sowohl das Originale im Ordner als auch die Kopien auf der Festplatte samt der .txt daraus. so finde ich alles wieder, z.B. unter "Miete", "Vespa" oder "Steuer" oder eben den entsprechenden Namen des Absenders.
JO
Übrigens mache ich das seit Jahren so, früher mit dem Scanner, heute mit einer Kamera: Jeder Brief wird abfotografiert und durch die OCR laufen gelassen. Dann wird alles einfach chronologisch abgelegt, sowohl das Originale im Ordner als auch die Kopien auf der Festplatte samt der .txt daraus. so finde ich alles wieder, z.B. unter "Miete", "Vespa" oder "Steuer" oder eben den entsprechenden Namen des Absenders.
JO
Es ist alles schon gesagt, nur nicht von allen.... Karl Valentin
Debian Jessie, XFCE auf älteren Think_pads (ab T21 bis T60/X60) und IBM/M55 SFF (C2D, 8 GB)
Any customer can have a car painted any colour that he wants so long as it is black. Henry Ford
Gilt auch für Laptops
Debian Jessie, XFCE auf älteren Think_pads (ab T21 bis T60/X60) und IBM/M55 SFF (C2D, 8 GB)
Any customer can have a car painted any colour that he wants so long as it is black. Henry Ford
Gilt auch für Laptops