Probleme mit cuneiform

Einrichten des Druckers und des Drucksystems, Scannerkonfiguration und Software zum Scannen und Faxen.
Antworten
Liffi
Beiträge: 2350
Registriert: 02.10.2004 01:33:05

Probleme mit cuneiform

Beitrag von Liffi » 14.01.2012 10:56:01

Ich teste gerade die Brauchbarkeit verschiedener OCR Programme.
Leider habe ich Schwierigkeiten mit Debiancuneiform. Es stürzt immer ab.

Code: Alles auswählen

Cuneiform for Linux 1.1.0
cuneiform: /build/buildd-cuneiform_1.1.0+dfsg-2-i386-pMUC6R/cuneiform-1.1.0+dfsg/cuneiform_src/Kern/lns32/src/puanso.cpp:101: void TPuanso::increase(int, int, int): Assertion `sum>=0' failed.
cuneiform -l ger -f html -o output.html test.bmp  14.01s user 0.24s system 101% cpu 13.984 total
Auch andere output- und Sprachoptionen führen zum gleichen Ergebnis, meine google Suchen brachten mich bisher auch nicht weiter.

Systeminfos: aktuelles SID mit 3.1.0-1-686-pae Kernel.

Und hier mal die letzten Zeilen, wenn ich es mit strace aufrufe (gibt auch nicht viel mehr Infos):

Code: Alles auswählen

 open("/usr/share/locale/en/LC_MESSAGES/libc.mo", O_RDONLY) = -1 ENOENT (No such file or directory)
write(2, "cuneiform: /build/buildd-cuneifo"..., 192cuneiform: /build/buildd-cuneiform_1.1.0+dfsg-2-i386-pMUC6R/cuneiform-1.1.0+dfsg/cuneiform_src/Kern/lns32/src/puanso.cpp:101: void TPuanso::increase(int, int, int): Assertion `sum>=0' failed.
) = 192
rt_sigprocmask(SIG_UNBLOCK, [ABRT], NULL, 8) = 0
tgkill(30101, 30101, SIGABRT)           = 0
--- SIGABRT (Aborted) @ 0 (0) ---
rt_sigaction(SIGABRT, {SIG_DFL, [], SA_INTERRUPT}, {0xb6e61a90, [], SA_INTERRUPT}, 8) = 0
tgkill(30101, 30101, SIGABRT)           = 0
exit_group(6)                           = ?
strace cuneiform -f html -o output.html test.bmp  14.05s user 0.19s system 102% cpu 13.932 total

rendegast
Beiträge: 15041
Registriert: 27.02.2006 16:50:33
Lizenz eigener Beiträge: MIT Lizenz

Re: Probleme mit cuneiform

Beitrag von rendegast » 14.01.2012 11:52:46

Scheint mir ein nur per Upstream lösbares Problem zu sein,
leider ist 1.1.0 auch die aktuelle Version des Projektes https://launchpad.net/cuneiform-linux/.
Also vielleicht http://bugs.debian.org/cuneiform?

Nach den Artikeln in linux-magazin ist freies OCR (auch funktionierend) wohl großenteils crap,
eventuell bringt Dich eine kommerzielle Lösung weiter?
Vielleicht auch ein einem Scanner beiliegendes ABBYY Fine Reader o.ä. unter wine oder in einem VM-winXP?

Bsp. google "OCR site:linux-magazin.de"
http://www.linux-magazin.de/Heft-Abo/Au ... 3/Nachlese
http://www.linux-magazin.de/Heft-Abo/Au ... ig-gelesen
http://www.linux-magazin.de/NEWS/OCR-Ab ... fuer-Linux
http://www.linux-magazin.de/NEWS/Techno ... R-Software
OCR ist eine Technik, die sich nur mit großem Entwicklungsaufwand bewältigen lässt. Die freien Engines Gocr und Ocrad hinken weit hinterher. Auch den ehemals kommerziellen, nun freien Anwendungen Cuneiform und Tesseract merkt man an, dass die Entwicklung vor der Freigabe als Open Source einige Jahre ruhte. Sie kommen mit guten Vorlagen zufriedenstellend zurecht, Cuneiform auch mit Seitenlayouts, die eine gewisse Komplexität nicht übersteigen. Mit typischem Magazin-Layout oder gar mit Formularen ist die Layout-Erkennung der freien Engine aber überfordert.

Die Abbyy-Engine schlägt sich in allen Disziplinen spürbar besser. Besonders die unbeirrbare Layout-Erkennung und die ohne Umwege erzeugten Sandwich-PDFs erweisen sich im Büroalltag als wertvoll. Wer dagegen Dokumente ohne Tabellen in guter Scanqualität verarbeitet und ohnehin Korrektur liest, fährt mit dem freien Cuneiform nicht schlecht und kann sich Lizenzgebühren und Gängelung durch einen Seitenzähler sparen.
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")

Liffi
Beiträge: 2350
Registriert: 02.10.2004 01:33:05

Re: Probleme mit cuneiform

Beitrag von Liffi » 14.01.2012 13:59:43

rendegast hat geschrieben:Scheint mir ein nur per Upstream lösbares Problem zu sein,
leider ist 1.1.0 auch die aktuelle Version des Projektes https://launchpad.net/cuneiform-linux/.
Also vielleicht http://bugs.debian.org/cuneiform?
Ja, vermutlich werde ich da einen Bugreport einstellen.
Nach den Artikeln in linux-magazin ist freies OCR (auch funktionierend) wohl großenteils crap,
eventuell bringt Dich eine kommerzielle Lösung weiter?
Vielleicht auch ein einem Scanner beiliegendes ABBYY Fine Reader o.ä. unter wine oder in einem VM-winXP?
Darüber hatte ich noch nicht nachgedacht ist aber eine sehr gute Idee. Danke!
Ich habe mich eben um eine Trial Version "beworben". Wenn die passt, werde ich auch die 150 Euro hinlegen.
Das Limit von 12k Seiten/Jahr werde ich aber wohl nicht erreichen.

guennid

Re: Probleme mit cuneiform

Beitrag von guennid » 27.05.2012 19:17:50

Die reine Texterkennung funktioniert hier mit tesseract einwandfrei. Dass gute Vorlagenqualität vonnöten sei, wie im obigen Zitat erwähnt, kann ich hier nicht bestätigen. Im Gegenteil, das Programm frisst einiges.

Ich habe schon jahrelang kein win-ocr mehr in der Hand gehabt, glaube aber kaum, dass sich der Erkennungsrate wegen finereader lohnt, zumal du auch noch ein win benötigst. Dass das mit wine gut funktioniert, glaube ich nicht bis zum Beweis des Gegenteils.

Layout ist halt nicht mit tesseract. Dafür kriegst du eine recht ordentliche Frakturschrift-Erkennung so ganz nebenbei. :wink:

Grüße, Günther

Benutzeravatar
ralli
Beiträge: 4400
Registriert: 02.03.2008 08:03:02

Re: Probleme mit cuneiform

Beitrag von ralli » 27.05.2012 19:49:11

Auch ich habe mit tesseract die allerbesten Erfahrungen gemacht.
Wer nicht lieben kann, muß hassen. Wer nicht aufbauen kann muß zerstören. Wer keine Brücken baut, muß spalten.

Liffi
Beiträge: 2350
Registriert: 02.10.2004 01:33:05

Re: Probleme mit cuneiform

Beitrag von Liffi » 30.05.2012 08:23:31

guennid hat geschrieben: Ich habe schon jahrelang kein win-ocr mehr in der Hand gehabt, glaube aber kaum, dass sich der Erkennungsrate wegen finereader lohnt, zumal du auch noch ein win benötigst. Dass das mit wine gut funktioniert, glaube ich nicht bis zum Beweis des Gegenteils.
Es gibt ABBYY FineReader auch als Linux auch als Linux Version. Als Serverversion gedacht und schön per Kommandozeile skriptbar.
Mittlerweile setze ich es ein und bin von den Ergebnissen beeindruckt. Und das Layout bleibt wirklich sehr brauchbar erhalten.

Benutzeravatar
ralli
Beiträge: 4400
Registriert: 02.03.2008 08:03:02

Re: Probleme mit cuneiform

Beitrag von ralli » 30.05.2012 08:46:20

Ich bin jetzt mal auf der Homepage gewesen, kann aber bei den technischen Spezifikationen keine Linux Version entdecken.
Wer nicht lieben kann, muß hassen. Wer nicht aufbauen kann muß zerstören. Wer keine Brücken baut, muß spalten.

Liffi
Beiträge: 2350
Registriert: 02.10.2004 01:33:05

Re: Probleme mit cuneiform

Beitrag von Liffi » 30.05.2012 09:51:18

ralli hat geschrieben:Ich bin jetzt mal auf der Homepage gewesen, kann aber bei den technischen Spezifikationen keine Linux Version entdecken.
http://www.ocr4linux.com/en:start

Benutzeravatar
ralli
Beiträge: 4400
Registriert: 02.03.2008 08:03:02

Re: Probleme mit cuneiform

Beitrag von ralli » 30.05.2012 10:05:19

Danke, ja für ein größeres Scanaufkommen lohnt es sich. Vielleicht liegt eine solche Version ja auch dabei, wenn die Anschaffung eines neuen Scanners bevorsteht. Bei Windows war es jedenfalls oft so.
Wer nicht lieben kann, muß hassen. Wer nicht aufbauen kann muß zerstören. Wer keine Brücken baut, muß spalten.

Antworten