Text aus gescannter Datei extrahieren

Einrichten des Druckers und des Drucksystems, Scannerkonfiguration und Software zum Scannen und Faxen.
Antworten
tHoRax
Beiträge: 560
Registriert: 22.12.2014 17:23:26

Text aus gescannter Datei extrahieren

Beitrag von tHoRax » 24.03.2012 18:32:19

hallo leute,
ich habe ein DIN A4 Dokument gescannt und nun habe ich es als laufplan.png auf dem PC liegen.
Diesen möchte ich am PC bearbeiten, d.h. alte Werte löschen, neue Werte eintragen, ändern etc und wieder als neues Dokument drucken. Desweiteren soll die Schriftart und -größe wie im Originaldokument beibehalten werden. Ich möchte lediglich die Werte im eingescannten Dokument löschen,editieren oder neu schreiben und drucken, damit sie wieder aktuell sind.
Wie kann ich es machen?
/ASUS-F751S/ Intel Pentium N3710 @ 2.560Ghz
VGA compatible controller: Intel Corporation Atom/Celeron/Pentium Processor x5-E8000/J3xxx/N3xxx Integrated Graphics Controller (rev 35)
Linux/5.19.13-arch1-1 x86_64 GNU/Linux
WindowManager: BSPWM

Cae
Beiträge: 6349
Registriert: 17.07.2011 23:36:39
Wohnort: 2130706433

Re: Text aus gescannter Datei extrahieren

Beitrag von Cae » 24.03.2012 19:29:49

Mit GIMP Boxen über den alten Text legen und den neuen reinschreiben. Oder so etwas in der Richtung. Allerdings wird man das schon erkennen, wenn es nicht sauber gemacht und dieselbe Font verwendet wurde.

Gruß Cae
If universal surveillance were the answer, lots of us would have moved to the former East Germany. If surveillance cameras were the answer, camera-happy London, with something like 500,000 of them at a cost of $700 million, would be the safest city on the planet.

—Bruce Schneier

guennid

Re: Text aus gescannter Datei extrahieren

Beitrag von guennid » 24.03.2012 19:39:37

Texterkennung macht man mit Debiantesseract.Aber wie Cae schon sagte, eine zu 100% identisch aussehende Kopie wirst du kaum hinkriegen.

Grüße, Günther

DeletedUserReAsG

Re: Text aus gescannter Datei extrahieren

Beitrag von DeletedUserReAsG » 24.03.2012 19:48:08

Das geht schon. Ist etwas Arbeit: man sucht sich die einzelnen Zeichen zusammen (sofern man die verwendete Schrift nicht finden kann, was bei den meisten am Rechner erstellten Sachen jedoch nicht zu schwierig ist), und positioniert sie dann punktgenau. Mit Imagemagick und Co. ließe sich das nach einmal Vorarbeit (eben Zeichen zusammensuchen und Positionen festlegen) auch ganz gut automatisieren. Die Frage ist: wozu der Aufwand? Wenn das Ändern der Werte legitim ist, sollte es auch keinen Beinbruch darstellen, wenn der neue Plan etwas anders aussieht. Dann könnte man sich nämlich eine Vorlage machen, und wäre für zukünftige Änderungen gerüstet.

cu,
niemand

wanne
Moderator
Beiträge: 7682
Registriert: 24.05.2010 12:39:42

Re: Text aus gescannter Datei extrahieren

Beitrag von wanne » 24.03.2012 22:14:08

niemand hat geschrieben:(sofern man die verwendete Schrift nicht finden kann
Es ist wesentlich sinnvoller die Buchstaben zu kopieren. Wenn man mit echten in's dokument reinschreibt fallen die auf, weil sie viel schärfer sind.
rot: Moderator wanne spricht, default: User wanne spricht.

tHoRax
Beiträge: 560
Registriert: 22.12.2014 17:23:26

Re: Text aus gescannter Datei extrahieren

Beitrag von tHoRax » 27.03.2012 17:02:02

hallo,
danke für die Antworten.War ein paar Tage weg, konnte nicht antworten...
Wäre es vielleicht sinvoller, wenn ich das gescannte Dokument als PDF-Datei abspeichere und mit pdfedit bearbeite oder als Textdokument? Wie ist eure Erfahrung?Bestimmt hat jemand von euch in der Richtung was gemacht :wink:
/ASUS-F751S/ Intel Pentium N3710 @ 2.560Ghz
VGA compatible controller: Intel Corporation Atom/Celeron/Pentium Processor x5-E8000/J3xxx/N3xxx Integrated Graphics Controller (rev 35)
Linux/5.19.13-arch1-1 x86_64 GNU/Linux
WindowManager: BSPWM

wanne
Moderator
Beiträge: 7682
Registriert: 24.05.2010 12:39:42

Re: Text aus gescannter Datei extrahieren

Beitrag von wanne » 28.03.2012 20:13:44

Naja als PDF abspeichern ist ziemlich sinnlos, da da im Normalfall einfach das Bild reingepackt wird und PDF drumrum. Das wird nur unhandlicher wie das Bild direkt. Alles was wirklich text abspeichert braucht ne OCR Und die kommen nicht über 98% (sowieso nicht unter Linux und zu akzeptablen Preisen.) was im Umkehrschluss heißt, dass du jeden 50. Buchstaben austauschen musst. Da tippt man schneller ab. (Zumal es bei dem Erkennen von Formatierungen noch schlechter aussieht.)

Also ich würde sagen das sinnvollste ist echt das Bild zu editieren. Oder eben abtippen...
rot: Moderator wanne spricht, default: User wanne spricht.

Antworten