PDF Hintergrund säubern
-
- Beiträge: 55
- Registriert: 30.07.2013 11:59:39
PDF Hintergrund säubern
Hallo, und schönen Feiertag denen, die davon betroffen sind
Ich bekomme viele Text-Scans als PDF, die fälschlicherweise als Bild gescannt wurden.
Nicht nur, dass beim Ausdrucken irre viel Tinte/Toner verbraucht wird, weil ja der Hintergrund auch "Farbe" enthält, die Dokumente sind oft auch viel zu groß zum Abspeichern.
Ich suche nach einem "Editor", mit dem ich ein solches "Bild" in eine Textkopie oder Strichgrafik rein schwarz-weiß umwandeln, oder den "farbigen" Hintergrund entfernen kann.
Ich danke schon mal vorweg.
Avi
Ach ja, die Technik: X201 Thinkpad mit 4 MB RAM und OCZ 260 GB, XFCE4 Deb 8_Jessie
Ich bekomme viele Text-Scans als PDF, die fälschlicherweise als Bild gescannt wurden.
Nicht nur, dass beim Ausdrucken irre viel Tinte/Toner verbraucht wird, weil ja der Hintergrund auch "Farbe" enthält, die Dokumente sind oft auch viel zu groß zum Abspeichern.
Ich suche nach einem "Editor", mit dem ich ein solches "Bild" in eine Textkopie oder Strichgrafik rein schwarz-weiß umwandeln, oder den "farbigen" Hintergrund entfernen kann.
Ich danke schon mal vorweg.
Avi
Ach ja, die Technik: X201 Thinkpad mit 4 MB RAM und OCZ 260 GB, XFCE4 Deb 8_Jessie
Thinkpad X230, 4GB RAM, Crucial m4 128 GB 6b/s mit Siduction XFCE und einer 350 GB SSD
- KBDCALLS
- Moderator
- Beiträge: 22451
- Registriert: 24.12.2003 21:26:55
- Lizenz eigener Beiträge: MIT Lizenz
- Wohnort: Dortmund
-
Kontaktdaten:
Re: PDF Hintergrund säubern
Liefert ein Scanner was anderes ? Das gescannte Bild wird in ein PDF verpackt. Falls der Scan gut genug ist mit OCR tesseract-ocr oder cuneiform . Tesseract kann auch das PDF lesen. Falls es unbedingt dedruckt werden muß ocrmypdf . Anschließend ist das PDF durchsuchbar. Kann auch mit den poppler-utils das Bild aus dem PDF extrahieren.
Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.
EDV ist die Abkürzung für: Ende der Vernunft
Bevor du einen Beitrag postest:
Kaum macht man ein Fenster auf, gehen die Probleme los.
EDV ist die Abkürzung für: Ende der Vernunft
Bevor du einen Beitrag postest:
- Kennst du unsere Verhaltensregeln
- Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.
Re: PDF Hintergrund säubern
Noch eine Idee aber wahrscheinlich umständlicher:
pdf in jpg umwandeln und dann mittels Bildverarbeitung filtern, in schwarz-weiss umwandeln, "kleinrechnen". Mehrseitige PDF ergeben mehrere jpg.
http://www.linux-community.de/Internal/ ... it-convert
http://www.imagemagick.org/script/convert.php
PDFs kann man m. E. auch direkt in Gimp laden und bearbeiten, filtern, umrechnen.
pdf in jpg umwandeln und dann mittels Bildverarbeitung filtern, in schwarz-weiss umwandeln, "kleinrechnen". Mehrseitige PDF ergeben mehrere jpg.
http://www.linux-community.de/Internal/ ... it-convert
http://www.imagemagick.org/script/convert.php
PDFs kann man m. E. auch direkt in Gimp laden und bearbeiten, filtern, umrechnen.
Re: PDF Hintergrund säubern
Richtig "säubern" kannst du einen Hintergrund nur umständlich per Grafikbearbeitung mit Gimp. Und da sollten die gescannten Buchstaben möglichst eine einheitliche Farbe haben, sonst wird es wieder schwer.
Du kannst aber die Größe der Scans recht problemlos kleinrechnen lassen, indem du sie in JPGs mit niedriger Qualität (zB 75%) umwandelst. Musst dabei aber testen, ob sich das dann noch lesen lässt. Eine hohe Auflösung beim Scannen verbessert schließlich die Lesbarkeit bei großen Dateien. Umwandeln kannst du sie mit pdftoppm aus den poppler-utils oder mit convert aus imagemagick
Du kannst aber die Größe der Scans recht problemlos kleinrechnen lassen, indem du sie in JPGs mit niedriger Qualität (zB 75%) umwandelst. Musst dabei aber testen, ob sich das dann noch lesen lässt. Eine hohe Auflösung beim Scannen verbessert schließlich die Lesbarkeit bei großen Dateien. Umwandeln kannst du sie mit pdftoppm aus den poppler-utils oder mit convert aus imagemagick
Re: PDF Hintergrund säubern
Ich benutze zum Scannen gscan2pdf und als OCR - Software tesseract. Das funktioniert ganz gut. Du kannst mit diesem Programm auch Bild- Dateien importieren und eine Texterkennung durchführen. Ausserdem gibt es noch eine Editor, mit dem man ein grundlegende
Dinge tun kann (Bereiche auswählen, löschen usw)
Dinge tun kann (Bereiche auswählen, löschen usw)
-
- Beiträge: 55
- Registriert: 30.07.2013 11:59:39
Re: PDF Hintergrund säubern
Moin, und Danke zunächst für Eure Anregungen.
Melde mich, wenn ich das Problem lösen konnte.
Melde mich, wenn ich das Problem lösen konnte.
Thinkpad X230, 4GB RAM, Crucial m4 128 GB 6b/s mit Siduction XFCE und einer 350 GB SSD
Re: PDF Hintergrund säubern
Ich habe eine ähnliche herangehensweise (muss das auch regelmäßig machen): Extrahieren der Bilder mit pdfimages (aus poppler-utils); Stapelverarbeitung mit Gimp o.ä.: umwandeln in Graustufen, Farbwerte anpassen (Weiß meistens auf ca. 210, Schwarz ca. 30), umwandeln in S/W; zusammenfügen zu neuem PDF-Dokument mit convert (aus imagemagick).
Re: PDF Hintergrund säubern
Befindet sich leider nicht in Debian Repos
https://wiki.ubuntuusers.de/Tamanoir/
Getestet habe ich es nicht, doch wie es in der Wiki steht....
https://wiki.ubuntuusers.de/Tamanoir/
Getestet habe ich es nicht, doch wie es in der Wiki steht....
Systemd und PulseAudio, hmmm, nein danke.
Re: PDF Hintergrund säubern
Wenn der Text nicht editierbar sein muss:
"PDF" in gimp öffnen (die [einzige] Ebene gegebenenfalls auf DIN-A4 skalieren), Menu "Bild/Modus/Indiziert" und dort "Schwarz/Weiß-Palette" anschließend wieder als PDF speichern, äh... "exportieren". Fertig.
Ansonsten (editierbar) bleibt nur tesseract.
Grüße, Günther
[edit]
Nachdem ich mein Vorgehen nochmal getestet habe, will ich noch Folgendes hinzufügen:
Die Umwandlung in den indizierten Modus mit Schwarz/Weiß-Palette vermindert die Bildqualität spürbar. Bei einer Graustufen-Umwandlung habe ich keinen Qualitätsverlust festgestellt. Dürfte dann allerdings für die Reduzierung der Dateigröße nicht mehr viel bringen (vielleicht greift hier Canaglies Tipp bezüglich der Farbwerte).
Umwandlung in editierbaren Text:
mit xpdf kann man Blöcke im PDF mit der Maus markieren und mit mittlerer Maustaste in ein Editorfenster kippen. Da erscheint dann aber jede PDF-Zeile mit Absatzmarke. Außerdem können Zeichensatzprobleme auftreten. Mit evince oder qpdfview ist mir das Markieren/Kopieren nicht gelungen.
Dank an TRex!
"PDF" in gimp öffnen (die [einzige] Ebene gegebenenfalls auf DIN-A4 skalieren), Menu "Bild/Modus/Indiziert" und dort "Schwarz/Weiß-Palette" anschließend wieder als PDF speichern, äh... "exportieren". Fertig.
Ansonsten (editierbar) bleibt nur tesseract.
Grüße, Günther
[edit]
Nachdem ich mein Vorgehen nochmal getestet habe, will ich noch Folgendes hinzufügen:
Die Umwandlung in den indizierten Modus mit Schwarz/Weiß-Palette vermindert die Bildqualität spürbar. Bei einer Graustufen-Umwandlung habe ich keinen Qualitätsverlust festgestellt. Dürfte dann allerdings für die Reduzierung der Dateigröße nicht mehr viel bringen (vielleicht greift hier Canaglies Tipp bezüglich der Farbwerte).
Umwandlung in editierbaren Text:
mit xpdf kann man Blöcke im PDF mit der Maus markieren und mit mittlerer Maustaste in ein Editorfenster kippen. Da erscheint dann aber jede PDF-Zeile mit Absatzmarke. Außerdem können Zeichensatzprobleme auftreten. Mit evince oder qpdfview ist mir das Markieren/Kopieren nicht gelungen.
Dank an TRex!
Re: PDF Hintergrund säubern
Graustufe nutz den gleichen Farbraum wie bunt, bringt also nix bzgl der Datei-Größe. Was auf Anhieb immer geht ist mehr Kompression bei JPGguennid hat geschrieben:Die Umwandlung in den indizierten Modus mit Schwarz/Weiß-Palette vermindert die Bildqualität spürbar. Bei einer Graustufen-Umwandlung habe ich keinen Qualitätsverlust festgestellt. Dürfte dann allerdings für die Reduzierung der Dateigröße nicht mehr viel bringen (vielleicht greift hier Canaglies Tipp bezüglich der Farbwerte).
- Emess
- Beiträge: 3786
- Registriert: 07.11.2006 15:02:26
- Lizenz eigener Beiträge: MIT Lizenz
- Wohnort: Im schönen Odenwald
-
Kontaktdaten:
Re: PDF Hintergrund säubern
Ich scanne erst mal jpg und mach den Hintergrund mit gimp weiss.
Einfach etwas mit dem Schwellenwert (o. ä.) spielen.
Einfach etwas mit dem Schwellenwert (o. ä.) spielen.
Debian Testing (bleibt es auch)
Debian Bookworm KDE Plasma 5x Kernel 6.1.0-21-amd64 (64-bit)
Notebook HP ZBook 17 G2
Quadro K3100M/PCIe/SSE2
http://www.emess62.de
Debian Bookworm KDE Plasma 5x Kernel 6.1.0-21-amd64 (64-bit)
Notebook HP ZBook 17 G2
Quadro K3100M/PCIe/SSE2
http://www.emess62.de