[gelöst] Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar

Einrichten des Druckers und des Drucksystems, Scannerkonfiguration und Software zum Scannen und Faxen.
Antworten
frankieboy
Beiträge: 355
Registriert: 19.08.2003 15:25:48
Wohnort: Bremen

[gelöst] Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar

Beitrag von frankieboy » 10.04.2024 12:46:00

Hallo Forum,

zur Archivierung bestimmter Internetseiten möchte ich diese als durchsuchbare PDF-Dokumente speichern. Nach Installation von "printer-driver-cups-pdf" klappt das mit dem Abspeichern auch schonmal hervorragend :D. Leider sind die Dateien nicht durchsuchbar, hab's mit Evince und Atril vergeblich versucht. Auch mit wkhtmltopdf werden sehr schöne PDF-Dateien erstellt, nur eben leider ebenfalls nicht durchsuchbar :(

Ich vermute, es fehlt einfach ein Programm-Paket, um hier zum gewünschten Ergebnis zu kommen. Aber welches? Woran könnte es sonst liegen?

Viele Grüße

Frankie
Zuletzt geändert von frankieboy am 10.04.2024 19:31:35, insgesamt 1-mal geändert.
Debian Bookworm mit xfce-Desktop

michaa7
Beiträge: 4916
Registriert: 12.12.2004 00:46:49
Lizenz eigener Beiträge: MIT Lizenz

Re: Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar

Beitrag von michaa7 » 10.04.2024 13:25:45

frankieboy hat geschrieben: ↑ zum Beitrag ↑
10.04.2024 12:46:00
...als durchsuchbare PDF-Dokumente speichern. ...

Ich vermute, es fehlt einfach ein Programm-Paket, um hier zum gewünschten Ergebnis zu kommen. Aber welches? Woran könnte es sonst liegen?
Das wird so nicht gehen.

PDF ist ein Containerformat. D.h. da *kann* alles mögliche drin sein, Bilder, Text, Schriften ... Soweit es aber Cups betrifft interessiert nur noch welches Pixel wie im Druck dargestellt wird. Es interessiert nicht mehr aus was die einzelnen Pixel hervorgegangen sind. Diese Information ist obsolet weil für den Druck irrelevant. Alles was du mit cups-pdf bekommst ist eine bestimmte Pixelverteilung auf einem bestimmten Format.

Wenn du durchsuchbare PDFs haben willst mußt du dafür sorgen, das Text und Darstellung getrennt sind, und falls notwendig nicht Systemschriften eingebettet werden. Dann liegt das alles im Rohformat, das heißt ungerendert, d.h. nicht in Pixel aufgelöst vor. Libreoffice macht das vermutlich, Scribus und Inkscape machen es gewiss.

Zur Archivierung von Internetseiten (html) verwendest du am Besten einen Browser der das vernünftig macht. Bei mir ist das Vivaldi der das sehr gut macht. Ob und wie gut/schlecht das FF oder welchen Browser auch immer du benutzt macht müßtest du testen.

Falls es doch PDF sein muß so solltest du dich über wkhtmltopdf oder html2pdf informierren. Dann aber auch darüber was da im PDF Container ankommt, Pixel oder roher Inhalt.
Zuletzt geändert von michaa7 am 10.04.2024 13:54:04, insgesamt 3-mal geändert.
gruß

michaa7

-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)

Benutzeravatar
GregorS
Beiträge: 3124
Registriert: 05.06.2008 09:36:37
Wohnort: Freiburg
Kontaktdaten:

Re: Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar

Beitrag von GregorS » 10.04.2024 13:30:14

frankieboy hat geschrieben: ↑ zum Beitrag ↑
10.04.2024 12:46:00
... Leider sind die Dateien nicht durchsuchbar, hab's mit Evince und Atril vergeblich versucht.
Was meinst Du mit „nicht durchsuchbar“? Dass die Suchen-Funktion im Betrachter nicht funktioniert oder dass grep nichts findet? Funktioniert's denn mit Dateien, die von Acrobat erstellt wurden? Deine Frage ist für mich irgendwie diffus. Ich kenne mich damit aber auch gar nicht aus.

Gruß

Gregor
Wenn man keine Probleme hat, kann man sich welche machen. ("Großes Lötauge", Medizinmann der M3-Hopi [und sog. Maker])

michaa7
Beiträge: 4916
Registriert: 12.12.2004 00:46:49
Lizenz eigener Beiträge: MIT Lizenz

Re: Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar

Beitrag von michaa7 » 10.04.2024 13:35:06

GregorS hat geschrieben: ↑ zum Beitrag ↑
10.04.2024 13:30:14
... Ich kenne mich damit aber auch gar nicht aus.
:mrgreen:
gruß

michaa7

-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)

Huo
Beiträge: 778
Registriert: 26.11.2017 14:03:31
Wohnort: Freiburg

Re: Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar

Beitrag von Huo » 10.04.2024 14:24:22

Auf der Grundlage einer Texterkennung musst du im PDF-Dokument eine durchsuchbare Textebene erzeugen. Ich habe dafür vor einiger Zeit erfolgreich das Kommandozeilen-Werkzeug Debianocrmypdf genutzt.

Huo
Beiträge: 778
Registriert: 26.11.2017 14:03:31
Wohnort: Freiburg

Re: Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar

Beitrag von Huo » 10.04.2024 14:57:56

Nachtrag: Statt CUPS-PDF benutze besser den virtuellen Drucker, der – so nehme ich an – auch bei dir als "In Datei drucken" im System-Druck-Dialog erscheint. Damit werden, wie ich gerade sehe, direkt durchsuchbare PDFs erzeugt – ohne dass eine weitere Bearbeitung erforderlich wäre.

frankieboy
Beiträge: 355
Registriert: 19.08.2003 15:25:48
Wohnort: Bremen

Re: Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar

Beitrag von frankieboy » 10.04.2024 19:30:57

Perfekt. Mit dem virtuellen Drucker klappt es wie gewünscht. Vielen Dank. :D
Debian Bookworm mit xfce-Desktop

Antworten