Hallo Forum,
zur Archivierung bestimmter Internetseiten möchte ich diese als durchsuchbare PDF-Dokumente speichern. Nach Installation von "printer-driver-cups-pdf" klappt das mit dem Abspeichern auch schonmal hervorragend . Leider sind die Dateien nicht durchsuchbar, hab's mit Evince und Atril vergeblich versucht. Auch mit wkhtmltopdf werden sehr schöne PDF-Dateien erstellt, nur eben leider ebenfalls nicht durchsuchbar
Ich vermute, es fehlt einfach ein Programm-Paket, um hier zum gewünschten Ergebnis zu kommen. Aber welches? Woran könnte es sonst liegen?
Viele Grüße
Frankie
[gelöst] Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar
-
- Beiträge: 355
- Registriert: 19.08.2003 15:25:48
- Wohnort: Bremen
[gelöst] Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar
Zuletzt geändert von frankieboy am 10.04.2024 19:31:35, insgesamt 1-mal geändert.
Debian Bookworm mit xfce-Desktop
Re: Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar
Das wird so nicht gehen.frankieboy hat geschrieben:10.04.2024 12:46:00...als durchsuchbare PDF-Dokumente speichern. ...
Ich vermute, es fehlt einfach ein Programm-Paket, um hier zum gewünschten Ergebnis zu kommen. Aber welches? Woran könnte es sonst liegen?
PDF ist ein Containerformat. D.h. da *kann* alles mögliche drin sein, Bilder, Text, Schriften ... Soweit es aber Cups betrifft interessiert nur noch welches Pixel wie im Druck dargestellt wird. Es interessiert nicht mehr aus was die einzelnen Pixel hervorgegangen sind. Diese Information ist obsolet weil für den Druck irrelevant. Alles was du mit cups-pdf bekommst ist eine bestimmte Pixelverteilung auf einem bestimmten Format.
Wenn du durchsuchbare PDFs haben willst mußt du dafür sorgen, das Text und Darstellung getrennt sind, und falls notwendig nicht Systemschriften eingebettet werden. Dann liegt das alles im Rohformat, das heißt ungerendert, d.h. nicht in Pixel aufgelöst vor. Libreoffice macht das vermutlich, Scribus und Inkscape machen es gewiss.
Zur Archivierung von Internetseiten (html) verwendest du am Besten einen Browser der das vernünftig macht. Bei mir ist das Vivaldi der das sehr gut macht. Ob und wie gut/schlecht das FF oder welchen Browser auch immer du benutzt macht müßtest du testen.
Falls es doch PDF sein muß so solltest du dich über wkhtmltopdf oder html2pdf informierren. Dann aber auch darüber was da im PDF Container ankommt, Pixel oder roher Inhalt.
Zuletzt geändert von michaa7 am 10.04.2024 13:54:04, insgesamt 3-mal geändert.
gruß
michaa7
-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)
michaa7
-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)
Re: Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar
Was meinst Du mit „nicht durchsuchbar“? Dass die Suchen-Funktion im Betrachter nicht funktioniert oder dass grep nichts findet? Funktioniert's denn mit Dateien, die von Acrobat erstellt wurden? Deine Frage ist für mich irgendwie diffus. Ich kenne mich damit aber auch gar nicht aus.frankieboy hat geschrieben:10.04.2024 12:46:00... Leider sind die Dateien nicht durchsuchbar, hab's mit Evince und Atril vergeblich versucht.
Gruß
Gregor
Wenn man keine Probleme hat, kann man sich welche machen. ("Großes Lötauge", Medizinmann der M3-Hopi [und sog. Maker])
Re: Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar
gruß
michaa7
-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)
michaa7
-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)
Re: Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar
Auf der Grundlage einer Texterkennung musst du im PDF-Dokument eine durchsuchbare Textebene erzeugen. Ich habe dafür vor einiger Zeit erfolgreich das Kommandozeilen-Werkzeug ocrmypdf genutzt.
Re: Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar
Nachtrag: Statt CUPS-PDF benutze besser den virtuellen Drucker, der – so nehme ich an – auch bei dir als "In Datei drucken" im System-Druck-Dialog erscheint. Damit werden, wie ich gerade sehe, direkt durchsuchbare PDFs erzeugt – ohne dass eine weitere Bearbeitung erforderlich wäre.
-
- Beiträge: 355
- Registriert: 19.08.2003 15:25:48
- Wohnort: Bremen
Re: Mit cups-pdf "gedruckte" Dateien nicht durchsuchbar
Perfekt. Mit dem virtuellen Drucker klappt es wie gewünscht. Vielen Dank.
Debian Bookworm mit xfce-Desktop