PDF Converter
PDF Converter
Hallo zusammen,
ich suche einen guten PDF Converter mit dem man PDF in Word-Dateien umwandeln kann, ohne dass man sich gleich ein Virus holt. Habt ihr eine Idee?
ich suche einen guten PDF Converter mit dem man PDF in Word-Dateien umwandeln kann, ohne dass man sich gleich ein Virus holt. Habt ihr eine Idee?
Re: PDF Converter
Für die Konvertierung von PDF zu MS-Word kenne ich unter Linux nichts.
Was geht: PDF mit LibreOffice Draw bearbeiten.
Es gibt recht viele PDF-Import-Plugins für MS Word, aber da musst du selber suchen.
Was geht: PDF mit LibreOffice Draw bearbeiten.
Es gibt recht viele PDF-Import-Plugins für MS Word, aber da musst du selber suchen.
Re: PDF Converter
PDF ist halt ein Bildformat vernünftig formatierten Text wirst du da eher nicht mehr daraus machen können. Du kannst text und Bilder retten aber Formatiert ist ein PDF nunmal nicht.
Daneben kann man noch massenhaft andere Sachen einbinden.
Wenn du Glück hast ist da schon ein Dokument drin. (Word heftet das docx glaube ich an.) Kannst du da wieder raus holen mit pdfdetach (poppler). (pdfdetach -list zeigt dir an was es gibt mit pdfdetach -save 1 pdf.pdf speicherst du das erste.)
Ist das nicht der Fall kannst du daraus halt irgend wie text oder Bilder extrahieren.
Per Copy und Paste mit poppler:
Konvertierung einer ganzen Seite in ein großes PNG mit ghostscript:
Über den Umweg HTML mit poppler und pandoc um docx zu erstellen:
Dann hast du ein docx, wo text und bilder hin übertragen wurden.
Daneben kann man noch massenhaft andere Sachen einbinden.
Wenn du Glück hast ist da schon ein Dokument drin. (Word heftet das docx glaube ich an.) Kannst du da wieder raus holen mit pdfdetach (poppler). (pdfdetach -list zeigt dir an was es gibt mit pdfdetach -save 1 pdf.pdf speicherst du das erste.)
Ist das nicht der Fall kannst du daraus halt irgend wie text oder Bilder extrahieren.
Per Copy und Paste mit poppler:
Code: Alles auswählen
pdfimages -all pdf.pdf /ordner/name #Bilder
pdftotext /home/wanne/systest/documentation/personen/Rene_Lange/cheatsheet/manual_xg6120_install.pdf -raw - #Text
Code: Alles auswählen
ghostscript -r1050x1485 -dBATCH -dNOPAUSE -sDEVICE=png48 -sOutputFile=/tmp/out%d.png pdf.pdf
Code: Alles auswählen
pdftohtml /home/wanne/systest/documentation/personen/Rene_Lange/cheatsheet/manual_xg6120_install.pdf -stdout | pandoc -f html -t docx -o /tmp/out.docx
rot: Moderator wanne spricht, default: User wanne spricht.
Re: PDF Converter
PDF ist ein graus um sicher zu interpretieren. Lücken wirst du in praktisch jedem Interpreter finden.ohne dass man sich gleich ein Virus holt.
Die von mir verwendeten Tools bei cvedetails:
https://www.cvedetails.com/vulnerabilit ... d5bce289f7
https://www.cvedetails.com/vulnerabilit ... a9b85b2882
Das wird für andere nicht viel anders aussehen. Aber wenigstens haben sie immer schneller reagiert, bevor es Exploits gab.
rot: Moderator wanne spricht, default: User wanne spricht.
-
- Beiträge: 725
- Registriert: 09.09.2014 18:33:22
- Lizenz eigener Beiträge: GNU Free Documentation License
Re: PDF Converter
PDF ist ein Dokumentenformat (kein Bildformat, wie jemand hier im Thread fälschlicherweise behauptet hat), das für die Ausgabe/Weitergabe von Dokumenten gedacht ist die nicht mehr verändert werden sollen. Es gibt Software, die PDF-Dokumente wie normale Dokumente öffnen kann, aber das sind i.d.R. sehr teure Profi-DTP-Lösungen (Scribus m.W. auch) - die haben aber normalerweise keinen (verlustfreien) Word-Export.
Aus deiner Frage wird nicht ganz klar, was du hauptsächlich erreichen willst. Willst du Sicherheit vor Viren, oder die Dokumente weiter bearbeiten? Wenn es hauptsächlich um Viren geht, könnte man mal recherchieren, ob die (verlustfreie) Konvertierung PDF->Postscript und wieder zurück, da hilft: ich kenne mich mit PDF-Viren nicht aus - würde aber davon ausgehen dass bei der Konvertierung nach Postscript die meisten dynamischen Features wie Javascript, Flash o.ä. mangels Unterstützung im Postscript-Standard wegfallen und das Dokument dadurch weitgehend entschärft wird.
Wenn du PDF-Dokumente tatsächlich weiter bearbeiten willst, müsstest du den Anwendungsfall genauer beschreiben - dann können wir nach einer Lösung speziell für dieses Problem suchen. Das ist aber eigentlich immer mit zusätzlicher Arbeit verbunden und ziemlich umständlich.
Aus deiner Frage wird nicht ganz klar, was du hauptsächlich erreichen willst. Willst du Sicherheit vor Viren, oder die Dokumente weiter bearbeiten? Wenn es hauptsächlich um Viren geht, könnte man mal recherchieren, ob die (verlustfreie) Konvertierung PDF->Postscript und wieder zurück, da hilft: ich kenne mich mit PDF-Viren nicht aus - würde aber davon ausgehen dass bei der Konvertierung nach Postscript die meisten dynamischen Features wie Javascript, Flash o.ä. mangels Unterstützung im Postscript-Standard wegfallen und das Dokument dadurch weitgehend entschärft wird.
Wenn du PDF-Dokumente tatsächlich weiter bearbeiten willst, müsstest du den Anwendungsfall genauer beschreiben - dann können wir nach einer Lösung speziell für dieses Problem suchen. Das ist aber eigentlich immer mit zusätzlicher Arbeit verbunden und ziemlich umständlich.
Re: PDF Converter
Wie Adobe das Nennt ist mir Wurst. Objektiv sind klassische PDF eine Kombination aus Vektorgrafikformat (Du hast Objekte an Koordinaten. Gehst du auf den passenden Wikipediaartikel wird PDF sogar als häufigstes Beispiel für ein solches genannt: https://en.wikipedia.org/wiki/Vector_graphics. ) und Conatinern (Weil es auch andere Formate wie PNG oder ähnliches einbetten kann.)Korodny hat geschrieben:05.06.2018 15:15:08PDF ist ein Dokumentenformat (kein Bildformat, wie jemand hier im Thread fälschlicherweise behauptet hat)
Im Gegensatz zu einer Markup Language wie RTF, ODF (odt), OOXML (docx)… die formatierten Text abspeichern.
Du kannst auch mit pdfedit oder inkscape pdfs bearbeiten. Es wird aber nie in der Art und weise wie in einem ursprünglichen Word Dokument gehen. Du hast nun mal keine Informationen mehr was Überschriften oder Absätze sind. Z.B. ist unmöglich zu entscheiden ob aus Platzmangel oder aus Stielgründen umgebrochen wurde. (Essenden es hat genug platz.)Es gibt Software, die PDF-Dokumente wie normale Dokumente öffnen kann, aber das sind i.d.R. sehr teure Profi-DTP-Lösungen (Scribus m.W. auch) - die haben aber normalerweise keinen (verlustfreien) Word-Export.
rot: Moderator wanne spricht, default: User wanne spricht.
- heisenberg
- Beiträge: 4125
- Registriert: 04.06.2015 01:17:27
- Lizenz eigener Beiträge: MIT Lizenz
Re: PDF Converter
Die PDF-Import-Funktion von LibreOffice ist auch eher bescheiden. Vieles ist nur als Bild(je nach Erzeugerprogramm des PDFs) dort drin und nicht bearbeitbar.
PDF ist halt nicht wirklich für das Bearbeiten gedacht.
PDF ist halt nicht wirklich für das Bearbeiten gedacht.
Re: PDF Converter
Das finde ich nicht. Inzwischen ist bei LO 6 die Bearbeitungsfunktionen richtig gut.heisenberg hat geschrieben:05.06.2018 15:45:23Die PDF-Import-Funktion von LibreOffice ist auch eher bescheiden. Vieles ist nur als Bild(je nach Erzeugerprogramm des PDFs) dort drin und nicht bearbeitbar.
Probleme machen eher seltsame Schriften im Dokument bzw Schriften als Pfade. Und natürlich irgendwelche Berechnungsfunktionen etc. Aber das funktioniert sowieso teilweise nur mit dem Adobe Reader.
-
- Beiträge: 725
- Registriert: 09.09.2014 18:33:22
- Lizenz eigener Beiträge: GNU Free Documentation License
Re: PDF Converter
Das "Portable Document Format" ist seit 20 Jahren ein ISO-Standard. Nicht Adobe nennt das so, sondern jeder außer dir.wanne hat geschrieben:Wie Adobe das Nennt ist mir Wurst.
PDF ist eine Seitenbeschreibungssprache, die natürlich ebenfalls formatierten Text abspeichert, ggfs. sind sogar die benötigten Schriftarten im PDF mit eingebettet.wanne hat geschrieben:Im Gegensatz zu einer Markup Language wie RTF, ODF (odt), OOXML (docx)… die formatierten Text abspeichern.
Re: PDF Converter
Nein. Guck dir den Standard an. PDF kennt Text aber keine Formatierungen. (Genau wie z.B. SVG.) Immer nur x und y Koordinaten. Keine Absätze, keine Überschriften, keine Spalten...wanne hat geschrieben:05.06.2018 15:43:58PDF ist eine Seitenbeschreibungssprache, die natürlich ebenfalls formatierten Text abspeichert,
Eben. Genau wie man das von einem Grafikformat erwarten würde werden irgend welche Kurven abgespeichert. Das gleiche gilt für Kursiv oder ähnliches. Halt andere Bilder. Keine logische Schrägstellung oder ähnliches.wanne hat geschrieben:05.06.2018 15:43:58ggfs. sind sogar die benötigten Schriftarten im PDF mit eingebettet.
rot: Moderator wanne spricht, default: User wanne spricht.
Re: PDF Converter
Das Thema "PDF sauber zu einem anderen Dateiformat konvertieren" würde ich an deiner Stelle am besten vergessen, klappt grundsätzlich nicht. Wollte mal ein Template in PDF mit Platzhaltertags {$tag} machen, um daraus weitere PDF's zu generieren, praktisch unmöglich...
Freundliche Grüsse, Jan
- heisenberg
- Beiträge: 4125
- Registriert: 04.06.2015 01:17:27
- Lizenz eigener Beiträge: MIT Lizenz
Re: PDF Converter
Ich habe hier einen Flyer mit LibreOffice Draw 5 erstellt und wollte dann nochmal per PDF-Import an anderer Stelle etwas bearbeitet(Viele Bilder und spezielle Schriftarten). Nach dem PDF-Import konnte ich keinerlei Texte editieren.debianoli hat geschrieben:05.06.2018 16:08:02Das finde ich nicht. Inzwischen ist bei LO 6 die Bearbeitungsfunktionen richtig gut.heisenberg hat geschrieben:05.06.2018 15:45:23Die PDF-Import-Funktion von LibreOffice ist auch eher bescheiden. Vieles ist nur als Bild(je nach Erzeugerprogramm des PDFs) dort drin und nicht bearbeitbar.
Probleme machen eher seltsame Schriften im Dokument bzw Schriften als Pfade. Und natürlich irgendwelche Berechnungsfunktionen etc. Aber das funktioniert sowieso teilweise nur mit dem Adobe Reader.
---
Was das Thema angeht:
Was ich von anderen höre, sind die kommerziellen Programme Abbby Fine Reader(OCR) und Adobe Acrobat da die einzigen, die es vernünftig hinbekommen ein Word-Dokument aus einem PDF zu erzeugen. Natürlich gegen entsprechend viel Geld.
Re: PDF Converter
Dies hat mit den Export-Einstellungen beim Erstellen des Urspungs-Flyers zu tun. Wenn man beim Export von LO nach PDF im Export-Menü die Option "PDF/A-1a (ISO 19005-1)-Archiv" wählt, dann wandelt LO beim Export einige Seiten in komplette Grafiken um. Dies geschieht auf den Seiten, auf denen Grafiken mit Transparenzen und Text gemischt sind.heisenberg hat geschrieben:07.06.2018 10:40:56Ich habe hier einen Flyer mit LibreOffice Draw 5 erstellt und wollte dann nochmal per PDF-Import an anderer Stelle etwas bearbeitet(Viele Bilder und spezielle Schriftarten). Nach dem PDF-Import konnte ich keinerlei Texte editieren.
LO meldet dies auch beim Export, da der ISO-Standard keine Transparenzen unterstützt.