zB habe ich einige PDFs die im Endeffekt aus eingescannten Seiten bestehen, das schaut zB so aus:
Code: Alles auswählen
$ pdfimages -l 10 -list files/some.pdf
page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
1 0 image 1339 1922 icc 3 8 jpeg no 18 0 201 201 59.0K 0.8%
2 1 stencil 3760 3988 - 1 1 jbig2 no 27 0 600 600 2708B 0.1%
3 2 stencil 4016 5764 - 1 1 jbig2 no 42 0 600 600 11.4K 0.4%
4 3 stencil 4016 4290 - 1 1 jbig2 no 48 0 600 600 9.80K 0.5%
Ich hab gelesen, die einzige methode wie man mit pdfimages filtern kann ist 1) alles extrahieren und dann 2) mit -list alles filtern und wieder löschen.
Das ist mir aber eigentlich zu doof, weil pdfimages ist jetzt auch nicht das schnellste tool
Hat jemand eine andere idee?
* nach anschauen einiger PDFs, schauts so aus als ob stencil kein alleiniges merkmal ist... bei einem anderen ist es type image. Außerdem gibt es einige verschiedene typen wie jbig2, ccit oder jpeg.
vermutlich ist die aufgabe daher doch schwerer als gedacht. Aber ggf muss man einfach nur irgendwie nach der größe filtern und vorher die page size auslesen oder so...