Erkennung ob ein PDF native oder Bitmap-PDF ist

monstermania · 8. November 2016

Moin,

wir archivieren eine größere Anzahl von Dokumenten in ein Archivsystem. Die Dokumente werden als PDF bzw. PDF/a archiviert.

Das Archivsystem unterstützt eine Volltextsuche bei PDF. Dafür müssen die PDF jedoch bei der Archivierung als searchable PDF vorhanden sein.

Mein Problem ist nun, dass ich diverse PDF bekomme, bei denen eine Bitmap-Datei (z.B. jpg, tif) in das PDF integriert wurde (z.B. gescannte PDF). Diese PDF müssten vor der Archivierung noch eine OCR-Erkennung durchlaufen. Das mit der OCR ist auch kein Problem. Leider habe ich bisher keine Möglichkeit gefunden (sicher) zu erkennen, ob ein PDF native ist oder ob es sich um ein PDF mit Bitmap-Dateien handelt.

Kennt Jemand von Euch eine Möglichkeit (Tool), mit dem sich sicher erkennen lässt, ob es sich um eine native PDF oder ein PDF bestehend aus Bitmap-Daten handelt? Am Besten in Form eines Kommandozeilen-Tools. Also PDF wird an das Tool übergeben und das Tool gibt zurück, ob es ein native PDF oder ein gescanntes PDF ist.

Gruß

Dirk

BOfH_666 · 8. November 2016

Hmmmm, woran sollte denn dieses Tool festmachen, dass es ein gescanntes PDF ist? Ein 'natives' PDF kann ja auch eingebettete Bilder enthalten.

monstermania · 8. November 2016

Hmmmm, woran sollte denn dieses Tool festmachen, dass es ein gescanntes PDF ist? Ein 'natives' PDF kann ja auch eingebettete Bilder enthalten.

Ja, das ist richtig! :D

Im umgekehrten Fall kann ein gescanntes PDF ja auch eingebettete Schriftarten enthalten. Trotzdem wäre es kein natives PDF.

Daher ja meine Frage, ob Jemand für das Problem eine Lösung hat bzw. kennt.

Esta · 8. November 2016

Hallo monstermania,

also die OCR Software erkennt am besten, ob es ein Bitmap PDF oder nicht ist. Eine anderweitige Validierung wird schwierig. Du kannst dir JHOVE ansehen und dir eine Kommandozeile zusammen basteln, in etwa so: extrahieren Bitmap und vergleichen, Anzahl Seiten gleich Anzahl Bitmap könnte ein Bitmap PDF sein. Und Anzahl Seiten ungleich Bitmap ist "natives" PDF.

monstermania · 8. November 2016

also die OCR Software erkennt am besten, ob es ein Bitmap PDF oder nicht ist.

Nee,

dem ist eben leider nicht so.

Die OCR-Software ist ziemlich dumm. Es wird schlichtweg jedes Dokument gerendert und durch die OCR gejagt. Auch native PDF. Ich denke, dass es der Engine prinzipiell egal ist, ob das PDF native oder ein Bitmap PDF ist.

Der Vorteil dieser Lösung ist natürlich, dass man bei nativen PDF die Bilder enthalten nachher sogar eine Volltextsuche über den Text in den Bildern machen kann ;). Nur das wollen wir gar nicht!

Wir wollen vermeiden, dass wir jedes PDF nochmals durch die OCR jagen. Frist pro Seite rund 5-6 Sekunden Zeit.

Kann man irgendwie herausfinden, ob ein PDF einen Textlayer enthält?

bearbeitet 8. November 2016 von monstermania

Esta · 8. November 2016

Hallo monstermania,

hast du dir schon das Programm angeschaut? Klar wäre auch eine Option nach Text zu suchen. Gibt sicher auch andere Programme mit denen man PDFs Validieren kann. Wenn man z.B. aus einem PDF wieder ein Word Dokument oder so machen kann, kann man sicher auch nach "Text" extrahieren.

Sunny61 · 8. November 2016

Kann man irgendwie herausfinden, ob ein PDF einen Textlayer enthält?

Jepp, es gibt von Aspose.com eine kostenpflichtige DLL, mit der kann man abfragen ob es ein Textfeld gibt. Dazu mußt Du allerdings ein kleines Programm erstellen, VB.Net oder ähnliches und darin als Verweis die DLL einbinden.

monstermania · 8. November 2016

Hab jetzt etwas mit Xpdf herumprobiert. Dort gibt es ein Tool 'pdffonts'. Damit lassen sich die in das PDF eingebetteten Schriftarten anzeigen.

Bei allen Bitmap PDF, die ich getestet habe, sind keine Schriftarten eingebettet. Bei den nativen PDF ist zumindest immer eine Schriftart eingebettet.

Damit bekomm ich das hin :cool:

Anmelden

Erkennung ob ein PDF native oder Bitmap-PDF ist

Empfohlene Beiträge

monstermania 53

BOfH_666 585

monstermania 53

Esta 121

monstermania 53

Esta 121

Sunny61 820

monstermania 53

Schreibe einen Kommentar

Menu

Aktivitäten