monstermania 53 Geschrieben 8. November 2016 Melden Teilen Geschrieben 8. November 2016 Moin, wir archivieren eine größere Anzahl von Dokumenten in ein Archivsystem. Die Dokumente werden als PDF bzw. PDF/a archiviert. Das Archivsystem unterstützt eine Volltextsuche bei PDF. Dafür müssen die PDF jedoch bei der Archivierung als searchable PDF vorhanden sein. Mein Problem ist nun, dass ich diverse PDF bekomme, bei denen eine Bitmap-Datei (z.B. jpg, tif) in das PDF integriert wurde (z.B. gescannte PDF). Diese PDF müssten vor der Archivierung noch eine OCR-Erkennung durchlaufen. Das mit der OCR ist auch kein Problem. Leider habe ich bisher keine Möglichkeit gefunden (sicher) zu erkennen, ob ein PDF native ist oder ob es sich um ein PDF mit Bitmap-Dateien handelt. Kennt Jemand von Euch eine Möglichkeit (Tool), mit dem sich sicher erkennen lässt, ob es sich um eine native PDF oder ein PDF bestehend aus Bitmap-Daten handelt? Am Besten in Form eines Kommandozeilen-Tools. Also PDF wird an das Tool übergeben und das Tool gibt zurück, ob es ein native PDF oder ein gescanntes PDF ist. Gruß Dirk Zitieren Link zu diesem Kommentar
BOfH_666 577 Geschrieben 8. November 2016 Melden Teilen Geschrieben 8. November 2016 Hmmmm, woran sollte denn dieses Tool festmachen, dass es ein gescanntes PDF ist? Ein 'natives' PDF kann ja auch eingebettete Bilder enthalten. Zitieren Link zu diesem Kommentar
monstermania 53 Geschrieben 8. November 2016 Autor Melden Teilen Geschrieben 8. November 2016 Hmmmm, woran sollte denn dieses Tool festmachen, dass es ein gescanntes PDF ist? Ein 'natives' PDF kann ja auch eingebettete Bilder enthalten. Ja, das ist richtig! :D Im umgekehrten Fall kann ein gescanntes PDF ja auch eingebettete Schriftarten enthalten. Trotzdem wäre es kein natives PDF. Daher ja meine Frage, ob Jemand für das Problem eine Lösung hat bzw. kennt. Zitieren Link zu diesem Kommentar
Esta 114 Geschrieben 8. November 2016 Melden Teilen Geschrieben 8. November 2016 Hallo monstermania, also die OCR Software erkennt am besten, ob es ein Bitmap PDF oder nicht ist. Eine anderweitige Validierung wird schwierig. Du kannst dir JHOVE ansehen und dir eine Kommandozeile zusammen basteln, in etwa so: extrahieren Bitmap und vergleichen, Anzahl Seiten gleich Anzahl Bitmap könnte ein Bitmap PDF sein. Und Anzahl Seiten ungleich Bitmap ist "natives" PDF. Zitieren Link zu diesem Kommentar
monstermania 53 Geschrieben 8. November 2016 Autor Melden Teilen Geschrieben 8. November 2016 (bearbeitet) also die OCR Software erkennt am besten, ob es ein Bitmap PDF oder nicht ist. Nee, dem ist eben leider nicht so. Die OCR-Software ist ziemlich dumm. Es wird schlichtweg jedes Dokument gerendert und durch die OCR gejagt. Auch native PDF. Ich denke, dass es der Engine prinzipiell egal ist, ob das PDF native oder ein Bitmap PDF ist. Der Vorteil dieser Lösung ist natürlich, dass man bei nativen PDF die Bilder enthalten nachher sogar eine Volltextsuche über den Text in den Bildern machen kann ;). Nur das wollen wir gar nicht! Wir wollen vermeiden, dass wir jedes PDF nochmals durch die OCR jagen. Frist pro Seite rund 5-6 Sekunden Zeit. Kann man irgendwie herausfinden, ob ein PDF einen Textlayer enthält? bearbeitet 8. November 2016 von monstermania Zitieren Link zu diesem Kommentar
Esta 114 Geschrieben 8. November 2016 Melden Teilen Geschrieben 8. November 2016 Hallo monstermania, hast du dir schon das Programm angeschaut? Klar wäre auch eine Option nach Text zu suchen. Gibt sicher auch andere Programme mit denen man PDFs Validieren kann. Wenn man z.B. aus einem PDF wieder ein Word Dokument oder so machen kann, kann man sicher auch nach "Text" extrahieren. Zitieren Link zu diesem Kommentar
Sunny61 806 Geschrieben 8. November 2016 Melden Teilen Geschrieben 8. November 2016 Kann man irgendwie herausfinden, ob ein PDF einen Textlayer enthält? Jepp, es gibt von Aspose.com eine kostenpflichtige DLL, mit der kann man abfragen ob es ein Textfeld gibt. Dazu mußt Du allerdings ein kleines Programm erstellen, VB.Net oder ähnliches und darin als Verweis die DLL einbinden. Zitieren Link zu diesem Kommentar
monstermania 53 Geschrieben 8. November 2016 Autor Melden Teilen Geschrieben 8. November 2016 Hab jetzt etwas mit Xpdf herumprobiert. Dort gibt es ein Tool 'pdffonts'. Damit lassen sich die in das PDF eingebetteten Schriftarten anzeigen. Bei allen Bitmap PDF, die ich getestet habe, sind keine Schriftarten eingebettet. Bei den nativen PDF ist zumindest immer eine Schriftart eingebettet. Damit bekomm ich das hin :cool: Zitieren Link zu diesem Kommentar
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.