Jump to content

Erkennung ob ein PDF native oder Bitmap-PDF ist


Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Empfohlene Beiträge

Moin,

wir archivieren eine größere Anzahl von Dokumenten in ein Archivsystem. Die Dokumente werden als PDF bzw. PDF/a archiviert.

Das Archivsystem unterstützt eine Volltextsuche bei PDF. Dafür müssen die PDF jedoch bei der Archivierung als searchable PDF vorhanden sein. 

 

Mein Problem ist nun, dass ich diverse PDF bekomme, bei denen eine Bitmap-Datei (z.B. jpg, tif) in das PDF integriert wurde (z.B. gescannte PDF). Diese PDF müssten vor der Archivierung noch eine OCR-Erkennung durchlaufen. Das mit der OCR ist auch kein Problem. Leider habe ich bisher keine Möglichkeit gefunden (sicher) zu erkennen, ob ein PDF native ist oder ob es sich um ein PDF mit Bitmap-Dateien handelt.

 

Kennt Jemand von Euch eine Möglichkeit (Tool), mit dem sich sicher erkennen lässt, ob es sich um eine native PDF oder ein PDF bestehend aus Bitmap-Daten handelt? Am Besten in Form eines Kommandozeilen-Tools. Also PDF wird an das Tool übergeben und das Tool gibt zurück, ob es ein native PDF oder ein gescanntes PDF ist.

 

Gruß

Dirk

Link zu diesem Kommentar

Hmmmm, woran sollte denn dieses Tool festmachen, dass es ein gescanntes PDF ist? Ein 'natives' PDF kann ja auch eingebettete Bilder enthalten.

Ja, das ist richtig!  :D

Im umgekehrten Fall kann ein gescanntes PDF ja auch eingebettete Schriftarten enthalten. Trotzdem wäre es kein natives PDF.

 

Daher ja meine Frage, ob Jemand für das Problem eine Lösung hat bzw. kennt.

Link zu diesem Kommentar

Hallo monstermania,

 

also die OCR Software erkennt am besten, ob es ein Bitmap PDF oder nicht ist. Eine anderweitige Validierung wird schwierig. Du kannst dir JHOVE ansehen und dir eine Kommandozeile zusammen basteln, in etwa so: extrahieren Bitmap und vergleichen, Anzahl Seiten gleich Anzahl Bitmap könnte ein Bitmap PDF sein. Und Anzahl Seiten ungleich Bitmap ist "natives" PDF.

Link zu diesem Kommentar

also die OCR Software erkennt am besten, ob es ein Bitmap PDF oder nicht ist.

Nee,

dem ist eben leider nicht so.

Die OCR-Software ist ziemlich dumm. Es wird schlichtweg jedes Dokument gerendert und durch die OCR gejagt. Auch native PDF. Ich denke, dass es der Engine prinzipiell egal ist, ob das PDF native oder ein Bitmap PDF ist.

Der Vorteil dieser Lösung ist natürlich, dass man bei nativen PDF die Bilder enthalten nachher sogar eine Volltextsuche über den Text in den Bildern machen kann ;). Nur das wollen wir gar nicht!

Wir wollen vermeiden, dass wir jedes PDF nochmals durch die OCR jagen. Frist pro Seite rund 5-6 Sekunden Zeit.

 

Kann man irgendwie herausfinden, ob ein PDF einen Textlayer enthält?

bearbeitet von monstermania
Link zu diesem Kommentar
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Schreibe einen Kommentar

Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Only 75 emoji are allowed.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor-Fenster leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...