Durchsuchbare PDF's erzeugen

monstermania · 11. September 2014

Moin,

hat jetzt nichts mit Windows zu tun, aber evtl. hat ja Jemand von Euch eine Idee.

Ich suche eine Möglichkeit aus gescannten Dokumenten (TIF) ein durchsuchbares PDF zu erzeugen (Volltextsuche).

Folgendes habe ich z.Zt. umgesetzt: Es werden Dokumente (mit einem Barcode drauf) eingescannt und als TIF-Dokument-Einzelseiten in einem Ordner abgelegt. Ein Script greift die Dokumente aus dem Ordner ab, liest den Barcode aus und heftet die TIF-Einzelseiten zu einem Multipage-TIF zusammen. Anschließend wird das Multipage-TIF in PDF/a konvertiert und im Filesystem abgelegt.

Leider kann das erzeugte PDF/a nicht durchsucht werden.

Ich habe jetzt eine OCR-Lösung eingebunden mit der ich vor der PDF-Konvertierung die Textinformationen aus den gescannten Seiten extrahiere. So weit funktioniert das auch. Ich habe also eine PDF/a Datei mit z.B. 10 Seiten und den zugehörigen Textinhalt der Einzelseiten als Textdateien (Seite1.txt, Seite2.txt, usw.). Nur wie bekommen ich das PDF/a und die Textdateien so zusammen, dass ich das Dokument durchsuchen kann?

Gruß

Dirk

PS: Fertige Lösungen wie Abby FineReader, Maestro möchte ich nicht einsetzten

Dukel · 11. September 2014

Auf Heise wurde ein solches Produkt vorgestellt:

http://www.heise.de/open/artikel/Toolbox-Texterkennung-mit-OCRmyPDF-2356670.html

Daniel -MSFT- · 11. September 2014

Falls es nur um die Durchsuchbarkeit geht, Windows hat einen TIFF iFilter mitgeliefert, den man einschalten kann. Der macht OCR auf TIFF-Dateien und stellt die Textinhalte der Suche systemweit zur Verfügung:

Windows-TIFF-IFilter-Installations- und Betriebshandbuch

http://technet.microsoft.com/de-de/library/dd755985.aspx

Have fun!
Daniel

monstermania · 11. September 2014

@Dukel,

Danke,

kannte ich noch nicht.

Ist aber leider unter Linux. Scheidet damit aus, da ich so etwas unter Windows Server realisieren möchte. Bin ja auch schon 'recht' dicht dran. Ich muss 'nur' noch meine Volltextdaten in die PDF's bekommen.

@Daniel

Ich möchte/darf die Dokumente nicht als TIF's ablegen, sondern als PDF/a.

Gruß

Dirk

MrCocktail · 12. September 2014

Schau mal nach PDF Merge von MAY Computer, hat ein bekannter im Einsatz und kann es meine ich ...

substyle · 12. September 2014

Würde es auf ne Linux Box machen, mit tesseract oder cuneiform.

Alternativ kannst Du es auch mit hocr2pdf machen.

Sind keine 100 Zeilen perl und du bist durch.

LG

Lars

zahni · 13. September 2014

Ich kann nur eine fertige Lösung anbieten:

http://www.forum.elo.com/wcm/

Läuft wohl auch unter Linux (Java) und kann über viele Formate OCR laufen lassen und darüber einen Volltextindex legen.

In der Windows-Version wird intern (glaube ich) das OCR-;Modul vom Finereader benutzt. Volltext über Alles macht dann irgendein Openscource-Teil (komme ich gerade nicht drauf).

monstermania · 18. September 2014

Moin zahni,

mit ELO kenne ich zufälligerweise ganz gut aus. ELO mache ich schon seit 2002 :D.

Bei ELO (Professional/Enterprise) funktioniert die Volltexterkennung bzw. Volltextsuche auch von gescannten PDF's super!

Allerdings ELO (Professional/Enterprise) funktioniert beim Volltext komplett anders. Die Dokumente im ELO Archiv werden hier automatisch einem Volltextdienst zugeführt. Je nach Dokumententyp wird das Dokument zerlegt (z.B. gescannte PDF) durch unterschiedliche Engines (z.B. MS-Word, OCR) wird der Volltext aus den Dokumenten extrahiert. Anschließend wird dann der extrahierte Volltext dem Ursprungsdokument in ELO zugeordnet.

Wird nun im Volltext von ELO gesucht, so werden über den Volltexttreffer die Dokumente gefunden.

ELO (Professional/Enterprise) bietet hier mittlerweile sogar eine 'Goggle mäßige' Volltextsuche mit Synonymen und Rechtsschreibkorrektur an (Meinten Sie...). Ist schon echt genial.

Diese Technik hat aber nichts mit einem 'durchsuchbaren gescannten PDF' zu tun. ELO integriert keinen Textlayer in die archivierten gescannten PDF-Dokumente!

Leider setzten wir im Unternehmen kein ELO ein, sondern Easy Archiv. Damit muss ich leben, obwohl ich schon diverse Easy-Installationen nach ELO migriert habe. Trotzdem möchte mein AG das Archivsystem nicht wechseln :(. Easy Archiv was die technischen Möglichkeiten angeht meilenweit hinter ELO zurück.

Easy Archiv kann beim Datenimport von gescannten PDF's leider nur die PDF's in den Volltext aufnehmen die einen Textlayer enthalten.

Daher kam ja meine Ursprungsfrage...

Ich glaube sogar, dass ich schon fast die Lösung habe um meinen Volltext in die PDF's zu bekommen und ein echtes durchsuchbares PDF zu erzeugen. Muss nur noch mal etwas Zeit finden meine Idee auszuprobieren bzw. umzusetzen.

Gruß

Dirk

monstermania · 22. September 2014

Moin,

manchmal sieht man ja die Bäume nicht, wenn man im Wald steht... :D

War letztendlich ganz einfach ein durchsuchbares PDF zu erzeugen.

1. Die vorhandene TXT-Datei mit den Volltextinformationen pro Seite mit dem Tool 'txt2pdf' in eine PDF-Datei wandeln.

2. Diese PDF-Datei als Hintergrundbild (Wasserzeichen) in das gescannte PDF einfügen (mit dem Tool 'pdftk').

Voila.

Schon hat man im Ergebnis ein gescanntes PDF, dass man auch im Volltextinhalt durchsuchen kann!

Trotzdem danke an alle.

Gruß

Dirk

Anmelden

Durchsuchbare PDF's erzeugen

Empfohlene Beiträge

monstermania 53

Dukel 465

Daniel -MSFT- 129

monstermania 53

MrCocktail 203

substyle 20

zahni 576

monstermania 53

monstermania 53

Schreibe einen Kommentar

Menu

Aktivitäten