monstermania 53 Geschrieben 11. September 2014 Melden Teilen Geschrieben 11. September 2014 Moin, hat jetzt nichts mit Windows zu tun, aber evtl. hat ja Jemand von Euch eine Idee. Ich suche eine Möglichkeit aus gescannten Dokumenten (TIF) ein durchsuchbares PDF zu erzeugen (Volltextsuche). Folgendes habe ich z.Zt. umgesetzt: Es werden Dokumente (mit einem Barcode drauf) eingescannt und als TIF-Dokument-Einzelseiten in einem Ordner abgelegt. Ein Script greift die Dokumente aus dem Ordner ab, liest den Barcode aus und heftet die TIF-Einzelseiten zu einem Multipage-TIF zusammen. Anschließend wird das Multipage-TIF in PDF/a konvertiert und im Filesystem abgelegt. Leider kann das erzeugte PDF/a nicht durchsucht werden. Ich habe jetzt eine OCR-Lösung eingebunden mit der ich vor der PDF-Konvertierung die Textinformationen aus den gescannten Seiten extrahiere. So weit funktioniert das auch. Ich habe also eine PDF/a Datei mit z.B. 10 Seiten und den zugehörigen Textinhalt der Einzelseiten als Textdateien (Seite1.txt, Seite2.txt, usw.). Nur wie bekommen ich das PDF/a und die Textdateien so zusammen, dass ich das Dokument durchsuchen kann? Gruß Dirk PS: Fertige Lösungen wie Abby FineReader, Maestro möchte ich nicht einsetzten Zitieren Link zu diesem Kommentar
Dukel 454 Geschrieben 11. September 2014 Melden Teilen Geschrieben 11. September 2014 Auf Heise wurde ein solches Produkt vorgestellt: http://www.heise.de/open/artikel/Toolbox-Texterkennung-mit-OCRmyPDF-2356670.html Zitieren Link zu diesem Kommentar
Daniel -MSFT- 129 Geschrieben 11. September 2014 Melden Teilen Geschrieben 11. September 2014 Falls es nur um die Durchsuchbarkeit geht, Windows hat einen TIFF iFilter mitgeliefert, den man einschalten kann. Der macht OCR auf TIFF-Dateien und stellt die Textinhalte der Suche systemweit zur Verfügung: Windows-TIFF-IFilter-Installations- und Betriebshandbuch http://technet.microsoft.com/de-de/library/dd755985.aspx Have fun!Daniel Zitieren Link zu diesem Kommentar
monstermania 53 Geschrieben 11. September 2014 Autor Melden Teilen Geschrieben 11. September 2014 @Dukel, Danke, kannte ich noch nicht. Ist aber leider unter Linux. Scheidet damit aus, da ich so etwas unter Windows Server realisieren möchte. Bin ja auch schon 'recht' dicht dran. Ich muss 'nur' noch meine Volltextdaten in die PDF's bekommen. @Daniel Ich möchte/darf die Dokumente nicht als TIF's ablegen, sondern als PDF/a. Gruß Dirk Zitieren Link zu diesem Kommentar
MrCocktail 192 Geschrieben 12. September 2014 Melden Teilen Geschrieben 12. September 2014 Schau mal nach PDF Merge von MAY Computer, hat ein bekannter im Einsatz und kann es meine ich ... Zitieren Link zu diesem Kommentar
substyle 20 Geschrieben 12. September 2014 Melden Teilen Geschrieben 12. September 2014 Würde es auf ne Linux Box machen, mit tesseract oder cuneiform. Alternativ kannst Du es auch mit hocr2pdf machen. Sind keine 100 Zeilen perl und du bist durch. LG Lars Zitieren Link zu diesem Kommentar
zahni 554 Geschrieben 13. September 2014 Melden Teilen Geschrieben 13. September 2014 Ich kann nur eine fertige Lösung anbieten: http://www.forum.elo.com/wcm/ Läuft wohl auch unter Linux (Java) und kann über viele Formate OCR laufen lassen und darüber einen Volltextindex legen. In der Windows-Version wird intern (glaube ich) das OCR-;Modul vom Finereader benutzt. Volltext über Alles macht dann irgendein Openscource-Teil (komme ich gerade nicht drauf). Zitieren Link zu diesem Kommentar
monstermania 53 Geschrieben 18. September 2014 Autor Melden Teilen Geschrieben 18. September 2014 Moin zahni, mit ELO kenne ich zufälligerweise ganz gut aus. ELO mache ich schon seit 2002 :D. Bei ELO (Professional/Enterprise) funktioniert die Volltexterkennung bzw. Volltextsuche auch von gescannten PDF's super! Allerdings ELO (Professional/Enterprise) funktioniert beim Volltext komplett anders. Die Dokumente im ELO Archiv werden hier automatisch einem Volltextdienst zugeführt. Je nach Dokumententyp wird das Dokument zerlegt (z.B. gescannte PDF) durch unterschiedliche Engines (z.B. MS-Word, OCR) wird der Volltext aus den Dokumenten extrahiert. Anschließend wird dann der extrahierte Volltext dem Ursprungsdokument in ELO zugeordnet. Wird nun im Volltext von ELO gesucht, so werden über den Volltexttreffer die Dokumente gefunden. ELO (Professional/Enterprise) bietet hier mittlerweile sogar eine 'Goggle mäßige' Volltextsuche mit Synonymen und Rechtsschreibkorrektur an (Meinten Sie...). Ist schon echt genial. Diese Technik hat aber nichts mit einem 'durchsuchbaren gescannten PDF' zu tun. ELO integriert keinen Textlayer in die archivierten gescannten PDF-Dokumente! Leider setzten wir im Unternehmen kein ELO ein, sondern Easy Archiv. Damit muss ich leben, obwohl ich schon diverse Easy-Installationen nach ELO migriert habe. Trotzdem möchte mein AG das Archivsystem nicht wechseln :(. Easy Archiv was die technischen Möglichkeiten angeht meilenweit hinter ELO zurück. Easy Archiv kann beim Datenimport von gescannten PDF's leider nur die PDF's in den Volltext aufnehmen die einen Textlayer enthalten. Daher kam ja meine Ursprungsfrage... Ich glaube sogar, dass ich schon fast die Lösung habe um meinen Volltext in die PDF's zu bekommen und ein echtes durchsuchbares PDF zu erzeugen. Muss nur noch mal etwas Zeit finden meine Idee auszuprobieren bzw. umzusetzen. Gruß Dirk Zitieren Link zu diesem Kommentar
monstermania 53 Geschrieben 22. September 2014 Autor Melden Teilen Geschrieben 22. September 2014 Moin, manchmal sieht man ja die Bäume nicht, wenn man im Wald steht... :D War letztendlich ganz einfach ein durchsuchbares PDF zu erzeugen. 1. Die vorhandene TXT-Datei mit den Volltextinformationen pro Seite mit dem Tool 'txt2pdf' in eine PDF-Datei wandeln. 2. Diese PDF-Datei als Hintergrundbild (Wasserzeichen) in das gescannte PDF einfügen (mit dem Tool 'pdftk'). Voila. Schon hat man im Ergebnis ein gescanntes PDF, dass man auch im Volltextinhalt durchsuchen kann! Trotzdem danke an alle. Gruß Dirk Zitieren Link zu diesem Kommentar
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.