Jump to content

Durchsuchbare PDF's erzeugen


Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Empfohlene Beiträge

Moin,

hat jetzt nichts mit Windows zu tun, aber evtl. hat ja Jemand von Euch eine Idee.

Ich suche eine Möglichkeit aus gescannten Dokumenten (TIF) ein durchsuchbares PDF zu erzeugen (Volltextsuche).

 

Folgendes habe ich z.Zt. umgesetzt: Es werden Dokumente (mit einem Barcode drauf) eingescannt und als TIF-Dokument-Einzelseiten in einem Ordner abgelegt. Ein Script greift die Dokumente aus dem Ordner ab, liest den Barcode aus und heftet die TIF-Einzelseiten zu einem Multipage-TIF zusammen. Anschließend wird das Multipage-TIF in PDF/a konvertiert und im Filesystem abgelegt.

Leider kann das erzeugte PDF/a nicht durchsucht werden.

 

Ich habe jetzt eine OCR-Lösung eingebunden mit der ich vor der PDF-Konvertierung die Textinformationen aus den gescannten Seiten extrahiere. So weit funktioniert das auch. Ich habe also eine PDF/a Datei mit z.B. 10 Seiten und den zugehörigen Textinhalt der Einzelseiten als Textdateien (Seite1.txt, Seite2.txt, usw.). Nur wie bekommen ich das PDF/a und die Textdateien so zusammen, dass ich das Dokument durchsuchen kann?

 

Gruß

Dirk

 

PS: Fertige Lösungen wie Abby FineReader, Maestro möchte ich nicht einsetzten

Link zu diesem Kommentar

Falls es nur um die Durchsuchbarkeit geht, Windows hat einen TIFF iFilter mitgeliefert, den man einschalten kann. Der macht OCR auf TIFF-Dateien und stellt die Textinhalte der Suche systemweit zur Verfügung:

 

Windows-TIFF-IFilter-Installations- und Betriebshandbuch

http://technet.microsoft.com/de-de/library/dd755985.aspx

 

Have fun!
Daniel

Link zu diesem Kommentar

@Dukel,

Danke,

kannte ich noch nicht.

Ist aber leider unter Linux. Scheidet damit aus, da ich so etwas unter Windows Server realisieren möchte. Bin ja auch schon 'recht' dicht dran. Ich muss 'nur' noch meine Volltextdaten in die PDF's bekommen.

 

@Daniel

Ich möchte/darf die Dokumente nicht als TIF's ablegen, sondern als PDF/a.

 

Gruß

Dirk

Link zu diesem Kommentar

Ich kann nur eine fertige Lösung anbieten:

 

http://www.forum.elo.com/wcm/

 

Läuft wohl auch unter Linux (Java) und kann über viele Formate OCR laufen lassen und darüber  einen Volltextindex legen.

In der Windows-Version wird  intern (glaube ich) das OCR-;Modul vom Finereader benutzt. Volltext über Alles macht dann irgendein  Openscource-Teil (komme ich gerade nicht drauf).

Link zu diesem Kommentar

Moin zahni,

mit ELO kenne ich zufälligerweise ganz gut aus. ELO mache ich schon seit 2002 :D.

Bei ELO (Professional/Enterprise) funktioniert die Volltexterkennung bzw. Volltextsuche auch von gescannten PDF's super!

Allerdings ELO (Professional/Enterprise) funktioniert beim Volltext komplett anders. Die Dokumente im ELO Archiv werden hier automatisch einem Volltextdienst zugeführt. Je nach Dokumententyp wird das Dokument zerlegt (z.B. gescannte PDF) durch unterschiedliche Engines (z.B. MS-Word, OCR) wird der Volltext aus den Dokumenten extrahiert. Anschließend wird dann der extrahierte Volltext dem Ursprungsdokument in ELO zugeordnet.

Wird nun im Volltext von ELO gesucht, so werden über den Volltexttreffer die Dokumente gefunden.

ELO (Professional/Enterprise) bietet hier mittlerweile sogar eine 'Goggle mäßige' Volltextsuche mit Synonymen und Rechtsschreibkorrektur an (Meinten Sie...). Ist schon echt genial. 

Diese Technik hat aber nichts mit einem 'durchsuchbaren gescannten PDF' zu tun. ELO integriert keinen Textlayer in die archivierten gescannten PDF-Dokumente!

 

Leider setzten wir im Unternehmen kein ELO ein, sondern Easy Archiv. Damit muss ich leben, obwohl ich schon diverse Easy-Installationen nach ELO migriert habe. Trotzdem möchte mein AG das Archivsystem nicht wechseln :(. Easy Archiv was die technischen Möglichkeiten angeht meilenweit hinter ELO zurück.

Easy Archiv kann beim Datenimport von gescannten PDF's leider nur die PDF's in den Volltext aufnehmen die einen Textlayer enthalten.

Daher kam ja meine Ursprungsfrage...

 

Ich glaube sogar, dass ich schon fast die Lösung habe um meinen Volltext in die PDF's zu bekommen und ein echtes durchsuchbares PDF zu erzeugen. Muss nur noch mal etwas Zeit finden meine Idee auszuprobieren bzw. umzusetzen.

 

Gruß

Dirk

Link zu diesem Kommentar

Moin,

manchmal sieht man ja die Bäume nicht, wenn man im Wald steht... :D

War letztendlich ganz einfach ein durchsuchbares PDF zu erzeugen.

1. Die vorhandene TXT-Datei mit den Volltextinformationen pro Seite mit dem Tool 'txt2pdf' in eine PDF-Datei wandeln.

2. Diese PDF-Datei als Hintergrundbild (Wasserzeichen) in das gescannte PDF einfügen (mit dem Tool 'pdftk').

 

Voila.

Schon hat man im Ergebnis ein gescanntes PDF, dass man auch im Volltextinhalt durchsuchen kann! 

Trotzdem danke an alle.

 

Gruß

Dirk

Link zu diesem Kommentar
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Schreibe einen Kommentar

Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Only 75 emoji are allowed.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor-Fenster leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...