Prozessverbesserung durch Zeichenerkennung

Von admin

Die Erfassung von NCI (non coded Information) bringt das Problem mit sich, dass die eigentlichen Inhalte der Dokumente nach dem Scannen nur im Bildformat vorliegen. Somit ist keine Recherche sowie Veränderung der eigentlichen Inhalte möglich und eine automatische Verschlagwortung auf Basis des Contents kann nicht erfolgen. Die Techniken aus dem Umfeld der Optical Charakter Recognition (OCR) bieten Lösungen für dieses Problem.

Nach dem Scannen kommen Bildbearbeitungstechniken zum Einsatz, welche dabei helfen die Qualität des Faksimiles zu verbessern, da ein qualitativ hochwertiges Image die Erkennungsraten der OCR-Engine steigern kann. Typische Mechanismen sind beispielsweise die Kontrastverbesserung und die Entfernung von überschüssigen Pixeln.

Im nächsten Schritt "übersetzt" die Erkennungsengine die in Pixel vorliegenden Buchstaben (bzw. Zeichen) in editierbaren Code. Die Engine vergleicht dabei den zu identifizierenden Buchstaben mit Referenzen welche im System hinterlegt sind. Der Grad der Übereinstimmung zwischen einem Muster und dem zu identifizierenden Buchstaben wird über Wahrscheinlichkeiten ausgedrückt. Der Buchstabe mit dem höchsten Wahrscheinlichkeit wird als Ergebnis gewählt. Der Vorgang wiederholt sich bis jeder Buchstabe identifiziert ist. Das System erstellt ein neues Dokument in welchem der erzeugte Text sowie die Formatierung und die die multimedialen Elemente (Bilder,Logos, etc.) des Original-Dokumentes übernommen werden.

Moderne OCR-Systeme weisen, abhängig von der Qualität des Faksimiles und der zu erkennenden Schriftart Erkennungsraten von bis zu 99% auf. Nicht oder nur unsicher erkannte Zeichen werden an einen Nachbearbeitungsplatz weitergeleitet. Der Anwender bekommt von dem System dabei alle Informationen geliefert um die Fehler und Verwechslungen zu korrigieren.
Das Eregbnis der Erkennung kann in diversen Formaten (Word, PDF, RTF, ASCI) abgespeichert werden. Neben dem erstellten Dokument wird auch das Original-Faksimile archiviert. Nun ist es möglich eine Volltextindexierung durchzuführen und automatisiert Teile des Contents in die Metadaten zu übernehmen. Auch einer Weiterbearbeitung des Inhaltes steht nichts mehr im Wege.

Viele ECM-Systeme bieten OCR Komponenten in ihrem Produktportfolio an, jedoch sind diese oftmals Entwicklungen von Partnern, die sich auf die Zeichenerkennung spezialisiert haben. Systeme die keine Lösung anbieten besitzen Schnittstellen um OCR-Engines einzubinden. Grenzen sind den Systemen immer dann gesetzt, wenn das Faksimile in zu schlechter Qualität vorliegt, stark von der Norm abweichende Schriftarten zum Einsatz kommen und Handschriften vorliegen. Zwar gibt es inzwischen Anbieter die Module zur Erkennung von Handschriften anbieten, jedoch sind die Erkennungsraten ohne ein Training auf den jeweiligen Autor nicht sehr hoch.

Tags: Lösungen, Scannen und Klassifizieren