Input-Management: Dokumenten-klassifikation und Datenextraktion

Von admin

Die im betrieblichen Umfeld vorkommenden Dokumente enthalten oftmals für Geschäftsvorfälle relevante Informationen. Spezielle Softwaresysteme helfen dabei diese Informationen automatisch auszulesen und die entsprechenden Prozesse anzustoßen. Die Systeme müssen die Dokumentenklasse erkennen, welche die Art des Geschäftsvorfalles determiniert. Anschließend können die Systeme die relevanten Daten auslesen. Die besondere Schwierigkeit besteht darin zu unterscheiden, welche Daten wichtig und welche Daten unwichtig für den Prozess sind. Im Folgenden werden verschiedene Techniken dargestellt, welche das Auslesen von Informationen ermöglichen. Generell ist es möglich jede beliebige Klasse auslesen zu lassen. Um die Transparenz zu erhöhen wird die Funktionsweise anhand der Dokumentenklasse Rechnung beschrieben.

Auf die vorbereiteten Datenstrukturen werden Klassifikationswerkzeuge zur Identifikation der Art des Dokuments und damit der zu lesenden Informationen genutzt. Anschließend erfolgt eine Extraktion der benötigten Daten. Dabei kommen unterschiedliche Verfahren zum Einsatz. Bei Formular-basierten Systemen werden die Felder aufgrund ihrer Position auf der Rechnung erkannt. Da die Rechnungen der verschiedenen Lieferanten unterschiedlich formatiert sind, muss für jeden Rechnungstyp ein eigenes Muster erstellt werden. Diese werden in Form von Templates in der Software hinterlegt. Erkennt das System mit Hilfe des Templates den Rechnungstyp, kann sofort eine Datenextraktion anhand der Felder erfolgen. Der Nachteil dieser Technik ist, dass jeder Rechnungstyp als eigene Klasse behandelt wird. Bei einer hohen Anzahl von Lieferanten entsteht ein großer Aufwand bei der Pflege der Templates. Der Vorteil dieses Systems ist die niedrige Fehlerquote, da bei einer richtigen Klassifikation an den richtigen Stellen nach den benötigten Daten gesucht wird.

Im Gegensatz dazu werden bei Freiform-Systemen mathematische Verfahren und Referenzlisten auf den kompletten Text angewandt. Die Klassifikation des Rechnungstyps erfolgt anhand von Worten und Wortzusammenhängen, welche als Klassifikationsregeln bezeichnet werden. Theoretisch können alle Rechnungstypen mit einem einzigen Regelsatz ausgelesen werden. In der Praxis werden für inhaltlich gleiche Rechnungen spezifische Unterklassen angelegt um das Ergebnis zu verbessern. Nach der Klassifikation der Rechnungsklasse liest die Software mit Hilfe der Extraktionsregeln die relevanten Daten aus. Das System verwendet dabei Schlagwörter, geografische Aspekte, die Art und Formatierung der Zeichen sowie logische Zusammenhänge. So ist das Schlagwort „Endbetrag“ ein Indiz dafür, dass es sich bei einer nebenan gelegenen Zahl um den Gesamtrechnungsbetrag handelt. Ist dieser Betrag rechts unten auf der Rechnung zu finden erhöht dies nochmals die Wahrscheinlichkeit der Identifikation, da sich bei fast allen Rechnungstypen der Gesamtbetrag an dieser Stelle befindet. Logische Regeln überprüfen die Plausibilität der Rechnung, beispielsweise dass der Bruttobetrag der Summe aus Nettobetrag und Umsatzsteuer entspricht.

Im Gegensatz zur Formularbasierten Rechnung kann die Freiformerkennung somit auch Rechnungen von unbekannten Lieferanten auslesen, da die Regeln eine Allgemeingültigkeit besitzen und sich nicht auf einen speziellen Lieferanten beziehen. Freiform-Systeme weisen damit eine wesentlich höhere Flexibilität als Formularsysteme auf, sind jedoch auch fehleranfälliger.

Bei beiden Kategorien muss die Klassifikations- und Extraktionsengine mit Beispielrechnungen trainiert werden. Die gebildeten Strukturen können durch manuelle Nachkorrekturen angepasst und damit die Erkennungsraten verbessert werden. Moderne Systeme verfügen über eine Selbstlernkomponente. Diese analysiert die manuellen Nachbearbeitungsschritte, um die Regeln bzw. Templates anzupassen. Das System lernt also im Hintergrund von den Anwendern, wodurch sich die Trefferquote sukzessive steigern lässt und zukünftig Fehler vermieden werden.

Die im Zuge der Extraktion ausgelesenen Werte werden in vorgegebene Datenstrukturen übernommen (z. B. als XML-Datei), welche nun von den angebundenen Fachanwendungen ausgelesen werden können. Dabei werden die für die jeweilige Bearbeitung notwendigen Felder gefüllt und der Workflow angestoßen.

Tags: Allgemein - Alle Artikel in der Übersicht, Scannen und Klassifizieren