Methode zur Erkennung von Buchstaben in digitalisierten Dokumenten ? Erfahren sie alles über Optical Character Recognition.

OCR ist eine Abkürzung und für Optical Character Recognition. Übersetzt bedeutet das Optische Zeichenerkennung oder Texterkennung. Sie beschreibt eine Methode zur Erkennung von Buchstaben in digitalisierten Dokumenten wie Beispielsweise gescannter Papierdokumente, PDF- Dateien. Weiterhin ermöglicht es das bearbeiten und  durchsuchen der Daten und Digitalbildern.

OCR ist als „Capture“ (Erfassung), eines der Kernelementen des Enterprise Content Management, aufzufassen. OCR ist eine Erkennungstechnologie und dient für die Erstellung, Erfassung und Aufbereitung von analogen und digitalen Informationen als Input-Management für ein ECM-System.
Weitere spezielle Erkennungstechnologien neben der OCR sind Handprint Character Recognition (HCR), Intelligent Character Recognition (ICR)Barcode Recognition (BCR) und weitere Musterkennungen.

Das AIIM-Modell (OCR)

Die Entstehung von Optical Character Recognition (OCR)

Fundamentale Beiträge zur OCR leistete der US-amerikanischer Elektrotechniker und Informatiker Lawrence Roberts schon 70iger Jahren. Erste Anwendungen der OCR in der Praxis gab es schließlich 1965 in Form von Hardware-Lösungen, die jedoch nur eigens entworfene Schriftarten (OCR-A und OCR-B) erkennen konnte. 1976 entwickelte Ray Kurzweil das erste schriftartenunabhängige OCR-System. Mit voranschreiten der Computerleistungen entstanden ab Mitte der 80iger Jahre software-basierte OCR-Lösungen, die immer mehr an Genauigkeit und Bedeutung verleihen (vgl. „Texterkennung“ 2021).

Wie funktioniert Optical Character Recognition (OCR) ?

Zuerst analysiert die Software die Struktur des Dokumentes. Es unterteilt eine Seite in verschiedene Elemente wie Textblöcke, Tabellen, Bilder usw. Im Nachhinein werden die Zeilen in Wörter und die Wörter in Buchstaben aufgeteilt. Nach Aufteilung der einzelnen Buchstaben vergleicht die Software diese mit einer Reihe von Musterbildern und stellt zahlreiche Hypothesen auf, um welchen Buchstaben es sich hierbei handelt. Beruhend auf diesen Hypothesen untersucht die Software die unterschiedlichen Arten, auf welche Linien in Wörter und Wörter in Buchstaben aufgeteilt werden können. Nach Verarbeitung einer sehr großen Anzahl solcher Wahrscheinlichkeitshypothesen trifft die Software schließlich eine Entscheidung und präsentiert den erkannten Text (vgl. „Was ist OCR?“ o. D.).

Vorteile von Optical Character Recognition (OCR) für Unternehmen

• Arbeitsplatzunabhängige Verfügbarkeit

• Möglichkeit der elektronischen Weiterverarbeitung • Schutz gegen Verlust durch Flut, Feuer etc.

• Einfaches Durchsuchen großer Dokumentenmengen

Schreibe einen Kommentar