Optical Character Recognition (OCR)

Methode zur Erkennung von Buchstaben in digitalisierten Dokumenten ? Erfahren sie alles über Optical Character Recognition.

AIIM - OCR

Das AIIM-Modell (OCR)

OCR ist eine Abkürzung und für Optical Character Recognition. Übersetzt bedeutet das Optische Zeichenerkennung oder Texterkennung. Sie beschreibt eine Methode zur Erkennung von Buchstaben in digitalisierten Dokumenten wie Beispielsweise gescannter Papierdokumente, PDF- Dateien. Weiterhin ermöglicht es das                  bearbeiten und  durchsuchen der Daten und Digitalbildern.

 

OCR ist als „Capture“ (Erfassung), eines der Kernelementen des Enterprise Content Management, aufzufassen. OCR ist eine Erkennungstechnologie und dient für die Erstellung, Erfassung und Aufbereitung von analogen und digitalen Informationen als Input-Management für ein ECM-System.
Weitere spezielle Erkennungstechnologien neben der OCR sind Handprint Character Recognition (HCR), Intelligent Character Recognition (ICR)Barcode Recognition (BCR) und weitere Musterkennungen.
 

Die Entstehung von Optical Character Recognition (OCR)

Fundamentale Beiträge zur OCR leistete der US-amerikanischer Elektrotechniker und Informatiker Lawrence Roberts schon 70iger Jahren. Erste Anwendungen der OCR in der Praxis gab es schließlich 1965 in Form von Hardware-Lösungen, die jedoch nur eigens entworfene Schriftarten (OCR-A und OCR-B) erkennen konnte. 1976 entwickelte Ray Kurzweil das erste schriftartenunabhängige OCR-System. Mit voranschreiten der Computerleistungen entstanden ab Mitte der 80iger Jahre software-basierte OCR-Lösungen, die immer mehr an Genauigkeit und Bedeutung verleihen.[1]

Wie funktioniert Optical Character Recognition (OCR) ?

Zuerst analysiert die Software die Struktur des Dokumentes. Es unterteilt eine Seite in verschiedene Elemente wie Textblöcke, Tabellen, Bilder usw. Im Nachhinein werden die Zeilen in Wörter und die Wörter in Buchstaben aufgeteilt. Nach Aufteilung der einzelnen Buchstaben vergleicht die Software diese mit einer Reihe von Musterbildern und stellt zahlreiche Hypothesen auf, um welchen Buchstaben es sich hierbei handelt. Beruhend auf diesen Hypothesen untersucht die Software die unterschiedlichen Arten, auf welche Linien in Wörter und Wörter in Buchstaben aufgeteilt werden können. Nach Verarbeitung einer sehr großen Anzahl solcher Wahrscheinlichkeitshypothesen trifft die Software schließlich eine Entscheidung und präsentiert den erkannten Text.[2]

Vorteile von Optical Character Recognition (OCR) für Unternehmen

• Arbeitsplatzunabhängige Verfügbarkeit

• Möglichkeit der elektronischen Weiterverarbeitung • Schutz gegen Verlust durch Flut, Feuer etc.

• Einfaches Durchsuchen großer Dokumentenmengen

 Quellen

[1] Vgl. Wikipedia Abgerufen am 04. 01. 2016 von https://de.wikipedia.org/wiki/Texterkennung
[2] Vgl. ABBYY Abgerufen am 4. 01. 2015 von http://finereader.abbyy.de/was-ist-ocr/texterkennung/
50 Schlüsselideen Digitale Kultur. Heidelberg: Spektrum Akademischer Verlag, 2013.
S.132-135
Hompel, Michael Ten, Hubert Büchter, and Ulrich Franzke. Identifikationssysteme
Und Automatisierung:. Berlin: Springer, 2008.
Limper, Wolfgang. OCR Und Archivierung: Texterkennung, Dokumentation,
Textrecherche. München: Te-wi-Verl., 1993.
Petri, Mathias, and Christian Klitscher. Scannen Und Optische Zeichenerkennung.
Bonn: Addison-Wesley, 1993.
Riggert, Wolfgang. ECM – Enterprise Content Management: Konzepte Und Techniken
Rund Um Dokumente ; Mit 17 Tabellen. Wiesbaden: Vieweg Teubner, 2009.

Webseiten abgerufen am 22.04.2016:

http://www.ocr-systeme.de/glossary/ocr.htm
https://impactocr.wordpress.com/2010/03/04/optische-zeichen-erkennung-ocr-einfuhrung-uberblick/
https://www.ecmconnection.com/doc/optical-character-recognition-the-mature-tech-0001
http://www.explainthatstuff.com/how-ocr-works.html

 
 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.