Was ist OCR (optische Zeichenerkennung)?
Die optische Zeichenerkennung (Optical Character Recognition, OCR) konvertiert gedruckte Materialien in Text- oder Textverarbeitungsdateien, die einfach bearbeitet und gespeichert werden können. Die Technologie hat es ermöglicht, dass solche Materialien auf viel weniger Speicherplatz als die Ausdrucke gespeichert werden können. Die OCR-Technologie hat einen enormen Einfluss auf die Art und Weise, wie Informationen gespeichert, geteilt und bearbeitet werden. Wenn vor der optischen Zeichenerkennung ein Buch in eine Textverarbeitungsdatei umgewandelt werden soll, muss jede Seite Wort für Wort eingegeben werden.
Die OCR-Technologie erfordert sowohl Hardware als auch Software. Darüber hinaus erfordern hochentwickelte OCR-Systeme eine zusätzliche Leiterplatte im Computer selbst, um den Vorgang abzuschließen. Ein optischer Scanner scannt den Text auf einer Seite und zerlegt die Schriftarten in eine Reihe von Punkten, die als Bitmap bezeichnet werden. Die Software kann die gängigsten Schriftarten lesen und unterscheiden, wo Linien beginnen und enden. Diese Bitmap wird dann in Computertext übersetzt.
Während die optische Zeichenerkennung in den letzten Jahren große Fortschritte gemacht hat, funktioniert sie beim Erkennen von Handschriften oder handschriftähnlichen Schriftarten immer noch nicht richtig. Es gibt Systeme in der Bankenbranche, die die OCR-Technologie verwenden, um die Beträge auf handschriftlichen Schecks zu lesen, und die Fähigkeit des Computers, die Routing- und Kontonummern zu lesen.
Um einen Eindruck von der Leistungsfähigkeit der Texterkennung zu erhalten, kann ein Beispiel aus der Praxis hilfreich sein. Stellen Sie sich eine Polizeidienststelle vor, deren Strafregister in riesigen Aktenschränken aufbewahrt werden. Obwohl das Scannen von Millionen von Seiten ein teures und zeitaufwändiges Unterfangen wäre, sind die Vorteile enorm.
Sobald das OCR-System die Seiten in computerlesbaren Text konvertiert hat, könnte beispielsweise ein Detektiv in wenigen Sekunden den gesamten Verlauf durchsuchen. Es mag nicht allzu schwierig sein, einen bestimmten Datensatz manuell zu finden. Stellen Sie sich jedoch einen Detektiv vor, der versucht, nach allen Verbrechen zu suchen, die an einer bestimmten Kreuzung zwischen 8:00 und 8:30 Uhr begangen wurden. In diesem Beispiel wird nur die Oberfläche des durchsuchbaren Texts zerkratzt, und es ist nur ein Grund, warum viele Unternehmen und Institutionen Millionen von Dollar für die OCR ihrer Altdaten ausgeben.