Wat is OCR (optische tekenherkenning)?

Optical Character Recognition (OCR) is een proces waarbij gedrukte materialen worden omgezet in tekst- of tekstverwerkingsbestanden die gemakkelijk kunnen worden bewerkt en opgeslagen. Dankzij de technologie kunnen dergelijke materialen worden opgeslagen met veel minder opslagruimte dan de hardcopy-materialen. OCR-technologie heeft grote invloed gehad op de manier waarop informatie wordt opgeslagen, gedeeld en bewerkt. Voorafgaand aan de optische tekenherkenning, als iemand van een boek een tekstverwerkingsbestand wilde maken, moest elke pagina woord voor woord worden getypt.

OCR-technologie vereist zowel hardware als software. Bovendien vereisen geavanceerde OCR-systemen een extra printplaat in de computer zelf om het proces te voltooien. Een optische scanner scant de tekst op een pagina en splitst vervolgens de lettertypen op in een reeks punten die een bitmap worden genoemd. De software kan de meest voorkomende lettertypen lezen en onderscheiden waar regels beginnen en stoppen. Deze bitmap wordt vervolgens vertaald in computertekst.

Hoewel optische karakterherkenning de afgelopen jaren enorme vooruitgang heeft geboekt, presteert het nog steeds niet altijd goed bij het herkennen van handschrift of lettertypen die op handschrift lijken. Er zijn systemen binnen de banksector die OCR-technologie gebruiken om te proberen de bedragen van handgeschreven cheques te lezen, samen met het vermogen van de computer om de routering en rekeningnummers te lezen.

Om een ​​idee te geven van de kracht van OCR, kan het helpen om een ​​voorbeeld uit de praktijk te bekijken. Stel je een politieafdeling voor die al zijn strafregisters in enorme archiefkasten heeft opgeslagen. Hoewel het scannen van miljoenen pagina's een dure en tijdrovende onderneming zou zijn, zijn de voordelen enorm.

Als het OCR-systeem de pagina's eenmaal in computerleesbare tekst heeft omgezet, kan een detective bijvoorbeeld in enkele seconden de hele geschiedenis doorzoeken. Het is misschien niet zo moeilijk om een ​​bepaald record handmatig te vinden, maar stel je voor dat een detective probeert te zoeken naar alle misdaden die op een bepaald kruispunt zijn begaan tussen 8:00 en 8:30 uur. Dit voorbeeld schetst alleen maar het oppervlak van de kracht van doorzoekbare tekst en het is slechts een reden dat veel bedrijven en instellingen miljoenen dollars uitgeven om hun oude gegevens te OCR.

ANDERE TALEN

heeft dit artikel jou geholpen? bedankt voor de feedback bedankt voor de feedback

Hoe kunnen we helpen? Hoe kunnen we helpen?