Wat is OCR (optische karakterherkenning)?
Optische tekenherkenning (OCR) is een proces van het omzetten van gedrukte materialen in tekst- of tekstverwerkingsbestanden die eenvoudig kunnen worden bewerkt en opgeslagen. De technologie heeft mogelijk gemaakt dat dergelijke materialen worden opgeslagen met veel minder opslagruimte dan de hardcopy -materialen. OCR Technology heeft een enorme impact gehad op de manier waarop informatie wordt opgeslagen, gedeeld en bewerkt. Voorafgaand aan optische tekenherkenning, als iemand van een boek een tekstverwerkingsbestand wilde maken, zou elke pagina elke pagina moeten worden getypt voor woord.
OCR -technologie vereist zowel hardware als software. Bovendien vereisen geavanceerde OCR -systemen een extra printplaat in de computer zelf om het proces te voltooien. Een optische scanner scant de tekst op een pagina en breekt vervolgens de lettertypen op in een reeks stippen die een bitmap worden genoemd. De software kan de meest voorkomende lettertypen lezen en onderscheiden waar lijnen beginnen en stoppen. Deze bitmap wordt vervolgens vertaald in computertekst.
terwijl de optische karakterherkenning enorm is gemaaktVooruitgang in de afgelopen jaren presteert het nog steeds niet altijd goed in het herkennen van handschrift of lettertypen die lijken op handschrift. Er zijn systemen binnen de banksector die OCR-technologie gebruiken om te proberen de bedragen over handgeschreven cheques te lezen, om mee te gaan met het vermogen van de computer om de routing en accountnummers te lezen.
Om een idee te geven van de kracht van OCR, kan het helpen om een real-world voorbeeld te bekijken. Stel je een politie -afdeling voor die al zijn strafregisters heeft opgeslagen in uitgestrekte bestandskasten. Hoewel het scannen van miljoenen pagina's een dure en tijdrovende onderneming zou zijn, zijn de voordelen enorm.
Zodra het OCR-systeem de pagina's heeft omgezet in computer-leesbare tekst, kan een detective bijvoorbeeld in een paar seconden de hele geschiedenis doorzoeken. Handmatig vinden van een bepaald record is misschien niet te moeilijk, maar stel je een detective voor die probeert te schroeienCH voor alle misdaden gepleegd op een bepaalde kruising tussen 8:00 en 8:30. Dit voorbeeld krabt alleen het oppervlak van de kracht van doorzoekbare tekst, en het is slechts één reden dat veel bedrijven en instellingen miljoenen dollars uitgeven om hun legacy -gegevens te OCR.