Hva er OCR (Optical Character Recognition)?
Optical Character Recognition (OCR) er en prosess for å konvertere trykt materiale til tekst- eller tekstbehandlingsfiler som enkelt kan redigeres og lagres. Teknologien har gjort det mulig å lagre slike materialer ved å bruke mye mindre lagringsplass enn papirkurven. OCR-teknologi har hatt stor innvirkning på måten informasjon lagres, deles og redigeres. Før optisk karaktergjenkjenning, hvis noen ønsket å gjøre en bok om til en tekstbehandlingsfil, måtte hver side skrives ord for ord.
OCR-teknologi krever både maskinvare og programvare. I tillegg krever sofistikerte OCR-systemer et ekstra kretskort i selve datamaskinen for å fullføre prosessen. En optisk skanner skanner teksten på en side og bryter deretter skriftene ned i en serie med punkter som kalles et bitmap. Programvaren kan lese de fleste vanlige skrifter og skille hvor linjer starter og stopper. Dette bitmappet blir deretter oversatt til datatekst.
Selv om optisk karaktergjenkjenning har gjort store fremskritt de siste årene, gjør det fortsatt ikke alltid bra å gjenkjenne håndskrift eller skrifter som ligner på håndskrift. Det er systemer innen banknæringen som bruker OCR-teknologi for å prøve å lese beløpene på håndskrevne sjekker, for å gå sammen med datamaskinens evne til å lese rutingen og kontonumrene.
For å gi en ide om kraften til OCR, kan det hjelpe å se på et ekte eksempel. Se for deg en politiavdeling som har alle sine kriminelle poster lagret i store filskap. Selv om det å skanne millioner av sider ville være et dyrt og tidkrevende selskap, er fordelene enorme.
Når OCR-systemet har konvertert sidene til datamaskinlesbar tekst, kan en detektiv, for eksempel, søke gjennom hele historien på noen få sekunder. Å finne en bestemt post manuelt er kanskje ikke så vanskelig, men tenk deg en detektiv som prøver å søke etter alle forbrytelsene som er begått i et bestemt kryss mellom kl. 08.00 og 8.30. Dette eksemplet klør bare overflaten til kraften i søkbar tekst, og det er bare en grunn til at mange selskaper og institusjoner bruker millioner av dollar for å OCR sine gamle data.