Hva er OCR (optisk karaktergjenkjenning)?

Optical Character Recognition (OCR) er en prosess for å konvertere trykte materialer til tekst- eller tekstbehandlingsfiler som enkelt kan redigeres og lagres. Teknologien har gjort det mulig å lagre slike materialer ved hjelp av mye mindre lagringsplass enn papirkopiene. OCR -teknologi har gjort en stor innvirkning på måten informasjon blir lagret, delt og redigert. Før optisk karaktergjenkjenning, hvis noen ønsket å gjøre en bok til en tekstbehandlingsfil, måtte hver side skrives ord for ord.

OCR -teknologi krever både maskinvare og programvare. I tillegg krever sofistikerte OCR -systemer et ekstra kretskort i selve datamaskinen for å fullføre prosessen. En optisk skanner skanner teksten på en side, og bryter deretter skriftene ned i en serie prikker som kalles en bitmap. Programvaren kan lese de fleste vanlige skrifter og skille hvor linjer starter og stopper. Denne bitmappen blir deretter oversatt til datatekst.

mens optisk karaktergjenkjenning har gjort enormFremskritt de siste årene fungerer det fremdeles ikke alltid bra med å gjenkjenne håndskrift eller skrifter som ser ut som håndskrift. Det er systemer innen banknæringen som bruker OCR-teknologi for å prøve å lese beløpene på håndskrevne kontroller, for å gå sammen med datamaskinens evne til å lese ruting og kontonummer.

For å gi en ide om kraften til OCR, kan det bidra til å se på et eksempel i den virkelige verden. Se for deg en politiavdeling som har alle sine kriminelle poster lagret i store filskap. Selv om skanning av millioner av sider ville være et dyrt og tidkrevende selskap, er fordelene store.

Når OCR-systemet har konvertert sidene til datamaskinlesbar tekst, kan en detektiv, for eksempel søke gjennom hele historien på noen få sekunder. Manuelt å finne en bestemt plate er kanskje ikke for vanskelig, men forestill deg en detektiv som prøver å searCH for alle forbrytelsene som er begått i et visst kryss mellom 8:00 og 8:30. Dette eksemplet klør bare overflaten på kraften i søkbar tekst, og det er bare en grunn til at mange selskaper og institusjoner bruker millioner av dollar på å OCR sine gamle data.

ANDRE SPRÅK