Vad är OCR (Optical Character Recognition)?

Optical Character Recognition (OCR) är en process för att konvertera tryckt material till text- eller ordbehandlingsfiler som enkelt kan redigeras och lagras. Tekniken har gjort det möjligt att lagra sådana material med mycket mindre lagringsutrymme än pappersmaterial. OCR-tekniken har haft stor inverkan på hur information lagras, delas och redigeras. Före optiskt teckenigenkänning, om någon ville förvandla en bok till en ordbehandlingsfil, måste varje sida skrivas ord för ord.

OCR-teknik kräver både hårdvara och mjukvara. Dessutom kräver sofistikerade OCR-system ett extra kretskort i själva datorn för att slutföra processen. En optisk skanner skannar texten på en sida och bryter sedan teckensnitten ned i en serie prickar som kallas en bitmapp. Programvaran kan läsa de vanligaste teckensnitten och skilja på var linjer startar och stoppar. Denna bitmapp översätts sedan till datortekst.

Även om optiskt teckenigenkänning har gjort stora framsteg under de senaste åren, fungerar det fortfarande inte alltid bra när det gäller att känna igen handskrift eller teckensnitt som liknar handskrift. Det finns system inom bankbranschen som använder OCR-teknik för att försöka läsa beloppen på handskrivna checkar, för att gå med datorns förmåga att läsa routing och kontonummer.

För att ge en uppfattning om kraften i OCR kan det hjälpa till att ta en titt på ett verkligt exempel. Föreställ dig en polisavdelning som har alla sina straffregister lagrade i stora arkivskåp. Även om att skanna miljoner sidor skulle vara ett dyrt och tidskrävande företag, är fördelarna stora.

När OCR-systemet har konverterat sidorna till datorläsbar text kan en detektiv, till exempel, söka igenom hela historiken på några sekunder. Att manuellt hitta en viss post är kanske inte så svårt, men föreställ dig en detektiv som försöker söka efter alla brott som begåtts i en viss korsning mellan 8:00 och 8:30. Detta exempel kliar bara ytan på kraften i sökbar text, och det är bara en anledning till att många företag och institutioner spenderar miljontals dollar för att OCR sina äldre uppgifter.

Vad är OCR (Optical Character Recognition)?

Hjälpte den här artikeln dig?