Vad är OCR (optisk karaktärigenkänning)?
Optical Character Recognition (OCR) är en process för att konvertera tryckta material till text- eller ordbehandlingsfiler som enkelt kan redigeras och lagras. Tekniken har gjort det möjligt att lagra sådana material med mycket mindre lagringsutrymme än papperskopieringsmaterialet. OCR -teknik har gjort en enorm inverkan på hur information lagras, delas och redigeras. Innan optiskt teckenigenkänning, om någon ville förvandla en bok till en ordbehandlingsfil, måste varje sida skrivas ord för Word.
OCR -teknik kräver både hårdvara och programvara. Dessutom kräver sofistikerade OCR -system ett ytterligare kretskort i själva datorn för att slutföra processen. En optisk skanner skannar texten på en sida och bryter sedan teckensnitten ner i en serie prickar som kallas en bitmapp. Programvaran kan läsa vanligaste teckensnitt och skilja där linjer startar och stoppar. Denna bitmapp översätts sedan till datortext.
medan optiskt karaktärigenkänning har gjort enormtFramsteg under de senaste åren, det fungerar fortfarande inte alltid bra för att känna igen handskrift eller teckensnitt som liknar handskrift. Det finns system inom bankbranschen som använder OCR-teknik för att försöka läsa beloppen på handskrivna kontroller, för att gå tillsammans med datorns förmåga att läsa routing och kontonummer.
För att ge en uppfattning om kraften i OCR kan det hjälpa till att ta en titt på ett verkligt exempel. Föreställ dig en polisavdelning som har alla sina kriminella register lagrade i stora filskåp. Även om skanning av miljoner sidor skulle vara ett dyrt och tidskrävande företag, är fördelarna enorma.
När OCR-systemet har konverterat sidorna till datorläsbar text, kunde till exempel en detektiv söka igenom hela historien på några sekunder. Manuellt att hitta en viss post kanske inte är för svårt, men föreställ dig en detektiv som försöker searCH för alla brott som begåtts i en viss korsning mellan 8:00 och 8:30. Detta exempel repar bara ytan på kraften i sökbar text, och det är bara en anledning till att många företag och institutioner spenderar miljoner dollar till OCR deras äldre data.