Co to jest OCR (optyczne rozpoznawanie znaków)?
Rozpoznawanie znaków optycznych (OCR) to proces konwersji wydrukowanych materiałów w pliki tekstowe lub edytora tekstu, które można łatwo edytować i przechowywać. Technologia umożliwiła przechowywanie takich materiałów przy użyciu znacznie mniejszej przestrzeni do przechowywania niż materiały do kopiowania. Technologia OCR wywarła ogromny wpływ na sposób przechowywania informacji, udostępniania i edytowania. Przed rozpoznawaniem znaków optycznych, jeśli ktoś chciałby przekształcić książkę w plik tekstu edytora, każda strona musiałaby być napisana słowo.
Technologia OCR wymaga zarówno sprzętu, jak i oprogramowania. Ponadto wyrafinowane systemy OCR wymagają dodatkowej płyty drukowanej w samym komputerze, aby ukończyć proces. Optyczny skaner skanuje tekst na stronie, a następnie rozkłada czcionki na serię kropek o nazwie Bitmap. Oprogramowanie może odczytać najczęstsze czcionki i rozróżniać, gdzie linie zaczynają się i zatrzymują. Ta mapa bitowa jest następnie tłumaczona na tekst komputerowy.
, podczas gdy rozpoznawanie znaków optycznych sprawiło, że ogromne jestPostępy W ostatnich latach nadal nie zawsze działa dobrze w rozpoznawaniu pisma ręcznego lub czcionek, które wyglądają podobnie do pisma ręcznego. Istnieją systemy w branży bankowej, które wykorzystują technologię OCR do przeczytania kwot w ręcznie napisanych czekach, aby połączyć się z zdolnością komputera do odczytania numerów routingu i kont.
Aby dać wyobrażenie o mocy OCR, może pomóc spojrzeć na przykładowy przykład. Wyobraź sobie Departament Policji, który ma wszystkie rejestry karne przechowywane w rozległych szafkach na akta. Chociaż skanowanie milionów stron byłoby drogim i czasochłonnym przedsięwzięciem, korzyści są ogromne.
Po przekonwertowaniu stron OCR na tekst do czytania komputerowego detektyw może na przykład przeszukać całą historię w ciągu kilku sekund. Ręczne znalezienie konkretnego zapisu może nie być zbyt trudne, ale wyobraź sobie, że detektyw próbuje się pochwalićCH dla wszystkich przestępstw popełnionych na pewnym skrzyżowaniu między 8:00 a 8:30. Ten przykład tylko zarysowuje powierzchnię siły tekstu do wyszukiwania i jest to tylko jeden powód, dla którego wiele firm i instytucji wydaje miliony dolarów na swoje starsze dane.