OCR (광학 문자 인식)이란 무엇입니까?
광학 문자 인식 (OCR)은 인쇄 된 자료를 쉽게 편집하고 저장할 수있는 텍스트 또는 워드 프로세싱 파일로 변환하는 프로세스입니다. 이 기술은 하드 카피 재료보다 훨씬 적은 저장 공간을 사용하여 이러한 재료를 저장할 수있게 해줍니다. OCR 기술은 정보의 저장, 공유 및 편집 방식에 큰 영향을 미쳤습니다. 광학 문자 인식 이전에 누군가가 책을 워드 프로세싱 파일로 바꾸려면 각 페이지에 단어를 입력해야합니다.
OCR 기술에는 하드웨어와 소프트웨어가 모두 필요합니다. 또한 정교한 OCR 시스템은 프로세스 자체를 완료하기 위해 컴퓨터 자체에 추가 회로 보드가 필요합니다. 광학 스캐너는 페이지의 텍스트를 스캔 한 다음 글꼴을 비트 맵이라는 일련의 점으로 나눕니다. 이 소프트웨어는 가장 일반적인 글꼴을 읽고 줄 시작 및 중지 위치를 구별 할 수 있습니다. 그런 다음이 비트 맵은 컴퓨터 텍스트로 변환됩니다.
최근 몇 년 동안 광학 문자 인식이 크게 발전한 반면, 필기와 유사한 모양의 글씨 나 글꼴을 인식하는 데 항상 우수한 성능을 발휘하는 것은 아닙니다. 은행 업계에는 OCR 기술을 사용하여 손으로 작성한 수표 금액을 읽고 컴퓨터의 라우팅 및 계좌 번호를 읽는 기능과 함께 사용하는 시스템이 있습니다.
OCR의 힘에 대한 아이디어를 제공하려면 실제 사례를 살펴 보는 것이 도움이 될 수 있습니다. 방대한 파일 캐비닛에 모든 범죄 기록이 저장된 경찰서가 있다고 상상해보십시오. 수백만 페이지를 스캔하는 것은 많은 비용과 시간이 소요되는 일이지만, 그 이점은 엄청납니다.
OCR 시스템이 페이지를 컴퓨터로 읽을 수있는 텍스트로 변환하면 예를 들어 형사가 몇 초 안에 전체 기록을 검색 할 수 있습니다. 특정 기록을 수동으로 찾는 것은 그리 어렵지 않지만 형사가 8시에서 8시 30 분 사이의 특정 교차로에서 저지른 모든 범죄를 검색하려고 시도한다고 상상해보십시오. 이 예제는 검색 가능한 텍스트의 강력한 기능에 대한 흠집에 불과하며 많은 회사와 기관이 기존 데이터를 OCR에 수백만 달러를 소비하는 이유 중 하나입니다.