O que é OCR (reconhecimento óptico de caracteres)?
Reconhecimento de caracteres ópticos (OCR) é um processo de conversão de materiais impressos em arquivos de processamento de texto ou texto que podem ser facilmente editados e armazenados. A tecnologia permitiu que esses materiais fossem armazenados usando muito menos espaço de armazenamento do que os materiais impressos. A tecnologia OCR causou um enorme impacto na maneira como as informações são armazenadas, compartilhadas e editadas. Antes do reconhecimento óptico de caracteres, se alguém quisesse transformar um livro em um arquivo de processamento de texto, cada página teria que ser digitada com o Word.
A tecnologia OCR requer hardware e software. Além disso, sistemas sofisticados de OCR exigem uma placa de circuito adicional no próprio computador para concluir o processo. Um scanner óptico digitaliza o texto em uma página e depois divide as fontes em uma série de pontos chamados um bitmap. O software pode ler as fontes mais comuns e distinguir onde as linhas começam e param. Este bitmap é então traduzido para o texto do computador.Avanços nos últimos anos, ele ainda nem sempre tem um bom desempenho ao reconhecer a caligrafia ou as fontes que se parecem com a caligrafia. Existem sistemas dentro da indústria bancária que usam a tecnologia OCR para tentar ler os valores em cheques escritos à mão, para acompanhar a capacidade do computador de ler os números de roteamento e conta.
Para dar uma idéia do poder do OCR, pode ajudar a dar uma olhada em um exemplo do mundo real. Imagine um departamento de polícia que tenha todos os seus registros criminais armazenados em vastos armários de arquivos. Embora a varredura de milhões de páginas seja uma empresa cara e demorada, os benefícios são enormes.
Depois que o sistema OCR converter as páginas em texto legível por computador, um detetive, por exemplo, pode pesquisar todo o histórico em alguns segundos. Encontrar manualmente um registro específico pode não ser muito difícil, mas imagine um detetive tentando queimarCH para todos os crimes cometidos em um certo cruzamento entre 8:00 e 8:30. Este exemplo apenas arranha a superfície do poder do texto pesquisável, e é apenas uma das razões pelas quais muitas empresas e instituições estão gastando milhões de dólares para OCR seus dados herdados.