O que é OCR (reconhecimento óptico de caracteres)?
O reconhecimento óptico de caracteres (OCR) é um processo de conversão de materiais impressos em arquivos de processamento de texto ou texto que podem ser facilmente editados e armazenados. A tecnologia permitiu que esses materiais fossem armazenados usando muito menos espaço de armazenamento do que os materiais impressos. A tecnologia OCR causou um enorme impacto na maneira como as informações são armazenadas, compartilhadas e editadas. Antes do reconhecimento óptico de caracteres, se alguém quisesse transformar um livro em um arquivo de processamento de texto, cada página teria que ser digitada palavra por palavra.
A tecnologia OCR requer hardware e software. Além disso, sistemas sofisticados de OCR exigem uma placa de circuito adicional no próprio computador para concluir o processo. Um scanner óptico digitaliza o texto em uma página e depois divide as fontes em uma série de pontos chamados de bitmap. O software pode ler as fontes mais comuns e distinguir onde as linhas começam e param. Este bitmap é então traduzido em texto de computador.
Embora o reconhecimento óptico de caracteres tenha feito grandes avanços nos últimos anos, ainda assim nem sempre apresenta um bom desempenho ao reconhecer manuscritos ou fontes semelhantes a manuscritos. Existem sistemas no setor bancário que usam a tecnologia OCR para tentar ler os valores em cheques manuscritos, para acompanhar a capacidade do computador de ler os números de roteamento e de conta.
Para dar uma idéia do poder do OCR, pode ser útil dar uma olhada em um exemplo do mundo real. Imagine um departamento de polícia com todos os seus antecedentes criminais armazenados em vastos arquivos. Embora a digitalização de milhões de páginas seja uma tarefa cara e demorada, os benefícios são enormes.
Depois que o sistema OCR converter as páginas em texto legível por computador, um detetive, por exemplo, poderá pesquisar o histórico inteiro em alguns segundos. Encontrar manualmente um registro específico pode não ser muito difícil, mas imagine um detetive tentando procurar todos os crimes cometidos em um determinado cruzamento entre as 8:00 e as 8:30. Este exemplo apenas arranha a superfície do poder do texto pesquisável, e é apenas uma razão pela qual muitas empresas e instituições estão gastando milhões de dólares para OCR seus dados herdados.