Como escolho o melhor software de OCR?
O software OCR, ou software de reconhecimento óptico de caracteres, é um software desenvolvido para converter imagens de texto em texto real que um computador possa ler. Geralmente, o software de OCR é usado após a digitalização de uma imagem em um computador, embora outras formas de entrada também possam ser usadas. O software OCR funciona melhor no texto que já foi digitado, nos casos em que uma impressão original foi perdida ou nas folhas de digitalização digitadas em uma máquina de escrever. Um bom software também pode traduzir texto manuscrito, no entanto, embora a taxa de erro nesse tipo de conversão tenda a ser muito maior.
O termo atual software OCR é um pouco enganador, pois a maioria dos softwares modernos de OCR não usa reconhecimento óptico de caracteres, mas usa reconhecimento digital de caracteres. Isso ocorre porque, há alguns anos, os campos se fundiram efetivamente e ambos adotaram o termo mais atraente de reconhecimento óptico de caracteres. O software de OCR avançou bastante nos últimos anos, com programas modernos substancialmente melhores do que seus antecessores na identificação de texto.
De fato, o software de OCR inicial exigia o treinamento do programa em uma fonte específica antes que ele pudesse ser inserido com precisão. Da mesma forma, ao digitar manuscrito, o programa precisaria ser treinado, um processo que poderia ser incrivelmente demorado. Os métodos melhoraram, no entanto, e sistemas mais inteligentes agora são a norma. Os métodos usados agora são relativamente estáticos, com apenas um pouco de pesquisa para o desenvolvimento de métodos inteiramente novos e a maioria das pesquisas para refinar os procedimentos existentes para torná-los cada vez mais precisos. O software de OCR inicial era usado em uma ampla gama de aplicativos, com as principais corporações usando-o para ler impressões de cartão de crédito na década de 1950, e o Serviço Postal dos Estados Unidos usando-o para classificar e-mails desde meados da década de 1960.
Há dez anos, a escolha de um software de OCR era difícil, pois muitos programas eram muito ruins em determinadas tarefas e razoavelmente bons em outras. Hoje em dia, no entanto, o campo tem sido amplamente nivelado. As taxas de precisão em qualquer bom software de OCR para a tradução de scripts latinos digitados estão acima de 99%. No entanto, quando se trata de digitar manuscrito, ou tipos de letra mais complexos, o software de OCR ainda tem um alcance relativamente alto.
O custo do software de OCR também varia amplamente, geralmente em relação às taxas de precisão que possui. É possível encontrar uma boa quantidade de software gratuito de OCR, adequado para a entrada de material impresso, e alguns podem ser encontrados, relativamente bons em detectar manuscritos, especialmente com algum treinamento. Os pacotes de software mais caros, como o OmniPage, que custa cerca de US $ 100 dólares para a versão doméstica e cerca de US $ 450 para a versão profissional, possuem matrizes impressionantes de recursos e taxas de sucesso geralmente mais altas.
Infelizmente, ainda não existe um software OCR perfeito, portanto, escolher um programa para comprar ainda pode ser um processo frustrante. Mesmo os melhores programas provavelmente terão dificuldades com a caligrafia e os erros surgirão inevitavelmente, mesmo em níveis baixos. Principalmente, a escolha de um programa para comprar se resume a recursos extras: suporte multilíngue, integração com digitalização e conversão com um toque, conversão automática de PDF e reconhecimento de palavras inteiras em disciplinas especializadas, como campos jurídicos e médicos.