O que é extração de informações?
Às vezes conhecida como recuperação de informações, a extração de informações (IE) é um processo usado com sistemas de computador para permitir que dados relevantes sejam extraídos de corpos maiores de dados, usando algum conjunto de critérios predefinidos. A idéia por trás da extração de informações é possibilitar facilmente identificar e assimilar dados relevantes para uma atividade específica, sem a necessidade de passar manualmente por grandes quantidades de informações para encontrar os dados exatos necessários. O processo é semelhante às idéias de mineração de conceito ou raspagem da Web, pois todas essas abordagens buscam coletar informações úteis de um conjunto mais amplo de dados disponíveis.
A abordagem geral para a extração de informações exige o uso de programação capaz de varrer fontes de informações consideradas legíveis por máquina. Isso pode incluir documentos impressos que foram digitalizados para algum tipo de arquivo eletrônico, documentos preparados como planilhas ou documentos de processamento de texto ou mesmo os dados contidos em campos legíveis em um banco de dados. Normalmente, são definidos parâmetros que permitem que um programa de software tenha acesso a essas fontes de dados e os varre rapidamente usando critérios específicos para priorizar e extrair certos tipos de informações do pool disponível. Esse processo normalmente é diferente de um processo de pesquisa simples, pois o método exige não corresponder palavras ou frases específicas per se, mas usa um processo chamado processamento de linguagem natural, que ajuda a avaliar não apenas as palavras reais, mas também o contexto e o significado implícito nesse contexto.
As complexidades envolvidas na extração de informações dificultam o gerenciamento dessa abordagem em escala global, embora existam ferramentas do IE que funcionem muito bem apenas com uma quantidade limitada de dados, como as fontes de dados associadas aos arquivos eletrônicos armazenados em o servidor de uma corporação ou mesmo um conjunto de fontes que envolvem um número limitado de feeds de notícias. Com essa abordagem, é possível identificar algum tipo de evento, possivelmente até limitar os retornos à inclusão de um determinado número de participantes no evento, e ter os dados organizados de acordo com a data.
Como em muitas formas de tecnologia, as ferramentas usadas para se envolver na extração de informações estão sendo continuamente refinadas. Desde o início do século XXI, a capacidade de definir parâmetros e fazer uso de corpos cada vez maiores de dados eletrônicos como parte da busca por informações relevantes aumentou significativamente. Isso inclui a capacidade de lidar com grandes volumes de dados não estruturados e usar esses parâmetros para trazer alguma ordem ou estrutura a esses dados, tornando-os ainda mais úteis para pesquisas futuras.