O que é um raspador de tela?
Um raspador de tela é um programa de computador que coleta dados baseados em caracteres da saída de exibição de outro programa. Os raspadores de tela podem extrair os dados que estão procurando e apresentá-los em um formato mais rico, como gráficos ou tabelas, ou simplesmente indexar os dados para armazenamento. Existem muitos outros nomes para um raspador de tela, incluindo raspador de site, minerador de conteúdo, rasgador de site, extrator de web, coletor de dados automatizado e raspador de HTML.
Um raspador de tela pesquisará o código de um site e filtrará o código estranho existente para fornecer uma apresentação bonita ao navegador final. Esse código é necessário para exibir a página inteira no layout pretendido, mas um raspador está simplesmente procurando dados úteis. Esses dados são coletados e apresentados como um banco de dados simples, sem os sinos e assobios do código HTML original fornecido.
Um bom exemplo de raspador de tela em ação é com aranhas de mecanismos de pesquisa. Essas aranhas acessam centenas de milhares de sites, cada um contendo várias páginas. Os dados das palavras-chave desses sites são coletados e indexados e, em seguida, apresentados ao usuário final como resultado do mecanismo de pesquisa.
A maioria dos raspadores de tela vasculha a codificação HTML de um site para obter suas informações, mas também pode pesquisar outras linguagens de script como JavaScript ou PHP. Os dados extraídos podem ser apresentados como o próprio HTML, para que o usuário possa acessá-los com seu navegador da Web ou armazenados como dados de texto que podem ser acessados offline pelo usuário.
As empresas usam raspadores de tela para extrair os dados de vários sites relacionados a palavras-chave, a fim de gerar gráficos, tabelas, planilhas e dados de comparação para serem usados em relatórios e apresentações. O raspador de tela economiza uma quantidade extraordinária de tempo, já que um funcionário que realiza a mesma tarefa teria que procurar sites relevantes, clicar em links e navegar em cada site individualmente para encontrar e registrar os dados aplicáveis de que precisam. Um raspador de tela também pode ser usado quando as informações são armazenadas em um sistema que não pode mais ser acessado devido a problemas de compatibilidade com hardware ou software mais recente.
Raspadores de tela podem ser uma bênção e uma maldição para os proprietários de sites e internautas. Embora eles absolutamente ofereçam um serviço funcional para empresas, mecanismos de pesquisa e outros, um raspador de tela também pode ser usado para fins menos que altruístas. Por exemplo, empresas ou indivíduos que usam spam como método de publicidade podem usar um raspador de tela para extrair endereços de email de sites.
Embora um raspador de tela possa ser uma ferramenta útil, há algum debate entre a comunidade da web sobre legalidades e ética ao usá-los. Os problemas de direitos autorais ficam embaçados quando um raspador de tela extrai o trabalho árduo de alguém e o apresenta em outro formato para outro site, e os sites que dependem de publicidade para gerar receita têm problemas quando seus anúncios são descartados pelo raspador de tela. Como resultado, alguns proprietários de sites começaram a implementar ferramentas que impedirão que seus sites sejam raspados.