O que é um raspador de tela?

Um raspador de tela é um programa de computador que coleta dados baseados em caracteres da saída de exibição de outro programa. Os raspadores de tela podem extrair os dados que estão procurando e apresentá -los em um formato mais rico, como com gráficos ou tabelas, ou simplesmente indexar os dados para armazenamento. Existem muitos outros nomes para um raspador de tela, incluindo raspador de sites, mineiro de conteúdo, ripper de site, extrator da web, coletor de dados automatizado e raspador HTML.

Um raspador de tela pesquisará o código de um site e filtrará o código estranho que existe para fornecer uma apresentação bonita ao navegador final. Esse código é necessário para visualizar a página inteira em seu layout pretendido, mas um raspador está simplesmente procurando dados úteis. Esses dados são coletados e apresentados como um banco de dados simples, sem os sinos e assobia o código HTML original fornecido. Essas aranhas acessam centenas de milhares de wEbsites, que cada um contém inúmeras páginas dentro. Os dados das palavras -chave desses sites são coletados e indexados e, finalmente, apresentados ao usuário final como resultados do mecanismo de pesquisa.

A maioria dos raspadores de tela vasculha a codificação HTML de um site para obter suas informações, mas também podem pesquisar em outros idiomas de script, como JavaScript ou PHP. Os dados extraídos podem ser apresentados como HTML, para que o usuário possa acessá -los com o navegador da Web ou armazenado como dados de texto que podem ser acessados ​​pelo usuário offline.

As empresas usam raspadores de tela para extrair os dados de uma variedade de sites relacionados a palavras-chave para gerar gráficos, gráficos, planilhas e dados de comparação a serem usados ​​em relatórios e apresentações. O raspador de tela economiza uma quantidade extraordinária de tempo, já que um funcionário que faz a mesma tarefa teria que procurar sites relevantes, clicar em links e navegar por cada siteindividualmente para encontrar e registrar os dados aplicáveis ​​de que precisam. Um raspador de tela também pode ser usado quando as informações são armazenadas em um sistema que não pode mais ser acessado devido a problemas de compatibilidade com hardware ou software mais recentes.

Os raspadores de tela

podem ser uma bênção e uma maldição para os proprietários de sites e os surfistas da web. Enquanto eles prestam absolutamente um serviço funcional para empresas, mecanismos de pesquisa e outros, um raspador de tela também pode ser usado para fins menos que altruístas. Por exemplo, empresas ou indivíduos que usam spam como método de publicidade podem usar um raspador de tela para obter endereços de e-mail de sites.

Embora um raspador de tela possa ser uma ferramenta útil, há algum debate entre a comunidade da web sobre legalidades e ética ao usá -las. As questões de direitos autorais ficam embaçadas quando um raspador de tela extrai o trabalho duro de alguém e o apresenta em outro formato para outro site, e os sites que dependem da publicidade para gerar receita têm problemas quando seus anúncios ARe sendo descartado pelo raspador de tela. Como resultado, alguns proprietários de sites começaram a implementar ferramentas que impedirão que seus sites sejam raspados.

OUTRAS LÍNGUAS

Este artigo foi útil? Obrigado pelo feedback Obrigado pelo feedback

Como podemos ajudar? Como podemos ajudar?