¿Qué es un raspador de pantalla?
Un raspador de pantalla es un programa informático que recopila datos basados en caracteres de la salida de visualización de otro programa. Los raspadores de pantalla pueden extraer los datos que están buscando y presentarlos en un formato más rico, como gráficos o tablas, o simplemente indexar los datos para su almacenamiento. Hay muchos otros nombres para un raspador de pantalla, incluido el raspador del sitio web, el minero de contenido, el extractor del sitio web, el extractor web, el recopilador de datos automatizado y el raspador HTML.
Un raspador de pantalla buscará a través del código de un sitio web y filtrará el código extraño que está en su lugar para proporcionar una presentación agradable al navegador final. Dicho código es necesario para ver la página completa en su diseño previsto, pero un raspador simplemente está buscando datos útiles. Estos datos se recopilan y presentan como una base de datos simple, sin las campanas y silbidos que proporciona el código HTML original.
Un buen ejemplo de un raspador de pantalla en acción es con las arañas de los motores de búsqueda. Estas arañas acceden a cientos de miles de sitios web, cada uno de los cuales contiene numerosas páginas. Los datos de palabras clave de estos sitios se recopilan e indexan, y luego se presentan al usuario final como resultados del motor de búsqueda.
La mayoría de los raspadores de pantalla recorren la codificación HTML de un sitio web para obtener su información, pero también pueden buscar otros lenguajes de secuencias de comandos como JavaScript o PHP. Los datos que se extraen pueden presentarse como HTML en sí, de modo que el usuario pueda acceder a ellos con su navegador web, o almacenarse como datos de texto a los que puede acceder el usuario sin conexión.
Las empresas usan raspadores de pantalla para extraer los datos de una variedad de sitios web relacionados con palabras clave con el fin de generar gráficos, cuadros, hojas de cálculo y datos de comparación que se utilizarán en informes y presentaciones. El raspador de pantalla ahorra una cantidad extraordinaria de tiempo, ya que un empleado que realiza la misma tarea tendría que buscar sitios relevantes, hacer clic en los enlaces y explorar cada sitio individualmente para encontrar y registrar los datos aplicables que necesitan. También se puede usar un raspador de pantalla cuando la información se almacena en un sistema al que ya no se puede acceder debido a problemas de compatibilidad con hardware o software más nuevos.
Los raspadores de pantalla pueden ser tanto una bendición como una maldición para los propietarios de sitios y los internautas. Si bien proporcionan un servicio funcional para empresas, motores de búsqueda y otros, un raspador de pantalla también se puede utilizar con fines menos que altruistas. Por ejemplo, las empresas o personas que usan el correo no deseado como método publicitario pueden usar un raspador de pantalla para extraer las direcciones de correo electrónico de los sitios web.
Si bien un raspador de pantalla puede ser una herramienta útil, existe un debate entre la comunidad web sobre las legalidades y la ética al usarlos. Los problemas de derechos de autor se vuelven borrosos cuando un raspador de pantalla extrae el trabajo duro de alguien y lo presenta en otro formato para otro sitio web, y aquellos sitios que dependen de la publicidad para generar ingresos tienen problemas cuando el raspador de pantalla descarta sus anuncios. Como resultado, algunos propietarios de sitios web han comenzado a implementar herramientas que evitarán que se raspen sus sitios.