Che cos'è uno screen raschietto?

Uno screen scraper è un programma per computer che raccoglie dati basati sui caratteri dall'output di visualizzazione di un altro programma. I raschiatori possono estrarre i dati che stanno cercando e presentarli in un formato più ricco, ad esempio con grafici o tabelle, o semplicemente indicizzare i dati per l'archiviazione. Esistono molti altri nomi per uno screen scraper, inclusi raschietto per siti Web, minatore di contenuti, ripper per siti Web, estrattore Web, raccoglitore di dati automatizzato e raschietto HTML.

Un raschiatore cercherà attraverso il codice di un sito Web e filtrerà il codice estraneo in atto per fornire una presentazione gradevole al browser finale. Tale codice è necessario per visualizzare l'intera pagina nel layout previsto, ma uno scraper sta semplicemente cercando dati utili. Questi dati vengono raccolti e presentati come un semplice database, senza campane e fischietti il ​​codice HTML originale fornito.

Un buon esempio di raschietto per schermo in azione è con i ragni dei motori di ricerca. Questi ragni accedono a centinaia di migliaia di siti Web, ognuno dei quali contiene numerose pagine all'interno. I dati relativi alle parole chiave di questi siti vengono raccolti e indicizzati, quindi presentati all'utente finale come risultati del motore di ricerca.

La maggior parte degli screen saver esegue la scansione della codifica HTML di un sito Web per ottenere le loro informazioni, ma può anche cercare altri linguaggi di scripting come JavaScript o PHP. I dati estratti possono quindi essere presentati come HTML stesso, in modo che l'utente possa accedervi con il proprio browser Web o archiviato come dati di testo a cui l'utente può accedere offline.

Le aziende utilizzano i raschiatori per estrarre i dati da una varietà di siti Web correlati a parole chiave al fine di generare grafici, diagrammi, fogli di calcolo e dati di confronto da utilizzare in report e presentazioni. Il raschiatore consente di risparmiare una straordinaria quantità di tempo, dal momento che un dipendente che svolge la stessa attività dovrebbe cercare siti pertinenti, fare clic sui collegamenti e navigare individualmente in ciascun sito per trovare e registrare i dati applicabili di cui hanno bisogno. Un raschiatore può essere utilizzato anche quando le informazioni sono memorizzate su un sistema a cui non è più possibile accedere a causa di problemi di compatibilità con hardware o software più recenti.

I raschiatori possono essere sia una benedizione che una maledizione per i proprietari di siti e i navigatori del web. Mentre forniscono assolutamente un servizio funzionale per aziende, motori di ricerca e altri, un raschiatore può anche essere usato per scopi non altruistici. Ad esempio, le aziende o gli individui che utilizzano lo spam come metodo pubblicitario possono utilizzare uno screen-scraper per estrarre gli indirizzi e-mail dai siti Web.

Mentre uno scraper per schermi può essere uno strumento utile, c'è un dibattito tra la comunità web su legittimità ed etica quando li si utilizza. I problemi di copyright diventano sfocati quando un raschiatore estrae il duro lavoro di qualcuno e lo presenta in un altro formato per un altro sito Web e quei siti che dipendono dalla pubblicità per generare entrate hanno problemi quando i loro annunci vengono scartati dal raschiatore. Di conseguenza, alcuni proprietari di siti Web hanno iniziato a implementare strumenti che impediranno che i loro siti vengano cancellati.

ALTRE LINGUE

Questo articolo è stato utile? Grazie per il feedback Grazie per il feedback

Come possiamo aiutare? Come possiamo aiutare?