Che cos'è Web Harvesting?
La raccolta Web è il processo mediante il quale software specializzato raccoglie i dati da Internet e li inserisce in file per un utente finale. Serve una funzione simile, ma più avanzata rispetto alle attività svolte da un motore di ricerca. Conosciuto anche come Web scraping, Web Harvesting offre all'utente l'accesso automatico alle informazioni su Internet che i motori di ricerca non possono elaborare perché può aggirare il codice HTML. I tre principali tipi di raccolta Web sono per contenuto Web, struttura e utilizzo.
La raccolta di contenuti Web comporta l'estrazione di informazioni estraendo i dati da entrambi i risultati della pagina di ricerca e da una ricerca più approfondita del contenuto nascosto all'interno delle pagine Web. Queste informazioni aggiuntive sono spesso oscurate dai motori di ricerca perché sono oscurate dal codice HTML. Il processo analizza le informazioni in modo simile agli occhi umani, scartando i personaggi che non formano frasi significative al fine di estrarre elementi utili.
Invece di cercare contenuti, la raccolta di strutture Web raccoglie dati sul modo in cui le informazioni sono organizzate in aree specifiche di Internet. I dati raccolti forniscono un prezioso feedback da cui è possibile apportare miglioramenti in settori come l'organizzazione e il recupero delle informazioni. È un modo per affinare la struttura stessa del Web.
La raccolta dell'utilizzo del Web tiene traccia dei modelli di accesso generali e dell'utilizzo personalizzato da parte degli utenti del Web. Analizzando l'utilizzo del Web, la raccolta può aiutare a creare chiarezza sul comportamento degli utenti. Questo è un altro modo per migliorare la funzione del Web, ma a livello di utente finale. Può aiutare i progettisti a migliorare le interfacce utente dei loro siti Web per la massima efficienza. Il processo fornisce anche informazioni su quali tipi di informazioni cercano gli utenti e su come procede alla loro ricerca, dando così un'idea di come i contenuti dovrebbero essere sviluppati in futuro.
Raccogliendo dati di testo e immagini da file e immagini HTML, la raccolta Web può eseguire ricerche Web più complesse che approfondiscono ogni documento. Analizza anche i collegamenti che puntano a quel contenuto al fine di determinare se le informazioni hanno importanza e rilevanza su Internet. Ciò fornisce un quadro più completo di come le informazioni si collegano e influenzano il resto del Web.
Le aziende utilizzano la raccolta Web per una vasta gamma di scopi. Può essere un modo efficace per raccogliere dati da analizzare. Alcuni dei set di dati più comuni compilati sono informazioni sui concorrenti, elenchi di prezzi di prodotti diversi e dati finanziari. I dati possono anche essere raccolti per analizzare il comportamento del cliente.