Che cos'è il mining di dati statistici?
Il data mining statistico, noto anche come conoscenza o scoperta di dati, è un metodo computerizzato di raccolta e analisi delle informazioni. Lo strumento di data mining prende i dati e classifica le informazioni per scoprire modelli o correlazioni che possono essere utilizzati in applicazioni importanti, come medicina, programmazione informatica, promozione aziendale e progettazione robotizzata. Le tecniche di data mining statistico utilizzano matematica complessa e processi statistici complicati per creare un'analisi.
Il data mining prevede cinque passaggi principali. La prima applicazione di data mining raccoglie dati statistici e inserisce le informazioni in un programma di tipo magazzino. Successivamente, i dati nel magazzino sono organizzati e creano un sistema di gestione. Il passaggio successivo crea un modo per accedere ai dati gestiti. Quindi, il quarto passaggio sviluppa software per analizzare i dati, noto anche come regressione del data mining, mentre il passaggio finale facilita l'utilizzo o l'interpretazione dei dati statistici in modo pratico.
In generale, le tecniche di data mining integrano sistemi di dati analitici e di transazione. Il software analitico ordina attraverso entrambi i tipi di sistemi di dati usando domande aperte degli utenti. Le domande aperte consentono innumerevoli risposte in modo che i programmatori non influenzino i risultati dell'ordinamento. I programmatori creano elenchi di domande per aiutare a classificare le informazioni usando un focus generale.
L'ordinamento si basa quindi sullo sviluppo di classi e cluster di dati, sulle associazioni presenti nei dati e sui tentativi di definire modelli e tendenze in base alle associazioni. Ad esempio, Google raccoglie informazioni sulle abitudini di acquisto degli utenti per facilitare l'inserimento della pubblicità online. Le domande aperte utilizzate per ordinare questi dati dell'acquirente si concentrano sulle preferenze di acquisto o sulle abitudini di visualizzazione degli utenti di Internet.
Gli informatici e i programmatori si concentrano sull'analisi dei dati statistici raccolti. La creazione di alberi decisionali, reti neurali artificiali, metodo del vicino più vicino, induzione delle regole, visualizzazione dei dati e algoritmi genetici utilizzano tutti i dati estratti statisticamente. Questi sistemi di classificazione aiutano a interpretare le associazioni scoperte dai programmi di dati analitici. Il data mining statistico implica piccoli progetti che possono essere eseguiti su piccola scala su un computer di casa, ma la maggior parte dei set di associazioni di data mining sono così grandi e la regressione del data mining così complicata da richiedere un supercomputer o una rete di computer ad alta velocità.
Il data mining statistico raccoglie tre tipi generali di dati, inclusi dati operativi, dati non operativi e metadati. In un negozio di abbigliamento, i dati operativi sono dati di base utilizzati per gestire l'attività, come contabilità, vendite e controllo delle scorte. I dati non operativi, che sono indirettamente collegati all'attività, comprendono stime delle vendite future e informazioni generali sul mercato nazionale dell'abbigliamento. I metadati riguardano i dati stessi. Un programma che utilizza metadati potrebbe ordinare i clienti del negozio in classificazioni in base al genere o alla posizione geografica degli acquirenti di abbigliamento o al colore preferito dei clienti, se tali dati fossero raccolti.
Un'applicazione di data mining può essere estremamente sofisticata e lo strumento di data mining statistico può avere applicazioni pratiche diffuse. Lo studio delle epidemie è un esempio. Un progetto di data mining del 2000 ha analizzato l'epidemia di cryptosporidium nell'Ontario, in Canada, per determinare le cause dell'aumento dei casi di malattia. I risultati del data mining hanno contribuito a collegare lo scoppio dei batteri alle condizioni dell'acqua locale e alla mancanza di un adeguato trattamento delle acque comunali. Un campo chiamato "biosurveillance" utilizza il data mining epidemiologico per identificare i focolai di una singola malattia.
I programmatori e i progettisti di computer impiegano anche lo studio della probabilità e l'analisi dei dati statistici per sviluppare macchine e programmi per computer. Il motore di ricerca di Google Internet è stato progettato utilizzando il data mining statistico. Google continua a raccogliere e utilizzare il data mining per creare aggiornamenti e applicazioni del programma.