Qual è il processo di data mining?
Il processo di data mining è uno strumento per scoprire modelli statisticamente significativi in una grande quantità di dati. In genere prevede cinque passaggi principali, tra cui preparazione, esplorazione dei dati, creazione di modelli, distribuzione e revisione. Ogni fase del processo prevede un diverso insieme di tecniche, ma la maggior parte utilizza una qualche forma di analisi statistica.
Prima che possa iniziare il processo di data mining, i ricercatori in genere fissano obiettivi di ricerca. Questa fase di preparazione di solito determina quali tipi di dati devono essere studiati, quali tecniche di data mining devono essere utilizzate e quale forma assumeranno i risultati. Questa fase iniziale del processo può essere cruciale per la raccolta di informazioni utili.
Il prossimo passo nel processo di data mining è l'esplorazione. Questo passaggio di solito comporta la raccolta dei dati richiesti da un magazzino di informazioni o da un'entità di raccolta. Quindi, gli esperti di mining preparano in genere i set di dati grezzi per l'analisi. Questo passaggio di solito consiste nella raccolta, pulizia, organizzazione e controllo di tutti i dati per errori.
Questi dati preparati di solito entrano quindi nella terza fase del processo di data mining, la costruzione del modello. A tale scopo, i ricercatori in genere prendono piccoli campioni di test di dati e applicano loro una varietà di tecniche di data mining. La fase di modellizzazione viene spesso utilizzata per determinare il miglior metodo di analisi statistica richiesto per ottenere i risultati desiderati.
Esistono quattro tecniche principali che possono essere applicate nel processo di data mining. La prima è la classificazione, che organizza i dati in gruppi o categorie predefiniti. Nella seconda tecnica, chiamata clustering, i ricercatori consentono al computer di organizzare i dati in gruppi, come preferisce. Una terza tecnica di data mining cerca associazioni tra variabili. Il quarto cerca in genere schemi sequenziali nei dati che possono essere utilizzati per prevedere le tendenze future.
Il passaggio finale del processo di data mining è la distribuzione. Per fare ciò, le tecniche scelte nel modello vengono applicate al set di dati più grande e i risultati vengono analizzati. Il report che proviene da questo passaggio di solito mostra i pattern trovati nell'intero processo, inclusi eventuali classificazioni, cluster, associazioni o pattern sequenziali esistenti all'interno del set di dati.
La revisione è spesso un importante passaggio finale. Questa fase del processo di solito comporta la ripetizione di modelli di data mining con un nuovo set di dati per assicurarsi che il set principale fosse rappresentativo dell'intera popolazione di dati. I risultati non possono prevedere le tendenze nella popolazione più ampia se il campione di dati non lo rappresenta con precisione.