Qual è la differenza tra data mining e data warehouse?
I termini data mining e data warehousing sono spesso confusi dal personale tecnico e commerciale. L'intero campo della gestione dei dati ha registrato una crescita fenomenale con l'implementazione di programmi software di raccolta dati e la riduzione dei costi della memoria del computer. Lo scopo principale di entrambe queste funzioni è fornire gli strumenti e le metodologie per esplorare i modelli e il significato in grandi quantità di dati.
Le principali differenze tra data mining e data warehousing sono la progettazione del sistema, la metodologia utilizzata e lo scopo. Il data mining è l'uso della logica di riconoscimento dei modelli per identificare le tendenze all'interno di un set di dati di esempio ed estrapolare queste informazioni dal pool di dati più ampio. Il data warehousing è il processo di estrazione e archiviazione dei dati per consentire un reporting più semplice.
Il data mining è un termine generale utilizzato per descrivere una serie di processi aziendali che derivano modelli dai dati. In genere, un pacchetto software di analisi statistica viene utilizzato per identificare modelli specifici, in base al set di dati e alle query generate dall'utente finale. Un uso tipico del data mining è la creazione di programmi di marketing mirati, l'identificazione di frodi finanziarie e la segnalazione di schemi di comportamento insoliti nell'ambito di una revisione della sicurezza.
Un eccellente esempio di data mining è il processo utilizzato dalle compagnie telefoniche per commercializzare i prodotti ai clienti esistenti. La compagnia telefonica utilizza software di data mining per accedere al suo database di informazioni sui clienti. Viene scritta una query per identificare i clienti che si sono abbonati al pacchetto telefonico di base e al servizio Internet in un intervallo di tempo specifico. Una volta selezionato questo set di dati, viene scritta un'altra query per determinare quanti di questi clienti hanno usufruito delle funzionalità telefoniche aggiuntive gratuite durante una promozione di prova. I risultati di questo esercizio di data mining rivelano modelli di comportamento che possono guidare o aiutare a perfezionare un piano di marketing per aumentare l'uso di servizi telefonici aggiuntivi.
È importante notare che lo scopo principale del data mining è individuare i pattern nei dati. Le specifiche utilizzate per definire il set di campioni hanno un impatto enorme sulla pertinenza dell'output e sull'accuratezza dell'analisi. Tornando all'esempio sopra, se il set di dati è limitato ai clienti all'interno di un'area geografica specifica, i risultati e i modelli differiranno da un set di dati più ampio. Sebbene sia il data mining che il data warehousing funzionino con grandi volumi di informazioni, i processi utilizzati sono piuttosto diversi.
Un data warehouse è un prodotto software utilizzato per archiviare grandi volumi di dati ed eseguire query e report appositamente progettati. La business intelligence è un campo di studio in crescita che si concentra sul data warehousing e sulle funzionalità correlate. Questi strumenti sono progettati per estrarre i dati e archiviarli in un metodo progettato per fornire prestazioni di sistema avanzate. Gran parte della terminologia nel data mining e nel data warehousing è la stessa, creando maggiore confusione.