Cos'è il data mining?
Il data mining utilizza una quantità relativamente grande di potenza di calcolo che opera su un ampio set di dati per determinare regolarità e connessioni tra i punti dati. Gli algoritmi che impiegano tecniche da statistiche, apprendimento automatico e riconoscimento dei modelli vengono utilizzati per cercare automaticamente database di grandi dimensioni. Il data mining è anche noto come conoscenza della conoscenza nei database (KDD).
Come il termine intelligenza artificiale , il data mining è un termine ombrello che può essere applicato a una serie di attività variabili. Nel mondo aziendale, il data mining viene utilizzato più frequentemente per determinare la direzione delle tendenze e prevedere il futuro. È impiegato per costruire modelli e sistemi di supporto alle decisioni che forniscano alle persone informazioni che possono utilizzare. Il data mining assume un ruolo di prima linea nella battaglia contro il terrorismo. Presumibilmente è stato usato per determinare il leader degli attacchi dell'11 settembre.
I minatori di dati sono statistici che usano tecniche con nomi come modelli vicino al vicino , cluste K-medieRing , Metodo di holdout , convalida incrociata K-Fold , il metodo Leave-One-Out e così via. Le tecniche di regressione vengono utilizzate per sottrarre modelli irrilevanti, lasciando solo informazioni utili. Il termine bayesian è visto frequentemente sul campo, riferendosi a una classe di tecniche di inferenza che prevedono la probabilità di eventi futuri combinando probabilità e probabilità precedenti basate su eventi condizionali. Il filtraggio dello spam è probabilmente una forma di data mining, che porta automaticamente i messaggi pertinenti in superficie da un mare caotico di tentativi di phishing e piazzole del Viagra.
Gli alberi decisionali vengono utilizzati per filtrare le montagne di dati. In un albero decisionale, tutti i dati passano attraverso un nodo di ingresso, dove affronta un filtro che separa i dati in flussi a seconda delle sue caratteristiche. Ad esempio, è probabile che i dati sul comportamento dei consumatori vengano filtrati in base a Dfattori emografici. Il data mining non riguarda principalmente i grafici fantasiosi e le tecniche di visualizzazione, ma li utilizza per mostrare ciò che ha trovato. È noto che possiamo assorbire più informazioni statistiche visivamente di quanto verbalmente e questo formato per la presentazione può essere molto persuasivo e potente se usato nel giusto contesto.
Man mano che la nostra civiltà diventa sempre più saturata e i sensori vengono distribuiti in massa nei nostri ambienti locali, scopriremo inavvertitamente cose che potrebbero mancare al primo passaggio. Il data mining ci consentirà di correggere questi errori e scoprire nuove intuizioni in base ai dati passati, dandoci più botto per il nostro dollaro di archiviazione dei dati.