Hva er data mining -prosessen?
Data mining -prosessen er et verktøy for å avdekke statistisk signifikante mønstre i en stor mengde data. Det involverer vanligvis fem hovedtrinn, som inkluderer forberedelse, datautforskning, modellbygging, distribusjon og gjennomgang. Hvert trinn i prosessen innebærer et annet sett med teknikker, men de fleste bruker en form for statistisk analyse.
Før data mining -prosessen kan begynne, setter forskerne typisk forskningsmål. Dette preparatstrinnet bestemmer vanligvis hvilke typer data som må studeres, hvilke data mining -teknikker som skal brukes, og hvilken form resultatene vil ta. Dette første trinnet i prosessen kan være avgjørende for å samle nyttig informasjon.
Det neste trinnet i data mining -prosessen er utforskning. Dette trinnet innebærer vanligvis å samle de nødvendige dataene fra et informasjonslager eller innsamlingsenhet. Deretter utarbeider gruveeksperter typisk rå datasettene for analyse. Dette trinnet består vanligvis av å samle, rengjøre, organisere ogKontrollere alle dataene for feil.
Disse utarbeidede dataene legger vanligvis inn det tredje trinnet i data mining -prosessen, modellbygging. For å oppnå dette tar forskere typisk små testprøver av data og bruker en rekke data mining -teknikker på dem. Modelleringstrinnet brukes ofte for å bestemme den beste metoden for statistisk analyse som kreves for å oppnå de ønskede resultatene.
Det er fire hovedteknikker som kan brukes i data mining -prosessen. Den første er klassifisering, som ordner data i forhåndsdefinerte grupper eller kategorier. I den andre teknikken, kalt klynging, lar forskere datamaskinen organisere dataene i grupper, slik den velger. En tredje data mining -teknikk søker assosiasjoner mellom variabler. Den fjerde ser vanligvis etter sekvensielle mønstre i dataene som kan brukes til å forutsi fremtidige trender.
Det siste trinnet i Data Mining Prostart er distribusjon. For å gjøre dette blir teknikkene som er valgt i modellen brukt på det større datasettet, og resultatene blir analysert. Rapporten som kommer fra dette trinnet viser vanligvis mønstrene som finnes i hele prosessen, inkludert klassifiseringer, klynger, assosiasjoner eller sekvensielle mønstre som eksisterer i datasettet.
Gjennomgang er ofte et viktig slutttrinn. Denne fasen i prosessen innebærer vanligvis å gjenta gruvemodeller med et nytt datasett for å sikre at hovedsettet var representativt for hele datapopulasjonen. Resultatene kan ikke forutsi trender i den større populasjonen hvis datautvalget ikke nøyaktig representerer det.