Hvad er datamineringsprocessen?
Data mining processen er et værktøj til at afdække statistisk signifikante mønstre i en stor mængde data. Det involverer typisk fem hovedtrin, som inkluderer forberedelse, dataudforskning, modelbygning, implementering og gennemgang. Hvert trin i processen involverer et andet sæt teknikker, men de fleste bruger en form for statistisk analyse.
Før dataindvindingsprocessen kan begynde, sætter forskerne typisk forskningsmål. Dette forberedelsestrin bestemmer normalt, hvilke typer af data der skal studeres, hvilke data mining-teknikker, der skal bruges, og hvilken form resultaterne vil have. Dette indledende trin i processen kan være afgørende for indsamling af nyttig information.
Det næste trin i dataindvindingsprocessen er efterforskning. Dette trin involverer normalt indsamling af de krævede data fra et informationslager eller en indsamlingsenhed. Derefter forbereder mineeksperter typisk de rå datasæt til analyse. Dette trin består normalt af at indsamle, rengøre, organisere og kontrollere alle data for fejl.
Disse forberedte data går normalt ind i det tredje trin i dataminingprocessen, modelopbygning. For at opnå dette tager forskere typisk små testprøver af data og anvender en række forskellige data mining-teknikker på dem. Modelleringstrinnet bruges ofte til at bestemme den bedste metode til statistisk analyse, der kræves for at opnå de ønskede resultater.
Der er fire hovedteknikker, der kan anvendes i data mining processen. Den første er klassificering, der arrangerer data i foruddefinerede grupper eller kategorier. I den anden teknik, kaldet clustering, tillader forskere computeren at organisere dataene i grupper, som de vælger. En tredje data mining-teknik søger sammenhængen mellem variabler. Den fjerde ser typisk efter sekventielle mønstre i de data, der kan bruges til at forudsige fremtidige tendenser.
Det sidste trin i data mining processen er distribution. For at gøre dette anvendes de teknikker, der er valgt i modellen, til det større datasæt, og resultaterne analyseres. Rapporten, der kommer fra dette trin, viser normalt de mønstre, der findes i hele processen, inklusive eventuelle klassifikationer, klynger, foreninger eller sekventielle mønstre, der findes i datasættet.
Gennemgang er ofte et vigtigt sidste trin. Denne fase i processen involverer normalt gentagelse af minedriftsmodeller med et nyt datasæt for at sikre, at hovedsættet var repræsentativt for hele datapopulationen. Resultaterne kan ikke forudsige tendenser i den større population, hvis dataprøven ikke nøjagtigt repræsenterer den.