Hvad er de vigtigste datakonstruktioner?
De vigtigste data mining-koncepter bruges til analyse af indsamlet information, især i bestræbelserne på at observere en adfærd. Ukendte interaktioner mellem data undersøges på forskellige måder for at konstatere kritiske forhold mellem individer og samlet information. En udfordring i data mining er, at den indsamlede information muligvis ikke minder om hele domænet. I et forsøg på at tackle dette faktum kan sammenhænge mellem dataene metodisk kontrolleres af de forskellige dataminingskoncepter.
Standarder for datamining koncepter håndhæves af Association for Computing Machinery's Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD). Denne organisation udgiver "International Journal of Information Technology and Decision Making" samt tidsskriftet SIGKDD Explorations. Håndhævelse af etik og grundlæggende principper for data mining gør, at branchen fungerer effektivt og med begrænsede juridiske problemer.
Forbehandling af informationen er en af de vigtigste aspekter af data mining. De rå data skal udvindes og fortolkes. For at udføre denne handling skal en proces bestemmes, måldataene skal samles og mønstre findes. Processen er kendt som Knowledge Discovery in Databases og blev udviklet af Gregory Piatetsky-Shapiro i 1989.
Fire forskellige klasser af datamining koncepter tillader, at processen finder sted. Clustering bruger algoritmen oprettet fra data mining processen til at samle elementer i lignende grupper. I modsætning til klynger er klassificering af informationen, når dataene samles i foruddefinerede grupper og analyseres. Associering forsøger at finde sammenhænge mellem variabler ved at bestemme, hvilke datagrupper der ofte er tilknyttet. Den endelige type dataindvinding er regression , baseret på metoden til at identificere en funktion inden for dataindsamlingen.
Validering af informationen er det sidste trin i at finde ud af, hvad applikationen til data mining er. Når ikke alle algoritmer præsenterer et gyldigt datasæt, kan de mønstre, der forekommer, resultere i en situation, der kaldes overfitting. For at overvinde dette problem sammenlignes dataene med et testsæt. Dette er et koncept, hvor målingerne er på linje med en række algoritmer, der ville give et plausibelt sæt datasæt. Hvis den erhvervede information ikke stemmer overens med testsættet, skal de antagede mønstre i dataene være unøjagtige.
Nogle af de vigtigste data mining-koncepter forekommer i en række industrier. Gaming, forretning, marketing, videnskab, teknik og overvågning anvender alle data mining-teknikker. Ved at udføre disse teknikker kan hvert felt bestemme bedste praksis eller bedre måder til at finde resultater.