Hva er de viktigste konseptene for gruvedrift av data?
De viktigste data mining-konseptene brukes til analyse av innsamlet informasjon, særlig i forsøket på å observere en oppførsel. Ukjente interaksjoner mellom data er forsket på en rekke måter for å finne kritiske forhold mellom forsøkspersoner og samlet informasjon. En utfordring innen data mining er at den faktiske informasjonen som samles inn ikke kan minne om hele domenet. I et forsøk på å løse dette faktum, kan korrelasjoner mellom dataene metodisk kontrolleres av de forskjellige data mining-konseptene.
Standarder for data mining-konsepter håndheves av Association for Computing Machinery's Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD). Denne organisasjonen publiserer "International Journal of Information Technology and Decision Making" samt tidsskriftet SIGKDD Explorations. Å håndheve etikk og grunnleggende prinsipper for data mining gjør at industrien jobber effektivt og med begrensede juridiske problemer.
Forhåndsbehandling av informasjonen er en av de viktigste aspektene ved data mining. Rå dataene må utvinnes og tolkes. For å utføre denne handlingen, må det bestemmes en prosess, måldataene skal settes sammen og mønstre blir funnet. Prosessen er kjent som Knowledge Discovery in Databases og ble utviklet av Gregory Piatetsky-Shapiro i 1989.
Fire forskjellige klasser av data mining-konsepter lar prosessen finne sted. Clustering bruker algoritmen opprettet fra data mining prosessen for å sette sammen elementer i lignende grupper. I motsetning til gruppering, er klassifisering av informasjonen når dataene er samlet i forhåndsdefinerte grupper og analysert. Association prøver å finne sammenhenger mellom variabler, bestemme hvilke datagrupper som ofte er assosiert. Den endelige typen data mining er regresjon , basert på metoden for å identifisere en funksjon innen datainnsamlingen.
Validering av informasjonen er det siste trinnet i å oppdage hva data mining-applikasjonen representerer. Når ikke alle algoritmer presenterer et gyldig datasett, kan mønstrene som oppstår resultere i en situasjon som kalles overmontering. For å overvinne dette problemet sammenlignes dataene med et testsett. Dette er et konsept der målingene er på linje med en serie algoritmer som vil gi et sannsynlig sett med datasett. Hvis den innhentede informasjonen ikke stemmer overens med testsettet, må de antatte mønstrene i dataene være unøyaktige.
Noen av de viktigste konseptene for data mining er i en rekke bransjer. Gaming, business, marketing, science, engineering og overvåking bruker alle data mining-teknikker. Ved å utføre disse teknikkene kan hvert felt bestemme beste praksis eller bedre måter å finne resultater på.