Hva er de viktigste datautvinningskonseptene?

De viktigste data mining -konseptene brukes til analyse av samlet informasjon, spesielt i arbeidet med å observere en oppførsel. Ukjente interaksjoner mellom data blir undersøkt på en rekke måter å konstatere kritiske forhold mellom fag og aggregert informasjon. En utfordring i data mining er at den faktiske informasjonen som samles inn, kanskje ikke minner om hele domenet. I et forsøk på å adressere dette faktum, kan korrelasjoner mellom dataene metodisk kontrolleres av de forskjellige data mining -konseptene.

Standarder for data mining -konsepter håndheves av Association for Computing Machinery's Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD). Denne organisasjonen publiserer "International Journal of Information Technology and Decision Making", samt tidsskriftet Sigkdd -undersøkelser. Håndheving av etikk og grunnleggende prinsipper for data mining holder bransjen arbeid effektivt og med begrensede juridiske problemer.

Forbehandling av informasjonen er et av de viktigste aspektene ved data mining. Rå dataene må utvinnes og tolkes. For å utføre denne handlingen, må en prosess bestemmes, måldataene skal settes sammen og mønstre blir funnet. Prosessen er kjent som kunnskapsoppdagelse i databaser og ble utviklet av Gregory Piatsky-Shapiro i 1989.

Fire forskjellige klasser av data mining -konsepter lar prosessen finne sted. clustering bruker algoritmen som er opprettet fra data mining -prosessen for å sette sammen elementer i lignende grupper. I motsetning til klynging, er klassifisering av informasjonen når dataene er samlet i forhåndsdefinerte grupper og analysert. assosiasjon forsøk på å finne sammenhenger mellom variabler, bestemme hvilke grupper av data som ofte er assosiert. Den endelige typen data mining er regresjon , basert på metoden Of Identifisere en funksjon i datainnsamlingen.

Validering av informasjonen er det siste trinnet i å oppdage hva data mining -applikasjonen representerer. Når ikke alle algoritmer presenterer et gyldig datasett, kan mønstrene som oppstår føre til en situasjon som kalles overmontering. For å overvinne dette problemet sammenlignes dataene med et testsett. Dette er et konsept der målingene er i samsvar med en serie algoritmer som vil gi et plausibelt sett med datasett. Hvis den ervervede informasjonen ikke stemmer overens til testsettet, må de antatte mønstrene i dataene være unøyaktige.

Noen av de viktigste datautvinningskonseptene forekommer i en rekke bransjer. Spill, forretning, markedsføring, vitenskap, ingeniørvitenskap og overvåking bruker alle data mining -teknikker. Ved å gjennomføre disse teknikkene, kan hvert felt bestemme beste praksis eller bedre måter å finne resultater på.

ANDRE SPRÅK