Hva er datamining?
Data mining bruker en relativt stor mengde datakraft som opererer på et stort sett med data for å bestemme regelmessigheter og forbindelser mellom datapunkter. Algoritmer som bruker teknikker fra statistikk, maskinlæring og mønstergjenkjenning, brukes til å søke i store databaser automatisk. Data mining er også kjent som Knowledge-Discovery in Databases (KDD).
I likhet med begrepet kunstig intelligens er data mining et paraplybegrep som kan brukes på en rekke forskjellige aktiviteter. I bedriftsverdenen brukes data mining ofte for å bestemme retningen på trender og forutsi fremtiden. Det blir ansatt for å bygge modeller og beslutningsstøttesystemer som gir folk informasjon de kan bruke. Databehandling tar en frontlinje i kampen mot terrorisme. Det ble visstnok brukt til å bestemme lederen for angrepene den 11. september.
Datavelgere er statistikere som bruker teknikker med navn som nabomodeller , k-betyr klynging , holdout-metode , k-fold kryssvalidering , permisjon-en-ut-metoden , og så videre. Regresjonsteknikker brukes til å trekke fra irrelevante mønstre, og bare etterlate nyttig informasjon. Begrepet Bayesian sees ofte i feltet, og refererer til en klasse av inferenssteknikker som forutsier sannsynligheten for fremtidige hendelser ved å kombinere tidligere sannsynligheter og sannsynligheter basert på betingede hendelser. Spamfiltrering er uten tvil en form for data mining, som automatisk bringer relevante meldinger til overflaten fra et kaotisk hav av phishing-forsøk og Viagra-pitcher.
Avgjørelsetrær brukes til å filtrere fjell med data. I et beslutnings-tre passerer alle data gjennom en inngangsnode, der de vender mot et filter som skiller dataene i strømmer avhengig av deres egenskaper. For eksempel vil data om forbrukeratferd sannsynligvis bli filtrert basert på demografiske faktorer. Data mining handler ikke først og fremst om fancy grafer og visualiseringsteknikker, men de bruker dem til å vise hva den har funnet. Det er kjent at vi kan absorbere mer statistisk informasjon visuelt enn muntlig, og dette formatet for presentasjon kan være veldig overbevisende og kraftfullt hvis det brukes i riktig sammenheng.
Når sivilisasjonen vår blir stadig mer mettet og sensorer blir distribuert masse i lokale omgivelser, vil vi utilsiktet oppdage ting som kan gå glipp av ved første passering. Data mining vil la oss rette disse feilene og oppdage ny innsikt basert på tidligere data, og gi oss mer smell for datalagring.