Hvad er datamining?

Data mining bruger en relativt stor mængde computerkraft, der opererer på et stort sæt data til at bestemme regelmæssigheder og forbindelser mellem datapunkter. Algoritmer, der anvender teknikker fra statistik, maskinlæring og mønstergenkendelse bruges til automatisk at søge i store databaser. Data mining er også kendt som Knowledge-Discovery in Databases (KDD).

Ligesom udtrykket kunstig intelligens er datamining et paraplybegrep, der kan anvendes til en række forskellige aktiviteter. I erhvervslivet anvendes datamining mest ofte til at bestemme retning af tendenser og forudsige fremtiden. Det bruges til at bygge modeller og beslutningsstøttesystemer, der giver folk information, de kan bruge. Datamining indtager en frontlinie rolle i kampen mod terrorisme. Det blev angiveligt brugt til at bestemme lederen af angrebene den 11. september.

Dataminevirksomheder er statistikere, der bruger teknikker med navne som næsten-nabomodeller , k-betyder-klynge , holdout-metode , k-fold krydsvalidering , forladelsesmetoden osv. Regressionsteknikker bruges til at trække irrelevante mønstre, hvilket kun efterlader nyttige oplysninger. Udtrykket Bayesian ses ofte i marken, og refererer til en klasse af inferenssteknikker, der forudsiger sandsynligheden for fremtidige begivenheder ved at kombinere tidligere sandsynligheder og sandsynligheder baseret på betingede begivenheder. Spamfiltrering er uden tvivl en form for dataindvinding, der automatisk bringer relevante beskeder til overfladen fra et kaotisk hav af phishingforsøg og Viagra-pladser.

Beslutningstræer bruges til at filtrere bjerge af data. I et beslutningstræ passerer alle data gennem en indgangsknudepunkt, hvor de vender mod et filter, der adskiller dataene i strømme afhængigt af dets egenskaber. For eksempel vil data om forbrugeradfærd sandsynligvis blive filtreret baseret på demografiske faktorer. Datamining handler ikke primært om smarte grafer og visualiseringsteknikker, men det anvender dem til at vise, hvad de har fundet. Det er kendt, at vi kan optage mere statistisk information visuelt end verbalt, og dette format til præsentation kan være meget overbevisende og kraftfuldt, hvis det bruges i den rigtige kontekst.

Efterhånden som vores civilisation bliver mere og mere datamættet og sensorer distribueres masse i vores lokale miljøer, vil vi utilsigtet opdage ting, der måske vil gå glip af ved første passering. Data mining vil lade os korrigere disse fejl og opdage nye indsigter baseret på tidligere data, hvilket vil give os mere bang for vores datalagring.

Hvad er datamining?

Hjalp denne artikel dig?