Hva er verktøy for datautvinning?
Data mining-verktøy er programvarekomponenter og teorier som lar brukere trekke ut informasjon fra data. Verktøyene gir enkeltpersoner og selskaper muligheten til å samle store datamengder og bruke den til å ta avgjørelser om en bestemt bruker eller grupper av brukere. Noen av de vanligste bruksområdene for data mining-verktøy er innen markedsføring, beskyttelse mot svindel og overvåking.
Manuell utvinning av data har eksistert i hundrevis av år. Imidlertid har automatisering av data mining vært mest utbredt siden dataan tidens begynnelse. I løpet av det 20. århundre dukket forskjellige informatikk for å støtte konseptet om å utvikle data mining-verktøy. Det overordnede målet med bruken av verktøyene er å avdekke skjulte mønstre. Hvis for eksempel et markedsføringsfirma finner ut at en person tar en månedlig tur fra New York City til Los Angeles, blir det fordelaktig for det selskapet å annonsere detaljer om destinasjonen til den enkelte.
Innenfor data mining-industrien er det etablert standarder for å definere parametrene for bruk av data mining-verktøy. Årlig holder Association for Computing Machinery sin spesielle interessegruppe for kunnskapsoppdagelse og datamining (SIGKDD) et møte for å avgjøre hvilke prosesser som brukes. Den samme gruppen er også ansvarlig for å vurdere de etiske implikasjonene av analysen av data fra enkeltpersoner og selskaper. Et halvårlig tidsskrift utgis av gruppen med tittelen SIGKDD Explorations.
Det mest utbredte verktøyet som brukes i data mining er prosessen som kalles Knowledge Discovery in Databases (KDD). KDD ble utviklet i 1989 av Gregory Piatetsky-Shapiro. Ved hjelp av dette data mining-verktøyet kan brukere behandle rådata, gruve dataene for informasjon og tolke de forskjellige resultatene i form av informasjonsstyring.
Et av de viktigste formene for data mining-verktøy brukes til å bekjempe terrorisme i det 21. århundre. I USA bruker National Research Council begrepene mønsterutvinning og emnebasert datavinning for å identifisere terroraktivitet i den store informasjonspuljen rundt om i verden. Mønsterdrift er definert av prosessen med å lokalisere mønstre innenfor et stort datamengde. Fagbasert data mining prøver å identifisere forhold mellom individer. Begge teknikkene kan også benyttes i generell forretningsskikk ved å definere tankegangen til en kundebase og det interaktive forholdet mellom kundene.