Hvad er de forskellige dataindvindingsmetoder?
Der er en række forskellige dataindvindingsmetoder, der bruges i både softwaremuligheder og teoretiske koncepter. Disse giver brugerne mulighed for at udtrække oplysninger fra data indsamlet af enkeltpersoner og virksomheder ved hjælp af en række forskellige værktøjer. Store mængder data kan bruges til at bestemme forskellige faktorer i et enkelt individ eller forskellige emner. Disse dataindvindingsmetoder bruges oftest inden for områderne beskyttelse mod svig, markedsføring og overvågning.
I hundreder af år er dataindvindingsmetoder blevet brugt til at udtrække oplysninger fra forsøgspersoner. Moderne teknikker bruger dog automatiserede koncepter til at levere betydelige data via edb-ressourcer. Da computervidenskaben opstod i løbet af det 20. århundrede, udviklede begrebet dataindvindingsmetoder sig i et forsøg på at overvinde skjulte mønstre i store skår af indsamlede data. Et godt eksempel på dette er, når et reklamefirma analyserer en online kundes indkøbsmønstre. Dette firma kan derefter markedsføre visse produkter, som den enkelte kan være interesseret i at købe.
Én data mining-teknik, der ofte bruges i branchen, kaldes Knowledge Discovery in Databases (KDD). Udviklet i 1989 af Gregory Piatetsky-Shapiro, giver KDD brugere mulighed for at behandle rå data, analysere oplysningerne til nødvendige data og fortolke resultaterne. Denne metode giver brugerne mulighed for at finde mønstre i algoritmerne, men de generelle data er ikke altid nøjagtige og kan sættes sammen på kompromisrige måder. Dette er kendt som overfitting .
Grundlæggende dataindvindingsmetoder involverer fire bestemte typer opgaver: klassificering, klynger, regression og tilknytning. Klassificering tager de nuværende oplysninger og fusionerer dem i definerede grupperinger. Clustering fjerner de definerede grupperinger og giver dataene mulighed for at klassificere sig selv ved lignende elementer. Regression fokuserer på informationens funktion og modellerer dataene om konceptet. Den endelige dataindvindingsmetode, tilknytning , forsøger at finde forhold mellem de forskellige datafeeds.
Når man bruger de forskellige dataindvindingsmetoder, bruges visse standarder til at bestemme, hvilke parametre der kan bruges i processen. Association for Computing Machines's Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD) afholder et årligt møde, der bestemmer, hvilke processer der er passende. Etiske faktorer vejes sammen med praktiske anvendelser for at finde den bedste information om enkeltpersoner og virksomheder. Denne information offentliggøres i et branchenjournal kaldet SIGKDD Explorations.