Vilka är de viktigaste koncept för data mining?
De viktigaste data mining -koncept används för analys av insamlad information, särskilt i försöket att observera ett beteende. Okända interaktioner mellan data undersöks på olika sätt för att fastställa kritiska förhållanden mellan ämnen och aggregerad information. En utmaning inom data mining är att den faktiska informationen som samlas in kanske inte påminner om hela domänen. I ett försök att ta itu med detta faktum kan korrelationer mellan uppgifterna metodiskt kontrolleras av de olika data mining -koncept.
Standarder för koncept för data mining verkställs av Association for Computing Machinerys specialintresse -grupp om kunskapsupptäckt och data mining (SIGKDD). Denna organisation publicerar ”International Journal of Information Technology and Decision Making” samt tidskriften SIGKDD Explorations. Att upprätthålla etik och grundläggande principer för data mining håller branschen att fungera effektivt och med begränsade juridiska problem.
Förbehandling av informationen är en av de viktigaste aspekterna av data mining. Rådata måste brytas och tolkas. För att utföra denna åtgärd måste en process bestämmas, måldata bör monteras och mönster hittas. Processen är känd som kunskapsupptäckt i databaser och utvecklades av Gregory Piatetssky-Shapiro 1989.
Fyra olika klasser av data mining -koncept tillåter processen att äga rum. Clustering använder algoritmen skapad från data miningprocessen för att montera objekt i liknande grupper. Till skillnad från kluster är klassificering av informationen när uppgifterna monteras i fördefinierade grupper och analyseras. Association Försök att hitta förhållanden mellan variabler, bestämma vilka grupper av data som vanligtvis är associerade. Den sista typen av data mining är regression , baserat på metoden of identifiera en funktion inom datainsamlingen.
Validering av informationen är det sista steget i att upptäcka vad data mining -applikationen representerar. När inte alla algoritmer presenterar en giltig datauppsättning kan mönstren som inträffar resultera i en situation som kallas överanpassning. För att övervinna detta problem jämförs data med en testuppsättning. Detta är ett koncept där mätningarna är i linje med en serie algoritmer som skulle ge en trolig uppsättning datauppsättningar. Om den förvärvade informationen inte står i linje med testuppsättningen, måste de antagna mönstren i uppgifterna vara felaktiga.
Några av de viktigaste data mining -koncept förekommer i olika branscher. Spel, företag, marknadsföring, vetenskap, teknik och övervakning använder alla tekniker för data mining. Genom att utföra dessa tekniker kan varje fält bestämma bästa praxis eller bättre sätt att hitta resultat.