Vilka är de viktigaste datakonstruktionerna?
De viktigaste data mining-koncepten används för analys av insamlad information, särskilt i försöket att observera ett beteende. Okända interaktioner mellan data undersöks på olika sätt för att fastställa kritiska förhållanden mellan försökspersoner och sammanlagd information. En utmaning i datainsamling är att den faktiska insamlade informationen kanske inte påminner om hela domänen. I ett försök att ta itu med detta faktum kan korrelationer mellan data kontrolleras metodiskt av de olika datakommunikationsbegreppen.
Standarder för datakommunikationskoncept upprätthålls av Association for Computing Machines Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD). Denna organisation publicerar "International Journal of Information Technology and Decision Making" samt tidskriften SIGKDD Explorations. Genom att upprätthålla etik och grundläggande principer för data mining gör branschen att arbeta effektivt och med begränsade juridiska problem.
Förbehandling av informationen är en av de viktigaste aspekterna av datakommunikation. Rå data måste brytas och tolkas. För att utföra denna åtgärd måste en process bestämmas, måldata ska samlas och mönster hittas. Processen kallas Knowledge Discovery in Databases och utvecklades av Gregory Piatetsky-Shapiro 1989.
Fyra olika klasser av datakommunikationsbegrepp gör det möjligt för processen att ske. Clustering använder algoritmen som skapats från processen för att bryta data för att samla objekt i liknande grupper. Till skillnad från gruppering är klassificering av informationen när data samlas in i fördefinierade grupper och analyseras. Associering försöker hitta samband mellan variabler, bestämma vilka datagrupper som vanligtvis är associerade. Den slutliga typen av data mining är regression , baserad på metoden för att identifiera en funktion inom datainsamlingen.
Validering av informationen är det sista steget i att upptäcka vad datakommunikationsapplikationen representerar. När inte alla algoritmer presenterar en giltig datamängd kan mönstren som uppstår resultera i en situation som kallas överanpassning. För att övervinna detta problem jämförs data med en testuppsättning. Detta är ett koncept där mätningarna är i linje med en serie algoritmer som skulle ge en trolig uppsättning datasätt. Om den förvärvade informationen inte står i linje med testuppsättningen, måste de antagna mönstren i datan vara felaktiga.
Några av de viktigaste datakonstruktionerna förekommer i olika branscher. Spel, affärer, marknadsföring, vetenskap, teknik och övervakning använder alla data mining-tekniker. Genom att använda dessa tekniker kan varje fält bestämma bästa praxis eller bättre sätt att hitta resultat.