Vad är en klassificering av datagruvor?
Klassificering av data mining är ett steg i processen för data mining. Det används för att gruppera objekt baserat på vissa viktiga egenskaper. Det finns flera tekniker som används för datakonstruktion, inklusive närmaste grannklassificering, beslutsträdinlärning och supportvektomaskiner.
Data mining är en metod som forskare använder för att extrahera mönster från data. I allmänhet väljs ett representativt urval av data och manipuleras sedan och analyseras för att hitta mönster. Förutom klassificering av data mining kan forskare också använda kluster, regression och regelinlärning för att analysera data.
Det finns flera algoritmer som kan användas vid klassificering av data mining. Närmaste grannklassificering är en av de enklaste av datalagringsklassificeringsalgoritmerna. Det förlitar sig på en träningsuppsättning. En träningsuppsättning är en uppsättning data som används för att träna datorn till att uppmärksamma vissa variabler. I närmaste grannklassificering klassificerar datorn helt enkelt alla data som en del av gruppen som innehåller data närmast i värde till ingången.
Beslutsträdets inlärning använder en grenmodell för att klassificera data. Datorn ställer i princip en serie frågor om uppgifterna. Om svaret på den första frågan är sant ställer den fråga 2a. Om svaret är falskt ställer det fråga 2b. När den dras ut bildar denna metod ett träd med grenade vägar.
Naive Bayes klassificering förlitar sig på sannolikheten. Den ställer en serie frågor om varje databitar och använder sedan svaren för att bestämma sannolikheten för att uppgifterna hör till en viss klassificering. Detta skiljer sig från inlärning av beslutsträd eftersom svaret på den första frågan inte påverkar vilken fråga som kommer att ställas nästa.
Mer komplicerade metoder för data mining klassificering inkluderar neurala nätverk och support vektormaskiner. Dessa metoder är datorbaserade modeller som skulle vara svåra att göra för hand. Neurala nätverk används ofta i programmering av artificiell intelligens eftersom det efterliknar den mänskliga hjärnan. Det filtrerar information genom en serie noder som hittar mönster och klassificerar sedan informationen.
Stödvektormaskiner använder träningsprover för att bygga en modell som klassificerar information, vanligtvis visualiserad som en spridningsdiagram med ett brett utrymme mellan kategorier. När ny information matas in i maskinen planeras den på diagrammet. Uppgifterna klassificeras sedan baserat på vilken kategori informationen faller närmast på grafen. Den här metoden fungerar endast när det finns två alternativ att välja mellan.