Hvad er en datamineringsklassifikation?
Klassificering af data mining er et trin i processen med data mining. Det bruges til at gruppere elementer baseret på visse nøgleegenskaber. Der er flere teknikker, der anvendes til datamining klassificering, herunder nærmeste nabo klassificering, beslutning træ læring og support vektor maskiner.
Data mining er en metode forskere bruger til at udtrække mønstre fra data. Generelt vælges en repræsentativ prøve fra datapuljen og manipuleres derefter og analyseres for at finde mønstre. Ud over klassificering af data mining kan forskere også bruge klynger, regression og regelindlæring til at analysere dataene.
Der er flere algoritmer, der kan bruges i klassificering af data mining. Nærmeste nabo-klassifikation er en af de enkleste af klassificeringsalgoritmerne til datamining. Den er afhængig af et træningssæt. Et træningssæt er et sæt data, der bruges til at træne computeren til at være opmærksom på visse variabler. I nærmeste naboklassificering klassificerer computeren simpelthen alle data som en del af gruppen, der indeholder data, der er tættest på værdien til input.
Beslutningstrælæring bruger en forgreningsmodel til at klassificere dataene. Computeren stiller dybest set en række spørgsmål om dataene. Hvis svaret på det første spørgsmål er sandt, stiller det spørgsmål 2a. Hvis svaret er forkert, stiller det spørgsmål 2b. Når den trækkes ud, danner denne metode et træ med forgrenede stier.
Naive Bayes klassificering er afhængig af sandsynligheden. Det stiller en række spørgsmål om hvert stykke data og bruger derefter svarene til at bestemme sandsynligheden for, at dataene hører hjemme i en bestemt klassificering. Dette adskiller sig fra læring af beslutningstræer, fordi svaret på det første spørgsmål ikke har indflydelse på hvilket spørgsmål der bliver stillet næste.
Mere komplicerede metoder til datamining klassificering inkluderer neurale netværk og support vektor maskiner. Disse metoder er computebaserede modeller, der ville være vanskelige at gøre i hånden. Neurale netværk bruges ofte til programmering af kunstig intelligens, fordi det efterligner den menneskelige hjerne. Det filtrerer information gennem en række noder, der finder mønstre og derefter klassificerer informationen.
Supportvektormaskiner bruger træningseksempler til at opbygge en model, der klassificerer information, normalt visualiseret som et scatter-plot med et stort mellemrum mellem kategorier. Når der indsættes nye oplysninger i maskinen, vises de på grafen. Data klassificeres derefter baseret på hvilken kategori informationen falder tættest på grafen. Denne metode fungerer kun, når der er to muligheder at vælge imellem.