Hva er en klassifisering av datagruver?

Data mining-klassifisering er ett trinn i prosessen med data mining. Den brukes til å gruppere elementer basert på bestemte nøkkelegenskaper. Det er flere teknikker som brukes til klassifisering av data mining, inkludert nærmeste nabo-klassifisering, beslutningstreet læring og support vektor maskiner.

Data mining er en metode forskere bruker for å trekke ut mønstre fra data. Generelt velges et representativt utvalg fra datapoolen og manipuleres og analyseres for å finne mønstre. I tillegg til klassifisering av data mining, kan forskere også bruke clustering, regresjon og regelinnlæring for å analysere dataene.

Det er flere algoritmer som kan brukes i klassifisering av data mining. Nærmeste nabo-klassifisering er en av de enkleste av data mining-klassifiseringsalgoritmer. Det er avhengig av et treningssett. Et treningssett er et sett med data som brukes til å trene datamaskinen til å ta hensyn til visse variabler. I nærmeste naboklassifisering klassifiserer datamaskinen ganske enkelt alle data som en del av gruppen som inneholder data nærmest i verdi til inngangen.

Beslutningstreet læring bruker en forgrening modell for å klassifisere dataene. Datamaskinen stiller i utgangspunktet en serie spørsmål om dataene. Hvis svaret på det første spørsmålet er sant, stiller det spørsmål 2a. Hvis svaret er usant, stiller det spørsmål 2b. Når den trekkes ut, danner denne metoden et tre av forgreningsstier.

Naive Bayes klassifisering er avhengig av sannsynlighet. Den stiller en serie spørsmål om hvert stykke data og bruker deretter svarene for å bestemme sannsynligheten for at dataene hører hjemme i en bestemt klassifisering. Dette er forskjellig fra læring av beslutnings tre fordi svaret på det første spørsmålet ikke påvirker hvilket spørsmål som blir stilt neste.

Mer kompliserte metoder for klassifisering av data mining inkluderer nevrale nettverk og supportvektormaskiner. Disse metodene er datamaskinbaserte modeller som ville være vanskelig å gjøre for hånd. Nevrale nettverk blir ofte brukt i programmering av kunstig intelligens fordi det etterligner menneskets hjerne. Den filtrerer informasjon gjennom en serie noder som finner mønstre og deretter klassifiserer informasjonen.

Støttevektormaskiner bruker treningsprøver for å bygge en modell som vil klassifisere informasjon, vanligvis visualisert som en spredningsplott med et stort mellomrom mellom kategoriene. Når ny informasjon mates inn i maskinen, blir den plottet på grafen. Dataene blir deretter klassifisert basert på hvilken kategori informasjonen faller nærmest på grafen. Denne metoden fungerer bare når det er to alternativer å velge mellom.

Hva er en klassifisering av datagruver?

Hjalp denne artikkelen deg?