Hvad er statistiske data mining?
Statistiske datamining, også kendt som viden eller dataopdagelse, er en edb -metode til indsamling og analyse af information. Data-mining-værktøjet tager data og kategoriserer informationen for at opdage mønstre eller sammenhænge, der kan bruges i vigtige applikationer, såsom medicin, computerprogrammering, forretningsfremme og robotdesign. Statistiske dataminingsteknikker bruger komplekse matematik og komplicerede statistiske processer til at skabe en analyse.
Data mining involverer fem store trin. Den første data mining-applikation indsamler statistiske data og placerer oplysningerne i et lager-type program. Dernæst er dataene i lageret organiseret og opretter et styringssystem. Det næste trin skaber en måde at få adgang til de administrerede data. Derefter udvikler det fjerde trin software til at analysere dataene, også kendt som data mining -regression, mens det sidste trin letter ved hjælp af eller fortolker de statistiske data på en praktisk måde.
Generelt data miningTeknikker integrerer analytiske og transaktionsdatasystemer. Analytisk software sorteres gennem begge typer datasystemer ved hjælp af åbne brugerspørgsmål. Åbne spørgsmål tillader utallige svar, så programmerere ikke påvirker resultaterne af sorteringen. Programmerere opretter lister over spørgsmål til at hjælpe med at kategorisere oplysningerne ved hjælp af et overordnet fokus.
Sortering er derefter baseret på udvikling af klasser og klynger af data, foreninger, der findes i dataene, og forsøger at definere mønstre og tendenser baseret på foreningerne. For eksempel indsamler Google information om brugernes købsvaner for at hjælpe med at placere online -annoncering. Åbne spørgsmål, der bruges til at sortere denne køberdata, fokuserer på købspræferencer eller visningsvaner hos internetbrugere.
Computerforskere og programmerere fokuserer på analysen af de statistiske data, der indsamles. Oprettelse af beslutningstræer, ArtifiCial neurale netværk, nærmeste nabo-metode, regelinduktion, datavisualisering og genetiske algoritmer bruger alle de statistisk-medede data. Disse klassificeringssystemer hjælper med at fortolke de foreninger, der blev opdaget af de analytiske dataprogrammer. Statistiske dataudvindinger involverer små projekter, der kan udføres i lille skala på en hjemmecomputer, men de fleste dataminingforeningssæt er så store, og dataindvindingsregressionen er så kompliceret, at de kræver en supercomputer eller et netværk af højhastighedscomputere.
Statistiske data Mining indsamler tre generelle typer data, herunder operationelle data, ikke-operationelle data og metadata. I en tøjbutik er operationelle data grundlæggende data, der bruges til at drive virksomheden, såsom regnskab, salg og lagerstyring. Ikke-operationelle data, der indirekte er relateret til virksomheden, inkluderer estimater af fremtidig salg og generel information om det nationale tøjmarked. Metadata vedrører selve dataene. Et program uSing metadata kan muligvis sortere butikskunder til klassifikationer baseret på køn eller geografisk placering af tøjkøbere eller kundernes yndlingsfarve, hvis disse data blev indsamlet.
En applikation med data mining kan være ekstremt sofistikeret, og det statistiske dataminingværktøj kan have udbredte praktiske applikationer. Undersøgelsen af sygdomsudbrud er et eksempel. Et 2000 -data mining -projekt analyserede sygdomsudbruddet af Cryptosporidium i Ontario, Canada for at bestemme årsagerne til stigningen i sygdomssager. Resultaterne af datamining hjalp til med at forbinde bakteriudbruddet til lokale vandforhold og manglen på ordentlig kommunal vandbehandling. Et felt kaldet "Biosurveillance" bruger epidemiologiske datamining til at identificere udbrud af en enkelt sygdom.
Computerprogrammører og designere anvender også studiet af sandsynlighed og statistisk dataanalyse til at udvikle maskiner og computerprogrammer. Google Internet -søgemaskinen blev designet ved hjælp af STATistical Data Mining. Google fortsætter med at indsamle og bruge datamining til at oprette programopdateringer og applikationer.