Hvad er statistisk dataudvinding?
Statistisk dataindvinding, også kendt som viden eller datafinding, er en edb-metode til indsamling og analyse af information. Data-mining-værktøjet tager data og kategoriserer informationen for at opdage mønstre eller sammenhænge, der kan bruges i vigtige applikationer, såsom medicin, computerprogrammering, forretningsfremme og robot design. Tekniske data mining-teknikker bruger komplekse matematik og komplicerede statistiske processer til at skabe en analyse.
Data mining involverer fem store trin. Den første data mining-applikation indsamler statistiske data og placerer informationen i et program af lagertype. Dernæst er dataene på lageret organiseret og skaber et styringssystem. Det næste trin skaber en måde at få adgang til de administrerede data på. Derefter udvikler det fjerde trin software til at analysere dataene, også kendt som data mining regression, mens det sidste trin gør det lettere at bruge eller fortolke de statistiske data på en praktisk måde.
Generelt integrerer data mining teknikker analytiske og transaktionsdatasystemer. Analytisk software sorteres gennem begge typer datasystemer ved hjælp af åbne brugerspørgsmål. Spørgsmål med åbne formål tillader utallige svar, så programmerere ikke påvirker resultaterne af sorteringen. Programmerere opretter lister med spørgsmål, der kan hjælpe med at kategorisere informationen ved hjælp af et overordnet fokus.
Sortering er derefter baseret på at udvikle klasser og klynger af data, foreninger, der findes i dataene, og forsøg på at definere mønstre og tendenser baseret på foreningerne. For eksempel indsamler Google oplysninger om brugernes købsvaner for at hjælpe med at placere online-annoncering. Spørgsmål med åbne formål, der bruges til at sortere denne køberdata, fokuserer på købspræferencer eller seevaner hos internetbrugere.
Computer videnskabsmænd og programmerere fokuserer på analysen af de statistiske data, der er indsamlet. Oprettelse af beslutningstræer, kunstige neurale netværk, nærmeste nabo-metode, regelinduktion, datavisualisering og genetiske algoritmer bruger alle de statistisk udvindede data. Disse klassificeringssystemer hjælper med at fortolke de foreninger, der er opdaget af de analytiske dataprogrammer. Statistisk dataindvinding involverer små projekter, der kan udføres i lille skala på en hjemmecomputer, men de fleste data mining-foreningssæt er så store, og regeringen af data mining er så kompliceret, at de kræver en supercomputer eller et netværk af højhastighedscomputere.
Statistisk dataindsamling indsamler tre generelle typer data, herunder operationelle data, ikke-operationelle data og metadata. I en tøjbutik er driftsdata grundlæggende data, der bruges til at drive virksomheden, såsom regnskab, salg og lagerkontrol. Ikke-operationelle data, som indirekte er relateret til virksomheden, inkluderer estimater af fremtidig salg og generel information om det nationale tøjmarked. Metadata vedrører selve dataene. Et program, der bruger metadata, kan muligvis sortere butikskunder i klassifikationer baseret på køn eller geografisk placering af tøjkøberne eller kundernes foretrukne farve, hvis disse data blev indsamlet.
En data mining-applikation kan være ekstremt sofistikeret, og det statistiske data mining-værktøj kan have omfattende praktiske applikationer. Undersøgelsen af sygdomsudbrud er et eksempel. Et 2000-minedriftprojekt analyserede sygdomsudbruddet af cryptosporidium i Ontario, Canada for at bestemme årsagerne til stigningen i sygdomstilfælde. Resultaterne af dataudvindingen hjalp med at knytte bakterieudbruddet til lokale vandforhold og manglen på ordentlig kommunal vandbehandling. Et felt kaldet "biosurveillance" bruger epidemiologisk dataudvinding til at identificere udbrud af en enkelt sygdom.
Computerprogrammører og designere anvender også studiet af sandsynlighed og statistisk dataanalyse til at udvikle maskiner og computerprogrammer. Googles internet-søgemaskine blev designet ved hjælp af statistisk dataudvinding. Google fortsætter med at indsamle og bruge data mining til at oprette programopdateringer og applikationer.