Vad är statistisk data mining?

Statistisk data mining, även känd som kunskap eller dataupptäckt, är en datoriserad metod för att samla in och analysera information. Data-gruvningsverktyget tar data och kategoriserar informationen för att upptäcka mönster eller korrelationer som kan användas i viktiga applikationer, såsom medicin, datorprogrammering, affärsmässigt marknadsföring och robotdesign. Statistiska data mining -tekniker använder komplex matematik och komplicerade statistiska processer för att skapa en analys.

data mining innebär fem huvudsteg. Den första applikationen för data mining samlar in statistiska data och placerar informationen i ett lager av lager. Därefter är uppgifterna i lagret organiserade och skapar ett ledningssystem. Nästa steg skapar ett sätt att komma åt de hanterade uppgifterna. Sedan utvecklar det fjärde steget programvara för att analysera uppgifterna, även känd som regression av data mining, medan det sista steget underlättar att använda eller tolka de statistiska uppgifterna på ett praktiskt sätt.

Generellt sett, data miningTekniker integrerar analytiska och transaktionsdatasystem. Analytisk programvara sorterar genom båda typerna av datasystem som använder öppna användarfrågor. Öppna frågor tillåter otaliga svar så att programmerare inte påverkar resultaten av sorteringen. Programmerare skapar listor över frågor för att hjälpa till att kategorisera informationen med ett övergripande fokus.

sortering baseras sedan på att utveckla klasser och kluster av data, föreningar som finns i data och försök att definiera mönster och trender baserade på föreningarna. Till exempel samlar Google information om användarnas inköpsvanor för att hjälpa till att placera onlineannonsering. Öppna frågor som används för att sortera denna köpdata Fokusera på att köpa preferenser eller visa vanor hos internetanvändare.

datavetare och programmerare fokuserar på analysen av de statistiska uppgifterna som samlas in. Skapande av beslutsträd, artifiCIAL Neural Networks, närmaste grannmetod, regelinduktion, datavisualisering och genetiska algoritmer använder alla de statistiskt linda data. Dessa klassificeringssystem hjälper till att tolka de föreningar som upptäckts av de analytiska dataprogrammen. Statistisk databrytning innebär små projekt som kan göras i liten skala på en hemdator, men de flesta data för att gruvdrift är så stora och datavinningsregression så komplicerad att de kräver en superdator eller ett nätverk av höghastighetsdatorer.

Statistisk databrytning samlar in tre allmänna typer av data, inklusive operativa data, icke-operativa data och metadata. I en klädaffär är operativa uppgifter grundläggande data som används för att driva verksamheten, till exempel redovisning, försäljning och lagerkontroll. Icke-operativa uppgifter, som indirekt är relaterade till verksamheten, inkluderar uppskattningar av framtida försäljning och allmän information om den nationella klädmarknaden. Metadata gäller själva uppgifterna. Ett program uSing Metadata kan sortera butikskunder i klassificeringar baserade på kön eller geografisk plats för klädköpare eller kundernas favoritfärg, om den informationen samlades in.

En applikation för data mining kan vara extremt sofistikerad och det statistiska data mining -verktyget kan ha utbredda praktiska applikationer. Studien av sjukdomsutbrott är ett exempel. Ett 2000 -data mining -projekt analyserade sjukdomsutbrottet av Cryptosporidium i Ontario, Kanada för att bestämma orsakerna till ökningen av sjukdomsfall. Resultaten av databrytningen hjälpte till att koppla bakterieutbrottet till lokala vattenförhållanden och bristen på korrekt kommunal vattenbehandling. Ett fält som kallas "biosurveillance" använder epidemiologisk databrytning för att identifiera utbrott av en enda sjukdom.

datorprogrammerare och designers använder också studien av sannolikhet och statistisk dataanalys för att utveckla maskiner och datorprogram. Google Internet -sökmotorn designades med STATistical Data Mining. Google fortsätter att samla in och använda data mining för att skapa programuppdateringar och applikationer.

ANDRA SPRÅK

Hjälpte den här artikeln dig? Tack för feedbacken Tack för feedbacken

Hur kan vi hjälpa? Hur kan vi hjälpa?