Co je to těžba statistického dat?
Dolování statistické údaje, známé také jako Znalosti nebo objev dat, je počítačovou metodou shromažďování a analýzy informací. Nástroj pro těžbu dat bere data a kategorizuje informace k objevování vzorců nebo korelací, které lze použít v důležitých aplikacích, jako je medicína, počítačové programování, propagace podnikání a robotický design. Techniky dolování statistických dat používají k vytvoření analýzy komplexní matematiku a komplikované statistické procesy.
Dolování dat zahrnuje pět hlavních kroků. První aplikace pro těžbu dat shromažďuje statistická data a uvede informace do programu typu skladu. Dále jsou data ve skladu organizována a vytvářejí systém správy. Další krok vytváří způsob přístupu k spravovaným datům. Čtvrtý krok pak vyvíjí software pro analýzu dat, také známý jako regrese dolování dat, zatímco konečný krok usnadňuje pomocí nebo interpretaci statistických dat praktickým způsobem.
Obecně, dolování datTechniky integrují analytické a transakční datové systémy. Analytický software se třídí prostřednictvím obou typů datových systémů pomocí otevřených otázek uživatelů. Otevřené otázky umožňují nespočet odpovědí, takže programátoři neovlivňují výsledky třídění. Programátoři vytvářejí seznamy otázek, které pomáhají při kategorizaci informací pomocí celkového zaostření.
Třídění je pak založeno na vývoji tříd a shluků dat, asociací nalezených v datech a pokouší se definovat vzorce a trendy založené na asociacích. Například Google shromažďuje informace o nákupních návycích uživatelů, aby pomohl při umisťování online reklamy. Otevřené otázky používané k třídění těchto údajů o kupujícím se zaměřují na předvolby nákupu nebo návyky uživatelů internetu.
Počítačoví vědci a programátoři se zaměřují na analýzu statistických údajů, které jsou shromažďovány. Vytvoření rozhodovacích stromů, ArtifiCial neuronové sítě, metoda nejbližšího souseda, indukce pravidel, vizualizace dat a genetické algoritmy používají statisticky docházená data. Tyto klasifikační systémy pomáhají při interpretaci asociací objevených analytickými datovými programy. Statistická těžba dat zahrnuje malé projekty, které lze provést v malém měřítku na domácím počítači, ale většina sad asociačních dat je tak velká a regrese dolování dat tak komplikovaná, že vyžadují superpočítač nebo síť vysokorychlostních počítačů.
Dolování statistického dat shromažďuje tři obecné typy dat, včetně operačních dat, neoperačních dat a meta dat. V obchodě oděvů jsou provozní data základní data používaná k provozu podnikání, jako je účetnictví, prodej a kontrola zásob. Neoperační údaje, které nepřímo souvisejí s obchodem, zahrnují odhady budoucího prodeje a obecných informací o národním trhu s oblečením. Meta data se týkají samotných dat. Program uSing Meta Data může třídit zákazníky do klasifikací na základě pohlaví nebo geografického umístění kupujících oděvů nebo oblíbené barvy zákazníků, pokud byla tato data shromážděna.
Aplikace pro těžbu dat může být velmi sofistikovaná a nástroj pro dolování statistických dat může mít rozšířené praktické aplikace. Jedním z příkladů je studium ohnisek onemocnění. Projekt těžby dat z roku 2000 analyzoval vypuknutí nemoci Cryptosporidium v Kanadě Ontario, aby určil příčiny nárůstu případů nemoci. Výsledky dolování dat pomáhaly propojení vypuknutí bakterií s podmínkami místní vody a nedostatkem správného úpravy městské vody. Pole zvané „biosurveillance“ používá dolování epidemiologických dat k identifikaci ohnisek jediného onemocnění.
Počítačoví programátoři a designéři také využívají studium pravděpodobnosti a analýzy statistické údaje k vývoji strojů a počítačových programů. Internetový vyhledávač Google byl navržen pomocí STATěstická těžba dat. Google nadále shromažďuje a používá těžbu dat k vytváření aktualizací a aplikací programu.