Jaký je proces těžby dat?

Proces těžby dat je nástrojem pro odhalení statisticky významných vzorců ve velkém množství dat. Obvykle zahrnuje pět hlavních kroků, které zahrnují přípravu, průzkum dat, budování modelu, nasazení a kontrolu. Každý krok v procesu zahrnuje jinou sadu technik, ale většina používá nějakou formu statistické analýzy.

Před zahájením procesu dolování dat vědci obvykle stanoví výzkumné cíle. Tento krok přípravy obvykle určuje, jaké typy dat je třeba studovat, jaké techniky těžby dat by měly být použity a jaká forma budou výsledky mít. Tento počáteční krok v procesu může být pro shromažďování užitečných informací zásadní.

Dalším krokem v procesu dolování dat je průzkum. Tento krok obvykle zahrnuje shromáždění požadovaných údajů z informačního skladu nebo entity sběru. Poté odborníci na těžbu obvykle připravují sady dat pro analýzu. Tento krok obvykle spočívá ze shromažďování, čištění, organizace aKontrola všech dat pro chyby.

Tato připravená data obvykle vstupují do třetího kroku v procesu dolování dat, budování modelu. Abychom toho dosáhli, vědci obvykle berou malé testovací vzorky dat a aplikují na ně různé techniky těžby dat. Krok modelování se často používá k určení nejlepší metody statistické analýzy potřebné k dosažení požadovaných výsledků.

V procesu dolování dat lze použít čtyři hlavní techniky. První je klasifikace, která uspořádá data do předdefinovaných skupin nebo kategorií. Ve druhé technice, nazvané Clustering, vědci umožňují počítači zorganizovat data do skupin, jak se vybere. Třetí technika těžby dat hledá souvislosti mezi proměnnými. Čtvrtý obvykle hledá sekvenční vzorce v datech, které mohou být použity k predikci budoucích trendů.

Konečný krok v pronásledování datCess je nasazení. Za tímto účelem jsou techniky vybrané v modelu aplikovány na větší datový soubor a výsledky jsou analyzovány. Zpráva, která pochází z tohoto kroku, obvykle ukazuje vzory nalezené v celém procesu, včetně jakýchkoli klasifikací, shluků, asociací nebo sekvenčních vzorců existujících v datovém souboru.

Přezkum je často důležitým posledním krokem. Tato fáze v procesu obvykle zahrnuje opakování těžebních modelů s novým souborem dat, aby se zajistilo, že hlavní sada byla reprezentativní pro celou populaci dat. Výsledky nemohou předpovídat trendy ve větší populaci, pokud to vzorek dat přesně nepředstavuje.

Jaký je proces těžby dat?

JINÉ JAZYKY

SOUVISEJÍCÍ ČLÁNKY

Jak můžeme pomoci?