Co je proces dolování dat?
Proces dolování dat je nástrojem k odkrývání statisticky významných vzorců ve velkém množství dat. Obvykle zahrnuje pět hlavních kroků, které zahrnují přípravu, průzkum dat, vytváření modelů, rozmístění a kontrolu. Každý krok procesu zahrnuje jinou sadu technik, ale většina používá nějakou formu statistické analýzy.
Před zahájením procesu těžby dat vědci obvykle stanoví cíle výzkumu. Tento krok přípravy obvykle určuje, jaké typy dat je třeba studovat, jaké techniky dolování dat by měly být použity a jakou formu budou mít výsledky. Tento počáteční krok v procesu může být zásadní pro shromažďování užitečných informací.
Dalším krokem v procesu těžby dat je průzkum. Tento krok obvykle zahrnuje shromáždění požadovaných dat z informačního skladu nebo subjektu sběru. Poté odborníci na těžbu obvykle připraví soubory surových dat pro analýzu. Tento krok obvykle spočívá v shromažďování, čištění, organizování a kontrole všech dat, zda neobsahují chyby.
Tato připravená data pak obvykle vstupují do třetího kroku v procesu dolování dat, vytváření modelů. Aby toho bylo dosaženo, vědci obvykle odebírají malé testovací vzorky dat a používají na ně různé techniky dolování dat. Krok modelování se často používá k určení nejlepší metody statistické analýzy potřebné k dosažení požadovaných výsledků.
V procesu dolování dat lze použít čtyři hlavní techniky. První je klasifikace, která uspořádá data do předdefinovaných skupin nebo kategorií. Ve druhé technice, tzv. Shlukování, vědci umožňují počítači uspořádat data do skupin podle svého výběru. Třetí technika dolování dat hledá asociace mezi proměnnými. Čtvrtý obvykle hledá sekvenční vzorce v datech, které mohou být použity k predikci budoucích trendů.
Posledním krokem v procesu těžby dat je nasazení. Za tímto účelem se techniky vybrané v modelu použijí na větší soubor dat a výsledky se analyzují. Zpráva, která pochází z tohoto kroku, obvykle ukazuje vzory nalezené v celém procesu, včetně všech klasifikací, klastrů, asociací nebo sekvenčních vzorů existujících v datové sadě.
Recenze je často důležitým posledním krokem. Tato fáze procesu obvykle zahrnuje opakování těžebních modelů s novou sadou dat, aby se zajistilo, že hlavní sada reprezentuje celou populaci dat. Výsledky nemohou předpovídat trendy ve větší populaci, pokud to vzorek údajů nepředstavuje přesně.