Co je dolování dat?
Dolování dat používá relativně velké množství výpočetního výkonu pracujícího na velké sadě dat k určení zákonitostí a spojení mezi datovými body. Algoritmy využívající techniky statistik, strojového učení a rozpoznávání vzorů se používají k automatickému prohledávání velkých databází. Dolování dat je také známé jako Znalostní objev v databázích (KDD).
Podobně jako termín umělá inteligence je dolování dat zastřešujícím termínem, který lze použít na řadu různých činností. V podnikovém světě se dolování dat nejčastěji používá k určení směru trendů a předpovídání budoucnosti. Používá se k vytváření modelů a systémů pro podporu rozhodování, které lidem poskytují informace, které mohou použít. Dolování dat má v boji proti terorismu přední roli. Bylo to údajně použito k určení vůdce útoků z 11. září.
Důlní data jsou statistici, kteří používají techniky se jmény, jako jsou modely sousedů , k-znamená shlukování , metoda holdout , k-násobek křížové validace , metoda „one-out-out“ atd. Regresní techniky se používají k odečtení irelevantní struktury a ponechávají pouze užitečné informace. Termín Bayesian je často viděn v terénu a odkazuje na třídu inferenčních technik, které předpovídají pravděpodobnost budoucích událostí kombinací předchozích pravděpodobností a pravděpodobností založených na podmíněných událostech. Filtrování nevyžádané pošty je pravděpodobně forma dolování dat, která automaticky přináší relevantní zprávy na povrch z chaotického moře phishingových pokusů a hřišť Viagra.
Rozhodovací stromy se používají k filtrování horských dat. Ve stromu rozhodnutí prochází všechna data vstupním uzlem, kde čelí filtru, který v závislosti na jeho vlastnostech rozděluje data do toků. Například údaje o chování spotřebitelů budou pravděpodobně filtrovány na základě demografických faktorů. Dolování dat není primárně o efektních grafech a vizualizačních technikách, ale zaměstnává je, aby ukázala, co našla. Je známo, že můžeme absorbovat více statistických informací vizuálně než verbálně a tento formát pro prezentaci může být velmi přesvědčivý a silný, pokud bude použit ve správném kontextu.
Jak se naše civilizace stává stále více nasycená daty a senzory jsou hromadně distribuovány do našich místních prostředí, nechtěně objevíme věci, které by při prvním průchodu mohly zmeškat. Dolování dat nám umožní opravit tyto chyby a objevit nové poznatky založené na minulých datech, což nám poskytne větší třesk pro naši babku pro ukládání dat.