Co je dolování dat?

Dolování dat používá relativně velké množství výpočetního výkonu pracujícího na velké sadě dat k určení zákonitostí a spojení mezi datovými body. Algoritmy využívající techniky statistik, strojového učení a rozpoznávání vzorů se používají k automatickému prohledávání velkých databází. Dolování dat je také známé jako Znalostní objev v databázích (KDD).

Podobně jako termín umělá inteligence je dolování dat zastřešujícím termínem, který lze použít na řadu různých činností. V podnikovém světě se dolování dat nejčastěji používá k určení směru trendů a předpovídání budoucnosti. Používá se k vytváření modelů a systémů pro podporu rozhodování, které lidem poskytují informace, které mohou použít. Dolování dat má v boji proti terorismu přední roli. Bylo to údajně použito k určení vůdce útoků z 11. září.

Důlní data jsou statistici, kteří používají techniky se jmény, jako jsou modely sousedů , k-znamená shlukování , metoda holdout , k-násobek křížové validace , metoda „one-out-out“ atd. Regresní techniky se používají k odečtení irelevantní struktury a ponechávají pouze užitečné informace. Termín Bayesian je často viděn v terénu a odkazuje na třídu inferenčních technik, které předpovídají pravděpodobnost budoucích událostí kombinací předchozích pravděpodobností a pravděpodobností založených na podmíněných událostech. Filtrování nevyžádané pošty je pravděpodobně forma dolování dat, která automaticky přináší relevantní zprávy na povrch z chaotického moře phishingových pokusů a hřišť Viagra.

Rozhodovací stromy se používají k filtrování horských dat. Ve stromu rozhodnutí prochází všechna data vstupním uzlem, kde čelí filtru, který v závislosti na jeho vlastnostech rozděluje data do toků. Například údaje o chování spotřebitelů budou pravděpodobně filtrovány na základě demografických faktorů. Dolování dat není primárně o efektních grafech a vizualizačních technikách, ale zaměstnává je, aby ukázala, co našla. Je známo, že můžeme absorbovat více statistických informací vizuálně než verbálně a tento formát pro prezentaci může být velmi přesvědčivý a silný, pokud bude použit ve správném kontextu.

Jak se naše civilizace stává stále více nasycená daty a senzory jsou hromadně distribuovány do našich místních prostředí, nechtěně objevíme věci, které by při prvním průchodu mohly zmeškat. Dolování dat nám umožní opravit tyto chyby a objevit nové poznatky založené na minulých datech, což nám poskytne větší třesk pro naši babku pro ukládání dat.

JINÉ JAZYKY

Pomohl vám tento článek? Děkuji za zpětnou vazbu Děkuji za zpětnou vazbu

Jak můžeme pomoci? Jak můžeme pomoci?