Co je těžba dat?
Dolování dat používá relativně velké množství výpočetního výkonu provozu na velké sadě dat k určení pravidelnosti a propojení mezi datovými body. Algoritmy, které používají techniky ze statistik, strojového učení a rozpoznávání vzorů, se používají k automatickému vyhledávání velkých databází. Dolování dat je také známé jako znalostní discovery v databázích (KDD). V podnikovém světě se nejčastěji používá těžba dat k určení směru trendů a předpovídání budoucnosti. Používá se k vytváření modelů a systémů podpory rozhodování, které lidem poskytují informace, které mohou použít. Dolování dat přebírá roli přední linie v boji proti terorismu. Údajně se používá k určení vůdce útoků z 11. září.Ring , metoda vydržení , k-násobné křížové ověření , metoda opuštění-one-out atd. Regresní techniky se používají k odečtení irelevantních vzorců, přičemž zanechávají pouze užitečné informace. Termín Bayesian je často vidět v poli, odkazuje na třídu inferenčních technik, které předpovídají pravděpodobnost budoucích událostí kombinací předchozích pravděpodobností a pravděpodobností založených na podmíněných událostech. Filtrování spamu je pravděpodobně formou dolování dat, která automaticky přináší relevantní zprávy na povrch z chaotického moře phishingu a viagra hřiště.
Rozhodovací stromy se používají k filtrování hor dat. Ve stromu rozhodování prochází všechna data přes vstupní uzel, kde čelí filtru, který odděluje data do toků v závislosti na jeho charakteristikách. Například údaje o chování spotřebitelů budou pravděpodobně filtrovány na základě demografické faktory. Dolování dat není primárně o fantastických grafech a vizualizačních technikách, ale používá je k ukázání toho, co zjistilo. Je známo, že můžeme absorbovat více statistických informací vizuálně než slovně a tento formát pro prezentaci může být velmi přesvědčivý a silný, pokud se používá ve správném kontextu.
Když se naše civilizace stává stále více nasyceným datům a senzory jsou masse distribuovány do našeho místního prostředí, neúmyslně objevíme věci, které by mohly být při prvním průchodu vynechány. Dolování dat nám umožní tyto chyby napravit a objevit nové poznatky na základě minulých dat, což nám dává více třesku za naše ukládání dat.