Jaké jsou různé metody dolování dat?
Existuje celá řada různých metod těžby dat používaných v softwarových možnostech i teoretických koncepcích. Umožňují uživatelům extrahovat informace z údajů shromážděných jednotlivci a společnostmi pomocí různých nástrojů. Velké množství údajů lze použít k určení různých faktorů u jediného subjektu nebo různých subjektů. Tyto metody dolování dat se nejčastěji používají v oblasti ochrany proti podvodům, marketingu a dohledu.
Po stovky let se pro získávání informací od subjektů používají metody dolování dat. Moderní techniky však využívají automatizované koncepty k poskytování podstatných dat prostřednictvím počítačových zdrojů. Jak se počítačové vědy objevily během 20. století, koncepce metod dolování dat se vyvinula ve snaze překonat skryté vzorce ve velkých řádcích shromažďovaných dat. Dobrým příkladem je situace, kdy reklamní firma analyzuje nákupní vzorce online zákazníka. Tato společnost pak může uvádět na trh určité výrobky, které jednotlivec může mít o nákup zájem.
Jedna technika dolování dat běžně používaná v oboru se nazývá Zjišťování znalostí v databázích (KDD). KDD, který vyvinul v roce 1989 Gregory Piatetsky-Shapiro, umožňuje uživatelům zpracovávat nezpracovaná data, analyzovat informace pro nezbytná data a interpretovat výsledky. Tato metoda umožňuje uživatelům najít vzory v algoritmech, avšak obecná data nejsou vždy přesná a mohou být sestavena kompromitujícími způsoby. Toto je známé jako overfitting .
Základní metody dolování dat zahrnují čtyři konkrétní typy úkolů: klasifikace, shlukování, regrese a asociace. Klasifikace vezme přítomné informace a sloučí je do definovaných seskupení. Clustering odebere definovaná seskupení a umožní datům se klasifikovat podle podobných položek. Regrese se zaměřuje na funkci informací, modelování dat o konceptu. Konečná metoda dolování dat, asociace , se pokouší najít vztahy mezi různými zdroji dat.
Při použití různých metod dolování dat se používají určité standardy k určení, jaké parametry lze v procesu použít. Sdružení pro výpočetní techniku se zájmovou skupinou pro získávání znalostí a těžbu dat (SIGKDD) pořádá výroční schůzku, která určuje, které procesy jsou vhodné. Etické faktory se zvažují společně s praktickými aplikacemi, aby se našli ty nejlepší informace o jednotlivcích a společnostech. Tyto informace jsou publikovány v průmyslovém časopise s názvem SIGKDD Explorations.