Jaké jsou nejdůležitější koncepty těžby dat?
Nejdůležitější koncepty těžby dat se používají pro analýzu shromážděných informací, zejména ve snaze pozorovat chování. Neznámé interakce mezi údaji jsou zkoumány různými způsoby, jak zjistit kritické vztahy mezi subjekty a agregovanými informacemi. Jednou z výzvy při těžbě dat je, že skutečné shromážděné informace nemusí připomínat celou doménu. Ve snaze řešit tuto skutečnost lze korelace mezi údaji metodicky řídit různými koncepty těžby dat.
Standardy pro koncepty těžby dat jsou vynucovány Asociací pro výpočetní skupinu pro výpočetní stroj pro objevování znalostí a těžbu dat (SIGKDD). Tato organizace publikuje „International Journal of Information Technology and rozhodování“, jakož i časopis průzkumy SIGKDD.> Předběžné zpracování informací je jedním z nejdůležitějších aspektů těžby dat. Nezpracovaná data musí být těžena a interpretována. Za účelem provedení této akce musí být stanoveno proces, je třeba sestavit cílová data a nalezeny vzory. Tento proces je známý jako Zjištění znalostí v databázích a byl vyvinut Gregory Piatetsky-Shapiro v roce 1989.
Čtyři různé třídy konceptů těžby dat umožňují proces probíhat. Clustering používá algoritmus vytvořený z procesu dolování dat k sestavení položek do podobných skupin. Na rozdíl od shlukování, klasifikace informací je, když jsou data sestavena do předdefinovaných skupin a analyzována. asociace se pokouší najít vztahy mezi proměnnými a určovat, které skupiny dat jsou běžně spojeny. Konečný typ dolování dat je regrese , na základě metody of Identifikace funkce ve sběru dat.
Ověření informací je posledním krokem při objevování toho, co aplikace těžby dat představuje. Pokud ne všechny algoritmy představují platný soubor dat, mohou vzory, které se vyskytují, vést k situaci nazývané přeplnění. K překonání tohoto problému jsou data porovnána s testovací sadou. Jedná se o koncept, ve kterém jsou měření sladěna s řadou algoritmů, které by poskytovaly věrohodnou sadu datových souborů. Pokud získané informace se nerovná na testovací sadu, musí být předpokládané vzory v datech nepřesné.
Některé z nejdůležitějších konceptů těžby dat se vyskytují v různých průmyslových odvětvích. Hraní, podnikání, marketing, věda, inženýrství a dohled využívají techniky těžby dat. Provedením těchto technik může každé pole určit osvědčené postupy nebo lepší způsoby, jak najít výsledky.