Jaké jsou nejdůležitější pojmy dolování dat?
Nejdůležitější koncepty dolování dat se používají pro analýzu shromážděných informací, zejména ve snaze sledovat chování. Neznámé interakce mezi daty jsou zkoumány různými způsoby, aby se zjistily kritické vztahy mezi subjekty a agregovanými informacemi. Jednou z výzev při těžbě dat je to, že skutečné shromážděné informace nemusí připomínat celou doménu. Ve snaze řešit tuto skutečnost lze korelace mezi daty metodicky řídit různými koncepty dolování dat.
Standardy pro koncepty dolování dat jsou vymáhány Asociací pro výpočetní techniku, zájmovou skupinou pro získávání znalostí a těžbu dat (SIGKDD). Tato organizace vydává „Mezinárodní žurnál informačních technologií a rozhodování“ a také časopis SIGKDD Explorations. Uplatňování etiky a základních principů dolování dat udržuje průmysl efektivně a s omezenými právními problémy.
Předběžné zpracování informací je jedním z nejdůležitějších aspektů dolování dat. Nezpracovaná data musí být těžena a interpretována. Aby bylo možné tuto akci provést, musí být stanoven proces, měla by být shromážděna cílová data a nalezeny vzory. Tento proces je známý jako Knowledge Discovery in Databases a byl vyvinut společností Gregory Piatetsky-Shapiro v roce 1989.
Proces umožňuje čtyři různé třídy konceptů těžby dat. Clustering používá algoritmus vytvořený z procesu dolování dat k sestavení položek do podobných skupin. Na rozdíl od shlukování, klasifikace informací je, když jsou data sestavena do předdefinovaných skupin a analyzována. Přidružení se pokouší najít vztahy mezi proměnnými a určit, které skupiny dat jsou obvykle spojeny. Konečným typem dolování dat je regrese založená na metodě identifikace funkce v rámci sběru dat.
Ověření informací je posledním krokem při objevování toho, co aplikace pro dolování dat představuje. Pokud ne všechny algoritmy představují platnou datovou sadu, mohou vzniklé vzorce vést k situaci zvané overfitting. K překonání tohoto problému jsou data porovnána s testovací sadou. Toto je koncept, ve kterém jsou měření sladěna s řadou algoritmů, které by poskytly věrohodnou sadu datových sad. Pokud získané informace nesouhlasí s testovací sadou, pak předpokládané vzorce v datech musí být nepřesné.
Některé z nejdůležitějších konceptů dolování dat se vyskytují v různých průmyslových odvětvích. Hry, obchod, marketing, věda, strojírenství a dohled využívají techniky těžby dat. Provedením těchto technik může každé pole určit osvědčené postupy nebo lepší způsoby, jak najít výsledky.