Co je těžba webových dat?
Subjekty i jednotlivci více než kdy jindy používají World Wide Web k provádění řady obchodních a osobních transakcí. V důsledku toho společnosti stále více používají nástroje a techniky pro těžbu webových dat, aby našli způsoby, jak zlepšit své spodní linie a rozšířit svou zákaznickou základnu. Dolování webových dat zahrnuje proces shromažďování a sumarizace dat ze struktury hypertextového odkazu na webu, obsahu stránky nebo protokolu využití za účelem identifikace vzorů. Pomocí dolování webových dat může společnost identifikovat potenciálního konkurenta, zlepšit zákaznický servis nebo zacílit na potřeby a očekávání zákazníků. Vládní agentura se může také snažit odhalit teroristické hrozby nebo jiné trestné činnosti pomocí aplikace pro těžbu webových dat.
Některé běžné techniky dolování webových dat zahrnují těžbu webového obsahu, těžbu využití webu a těžbu webových struktur. Těžba webového obsahu zkoumá předmět webu. Například horníci webového obsahu mohou analyzovat zvukové, textové, obrazové a video funkce webu. Horníci webového obsahu se obvykle zaměřují na textové informace webu více než na jiné funkce webu. Zpracování přirozeného jazyka a získávání informací jsou dvě techniky těžby dat, které často používají horníci webového obsahu.
Dolování využití webu je obvykle automatizovaný proces, při kterém webové servery shromažďují a vykazují vzory přístupu uživatelů v protokolech přístupu k serveru. Společnost může například použít nástroj pro těžbu dat o využití webu k podávání zpráv o protokolech přístupu k serveru a informací o registraci uživatelů, aby vytvořila účinnější strukturu webu. Těžba struktury webu studuje strukturu uzlů a připojení webů. Může být užitečné při identifikaci podobností a vztahů, které existují mezi různými webovými servery. Těžba webových struktur často zahrnuje odhalování vzorů z hypertextových odkazů nebo vytahování struktur dokumentů na webové stránce.
Dvě obecné techniky dolování dat, které mohou těžitci webových dat použít, jsou analýza asociace dolování dat a regrese dolování dat. Analýza asociace dolování dat pomáhá odhalit pozoruhodné vztahy pohřbené ve velkých souborech dat. Regrese dolování dat je statistická technika, pomocí níž se matematické vzorce používají k předpovídání budoucích výsledků, jako jsou ziskové marže, hodnoty domu nebo údaje o prodeji.
Prodejci softwaru pro dolování dat nabízejí nástroje pro dolování webových dat, které mohou vytáhnout prediktivní informace z velkého množství dat. Podniky tyto nástroje dolování softwaru často používají k analýze konkrétních datových souborů týkajících se chování spotřebitelů. Na základě výsledků analýzy dat jsou společnosti schopny předpovídat budoucí obchodní trendy.