Co je korelační klastr?
Korelační klastrování se provádí v databázích a dalších velkých zdrojích dat, aby se seskupily podobné datové sady, a zároveň upozorní uživatele na odlišné datové sady. To lze v některých grafech dokonale provést, zatímco u jiných dojde k chybám, protože bude obtížné rozlišit podobné od odlišných dat. V případě posledně jmenovaného bude korelační klastrování pomáhat snižovat chyby automaticky. Toto je často používáno pro dolování dat, nebo pro hledání nelehkých dat pro podobnosti. Různorodá data jsou obvykle vymazána nebo umístěna do samostatného clusteru.
Při použití funkce korelačního klastru vyhledává data na základě pokynů uživatele. Uživatel sdělí programu, co má hledat a kdy je nalezen, kam umístit data. Obvykle se to používá u velmi velkých zdrojů dat, kdy by nebylo možné - nebo by to trvalo příliš mnoho hodin - ručně procházet data. Může existovat dokonalé klastrování nebo nedokonalé klastrování.
Perfektní shlukování je ideálním scénářem. To znamená, že existují pouze dva typy dat a jeden je to, co uživatel hledá, zatímco druhý je nepotřebný. Všechna pozitivní nebo potřebná data jsou umístěna do jednoho klastru, zatímco ostatní data jsou vymazána nebo přesunuta. V tomto scénáři není zmatek a všechno funguje perfektně.
Nejsložitější grafy neumožňují dokonalé shlukování a jsou naopak nedokonalé. Například graf má tři proměnné: X, Y a Z. X, Y je podobné, X, Z je podobné, ale Y, Z jsou odlišné. Tři variabilní klastry jsou však tak podobné, že není možné mít perfektní korelační shlukování. Program se bude snažit maximalizovat počet pozitivních korelací, ale stále to bude vyžadovat určité ruční vyhledávání od uživatele.
Při těžbě dat, zejména při řešení velkých datových sad, se používá seskupení korelace k seskupení podobných dat s podobnými daty. Pokud by například podnik těžil data pro velkou webovou stránku nebo databázi a chce vědět pouze o konkrétním aspektu, trvalo by prohledávání všech dat pro tento aspekt navždy. Použitím shlukového vzorce budou data vyhrazena pro správnou analýzu.
S rozdílnými informacemi se zachází pouze na základě pokynů pro uživatele. Uživatel si může zvolit zasílání odlišných dat do různých skupin, protože informace mohou být užitečné pro jiné projekty. Pokud jsou data nepotřebná a právě plýtvají pamětí, pak se nevyhovující informace vyhodí. V nedokonalém klastrování je možné, že některé odlišné informace nebudou vyhozeny, protože jsou tak podobné datům, na která uživatel hledá.