Co je korelační shlukování?
Korelační shlukování se provádí na databázích a dalších velkých zdrojích dat, aby se seskupovaly dohromady podobné datové sady a zároveň upozornily uživatele na odlišné datové sady. To lze dokonale provést v některých grafech, zatímco jiné zažijí chyby, protože bude obtížné odlišit podobně od odlišných dat. V případě posledně jmenovaného korelačního seskupování pomůže snížit chybu automaticky. Toto se často používá pro těžbu dat nebo pro vyhledávání nepravidelných dat pro podobnosti. Odlišná data jsou běžně odstraněna nebo umístěna do samostatného klastru. Uživatel sdělí programu, co má hledat, a kdy je nalezeno, kam umístit data. To se obvykle používá na velmi velké zdroje dat, pokud by nebylo možné - nebo trvat příliš mnoho hodin - pro ruční prohledávání dat. Může existovat perfektní shlukování nebo nedokonalé shlukování.
Perfektní shlukování je ideální scénář. To znamená, že existují pouze dva typy dat a jeden je to, co uživatel hledá, zatímco druhý není potřeba. Všechna pozitivní nebo potřebná data jsou umístěna do jednoho klastru, zatímco ostatní data jsou odstraněna nebo přesunutá. V tomto scénáři neexistuje zmatek a všechno funguje perfektně.
Nejsložitější grafy neumožňují dokonalé shlukování a jsou místo toho nedokonalé. Například graf má tři proměnné: x, y a z. x, y je podobné, x, z je podobné, ale y, z je odlišný. Tyto tři variabilní klastry jsou však tak podobné, že není možné mít dokonalé korelační shlukování. Program bude pracovat na maximalizaci počtu pozitivních korelací, ale to bude stále vyžadovat určité manuální vyhledávání od uživatele.
Při těžbě dat, zejména při jednání s velkými soubory dat, se korelační shlukování používá ke seskupení podobných dat s SimiLar data. Například, pokud firma těží data pro velkou webovou stránku nebo databázi a chce vědět pouze o konkrétním aspektu, trvalo by navždy prohledat všechna data pro tento aspekt. Použitím shlukovacího vzorce budou data vyčleněna pro správnou analýzu.
Odlišné informace se zabývají pouze založenými na pokynech pro uživatele. Uživatel si může zvolit odesílání odlišných dat do různých klastrů, protože informace mohou být užitečné pro jiné projekty. Pokud jsou data nepotřebná a jen plýtvají pamětí, pak se odlišná informace vyhodí. Při nedokonalém shlukování je možné, že některé odlišné informace nebudou vyhozeny, protože je to podobné údajům, pro které uživatel hledá.