Co to jest grupowanie korelacji?
Klastrowanie korelacji jest wykonywane w bazach danych i innych dużych źródłach danych w celu grupowania podobnych zestawów danych, a także ostrzegania użytkownika o różnych zestawach danych. Można to zrobić doskonale na niektórych wykresach, podczas gdy na innych wystąpią błędy, ponieważ trudno będzie odróżnić dane podobne od niepodobnych. W przypadku tego ostatniego grupowanie w korelację pomoże automatycznie zmniejszyć błąd. Jest to często używane do eksploracji danych lub wyszukiwania nieporęcznych danych pod kątem podobieństw. Różne dane są zwykle usuwane lub umieszczane w osobnym klastrze.
Gdy używana jest funkcja klastrowania korelacji, wyszukuje dane na podstawie instrukcji użytkownika. Użytkownik powie programowi, czego ma szukać, a kiedy go znajdzie, gdzie umieścić dane. Zwykle ma to zastosowanie do bardzo dużych źródeł danych, gdy niemożliwe byłoby - lub zajęłoby zbyt wiele godzin - ręczne przeszukiwanie danych. Może istnieć albo idealne grupowanie, albo niedoskonałe grupowanie.
Idealne grupowanie jest idealnym scenariuszem. Oznacza to, że istnieją tylko dwa typy danych, a jeden jest tym, czego szuka użytkownik, a drugi jest niepotrzebny. Wszystkie pozytywne lub potrzebne dane są umieszczane w jednym klastrze, a pozostałe dane są usuwane lub przenoszone. W tym scenariuszu nie ma zamieszania i wszystko działa idealnie.
Większość złożonych wykresów nie pozwala na idealne grupowanie i jest niedoskonała. Na przykład wykres ma trzy zmienne: X, Y i Z. X, Y jest podobny, X, Z jest podobny, ale Y, Z jest inny. Trzy zmienne klastry są jednak tak podobne, że niemożliwe jest uzyskanie idealnego klastra korelacji. Program będzie działał, aby zmaksymalizować liczbę dodatnich korelacji, ale nadal będzie to wymagało ręcznego wyszukiwania przez użytkownika.
W eksploracji danych, szczególnie w przypadku dużych zestawów danych, klastrowanie korelacji jest używane do grupowania podobnych danych z podobnymi danymi. Na przykład, jeśli firma wydobywa dane dla dużej witryny lub bazy danych i chce tylko wiedzieć o konkretnym aspekcie, przeszukanie wszystkich danych dla tego aspektu zajmie wieczność. Dzięki zastosowaniu formuły grupowania dane zostaną odłożone na bok w celu przeprowadzenia właściwej analizy.
Informacje odmienne są przetwarzane wyłącznie na podstawie instrukcji użytkownika. Użytkownik może wybrać przesyłanie różnych danych do różnych klastrów, ponieważ informacje te mogą być przydatne w innych projektach. Jeśli dane są niepotrzebne i po prostu marnują pamięć, wówczas wyrzucane są odmienne informacje. W przypadku niedoskonałego grupowania możliwe jest, że niektóre odmienne informacje nie zostaną wyrzucone, ponieważ są tak podobne do danych, których szuka użytkownik.