Co to jest grupowanie korelacji?

Klastrowanie korelacji jest wykonywane w bazach danych i innych dużych źródłach danych w celu grupowania podobnych zestawów danych, a jednocześnie ostrzegając użytkownika do odmiennych zestawów danych. Można to wykonać idealnie na niektórych wykresach, podczas gdy inne będą doświadczać błędów, ponieważ trudno będzie odróżnić podobne od danych odmiennych. W przypadku tego ostatniego klastrowanie korelacji pomoże automatycznie zmniejszyć błąd. Jest to często używane do eksploracji danych lub do wyszukiwania nieporęcznych danych pod względem podobieństw. Dane odmienne są powszechnie usuwane lub umieszczane w oddzielnym klastrze.

Gdy używana jest funkcja klastrowania korelacji, wyszukuje dane w oparciu o instrukcje użytkownika. Użytkownik poinformuje program, czego szukać, a po jego znalezieniu, gdzie umieścić dane. Zwykle stosuje się to do bardzo dużych źródeł danych, gdy byłoby to niemożliwe - lub zajęło to zbyt wiele godzin - ręczne przeszukanie danych. Może istnieć idealne grupowanie lub niedoskonałe grupowanie.

Idealne grupowanie to idealny scenariusz. Oznacza to, że istnieją tylko dwa rodzaje danych, a jeden jest tym, czego użytkownik szuka, podczas gdy drugi nie jest niepotrzebny. Wszystkie pozytywne lub potrzebne dane są umieszczane w jednym klastrze, podczas gdy inne dane są usuwane lub przenoszone. W tym scenariuszu nie ma zamieszania i wszystko działa idealnie.

Większość złożonych wykresów nie pozwala na doskonałe grupowanie, a zamiast tego są niedoskonałe. Na przykład wykres ma trzy zmienne: x, y i z. x, y jest podobne, x, z jest podobne, ale y, z jest odmienne. Trzy zmienne klastry są jednak tak podobne, że nie można mieć doskonałej klastrowania korelacji. Program będzie działał, aby zmaksymalizować liczbę dodatnich korelacji, ale nadal będzie wymagało ręcznego wyszukiwania od użytkownika.

W eksploracji danych, szczególnie w przypadku dużych zestawów danych, klastrowanie korelacji jest używane do grupowania podobnych danych z SIMIDane LAR. Na przykład, jeśli dane biznesowe wydobyte dla dużej witryny lub bazy danych i chce tylko wiedzieć o konkretnym aspekcie, przeszukanie wszystkich danych dla tego aspektu zajęłoby wiecznie. Korzystając z formuły klastrowania, dane zostaną przeznaczone na prawidłową analizę.

Odmienne informacje są przeznaczone wyłącznie na podstawie instrukcji użytkownika. Użytkownik może zdecydować się na wysyłanie różnych danych do różnych klastrów, ponieważ informacje mogą być przydatne w przypadku innych projektów. Jeśli dane są niepotrzebne i po prostu marnują pamięć, wówczas odmienne informacje są wyrzucane. W niedoskonałym klastrowaniu możliwe jest, że niektóre odmienne informacje nie zostaną wyrzucone, ponieważ są tak podobne do danych, na które patrzy użytkownik.

Co to jest grupowanie korelacji?

INNE JĘZYKI