상관 클러스터링이란 무엇입니까?
데이터베이스 및 기타 큰 데이터 소스에서 상관 클러스터링이 수행되어 유사한 데이터 세트를 그룹화하고 사용자에게 다른 데이터 세트를 경고합니다. 일부 그래프에서는이 작업을 완벽하게 수행 할 수 있지만 다른 데이터와 유사한 데이터를 구분하기가 어렵 기 때문에 다른 그래프에서는 오류가 발생합니다. 후자의 경우 상관 관계 클러스터링은 오류를 자동으로 줄이는 데 도움이됩니다. 이것은 종종 데이터 마이닝 또는 유사성이없는 다루기 힘든 데이터를 검색하는 데 사용됩니다. 다른 데이터는 일반적으로 삭제되거나 별도의 클러스터에 배치됩니다.
상관 클러스터링 기능을 사용하면 사용자의 지시에 따라 데이터를 검색합니다. 사용자는 프로그램에서 무엇을 검색하고 언제 찾을 수 있는지 알려줍니다. 이는 일반적으로 데이터를 수동으로 검색하는 것이 불가능하거나 너무 많은 시간이 걸리는 매우 큰 데이터 소스에 적용됩니다. 완벽한 클러스터링 또는 불완전한 클러스터링이있을 수 있습니다.
완벽한 클러스터링은 이상적인 시나리오입니다. 즉, 두 가지 유형의 데이터 만 있으며, 하나는 사용자가 찾고 있지만 다른 하나는 필요하지 않습니다. 모든 긍정적이거나 필요한 데이터는 하나의 클러스터에 배치되고 다른 데이터는 삭제되거나 이동됩니다. 이 시나리오에서는 혼동이 없으며 모든 것이 완벽하게 작동합니다.
대부분의 복잡한 그래프는 완벽한 군집을 허용하지 않으며 대신 불완전합니다. 예를 들어, 그래프에는 X, Y 및 Z의 세 가지 변수가 있습니다. X, Y는 유사하고 X, Z는 유사하지만 Y, Z는 유사하지 않습니다. 그러나 3 개의 가변 군집은 매우 유사하여 완벽한 상관 군집을 갖는 것은 불가능합니다. 이 프로그램은 양의 상관 관계를 최대화하기 위해 작동하지만 여전히 사용자의 수동 검색이 필요합니다.
데이터 마이닝에서, 특히 대규모 데이터 세트를 처리 할 때 유사한 데이터를 유사한 데이터로 그룹화하기 위해 상관 클러스터링이 사용됩니다. 예를 들어, 비즈니스에서 대규모 웹 사이트 또는 데이터베이스에 대한 데이터를 마이닝하고 특정 측면 만 알고 싶은 경우 해당 측면에 대한 모든 데이터를 검색하는 데는 시간이 오래 걸립니다. 군집화 공식을 사용하면 적절한 분석을 위해 데이터가 따로 보관됩니다.
이종 정보는 사용자 지침에 따라 처리됩니다. 정보는 다른 프로젝트에 유용 할 수 있으므로 사용자는 다른 데이터를 다른 클러스터로 보내도록 선택할 수 있습니다. 데이터가 필요하지 않고 메모리를 낭비하는 경우 다른 정보가 버려집니다. 불완전한 클러스터링에서는 사용자가 찾고있는 데이터와 매우 유사하기 때문에 일부 다른 정보가 버리지 않을 수 있습니다.