상관 관계 클러스터링이란 무엇입니까?

상관 관계 클러스터링은 데이터베이스 및 기타 대형 데이터 소스에서 수행되어 유사한 데이터 세트를 함께 그룹화하는 한편, 사용자에게 다른 데이터 세트를 경고합니다. 이것은 일부 그래프에서 완벽하게 수행 될 수 있으며, 다른 그래프는 비슷한 데이터와 유사하게 구별하기가 어렵 기 때문에 오류가 발생합니다. 후자의 경우 상관 관계 클러스터링은 오류를 자동으로 줄이는 데 도움이됩니다. 이것은 종종 데이터 마이닝 또는 유사성에 대한 다루기 힘든 데이터를 검색하는 데 사용됩니다. 다른 데이터는 일반적으로 삭제되거나 별도의 클러스터에 배치됩니다.

상관 관계 클러스터링 함수가 사용되면 사용자의 지침에 따라 데이터를 검색합니다. 사용자는 프로그램에 검색 할 내용과 발견 된 위치에 데이터를 배치 할 위치를 알려줍니다. 이것은 일반적으로 데이터를 수동으로 검색하는 데 불가능하거나 너무 많은 시간이 걸릴 때 매우 큰 데이터 소스에 적용됩니다. 완벽한 클러스터링 또는 불완전한 클러스터링이있을 수 있습니다.

완벽한 클러스터링은 이상적인 시나리오입니다. 이것은 두 가지 유형의 데이터만이 있으며, 하나는 사용자가 찾고있는 반면 다른 하나는 필요하지 않습니다. 모든 양의 또는 필요한 데이터는 하나의 클러스터에 배치되고 다른 데이터는 삭제되거나 이동합니다. 이 시나리오에서는 혼란이없고 모든 것이 완벽하게 작동합니다.

대부분의 복잡한 그래프는 완벽한 클러스터링을 허용하지 않으며 대신 불완전합니다. 예를 들어, 그래프에는 X, Y 및 Z. X의 세 가지 변수가 있습니다. 세 가지 변수 클러스터는 너무 비슷하기 때문에 완벽한 상관 관계 클러스터링을 갖는 것은 불가능합니다. 이 프로그램은 긍정적 인 상관 관계의 수를 최대화하기 위해 작동하지만 여전히 사용자의 수동 검색이 필요합니다.

.

데이터 마이닝에서, 특히 큰 데이터 세트를 처리 할 때 상관 관계 클러스터링은 SIMI와 유사한 데이터를 그룹화하는 데 사용됩니다.LAR 데이터. 예를 들어, 대규모 웹 사이트 또는 데이터베이스에 대한 비즈니스 마이닝 데이터가 특정 측면에 대해서만 알고 싶다면 해당 측면에 대한 모든 데이터를 검색하는 데 영원히 시간이 걸립니다. 클러스터링 공식을 사용하면 데이터가 적절한 분석을 위해 따로 설정됩니다.

다른 정보는 사용자 지침에 따라 다루어집니다. 정보는 다른 프로젝트에 유용 할 수 있기 때문에 사용자는 다른 클러스터에 다른 클러스터를 보낼 수 있습니다. 데이터에 필요하지 않고 메모리를 낭비하는 경우 다른 정보가 버려집니다. 불완전한 클러스터링에서는 사용자가보고있는 데이터와 너무 유사하기 때문에 일부 다른 정보가 버리지 않을 수 있습니다.

.

다른 언어

이 문서가 도움이 되었나요? 피드백 감사드립니다 피드백 감사드립니다

어떻게 도와 드릴까요? 어떻게 도와 드릴까요?