相関クラスタリングとは
相関クラスタリングは、類似のデータセットをグループ化するためにデータベースおよび他の大規模なデータソースで実行され、同時に異なるデータセットについてユーザーに警告します。 これは一部のグラフで完全に実行できますが、類似データと非類似データを区別するのが難しいため、他のグラフではエラーが発生します。 後者の場合、相関クラスタリングはエラーを自動的に減らすのに役立ちます。 これは、データマイニング、または類似性の扱いにくいデータの検索によく使用されます。 異なるデータは通常削除されるか、別のクラスターに配置されます。
相関クラスタリング関数を使用すると、ユーザーの指示に基づいてデータが検索されます。 ユーザーはプログラムに何を検索し、見つかったらデータをどこに配置するかを指示します。 これは通常、手動でデータを検索することが不可能な場合、または時間がかかりすぎる場合に、非常に大きなデータソースに適用されます。 完全なクラスタリングまたは不完全なクラスタリングのいずれかがあります。
完全なクラスタリングは理想的なシナリオです。 これは、2種類のデータしかないことを意味し、1つはユーザーが探しているもので、もう1つは不要です。 すべての肯定的または必要なデータは1つのクラスターに配置され、他のデータは削除または移動されます。 このシナリオでは、混乱はなく、すべてが完全に機能します。
ほとんどの複雑なグラフは完全なクラスタリングを許可せず、代わりに不完全です。 たとえば、グラフにはX、Y、Zの3つの変数があります。X、Yは似ていますが、X、Zは似ていますが、Y、Zは異なっています。 ただし、3つの変数クラスターは非常に似ているため、完全な相関クラスタリングを行うことはできません。 プログラムは正の相関の数を最大化するように機能しますが、これにはユーザーによる手動検索が必要です。
データマイニングでは、特に大きなデータセットを処理する場合、相関クラスタリングを使用して、類似データを類似データとグループ化します。 たとえば、ビジネスで大規模なWebサイトまたはデータベースのデータをマイニングし、特定の側面のみを知りたい場合、その側面のすべてのデータを検索するには永遠に時間がかかります。 クラスタリング式を使用することにより、データは適切な分析のために確保されます。
異なる情報は、ユーザーの指示のみに基づいて処理されます。 情報は他のプロジェクトに役立つ可能性があるため、ユーザーは異なるクラスターに異なるデータを送信することを選択できます。 データが不要で、メモリを無駄にしているだけであれば、異なる情報は捨てられます。 不完全なクラスタリングでは、ユーザーが探しているデータに非常に似ているため、一部の異なる情報が破棄されない可能性があります。