相関クラスタリングとは何ですか?
相関クラスタリングは、データベースやその他の大規模なデータソースで実行され、同様のデータセットをグループ化すると同時に、ユーザーに異なるデータセットを警告します。これはいくつかのグラフで完全に実行できますが、他のグラフは異なるデータと同様を区別することが困難であるため、エラーを経験します。後者の場合、相関クラスタリングはエラーを自動的に削減するのに役立ちます。これは、多くの場合、データマイニング、または類似点の扱いにくいデータを検索するために使用されます。異なるデータは一般に削除されるか、別のクラスターに配置されます。
相関クラスタリング機能を使用すると、ユーザーの指示に基づいてデータを検索します。ユーザーは、プログラムに何を検索するか、そしてそれが見つかったときにデータをどこに配置するかを伝えます。これは通常、非常に大きなデータソースに適用され、データを手動で検索するのが不可能または時間がかかりすぎます。完全なクラスタリングまたは不完全なクラスタリングのいずれかがあります。
完璧なクラスタリングが理想的なシナリオです。これは、データには2種類しかないことを意味し、1つはユーザーが探しているものであり、もう1つは不要です。すべての正または必要なデータは1つのクラスターに配置され、他のデータは削除または移動されます。このシナリオでは、混乱はなく、すべてが完全に機能します。
ほとんどの複雑なグラフは、完全なクラスタリングを許可しておらず、代わりに不完全です。たとえば、グラフには3つの変数があります:x、y、z、x、yは類似しています、x、zは類似していますが、y、zは類似しています。ただし、3つの可変クラスターは非常に似ているため、完全な相関クラスタリングを行うことは不可能です。このプログラムは、正の相関の数を最大化するために機能しますが、これにはユーザーからの手動検索が必要です。
データマイニングでは、特に大規模なデータセットを扱う場合、相関クラスタリングを使用して、同様のデータをSIMIとグループ化しますlarデータ。たとえば、ビジネスが大規模なWebサイトまたはデータベースのデータを採掘し、特定の側面についてのみ知りたい場合、その側面のすべてのデータを検索するには永遠に必要です。クラスタリング式を使用することにより、適切な分析のためにデータが確保されます。異なる情報は、ユーザーの命令のみに基づいて扱われます。情報は他のプロジェクトに役立つ可能性があるため、ユーザーは異なるクラスターに異なるデータを送信することを選択できます。データが不要で、メモリを無駄にしているだけの場合、異なる情報が捨てられます。不完全なクラスタリングでは、ユーザーが見ているデータに非常に似ているため、いくつかの異なる情報が捨てられない可能性があります。