Korelasyon kümelemesi, benzer veri kümelerini birlikte gruplamak için veritabanlarında ve diğer büyük veri kaynaklarında gerçekleştirilirken, kullanıcıyı benzer veri kümelerine karşı uyarır. Bu, bazı grafiklerde mükemmel bir şekilde yapılabilirken, diğerleri hatalarla karşılaşacaktır, çünkü farklı verilerden benzer şekilde ayırt etmek zor olacaktır. İkinci durumda, korelasyon kümelemesi hatayı otomatik olarak azaltmaya yardımcı olacaktır. Bu genellikle veri madenciliği için veya benzerlikler için hantal veri aramak için kullanılır. Birbirine benzemeyen veriler genellikle silinir veya ayrı bir kümeye yerleştirilir.
Bir korelasyon kümeleme işlevi kullanıldığında, kullanıcının talimatlarına göre verileri arar. Kullanıcı programa ne arayacağını ve ne zaman bulunduğunu, verilerin nereye yerleştirileceğini söyleyecektir. Bu normalde çok büyük veri kaynaklarına, verilerin elle aranması mümkün olmadığında (veya çok fazla saat sürmesi) uygulandığında uygulanır. Mükemmel kümeleme veya kusurlu kümeleme olabilir.
Mükemmel kümeleme ideal senaryodur. Bu, yalnızca iki tür veri olduğu ve bir diğeri gereksiz olduğunda birisinin aradığı şey olduğu anlamına gelir. Diğer tüm veriler silinir veya taşınırken tüm pozitif veya ihtiyaç duyulan veriler bir kümeye yerleştirilir. Bu senaryoda, karışıklık yok ve her şey mükemmel çalışıyor.
Karmaşık grafiklerin çoğu mükemmel kümelemeye izin vermez ve bunun yerine kusurludur. Örneğin, bir grafiğin üç değişkeni vardır: X, Y ve Z. X, Y benzer, X, Z benzer, ancak Y, Z farklıdır. Üç değişkenli küme o kadar benzerdir ki, mükemmel bir korelasyon kümelenmesinin olması imkansızdır. Program pozitif korelasyon sayısını maksimuma çıkarmak için çalışacak, ancak bu yine de kullanıcıdan el ile biraz arama yapılmasını gerektirecek.
Veri madenciliğinde, özellikle büyük veri kümeleriyle çalışırken, benzer verileri benzer verilerle gruplamak için korelasyon kümelemesi kullanılır. Örneğin, bir işletme büyük bir web sitesi veya veritabanı için veri madenciliği yaparsa ve yalnızca belirli bir yönü bilmek isterse, o boyut için tüm verileri aramak sonsuza dek sürecektir. Bir kümeleme formülü kullanılarak, veriler uygun analiz için bir kenara bırakılacaktır.
Birbirine benzemeyen bilgiler yalnızca kullanıcı talimatlarına dayanılarak ele alınmaktadır. Kullanıcı farklı kümelere farklı veri göndermeyi seçebilir, çünkü bilgi diğer projeler için faydalı olabilir. Veriler gereksiz ise ve sadece hafıza boşa harcarsa, o zaman farklı bilgiler atılır. Kusurlu olmayan kümelemede, bazı farklı bilgilerin atılmaması mümkündür, çünkü kullanıcının aradığı verilere çok benzer.


