Vad är korrelationskluster?
Korrelationsklustering utförs på databaser och andra stora datakällor för att gruppera liknande datasätt, samtidigt som användaren varnar för olika datasätt. Detta kan göras perfekt i vissa diagram, medan andra kommer att uppleva fel eftersom det kommer att vara svårt att skilja liknande från olika data. När det gäller det senare kommer korrelationskluster att hjälpa till att minska felet automatiskt. Detta används ofta för data mining, eller för att söka problematiska data efter likheter. Olika data raderas vanligtvis eller placeras i ett separat kluster.
När en korrelationsklusteringsfunktion används söker den efter data baserat på användarens instruktioner. Användaren kommer att berätta för programmet vad man ska söka efter och när den hittas var informationen ska placeras. Detta tillämpas normalt på mycket stora datakällor när det skulle vara omöjligt - eller ta för många timmar - att söka igenom data manuellt. Det kan antingen vara perfekt kluster eller ofullständig kluster.
Perfekt klustering är det ideala scenariot. Detta innebär att det bara finns två typer av data, och den ena är vad användaren letar efter medan den andra inte behövs. Alla positiva eller nödvändiga data placeras i ett kluster, medan de andra data raderas eller flyttas. I det här scenariot finns det ingen förvirring och allt fungerar perfekt.
De flesta komplexa grafer tillåter inte perfekt kluster, och är istället ofullkomliga. Till exempel har en graf tre variabler: X, Y och Z. X, Y är liknande, X, Z är liknande, men Y, Z är olikt. De tre variabla klustren är dock så lika att det är omöjligt att ha perfekt korrelationsgrupp. Programmet kommer att arbeta för att maximera antalet positiva korrelationer, men detta kräver fortfarande en viss manuell sökning från användaren.
När det gäller datakommunikation, speciellt när man hanterar stora datauppsättningar, används korrelationskluster för att gruppera liknande data med liknande data. Till exempel, om ett företag bryter data för en stor webbplats eller databas och bara vill veta om en specifik aspekt, tar det evigt att söka igenom all data för den aspekten. Genom att använda en klusterformel avsätts data för korrekt analys.
Olik information behandlas endast baserat på användarinstruktioner. Användaren kan välja att skicka olika data till olika kluster, eftersom informationen kan vara användbar för andra projekt. Om informationen inte behövs och bara slösar bort minne, kastas den olikartade informationen ut. Vid ofullständig klustering är det möjligt att någon annan information inte kastas ut, eftersom den är så lik den information som användaren letar efter.