Hvad er sammenhængsklynger?
Korrelationsklyngering udføres på databaser og andre store datakilder for at gruppere lignende datasæt, samtidig med at den advarer brugeren om forskellige datasæt. Dette kan gøres perfekt i nogle grafer, mens andre vil opleve fejl, fordi det vil være vanskeligt at differentiere lignende fra forskellige data. I tilfælde af sidstnævnte vil korrelationsklynger hjælpe med at reducere fejlen automatisk. Dette bruges ofte til dataindvinding eller til at søge ubesværede data efter ligheder. Forskellige data slettes ofte eller placeres i en separat klynge.
Når der bruges en sammenhængsklyngefunktion, søger den efter data baseret på brugerens instruktioner. Brugeren fortæller programmet, hvad han skal søge efter, og når det findes, hvor dataene skal placeres. Dette anvendes normalt til meget store datakilder, når det ville være umuligt - eller tage for mange timer - at søge gennem dataene manuelt. Der kan være enten perfekt sammenklynge eller ufuldkommen klynge.
Perfekt klynger er det ideelle scenarie. Dette betyder, at der kun er to typer data, og den ene er, hvad brugeren leder efter, mens den anden ikke er nødvendig. Alle positive eller nødvendige data placeres i en klynge, mens de andre data slettes eller flyttes. I dette scenarie er der ingen forvirring, og alt fungerer perfekt.
De fleste komplekse grafer tillader ikke perfekt klynge og er i stedet ufuldstændige. For eksempel har en graf tre variabler: X, Y og Z. X, Y er lignende, X, Z er ens, men Y, Z er forskellig. De tre variable klynger er dog så ens, at det er umuligt at have perfekt korrelationsklynge. Programmet vil arbejde for at maksimere antallet af positive korrelationer, men dette vil stadig kræve en vis manuel søgning fra brugeren.
I data mining, især når der er tale om store datasæt, bruges korrelationsklyngering til at gruppere lignende data med lignende data. Hvis en virksomhed f.eks. Udvindes data til et stort websted eller en database og kun ønsker at vide om et specifikt aspekt, vil det tage evigt at søge gennem alle data for det aspekt. Ved at bruge en klyngeformel afsættes dataene til korrekt analyse.
Forskellige oplysninger behandles udelukkende baseret på brugervejledninger. Brugeren kan vælge at sende forskellige data til forskellige klynger, fordi informationen kan være nyttig til andre projekter. Hvis dataene ikke er unødvendige og bare spilder hukommelse, smides de forskellige oplysninger ud. I ufuldstændig klyngering er det muligt, at nogle forskellige oplysninger ikke bliver smidt ud, fordi de ligner de data, som brugeren leder efter.