Hva er korrelasjonsgrupper?
Korrelasjonsgrupper utføres på databaser og andre store datakilder for å gruppere lignende datasett, samtidig som brukeren varsles om forskjellige datasett. Dette kan gjøres perfekt i noen grafer, mens andre vil oppleve feil fordi det vil være vanskelig å skille lignende fra forskjellige data. Når det gjelder sistnevnte, vil korrelasjonsklynging bidra til å redusere feil automatisk. Dette brukes ofte til data mining, eller for å søke på uønskede data etter likheter. Ulike data blir ofte slettet eller plassert i en egen klynge.
Når en korrelasjonsgruppefunksjon brukes, søker den etter data basert på brukerens instruksjoner. Brukeren vil fortelle programmet hva han skal søke etter og når det blir funnet, hvor dataene skal plasseres. Dette brukes normalt på veldig store datakilder når det ville være umulig - eller ta for mange timer - å søke gjennom dataene manuelt. Det kan være perfekt klynge eller ufullkommen klynge.
Perfekt klynging er det ideelle scenariet. Dette betyr at det bare er to typer data, og den ene er det brukeren ser etter mens den andre ikke er nødvendig. Alle de positive, eller nødvendige, dataene blir plassert i en klynge, mens de andre dataene blir slettet eller flyttet. I dette scenariet er det ingen forvirring, og alt fungerer perfekt.
De fleste komplekse grafer tillater ikke perfekt gruppering, og er i stedet ufullkomne. For eksempel har en graf tre variabler: X, Y og Z. X, Y er lik, X, Z er lik, men Y, Z er ulik. De tre variable klyngene er imidlertid så like at det er umulig å ha perfekt korrelasjonsgruppe. Programmet vil arbeide for å maksimere antall positive korrelasjoner, men dette vil fortsatt kreve noe manuelt søk fra brukeren.
I data mining, spesielt når du arbeider med store datasett, brukes korrelasjonsgrupper for å gruppere lignende data med lignende data. For eksempel, hvis en virksomhet utvinnet data for et stort nettsted eller en database og bare vil vite om et bestemt aspekt, vil det ta evig tid å søke gjennom alle dataene for det aspektet. Ved å bruke en klyngeformel, blir dataene satt til side for riktig analyse.
Ulik informasjon blir behandlet kun basert på brukerinstruksjoner. Brukeren kan velge å sende forskjellige data til forskjellige klynger, fordi informasjonen kan være nyttig for andre prosjekter. Hvis dataene er unødvendige og bare sløser med minne, blir den forskjellige informasjonen kastet ut. Ved ufullkommen klynging er det mulig at annen informasjon ikke blir kastet ut, fordi den er så lik dataene brukeren ser etter.