Hva er korrelasjonsklynging?

Korrelasjonsklynging utføres på databaser og andre store datakilder for å gruppere lignende datasett sammen, samtidig som de også varsler brukeren om forskjellige datasett. Dette kan gjøres perfekt i noen grafer, mens andre vil oppleve feil fordi det vil være vanskelig å skille lignende fra forskjellige data. Når det gjelder sistnevnte, vil korrelasjonsklynging bidra til å redusere feil automatisk. Dette brukes ofte til data mining, eller for å søke på uhåndterlige data etter likheter. Uledelige data blir ofte slettet, eller plassert i en egen klynge.

Når en korrelasjonsklyngefunksjon brukes, søker den etter data basert på brukerens instruksjoner. Brukeren vil fortelle programmet hva han skal søke etter, og når det blir funnet, hvor de skal plassere dataene. Dette brukes normalt på veldig store datakilder når det ville være umulig - eller ta for mange timer - å søke gjennom dataene manuelt. Det kan enten være perfekt gruppering eller ufullkommen klynging.

Perfekt klynging er det ideelle scenariet. Dette betyr at det bare er to typer data, og den ene er det brukeren leter etter mens den andre er unødvendig. Alle de positive, eller nødvendige dataene blir plassert i den ene klyngen, mens de andre dataene blir slettet eller flyttet. I dette scenariet er det ingen forvirring og alt fungerer perfekt.

De fleste komplekse grafer tillater ikke perfekt gruppering, og er i stedet ufullkommen. For eksempel har en graf tre variabler: x, y og z. x, y er lik, x, z er lik, men y, z er ulik. De tre variable klyngene er imidlertid så like at det er umulig å ha perfekt korrelasjonsklynging. Programmet vil fungere for å maksimere antall positive korrelasjoner, men dette vil fortsatt kreve noen manuell søk fra brukeren.

I data mining, spesielt når du arbeider med store datasett, brukes korrelasjonsklynging til å gruppere lignende data med SIMIlar data. For eksempel, hvis en virksomhets utvinnet data for et stort nettsted eller en database og bare ønsker å vite om et spesifikt aspekt, vil det ta evig tid å søke gjennom alle dataene etter det aspektet. Ved å bruke en klyngeformel, vil dataene bli avsatt til riktig analyse.

Ulik informasjon blir behandlet utelukkende basert på brukerinstruksjoner. Brukeren kan velge å sende forskjellige data til forskjellige klynger, fordi informasjonen kan være nyttig for andre prosjekter. Hvis dataene er unødvendige og bare kaster bort minne, blir den forskjellige informasjonen kastet ut. I ufullkommen klynging er det mulig at noe ulik informasjon ikke blir kastet ut, fordi den er så lik dataene som brukeren ser på.

ANDRE SPRÅK