Che cos'è il clustering di correlazione?

Il clustering di correlazione viene eseguito su database e altre origini dati di grandi dimensioni per raggruppare insieme set di dati simili, avvisando l'utente di set di dati diversi. Questo può essere fatto perfettamente in alcuni grafici, mentre in altri si verificheranno errori perché sarà difficile differenziare dati simili da dati diversi. Nel caso di quest'ultimo, il clustering di correlazione contribuirà a ridurre automaticamente l'errore. Viene spesso utilizzato per il data mining o per cercare somiglianze in dati ingombranti. I dati diversi vengono comunemente eliminati o inseriti in un cluster separato.

Quando viene utilizzata una funzione di clustering di correlazione, cerca i dati in base alle istruzioni dell'utente. L'utente comunicherà al programma che cosa cercare e, quando viene trovato, dove posizionare i dati. Questo viene normalmente applicato a origini dati molto grandi quando sarebbe impossibile - o richiedere troppe ore - cercare manualmente i dati. Può esserci un cluster perfetto o un cluster imperfetto.

Il clustering perfetto è lo scenario ideale. Ciò significa che esistono solo due tipi di dati e uno è ciò che l'utente sta cercando mentre l'altro non è necessario. Tutti i dati positivi o necessari vengono inseriti in un cluster, mentre gli altri dati vengono eliminati o spostati. In questo scenario, non c'è confusione e tutto funziona perfettamente.

I grafici più complessi non consentono un clustering perfetto e sono invece imperfetti. Ad esempio, un grafico ha tre variabili: X, Y e Z. X, Y è simile, X, Z è simile, ma Y, Z è dissimile. I tre cluster di variabili sono così simili, tuttavia, che è impossibile avere un clustering di correlazione perfetto. Il programma funzionerà per massimizzare il numero di correlazioni positive, ma ciò richiederà comunque una ricerca manuale da parte dell'utente.

Nel data mining, specialmente quando si ha a che fare con set di dati di grandi dimensioni, il clustering di correlazione viene utilizzato per raggruppare dati simili con dati simili. Ad esempio, se un'azienda estrae dati per un sito Web o un database di grandi dimensioni e desidera solo conoscere un aspetto specifico, ci vorrebbe un'eternità per cercare tutti i dati per quell'aspetto. Usando una formula di clustering, i dati verranno messi da parte per un'analisi corretta.

Le informazioni diverse vengono trattate in base esclusivamente alle istruzioni dell'utente. L'utente può scegliere di inviare dati diversi a diversi cluster, poiché le informazioni potrebbero essere utili per altri progetti. Se i dati non sono necessari e stanno solo sprecando memoria, le informazioni diverse vengono eliminate. Nel clustering imperfetto, è possibile che alcune informazioni diverse non vengano eliminate, poiché sono così simili ai dati per i quali l'utente sta cercando.

Che cos'è il clustering di correlazione?

Questo articolo è stato utile?