O que é o cluster de correlação?
O clustering de correlação é realizado em bancos de dados e outras fontes de dados grandes para agrupar conjuntos de dados semelhantes, além de alertar o usuário para conjuntos de dados diferentes. Isso pode ser feito perfeitamente em alguns gráficos, enquanto outros sofrerão erros, pois será difícil diferenciar dados semelhantes de diferentes. No caso deste último, o clustering de correlação ajudará a reduzir o erro automaticamente. Isso geralmente é usado para mineração de dados ou para pesquisar dados pesados por similaridades. Dados diferentes são geralmente excluídos ou colocados em um cluster separado.
Quando uma função de clustering de correlação é usada, ela procura dados com base nas instruções do usuário. O usuário dirá ao programa o que procurar e, quando for encontrado, onde colocar os dados. Isso normalmente é aplicado a fontes de dados muito grandes quando seria impossível - ou demoraria muitas horas - pesquisar os dados manualmente. Pode haver cluster perfeito ou cluster imperfeito.
O agrupamento perfeito é o cenário ideal. Isso significa que existem apenas dois tipos de dados, e um é o que o usuário está procurando enquanto o outro é desnecessário. Todos os dados positivos ou necessários são colocados em um cluster, enquanto os outros dados são excluídos ou movidos. Nesse cenário, não há confusão e tudo funciona perfeitamente.
Os gráficos mais complexos não permitem um agrupamento perfeito e são imperfeitos. Por exemplo, um gráfico possui três variáveis: X, Y e Z. X, Y é semelhante, X, Z é semelhante, mas Y, Z é diferente. Os três agrupamentos de variáveis são tão semelhantes, no entanto, que é impossível ter um agrupamento de correlação perfeito. O programa trabalhará para maximizar o número de correlações positivas, mas isso ainda exigirá alguma pesquisa manual do usuário.
Na mineração de dados, especialmente ao lidar com grandes conjuntos de dados, o clustering de correlação é usado para agrupar dados semelhantes com dados semelhantes. Por exemplo, se uma empresa extrair dados de um site ou banco de dados grande e quiser apenas conhecer um aspecto específico, levaria uma eternidade para pesquisar todos os dados desse aspecto. Usando uma fórmula de agrupamento, os dados serão separados para análise adequada.
Informações diferentes são tratadas com base apenas em instruções do usuário. O usuário pode optar por enviar dados diferentes para diferentes clusters, porque as informações podem ser úteis para outros projetos. Se os dados são desnecessários e estão apenas desperdiçando memória, as informações diferentes são descartadas. No cluster imperfeito, é possível que algumas informações diferentes não sejam descartadas, porque são muito semelhantes aos dados pelos quais o usuário está procurando.