O que é agrupamento de correlação?

O cluster de correlação

é realizado em bancos de dados e outras fontes de dados grandes para agrupar conjuntos de dados semelhantes, além de alertar o usuário sobre conjuntos de dados diferentes. Isso pode ser feito perfeitamente em alguns gráficos, enquanto outros sofrem erros porque será difícil diferenciar dados semelhantes de diferentes. No caso deste último, o cluster de correlação ajudará a reduzir o erro automaticamente. Isso é frequentemente usado para mineração de dados ou para pesquisar dados difíceis de semelhanças. Os dados diferentes são comumente excluídos ou colocados em um cluster separado.

Quando uma função de cluster de correlação é usada, ele procura dados com base nas instruções do usuário. O usuário dirá ao programa o que procurar e, quando for encontrado, onde colocar os dados. Isso normalmente é aplicado a fontes de dados muito grandes quando seria impossível - ou levar muitas horas - para pesquisar os dados manualmente. Pode haver agrupamento perfeito ou agrupamento imperfeito.

O agrupamento perfeito é o cenário ideal. Isso significa que existem apenas dois tipos de dados, e um é o que o usuário está procurando enquanto o outro é desnecessário. Todos os dados positivos ou necessários são colocados em um cluster, enquanto os outros dados são excluídos ou movidos. Nesse cenário, não há confusão e tudo funciona perfeitamente.

Os gráficos mais complexos não permitem agrupamentos perfeitos e, em vez disso, são imperfeitos. Por exemplo, um gráfico possui três variáveis: x, y e z. x, y é semelhante, x, z é semelhante, mas y, z é diferente. Os três clusters variáveis são tão semelhantes, no entanto, que é impossível ter agrupamento de correlação perfeita. O programa trabalhará para maximizar o número de correlações positivas, mas isso ainda exigirá alguma pesquisa manual do usuário.

Na mineração de dados, especialmente ao lidar com grandes conjuntos de dados, o agrupamento de correlação é usado para agrupar dados semelhantes com simidados LAR. Por exemplo, se um negócio extraiu dados para um grande site ou banco de dados e só quiser saber sobre um aspecto específico, levaria uma eternidade para pesquisar todos os dados desse aspecto. Usando uma fórmula de agrupamento, os dados serão reservados para uma análise adequada.

Informações diferentes são tratadas com base apenas nas instruções do usuário. O usuário pode optar por enviar dados diferentes para clusters diferentes, porque as informações podem ser úteis para outros projetos. Se os dados são desnecessários e estão desperdiçando memória, as informações diferentes serão expulsas. Em agrupamento imperfeito, é possível que algumas informações diferentes não sejam expulsas, porque é muito semelhante aos dados para os quais o usuário está procurando.

O que é agrupamento de correlação?

OUTRAS LÍNGUAS

ARTIGOS RELACIONADOS

Como podemos ajudar?