¿Qué es la agrupación de correlación?

La agrupación de correlación se realiza en bases de datos y otras grandes fuentes de datos para agrupar conjuntos de datos similares, al tiempo que alerta al usuario para que los conjuntos de datos diferentes. Esto se puede hacer perfectamente en algunos gráficos, mientras que otros experimentarán errores porque será difícil diferenciar de manera similar a partir de datos diferentes. En el caso de este último, la agrupación de correlación ayudará a reducir el error automáticamente. Esto a menudo se usa para la minería de datos, o para buscar similitudes de datos difíciles de buscar similitudes. Los datos diferentes se eliminan comúnmente o se colocan en un clúster separado.

Cuando se usa una función de agrupación de correlación, busca datos basados ​​en las instrucciones del usuario. El usuario le dirá al programa qué buscar y, cuándo se encuentra, dónde colocar los datos. Esto normalmente se aplica a fuentes de datos muy grandes cuando sería imposible, o tomaría demasiadas horas, buscar en los datos manualmente. Puede haber clúster perfecta o agrupación imperfecta.

La agrupación perfecta es el escenario ideal. Esto significa que solo hay dos tipos de datos, y uno es lo que el usuario está buscando, mientras que el otro es innecesario. Todos los datos positivos o necesarios se colocan en un clúster, mientras que los otros datos se eliminan o se mueven. En este escenario, no hay confusión y todo funciona perfectamente.

Los gráficos más complejos no permiten la agrupación perfecta, y son, en cambio, imperfectas. Por ejemplo, un gráfico tiene tres variables: X, Y y Z. X, Y es similar, X, Z es similar, pero Y, Z es diferente. Los tres grupos variables son tan similares, sin embargo, que es imposible tener una agrupación de correlación perfecta. El programa funcionará para maximizar el número de correlaciones positivas, pero esto aún requerirá alguna búsqueda manual del usuario.

En la minería de datos, especialmente cuando se trata de grandes conjuntos de datos, la agrupación de correlación se utiliza para agrupar datos similares con SIMIDatos LAR. Por ejemplo, si una empresa extraía datos para un sitio web o base de datos grande y solo quiere saber sobre un aspecto específico, tomaría una eternidad buscar en todos los datos para ese aspecto. Al usar una fórmula de agrupación, los datos se dejarán de lado para un análisis adecuado.

La información diferente se trata basada únicamente en las instrucciones del usuario. El usuario puede optar por enviar datos diferentes a diferentes grupos, porque la información puede ser útil para otros proyectos. Si los datos son innecesarios y solo están desperdiciando la memoria, entonces la información diferente se extrae. En la agrupación imperfecta, es posible que no se destaque una información diferente, porque es muy similar a los datos para los que el usuario está buscando.

OTROS IDIOMAS