¿Cuál es el proceso de minería de datos?

El proceso de minería de datos es una herramienta para descubrir patrones estadísticamente significativos en una gran cantidad de datos. Por lo general, involucra cinco pasos principales, que incluyen preparación, exploración de datos, construcción de modelos, implementación y revisión. Cada paso en el proceso implica un conjunto diferente de técnicas, pero la mayoría usa alguna forma de análisis estadístico.

Antes de que pueda comenzar el proceso de minería de datos, los investigadores generalmente establecen objetivos de investigación. Este paso de preparación generalmente determina qué tipos de datos deben estudiarse, qué técnicas de minería de datos deben usarse y qué formulario tomarán los resultados. Este paso inicial en el proceso puede ser crucial para recopilar información útil.

El siguiente paso en el proceso de minería de datos es la exploración. Este paso generalmente implica recopilar los datos requeridos de un almacén de información o entidad de recopilación. Luego, los expertos en minería generalmente preparan los conjuntos de datos sin procesar para el análisis. Este paso generalmente consiste en reunir, limpiar, organizar yVerificar todos los datos para obtener errores.

Estos datos preparados generalmente ingresan al tercer paso en el proceso de minería de datos, construcción de modelos. Para lograr esto, los investigadores generalmente toman pequeñas muestras de datos de datos y les aplican una variedad de técnicas de minería de datos. El paso de modelado a menudo se usa para determinar el mejor método de análisis estadístico requerido para lograr los resultados deseados.

Hay cuatro técnicas principales que se pueden aplicar en el proceso de minería de datos. El primero es la clasificación, que organiza datos en grupos o categorías predefinidas. En la segunda técnica, llamada clúster, los investigadores permiten que la computadora organice los datos en grupos, como lo elija. Una tercera técnica de minería de datos busca asociaciones entre variables. El cuarto típicamente busca patrones secuenciales en los datos que pueden usarse para predecir tendencias futuras.

El paso final en la minería de datos ProCess es un despliegue. Para hacer esto, las técnicas elegidas en el modelo se aplican al conjunto de datos más grande y se analizan los resultados. El informe que proviene de este paso generalmente muestra los patrones que se encuentran en todo el proceso, incluidas las clasificaciones, grupos, asociaciones o patrones secuenciales existentes en el conjunto de datos.

.

La revisión es a menudo un paso final importante. Esta fase en el proceso generalmente implica repetir modelos mineros con un nuevo conjunto de datos para asegurarse de que el conjunto principal fuera representativo de toda la población de datos. Los resultados no pueden predecir tendencias en la población más grande si la muestra de datos no lo representa con precisión.

OTROS IDIOMAS