¿Qué es una clasificación de minería de datos?
La clasificación de minería de datos es un paso en el proceso de minería de datos. Se utiliza para agrupar elementos en función de ciertas características clave. Existen varias técnicas utilizadas para la clasificación de minería de datos, incluida la clasificación de vecinos más cercanos, el aprendizaje del árbol de decisiones y las máquinas de vectores de soporte.
La minería de datos es un método que los investigadores usan para extraer patrones de datos. En general, se elige una muestra representativa del conjunto de datos y luego se manipula y analiza para encontrar patrones. Además de la clasificación de la minería de datos, los investigadores también pueden usar la agrupación, la regresión y el aprendizaje de reglas para analizar los datos.
Hay varios algoritmos que pueden usarse en la clasificación de la minería de datos. La clasificación del vecino más cercano es uno de los algoritmos de clasificación de minería de datos más simples. Se basa en un conjunto de entrenamiento. Un conjunto de capacitación es un conjunto de datos utilizados para capacitar a la computadora para que presten atención a ciertas variables. En la clasificación del vecino más cercano, la computadora simplemente CLASsifer todos los datos como parte del grupo que contiene datos más cercanos al valor de la entrada.
El aprendizaje del árbol de decisiones utiliza un modelo de ramificación para clasificar los datos. La computadora básicamente hace una serie de preguntas sobre los datos. Si la respuesta a la primera pregunta es verdadera, hace la pregunta 2a. Si la respuesta es falsa, hace la pregunta 2b. Cuando se extrae, este método forma un árbol de rutas de ramificación.
La clasificación de Bayes ingenuas se basa en la probabilidad. Hace una serie de preguntas sobre cada pieza de datos y luego usa las respuestas para determinar la probabilidad de que los datos pertenezcan a una clasificación particular. Esto es diferente del aprendizaje del árbol de decisión porque la respuesta a la primera pregunta no influye en qué pregunta se hará a continuación.
Los métodos más complicados de clasificación de minería de datos incluyen redes neuronales y máquinas de vectores de soporte. Estos métodos están basados en computadora MOdels que serían difíciles de hacer a mano. Las redes neuronales a menudo se usan en la programación de inteligencia artificial porque imita el cerebro humano. Filtra información a través de una serie de nodos que encuentran patrones y luego clasifican la información.
Las máquinas vectoriales de soporte utilizan muestras de entrenamiento para construir un modelo que clasifique la información, generalmente visualizada como una gráfica de dispersión con un amplio espacio entre las categorías. Cuando se alimenta una nueva información a la máquina, se traza en el gráfico. Los datos se clasifican en función de la categoría de la información más cercana al gráfico. Este método funciona solo cuando hay dos opciones para elegir.