¿Qué es una clasificación de minería de datos?
La clasificación de minería de datos es un paso en el proceso de minería de datos. Se utiliza para agrupar elementos en función de ciertas características clave. Existen varias técnicas utilizadas para la clasificación de minería de datos, incluida la clasificación del vecino más cercano, el aprendizaje del árbol de decisiones y las máquinas de vectores de soporte.
La minería de datos es un método que los investigadores usan para extraer patrones de los datos. En general, se elige una muestra representativa del conjunto de datos y luego se manipula y analiza para encontrar patrones. Además de la clasificación de minería de datos, los investigadores también pueden usar agrupamiento, regresión y aprendizaje de reglas para analizar los datos.
Existen varios algoritmos que se pueden usar en la clasificación de minería de datos. La clasificación de vecino más cercano es uno de los algoritmos de clasificación de minería de datos más simples. Se basa en un conjunto de entrenamiento. Un conjunto de entrenamiento es un conjunto de datos que se usa para entrenar a la computadora a prestar atención a ciertas variables. En la clasificación de vecino más cercano, la computadora simplemente clasifica todos los datos como parte del grupo que contiene los datos más cercanos en valor a la entrada.
El árbol de decisión de aprendizaje utiliza un modelo de ramificación para clasificar los datos. La computadora básicamente hace una serie de preguntas sobre los datos. Si la respuesta a la primera pregunta es verdadera, hace la pregunta 2a. Si la respuesta es falsa, hace la pregunta 2b. Cuando se dibuja, este método forma un árbol de caminos ramificados.
La clasificación ingenua de Bayes se basa en la probabilidad. Hace una serie de preguntas sobre cada dato y luego usa las respuestas para determinar la probabilidad de que los datos pertenezcan a una clasificación particular. Esto es diferente del aprendizaje del árbol de decisión porque la respuesta a la primera pregunta no influye en la pregunta que se formulará a continuación.
Los métodos más complicados de clasificación de minería de datos incluyen redes neuronales y máquinas de vectores de soporte. Estos métodos son modelos basados en computadora que serían difíciles de hacer a mano. Las redes neuronales a menudo se usan en la programación de inteligencia artificial porque imita el cerebro humano. Filtra la información a través de una serie de nodos que encuentran patrones y luego clasifican la información.
Las máquinas de vectores de soporte usan muestras de entrenamiento para construir un modelo que clasificará la información, generalmente visualizada como un diagrama de dispersión con un amplio espacio entre categorías. Cuando se introduce nueva información en la máquina, se traza en el gráfico. Luego, los datos se clasifican en función de la categoría a la que la información se acerca más en el gráfico. Este método solo funciona cuando hay dos opciones para elegir.