O que é uma classificação de mineração de dados?
A classificação de mineração de dados é uma etapa do processo de mineração de dados. É usado para agrupar itens com base em certas características principais. Existem várias técnicas usadas para a classificação de mineração de dados, incluindo a classificação do vizinho mais próximo, o aprendizado da árvore de decisão e as máquinas de vetores de suporte.
A mineração de dados é um método usado pelos pesquisadores para extrair padrões dos dados. Geralmente, uma amostra representativa é escolhida do conjunto de dados e, em seguida, manipulada e analisada para encontrar padrões. Além da classificação de mineração de dados, os pesquisadores também podem usar o agrupamento, a regressão e o aprendizado de regras para analisar os dados.
Existem vários algoritmos que podem ser usados na classificação de mineração de dados. A classificação de vizinhos mais próximos é um dos algoritmos de classificação de mineração de dados mais simples. Baseia-se em um conjunto de treinamento. Um conjunto de treinamento é um conjunto de dados usados para treinar o computador a prestar atenção a determinadas variáveis. Na classificação de vizinho mais próximo, o computador simplesmente classifica todos os dados como parte do grupo que contém os dados com o valor mais próximo da entrada.
O aprendizado da árvore de decisão usa um modelo de ramificação para classificar os dados. O computador basicamente faz uma série de perguntas sobre os dados. Se a resposta para a primeira pergunta for verdadeira, ela fará a pergunta 2a. Se a resposta for falsa, ela faz a pergunta 2b. Quando desenhado, esse método forma uma árvore de caminhos ramificados.
A classificação Naive Bayes se baseia em probabilidade. Ele faz uma série de perguntas sobre cada parte dos dados e, em seguida, usa as respostas para determinar a probabilidade de os dados pertencerem a uma classificação específica. Isso é diferente do aprendizado na árvore de decisão porque a resposta à primeira pergunta não influencia a pergunta que será feita em seguida.
Métodos mais complicados de classificação de mineração de dados incluem redes neurais e máquinas de vetores de suporte. Esses métodos são modelos baseados em computador que seriam difíceis de executar manualmente. As redes neurais são frequentemente usadas na programação de inteligência artificial porque imitam o cérebro humano. Ele filtra informações através de uma série de nós que encontram padrões e depois classificam as informações.
As máquinas de vetores de suporte usam amostras de treinamento para criar um modelo que classifique as informações, geralmente visualizadas como um gráfico de dispersão com um amplo espaço entre as categorias. Quando novas informações são inseridas na máquina, elas são plotadas no gráfico. Os dados são classificados com base em qual categoria a informação fica mais próxima no gráfico. Este método funciona apenas quando há duas opções para escolher.