Qu'est-ce qu'une classification Data Mining?
La classification de l'exploration de données est une étape du processus d'exploration de données. Il est utilisé pour regrouper des éléments en fonction de certaines caractéristiques clés. Plusieurs techniques sont utilisées pour la classification de l'exploration de données, notamment la classification du plus proche voisin, l'apprentissage de l'arbre de décision et les machines à vecteurs de support.
L'exploration de données est une méthode utilisée par les chercheurs pour extraire des modèles à partir de données. Généralement, un échantillon représentatif est choisi dans le pool de données, puis manipulé et analysé pour trouver des modèles. En plus de la classification de l'exploration de données, les chercheurs peuvent également utiliser la classification, la régression et l'apprentissage de règles pour analyser les données.
Plusieurs algorithmes peuvent être utilisés dans la classification de l'exploration de données. La classification du voisin le plus proche est l'un des algorithmes de classification de Data mining les plus simples. Il repose sur un ensemble de formation. Un ensemble de formation est un ensemble de données utilisé pour former l'ordinateur à prêter attention à certaines variables. Dans la classification du plus proche voisin, l’ordinateur classe simplement toutes les données dans le groupe qui contient les données ayant la valeur la plus proche de l’entrée.
L'apprentissage de l'arbre de décision utilise un modèle de branchement pour classifier les données. L'ordinateur pose essentiellement une série de questions sur les données. Si la réponse à la première question est vraie, la question 2a est posée. Si la réponse est fausse, la question 2b est posée. Une fois déployée, cette méthode forme un arbre de chemins de branchement.
La classification naïve de Bayes repose sur la probabilité. Il pose une série de questions sur chaque donnée, puis utilise les réponses pour déterminer la probabilité que les données appartiennent à une classification particulière. Ceci diffère de l'apprentissage par arbre de décision car la réponse à la première question n'influence pas la question qui sera posée ensuite.
Des méthodes plus complexes de classification de l'exploration de données incluent les réseaux de neurones et les machines à vecteurs de support. Ces méthodes sont des modèles informatiques qu'il serait difficile de faire à la main. Les réseaux de neurones sont souvent utilisés dans la programmation de l'intelligence artificielle, car ils imitent le cerveau humain. Il filtre les informations sur une série de nœuds qui trouvent des modèles, puis classent les informations.
Les machines à vecteurs de support utilisent des échantillons d'apprentissage pour créer un modèle permettant de classer les informations, généralement visualisées sous forme de diagramme de dispersion avec un large espace entre les catégories. Lorsque de nouvelles informations sont introduites dans la machine, elles sont tracées sur le graphique. Les données sont ensuite classées en fonction de la catégorie sur laquelle l’information se rapproche le plus du graphique. Cette méthode ne fonctionne que s’il existe deux options à choisir.