Qu'est-ce que l'exploration de données?
Data Mining utilise une quantité relativement importante de puissance de calcul opérant sur un large ensemble de données pour déterminer les régularités et les connexions entre les points de données. Les algorithmes qui utilisent des techniques à partir des statistiques, de l'apprentissage automatique et de la reconnaissance des modèles sont utilisés pour rechercher automatiquement de grandes bases de données. L'exploration de données est également connue sous le nom de découverte des connaissances dans les bases de données (KDD).
Comme le terme Intelligence artificielle , l'exploration de données est un terme parapluie qui peut être appliqué à un certain nombre d'activités variables. Dans le monde de l'entreprise, l'exploration de données est utilisée le plus fréquemment pour déterminer la direction des tendances et prédire l'avenir. Il est utilisé pour construire des modèles et des systèmes d'aide à la décision qui donnent aux gens des informations qu'ils peuvent utiliser. L'exploration de données joue un rôle de première ligne dans la bataille contre le terrorisme. Il aurait été utilisé pour déterminer le leader des attaques du 11 septembre.
Les mineurs de données sont des statisticiens qui utilisent des techniques avec des noms comme Modèles de quasi-neighbor , k-means ClusteRing , Holdout Method , K-Fold Cross Validation , la méthode de laisse-out , et ainsi de suite. Les techniques de régression sont utilisées pour soustraire des modèles non pertinents, ne laissant que des informations utiles. Le terme bayésien est fréquemment vu sur le terrain, se référant à une classe de techniques d'inférence qui prédisent la probabilité d'événements futurs en combinant des probabilités et des probabilités antérieures basées sur des événements conditionnels. Le filtrage des spams est sans doute une forme d'exploration de données, qui met automatiquement les messages pertinents à la surface d'une mer chaotique de tentatives de phishing et de pas de viagra.
Les arbres de décision sont utilisés pour filtrer les montagnes de données. Dans un arbre de décision, toutes les données traversent un nœud d'entrée, où il est confronté à un filtre qui sépare les données en flux en fonction de ses caractéristiques. Par exemple, les données sur le comportement des consommateurs sont susceptibles d'être filtrées sur la base de Dfacteurs émographiques. L'exploration de données ne concerne pas principalement les graphiques de fantaisie et les techniques de visualisation, mais il les utilise pour montrer ce qu'il a trouvé. On sait que nous pouvons absorber plus d'informations statistiques visuellement que verbalement et ce format de présentation peut être très convaincant et puissant s'il est utilisé dans le bon contexte.
Alors que notre civilisation devient de plus en plus saturée de données et que les capteurs sont distribués en masse dans nos environnements locaux, nous découvrirons par inadvertance des choses qui pourraient être manquées lors du premier passage. L'exploration de données nous permettra de corriger ces erreurs et de découvrir de nouvelles informations en fonction des données passées, ce qui nous donne plus de coup pour notre buck de stockage de données.