Qu'est-ce que l'exploration de données?

L'exploration de données utilise une quantité relativement importante de puissance de calcul exploitant un grand ensemble de données pour déterminer les régularités et les connexions entre les points de données. Les algorithmes qui utilisent des techniques de statistiques, d’apprentissage automatique et de reconnaissance de formes sont utilisés pour rechercher automatiquement de grandes bases de données. L'exploration de données est également connue sous le nom de Knowledge-Discovery in Databases (KDD).

À l'instar du terme intelligence artificielle , l'exploration de données est un terme générique qui peut être appliqué à diverses activités. Dans le monde des entreprises, l’exploration de données est le plus souvent utilisée pour déterminer l’orientation des tendances et prévoir l’avenir. Il est utilisé pour créer des modèles et des systèmes d’aide à la décision fournissant aux utilisateurs des informations utiles. L'exploration de données joue un rôle de premier plan dans la lutte contre le terrorisme. Il aurait été utilisé pour déterminer le chef des attaques du 11 septembre.

Les Data Miners sont des statisticiens qui utilisent des techniques portant des noms tels que modèles proches voisins , regroupement de k-moyennes , méthode de conservation , validation croisée des k-fold , méthode du type laissez-passer , etc. Les techniques de régression sont utilisées pour soustraire les modèles non pertinents, ne laissant que des informations utiles. Le terme bayésien apparaît fréquemment sur le terrain, faisant référence à une classe de techniques d'inférence qui permettent de prédire la probabilité d'événements futurs en combinant des probabilités antérieures et des probabilités basées sur des événements conditionnels. Le filtrage du courrier indésirable est sans doute une forme d'exploration de données, qui fait automatiquement remonter à la surface des messages pertinents émanant d'un océan de tentatives de phishing et de lancers de Viagra.

Les arbres de décision sont utilisés pour filtrer des montagnes de données. Dans un arbre de décision, toutes les données passent par un nœud d'entrée, où il fait face à un filtre qui sépare les données en flux en fonction de leurs caractéristiques. Par exemple, les données sur le comportement des consommateurs seront probablement filtrées en fonction de facteurs démographiques. L'exploration de données ne concerne pas principalement les graphes sophistiqués et les techniques de visualisation, mais les utilise pour montrer ce qu'elle a trouvé. On sait que nous pouvons absorber plus d'informations statistiques visuellement que verbalement et ce format de présentation peut être très persuasif et puissant s'il est utilisé dans le bon contexte.

Alors que notre civilisation est de plus en plus saturée en données et que les capteurs sont distribués en masse dans nos environnements locaux, nous découvrirons par inadvertance des choses qui pourraient être manquées lors du premier passage. L'exploration de données nous permettra de corriger ces erreurs et de découvrir de nouvelles idées basées sur les données antérieures, ce qui nous donnera plus pour notre argent de stockage de données.

Qu'est-ce que l'exploration de données?

Cet article vous a‑t‑il été utile ?