Qu'est-ce que l'exploration statistique de données?
L'exploration statistique de données, également appelée découverte de connaissances ou de données, est une méthode informatisée de collecte et d'analyse d'informations. L'outil d'exploration de données prend des données et les catégorise pour découvrir des modèles ou des corrélations pouvant être utilisés dans des applications importantes, telles que la médecine, la programmation informatique, la promotion commerciale et la conception robotique. Les techniques d'exploration de données statistiques utilisent des mathématiques complexes et des processus statistiques complexes pour créer une analyse.
L'exploration de données comporte cinq étapes principales. La première application d'exploration de données collecte des données statistiques et place les informations dans un programme de type magasin. Ensuite, les données dans le magasin sont organisées et créent un système de gestion. L'étape suivante crée un moyen d'accéder aux données gérées. Ensuite, la quatrième étape consiste à développer un logiciel d'analyse des données, également appelé régression d'exploration de données, tandis que l'étape finale facilite l'utilisation ou l'interprétation des données statistiques de manière pratique.
Généralement, les techniques d’exploration de données intègrent des systèmes de données analytiques et transactionnelles. Les logiciels d'analyse trient les deux types de systèmes de données à l'aide de questions ouvertes. Les questions ouvertes permettent d'innombrables réponses afin que les programmeurs n'influencent pas les résultats du tri. Les programmeurs créent des listes de questions pour aider à classer les informations en fonction d'un objectif général.
Le tri est ensuite basé sur le développement de classes et de groupes de données, les associations trouvées dans les données et les tentatives de définition de modèles et de tendances basés sur les associations. Par exemple, Google collecte des informations sur les habitudes d'achat des utilisateurs afin de les aider à placer de la publicité en ligne. Les questions ouvertes utilisées pour trier ces données d'acheteur portent sur les préférences d'achat ou les habitudes d'affichage des utilisateurs d'Internet.
Les informaticiens et les programmeurs se concentrent sur l'analyse des données statistiques collectées. La création d'arbres de décision, de réseaux de neurones artificiels, de la méthode du plus proche voisin, de l'induction de règles, de la visualisation de données et d'algorithmes génétiques utilise tous les données statistiquement extraites. Ces systèmes de classification aident à interpréter les associations découvertes par les programmes de données analytiques. L'exploration statistique de données implique de petits projets pouvant être réalisés à petite échelle sur un ordinateur personnel, mais la plupart des ensembles d'associations d'exploration de données sont si grands et la régression d'extraction de données si compliquée qu'ils nécessitent un superordinateur ou un réseau d'ordinateurs à haut débit.
L'exploration statistique de données collecte trois types généraux de données, à savoir les données opérationnelles, les données non opérationnelles et les métadonnées. Dans un magasin de vêtements, les données opérationnelles sont les données de base utilisées pour gérer l'entreprise, telles que la comptabilité, les ventes et le contrôle des stocks. Les données non opérationnelles, qui sont indirectement liées à l'entreprise, incluent des estimations des ventes futures et des informations générales sur le marché national de l'habillement. Les métadonnées concernent les données elles-mêmes. Un programme utilisant des métadonnées peut trier les clients des magasins selon des classifications basées sur le sexe ou l'emplacement géographique des acheteurs de vêtements ou sur la couleur préférée de leurs clients, si ces données ont été collectées.
Une application d'exploration de données peut être extrêmement sophistiquée et l'outil d'exploration de données statistiques peut avoir de nombreuses applications pratiques. L'étude des épidémies en est un exemple. En 2000, un projet d’exploration de données a analysé l’épidémie de cryptosporidium en Ontario, au Canada, afin de déterminer les causes de l’augmentation du nombre de cas de maladie. Les résultats de l’exploration de données ont aidé à relier l’épidémie de bactéries aux conditions locales de l’eau et à l’absence de traitement adéquat des eaux municipales. Un domaine appelé "biosurveillance" utilise l'extraction de données épidémiologiques pour identifier les foyers d'une seule maladie.
Les programmeurs et les concepteurs utilisent également l’étude des probabilités et l’analyse de données statistiques pour développer des machines et des programmes informatiques. Le moteur de recherche Internet de Google a été conçu à l'aide de l'exploration de données statistiques. Google continue de collecter et d'utiliser l'exploration de données pour créer des mises à jour de programmes et des applications.