Quelles sont les différentes méthodes d'exploration de données?
Différentes méthodes d'exploration de données sont utilisées dans les options logicielles et les concepts théoriques. Celles-ci permettent aux utilisateurs d'extraire des informations à partir de données collectées par des particuliers et des entreprises à l'aide de divers outils. De grandes quantités de données peuvent être utilisées pour déterminer divers facteurs chez un même sujet ou dans une variété de sujets. Ces méthodes d’exploration de données sont le plus souvent utilisées dans les domaines de la protection contre la fraude, du marketing et de la surveillance.
Pendant des centaines d'années, des méthodes d'exploration de données ont été utilisées pour extraire des informations de sujets. Les techniques modernes utilisent cependant des concepts automatisés pour fournir des données substantielles via des ressources informatisées. Lorsque les sciences informatiques ont fait leur apparition au cours du XXe siècle, le concept de méthodes d’exploration de données a été mis au point dans le but de surmonter les schémas cachés dans de vastes zones de données collectées. Un bon exemple en est le cas d’une agence de publicité analysant les habitudes d’achat d’un client en ligne. Cette société peut alors commercialiser certains produits que l’individu pourrait être intéressé à acheter.
Une technique d’exploration de données couramment utilisée dans l’industrie est la découverte de connaissances dans des bases de données (KDD). Développé en 1989 par Gregory Piatetsky-Shapiro, KDD permet aux utilisateurs de traiter des données brutes, d'analyser les informations pour obtenir les données nécessaires et d'interpréter les résultats. Cette méthode permet aux utilisateurs de trouver des modèles dans les algorithmes. Toutefois, les données générales ne sont pas toujours précises et peuvent être assemblées de manière compromettante. Ceci est connu comme overfitting .
Les méthodes d'exploration de données de base impliquent quatre types de tâches: la classification, le regroupement, la régression et l'association. La classification prend les informations présentes et les fusionne en groupes définis. Le clustering supprime les groupements définis et permet aux données de se classer par des éléments similaires. La régression se concentre sur la fonction de l'information, en modélisant les données sur le concept. La méthode d’exploration de données finale, l’ association , tente de trouver des relations entre les différents flux de données.
Lors de l'utilisation des différentes méthodes d'exploration de données, certaines normes sont utilisées pour déterminer les paramètres pouvant être utilisés dans le processus. Le groupe d'intérêt spécial de l'Association for Computing Machinery sur la découverte de connaissances et l'exploration de données (SIGKDD) tient une réunion annuelle afin de déterminer les processus appropriés. Les facteurs éthiques sont pesés avec les applications pratiques pour trouver les meilleures informations sur les individus et les entreprises. Ces informations sont publiées dans un journal du secteur appelé SIGKDD Explorations.