Qu'est-ce que l'intégration de données?
L'intégration de données est la fusion de plusieurs sources de données dans une seule source de données. Cette pratique prend souvent beaucoup de temps et est complexe, car les différentes sources de données sont probablement incompatibles. Des choses aussi simples que des noms de colonnes différents sur une feuille de calcul suffisent à exiger un reformatage de la date. Ce processus est plus commun dans les situations où deux groupes ont démarré sans connexion, mais sont placés ensemble après avoir travaillé indépendamment. L'intégration des données est devenue un sujet plus important en raison de la prévalence de sources de données gratuites et de bases de données en ligne.
La partie données de l'intégration de données peut être presque n'importe quoi pourvu qu'elle soit stockée dans un système informatique. Le contenu réel des données est rarement aussi important que la manière dont les données sont stockées. La plupart du temps, les données sont conservées dans des bases de données, des systèmes d'information organisés. Ces systèmes contiennent des entrées et des champs uniques permettant aux utilisateurs de trouver rapidement des informations.
Le plus gros obstacle à tout processus d'intégration de données est la donnée elle-même. Dans de nombreux cas, lorsque les données ont été créées pour la première fois, il n’était pas question de fusionner le jeu de données avec un autre. Cela signifie que même si deux jeux de données peuvent faire référence à la même chose, ils sont totalement incompatibles.
Presque tout rendra les bases de données incompatibles. Une simple modification de la présentation, telle que l'ordre des champs ou la largeur des colonnes, peut suffire à empêcher une fusion aisée. Lorsque les données sont très différentes, par exemple une base de données contenant plus ou moins d'informations, la fusion est beaucoup plus difficile.
Les deux situations qui appellent l’intégration des données plus que toute autre se situent dans les domaines des affaires et de la recherche. Dans le monde des affaires, la fusion de départements ou d’entreprises nécessite de combiner les informations précédemment séparées en une seule structure. Cette forme d'intégration est généralement très difficile à moins que les groupes d'origine utilisent un logiciel similaire et poursuivent des objectifs d'information similaires.
Lorsque l'intégration des données est effectuée à des fins de recherche, cela se passe généralement beaucoup mieux. Lorsqu'un chercheur donne accès à ses informations à un autre, les deux parties envisagent généralement le même processus. Cela signifie qu'ils utiliseront des méthodes similaires pour cataloguer et stocker leurs données.
Dans le passé, l’intégration des données était un domaine relativement mineur des études de données, mais cela a changé depuis le début du XXIe siècle. Avec la popularité croissante et la précision des bases de données en ligne gratuites, les entreprises se démènent pour que leurs informations soient partageables. Cela leur permet à la fois de publier leurs informations sous une forme publique et d'intégrer des versions privées d'interfaces publiques connues dans leurs systèmes.