Qu'est-ce que l'architecture d'entrepôt de données?
L’architecture de l’entrepôt de données est une conception qui englobe toutes les facettes de l’entreposage de données pour un environnement d’entreprise. L'entreposage de données est la création d'un domaine central pour stocker des données d'entreprise complexes et décentralisées dans une unité logique qui permet l'exploration de données, la veille stratégique et l'accès global à toutes les données pertinentes d'une organisation. L’architecture de l’entrepôt de données comprend toutes les exigences en matière de rapport, de gestion des données, de sécurité, de bande passante et de stockage.
Lors de la création d'une architecture d'entrepôt de données, il est important de diviser l'architecture en domaines spécifiques qui sont joints à une conception finale holistique. Cette conception doit être considérée comme l’empreinte bleue de l’architecture de données d’entreprise. En particulier, plusieurs domaines principaux doivent être développés lors de l’architecture de l’entrepôt de données. Ces domaines sont l’accès au système source, le processus de la zone de transfert, le processus d’enrichissement des données, l’architecture des données, le processus de Business Intelligence et les exigences de stockage.
L'entreposage de données exige que les données source soient transférées d'une base de données transactionnelle ou transactionnelle vers l'entrepôt de données. Ce processus est simplifié sous le terme Extraction de transformation et chargement (ETL), qui englobe essentiellement les zones d'accès au système source, d'enrichissement des données et d'architecture de données. Par souci de clarté, il est préférable de concevoir ces zones architecturales en détail, ce qui explique comment le processus ETL sera réalisé. Certaines données sont requises à partir des systèmes sources, mais elles ne sont pas souhaitables car elles surchargeraient l’entrepôt de l’entreprise. Les principaux domaines de préoccupation lors de l'adressage de la couche système source sont les méthodologies d'accès aux données, les données requises du système source et les exigences d'actualisation.
La prochaine couche architecturale d'entreposage de données à prendre en compte est le processus de zone de transfert. Comme la plupart des données des systèmes sources nécessiteront une validation et un nettoyage, il est important de créer une zone de destination pour que les données source résident avant leur chargement dans la couche de règles commerciales de l'entrepôt de données. La zone de stockage intermédiaire conserve les flux de données brutes provenant des systèmes sources généralement horodatés pour garantir la actualité des données.
Le processus d'enrichissement des données ou de règles métier est l'endroit où les données sont nettoyées pour atteindre le résultat souhaité de l'entrepôt de données. Un bon exemple de cette approche de nettoyage est l’utilisation d’outils de nettoyage d’adresses; Si le système source contient des données incorrectes, le processus d’enrichissement des données exécutera l’adresse du jeu de données brutes dans un système de règles commerciales permettant de corriger les adresses non valides. C’est aussi le moment où des données inexactes sont supprimées ou modifiées pour garantir l’exhaustivité au sein de l’entrepôt de données.
La couche suivante à considérer est la couche d'architecture de données. Cette zone est l'endroit où la véritable conception ou le schéma de l'entrepôt de données d'entreprise est terminé. L'entreposage de données ne constitue pas une combinaison de tous les ensembles de données d'une entreprise, mais une base de données nouvellement définie conçue pour permettre une vue d'ensemble de toutes les entités commerciales de l'entreprise.
Cela nécessite que l’architecture des données réponde aux questions que se posera l’entreprise dans le domaine de la veille stratégique et de l’exploration de données. En créant l'architecture de données de cette manière, les ensembles de données brutes seront transformés en tables de faits qui permettront aux utilisateurs de créer des rapports ad hoc sur la vue globale de l'entreprise plutôt que sur une base de données spécifique. C'est également la zone qui gérera les métadonnées sur les données du système brut, qui pourraient inclure le nom du système source ou des clés primaires.
Le prochain domaine à considérer concerne les exigences en matière de business intelligence et de reporting. Cette couche peut être considérée comme une exigence vis-à-vis de l'utilisateur pour l'entreposage de données. En règle générale, cette zone contient des rapports prédéfinis, une fonctionnalité de rapport ad-hoc et des tableaux de bord ou des alertes d'entreprise. Les couches de business intelligence sont généralement les plus prises en compte, car il s'agit du seul composant extérieur de l'entrepôt de données.
La dernière couche à prendre en compte est la configuration globale requise pour le stockage et la maintenance des données. Alors qu'un entrepôt de données continue de croître et de se développer, le stockage des données de base des utilisateurs doit être strictement géré et maintenu. En outre, lors de la création de l’architecture de l’entrepôt de données, la conception doit permettre d’évaluer de manière réaliste les capacités requises en termes de capacité de stockage de données et de bande avec capacité d’accès aux données. Ces exigences seront critiques à mesure que l’entrepôt de données sera largement utilisé dans l’entreprise.