Was ist Data Warehouse-Architektur?
Data Warehouse-Architektur ist ein Entwurf, der alle Facetten von Data Warehousing für eine Unternehmensumgebung umfasst. Data Warehousing ist die Schaffung einer zentralen Domäne zum Speichern komplexer, dezentraler Unternehmensdaten in einer logischen Einheit, die Data Mining, Business Intelligence und den allgemeinen Zugriff auf alle relevanten Daten innerhalb eines Unternehmens ermöglicht. Die Data Warehouse-Architektur umfasst alle Berichtsanforderungen, Datenmanagement-, Sicherheits-, Bandbreiten- und Speicheranforderungen.
Beim Erstellen einer Data-Warehouse-Architektur ist es wichtig, die Architektur in bestimmte Domänen zu unterteilen, die zu einem ganzheitlichen endgültigen Entwurf zusammengefasst werden. Dieser Entwurf sollte als Blaupause für die Unternehmensdatenarchitektur betrachtet werden. Insbesondere sollten bei der Betrachtung der Data-Warehouse-Architektur mehrere Hauptbereiche entwickelt werden. Diese Bereiche umfassen den Zugriff auf das Quellsystem, den Staging-Bereichsprozess, den Datenanreicherungsprozess, die Datenarchitektur, den Business Intelligence-Prozess und die Speicheranforderungen.
Data Warehousing erfordert die Übertragung von Quelldaten von einer Transaktions- oder Aufzeichnungsdatenbank in das Data Warehouse. Dieser Prozess wird unter dem Begriff Extract Transform and Load (ETL) vereinfacht, der im Wesentlichen die Bereiche Quellsystemzugriff, Datenanreicherung und Datenarchitektur umfasst. Aus Gründen der Klarheit ist es besser, diese architektonischen Bereiche detailliert zu gestalten, wobei dargelegt wird, wie der ETL-Prozess erreicht wird. Während einige Daten von den Quellsystemen benötigt werden, sind alle Daten nicht wünschenswert, da dies das Enterprise-Warehouse überlasten würde. Die Hauptproblembereiche bei der Adressierung der Quellsystemschicht sind Datenzugriffsmethoden, vom Quellsystem angeforderte Daten und Aktualisierungsanforderungen.
Die nächste zu berücksichtigende architektonische Ebene für Data Warehousing ist der Staging-Bereichsprozess. Da die meisten Daten aus Quellsystemen validiert und bereinigt werden müssen, ist es wichtig, eine Landezone für Quelldaten zu erstellen, die sich vor dem Laden in die Geschäftsregelnebene des Data Warehouse befindet. Der Staging-Bereich verwaltet Rohdaten-Feeds von Quellsystemen, die normalerweise mit einem Zeitstempel versehen sind, um die Aktualität der Daten sicherzustellen.
Bei der Datenanreicherung oder dem Prozess für Geschäftsregeln werden Daten bereinigt, um das gewünschte Ergebnis des Data Warehouse zu erzielen. Ein gutes Beispiel für diesen Bereinigungsansatz sind Tools zur Adressbereinigung. Falls das Quellsystem falsche Daten enthält, führt der Datenanreicherungsprozess die Adresse aus dem Rohdatensatz in ein Geschäftsregelsystem aus, das ungültige Adressen korrigiert. Dies ist auch der Zeitpunkt, an dem ungenaue Daten gelöscht oder geändert werden, um die Vollständigkeit innerhalb des Data Warehouse sicherzustellen.
Die nächste zu berücksichtigende Schicht ist die Datenarchitekturschicht. In diesem Bereich wird das eigentliche Design oder Schema des Enterprise Data Warehouse vervollständigt. Data Warehousing ist nicht eine Kombination aller Datensätze innerhalb eines Unternehmens, sondern eine neu definierte Datenbank, die einen Überblick über alle Geschäftseinheiten innerhalb des Unternehmens ermöglicht.
Dazu muss die Datenarchitektur die Fragen beantworten, die das Unternehmen im Bereich Business Intelligence und Data Mining stellen wird. Wenn Sie die Datenarchitektur auf diese Weise erstellen, werden die Rohdatensätze in Faktentabellen umgewandelt, die es den Benutzern ermöglichen, Ad-hoc-Berichte für die gesamte Unternehmensansicht und nicht für eine bestimmte Datenbank zu erstellen. Dies ist auch der Bereich, in dem Metadaten zu den Daten aus dem Rohsystem gespeichert werden, z. B. der Name des Quellsystems oder Primärschlüssel.
Der nächste zu berücksichtigende Bereich sind die Anforderungen an Business Intelligence und Berichterstellung. Diese Schicht kann als die dem Benutzer zugewandte Anforderung für das Data Warehousing angesehen werden. In der Regel enthält dieser Bereich vordefinierte Berichte, Ad-hoc-Berichtsfunktionen sowie Dashboards oder Warnungen für Unternehmen. Die Business Intelligence-Schichten werden normalerweise am stärksten berücksichtigt, da es sich um die einzige nach außen gerichtete Komponente innerhalb des Data Warehouse handelt.
Die letzte zu berücksichtigende Ebene sind die Anforderungen an die Datenspeicherung und die Wartung. Da ein Data Warehouse stetig wächst und wächst, muss der Datenspeicher der Benutzerbasis streng verwaltet und gewartet werden. Während der Erstellung der Data-Warehouse-Architektur sollte das Design darüber hinaus realistische Schätzungen darüber vornehmen, was für eine Datenspeicherkapazität sowie für ein Band mit Datenzugriffskapazität erforderlich ist. Diese Anforderungen werden von entscheidender Bedeutung sein, da das Data Warehouse im gesamten Unternehmen weit verbreitet ist.