Wat is datawarehouse-architectuur?
Datawarehouse-architectuur is een ontwerp dat alle facetten van datawarehousing voor een bedrijfsomgeving omvat. Data warehousing is het creëren van een centraal domein om complexe, gedecentraliseerde bedrijfsgegevens op te slaan in een logische eenheid die datamining, business intelligence en algemene toegang tot alle relevante gegevens binnen een organisatie mogelijk maakt. Datawarehouse-architectuur omvat alle rapportagevereisten, gegevensbeheer, beveiligingsvereisten, bandbreedtevereisten en opslagvereisten.
Bij het maken van een datawarehouse-architectuur is het belangrijk om de architectuur op te splitsen in specifieke domeinen die worden samengevoegd tot een holistisch definitief ontwerp. Dit ontwerp moet worden beschouwd als de blauwdruk voor de enterprise data-architectuur. In het bijzonder moeten verschillende primaire gebieden worden ontwikkeld bij het overwegen van datawarehouse-architectuur. Deze gebieden zijn bronsysteemtoegang, ensceneringsproces, gegevensverrijkingsproces, gegevensarchitectuur, business intelligence-proces en opslagvereisten.
Data warehousing vereist dat brongegevens worden overgedragen van een transactie of database of record naar het datawarehouse. Dit proces is vereenvoudigd tot de term Extract Transform and Load (ETL), die in wezen de gebieden van bronsysteemtoegang, gegevensverrijking en gegevensarchitectuur omvat. Voor de duidelijkheid is het beter om deze architecturale gebieden in detail te ontwerpen, waarin wordt geschetst hoe het ETL-proces zal worden bereikt. Hoewel sommige gegevens vereist zijn van de bronsystemen, zijn alle gegevens niet wenselijk omdat dit het enterprise-magazijn zou overbelasten. De belangrijkste aandachtspunten bij het adresseren van de bronsysteemlaag zijn gegevenstoegangsmethodologieën, gegevens die vereist zijn van het bronsysteem en verversingsvereisten.
De volgende architecturale laag voor datawarehousing die moet worden overwogen, is het staging-gebiedsproces. Aangezien de meeste gegevens uit bronsystemen moeten worden gevalideerd en opgeschoond, is het belangrijk om een landingszone voor brongegevens te maken voordat ze in de bedrijfsregelslaag van het gegevensmagazijn worden geladen. Het verzamelgebied handhaaft onbewerkte gegevensfeeds van bronsystemen die meestal een tijdstempel hebben om de recentheid van gegevens te waarborgen.
In het gegevensverrijkings- of bedrijfsregelsproces worden gegevens opgeschoond om te voldoen aan de gewenste uitkomst van het datawarehouse. Een goed voorbeeld van deze reinigingsbenadering is het gebruik van hulpmiddelen voor adresreiniging; in het geval dat het bronsysteem onjuiste gegevens heeft, zal het gegevensverrijkingsproces het adres van de onbewerkte gegevensset omzetten in een bedrijfsregelsysteem dat ongeldige adressen zou corrigeren. Dit is ook het moment waarop onnauwkeurige gegevens worden verwijderd of gewijzigd om volledigheid in het gegevensmagazijn te garanderen.
De volgende te overwegen laag is de gegevensarchitectuurlaag. In dit gebied wordt het ware ontwerp of schema van het enterprise datawarehouse voltooid. Gegevensopslag in niet een combinatie van alle gegevenssets binnen een onderneming, maar in plaats daarvan is het een nieuw gedefinieerde database die is gebouwd om een overzicht van alle bedrijfsentiteiten binnen de onderneming mogelijk te maken.
Dit vereist dat de gegevensarchitectuur antwoord geeft op de vragen die het bedrijf op het gebied van business intelligence en datamining stelt. Door de gegevensarchitectuur op deze manier te maken, worden de onbewerkte gegevenssets omgezet in feitentabellen waarmee de gebruikers ad-hocrapportage over de hele enterprise view kunnen uitvoeren in plaats van een specifieke database. Dit is ook het gebied dat metagegevens over de gegevens van het onbewerkte systeem bewaart, waaronder de bronsysteemnaam of primaire sleutels.
Het volgende aandachtspunt is de business intelligence en rapportagevereisten. Deze laag kan worden gezien als de gebruikersgerichte vereiste voor de data warehousing. Doorgaans bevat dit gebied standaardrapporten, ad-hocrapportage en bedrijfsdashboards of -meldingen. De business intelligence-lagen krijgen normaal gesproken de meeste aandacht, omdat het de enige naar buiten gerichte component binnen het datawarehouse is.
De laatste laag die in overweging moet worden genomen, zijn de algemene vereisten voor gegevensopslag en onderhoud. Terwijl een datawarehouse blijft groeien en uitbreiden, moet de gebruikersdatabase strikt worden beheerd en onderhouden. Bij het maken van de datawarehouse-architectuur moet het ontwerp bovendien realistische schattingen maken van wat nodig is voor zowel een gegevensopslagcapaciteit als een band met datatoegangscapaciteit. Deze vereisten zijn van cruciaal belang omdat het datawarehouse op grote schaal in de hele onderneming wordt gebruikt.