Hvad er datavarehusarkitektur?
Datalagerarkitektur er et design, der indkapsler alle aspekter af datalager til et virksomhedsmiljø. Datalagring er oprettelsen af et centralt domæne til lagring af komplekse, decentrale virksomhedsdata i en logisk enhed, der muliggør dataudvinding, forretningsinformation og samlet adgang til alle relevante data i en organisation. Datalagerarkitektur inkluderer alle rapporteringskrav, datastyring, sikkerhedskrav, båndbreddekrav og opbevaringskrav.
Når du opretter en datalagerarkitektur, er det vigtigt at opdele arkitekturen i specifikke domæner, der er forbundet til et holistisk endeligt design. Dette design skal betragtes som den blå udskrivning for virksomhedsdataarkitekturen. Især skal flere primære områder udvikles, når man overvejer datalagerarkitektur. Disse områder er kildesystemadgang, iscenesættelsesproces, databerigelsesproces, dataarkitektur, business intelligence-proces og opbevaringskrav.
Datalagring kræver, at kildedata overføres fra en transaktion eller database med posten til datalageret. Denne proces er forenklet til udtrykket Extract Transform and Load (ETL), der dybest set indkapsler områderne med kildesystemadgang, databerigelse og dataarkitektur. For klarhedens skyld er det bedre at designe disse arkitektoniske områder i detaljer, der skitserer, hvordan ETL-processen skal opnås. Selvom nogle data kræves fra kildesystemerne, er alle data ikke ønskelige, da det vil overbelaste virksomhedslageret. De primære bekymringsområder ved adressering af kildesystemlaget er datatilgangsmetodologier, data, der kræves fra kildesystemet, og opdateringskrav.
Det næste datalagerarkitekturlag, der skal tages i betragtning, er iscenesættelsesområdet. Da de fleste data fra kildesystemer kræver validering og rensning af data, er det vigtigt at oprette en landingszone, hvor kildedata kan opholde sig, inden de indlæses i datalagerets forretningsregler. Iscenesættelsesområdet opretholder rå datafeeds fra kildesystemer, der typisk er tidsstemplet for at sikre datoen for nyhed.
Processen til berigelse af data eller forretningsregler er, hvor data renses for at imødekomme det ønskede resultat af datalageret. Et godt eksempel på denne rengøringsmetode er at bruge adresserensrensningsværktøjer; i tilfælde af, at kildesystemet har forkerte data, kører datainrikningsprocessen adressen fra rådatasættet til et forretningsregelsystem, der korrigerer ugyldige adresser. Dette er også det tidspunkt, hvor unøjagtige data slettes eller ændres for at sikre fuldstændighed i datalageret.
Det næste lag at overveje er dataarkitekturlaget. Dette område er hvor det rigtige design eller skema for enterprise data warehouse er afsluttet. Datalagring i ikke en kombination af alle datasæt i en virksomhed, men i stedet er det en nyligt defineret database bygget til at muliggøre en oversigt over alle forretningsenheder i virksomheden.
Dette kræver, at dataarkitekturen skal besvare de spørgsmål, der vil blive stillet af virksomheden inden for business intelligence og data mining. Ved at oprette dataarkitekturen på denne måde omdannes de rå datasæt til faktatabeller, der giver brugerne mulighed for at udføre ad-hoc-rapportering på hele virksomhedsvisningen snarere end en bestemt database. Dette er også det område, der opretholder metadata om dataene fra det rå system, som kan indeholde kildesystemnavnet eller de primære nøgler.
Det næste område, der skal overvejes, er kravene til forretningsinformation og rapportering. Dette lag kan betragtes som det brugervendte krav til datalagring. Dette område indeholder typisk dåse rapporter, ad-hoc rapporteringsevne og enterprise dashboards eller advarsler. Business intelligence-lagene får normalt mest hensyn, da det er den eneste udadvendte komponent inden for datalageret.
Det sidste lag til overvejelse er overordnede krav til datalagring og vedligeholdelse. Da et datalager fortsætter med at vokse og udvide, skal brugerbase-datalagring administreres og vedligeholdes strengt. Desuden skal designen foretage realistiske skøn over, hvad der kræves fra en datalagringskapacitet samt et bånd med datatilgangskapacitet, mens det opretter datalagerarkitekturen. Disse krav vil være kritiske, da datavarehallen bliver udbredt brugt i hele virksomheden.