Hva er datavarehusarkitektur?
Datavarehusarkitektur er et design som innkapsler alle fasetter av datavarehus for et bedriftsmiljø. Datalagring er opprettelsen av et sentralt domene for å lagre komplekse, desentraliserte bedriftsdata i en logisk enhet som muliggjør data mining, business intelligence og samlet tilgang til alle relevante data i en organisasjon. Datavarehusarkitektur inkluderer alle rapporteringskrav, datastyring, sikkerhetskrav, båndbreddekrav og lagringskrav.
Når du oppretter en datalagerarkitektur, er det viktig å dele opp arkitekturen i spesifikke domener som er koblet sammen til en helhetlig sluttdesign. Dette designet bør betraktes som den blå skrift for bedriftsdataarkitekturen. Spesielt bør flere primære områder utvikles når man vurderer datavarehusarkitektur. Disse områdene er tilgang til kildesystemer, iscenesettelsesprosess, dataanrikningsprosess, dataarkitektur, forretningsintelligensprosess og lagringskrav.
Datavarehus krever at kildedata blir overført fra en transaksjon eller database med poster inn i datavarehuset. Denne prosessen er forenklet til betegnelsen Extract Transform and Load (ETL), som i utgangspunktet innkapsler områdene med tilgang til kildesystemer, dataanrikning og dataarkitektur. For klarhetens skyld er det bedre å utforme disse arkitektoniske områdene i detalj, som skisserer hvordan ETL-prosessen skal oppnås. Selv om det kreves noe data fra kildesystemene, er all data ikke ønskelig, da det vil overbelaste virksomhetslageret. De viktigste bekymringsområdene når man adresserer kildesystemlaget er datatilgangsmetodologier, data som kreves fra kildesystemet og oppdateringskrav.
Det neste datalagearkitektoniske laget du må vurdere er iscenesettelsesprosessen. Ettersom de fleste data fra kildesystemer vil kreve validering og rensing av data, er det viktig å opprette en landingssone for kildedata som skal ligge før de lastes inn i forretningsreglene på datavarehuset. Iscenesettelsesområdet opprettholder rå datafeeds fra kildesystemer som vanligvis er tidsstemplet for å sikre nyhetene i data.
Prosessen med berikelse av data eller forretningsregler er der data blir rengjort for å møte det ønskede utfallet av datavarehuset. Et godt eksempel på denne rensemetoden er å bruke verktøy for å rense adresser; i tilfelle kildesystemet har uriktige data, vil datanrikningsprosessen kjøre adressen fra rådatasettet til et forretningsregelsystem som vil korrigere ugyldige adresser. Dette er også tiden der unøyaktige data blir slettet eller endret for å sikre fullstendighet i datavarehuset.
Det neste laget å vurdere er dataarkitekturlaget. Dette området er hvor den sanne utformingen eller skjemaet for enterprise data warehouse er fullført. Datalagring i ikke en kombinasjon av alle datasettene i en bedrift, men i stedet er det en nylig definert database bygget for å muliggjøre en oversikt over alle forretningsenheter i bedriften.
Dette krever dataarkitekturen for å svare på spørsmålene som vil stilles av virksomheten innen forretningsinformasjon og data mining. Ved å lage dataarkitekturen på denne måten, vil de rå datasettene bli omdannet til faktatabeller som lar brukerne utføre ad-hoc-rapportering på hele bedriftsvisningen i stedet for en spesifikk database. Dette er også området som vil opprettholde metadata om dataene fra det rå systemet, som kan inkludere kildesystemnavn eller primærnøkler.
Det neste området å vurdere er kravene til forretningsinnsats og rapportering. Dette laget kan betraktes som det brukervendte kravet til datalagring. Vanligvis inneholder dette området hermetiske rapporter, ad-hoc rapporteringsevne og enterprise dashboards eller varsler. Business intelligence-lagene får mest mulig hensyn, ettersom det er den eneste komponenten som vender utover i datavarehuset.
Det siste laget for vurdering er generelle krav til datalagring og vedlikehold. Når et datavarehus fortsetter å vokse og utvide, må datagrunnlagring av brukere baseres strengt og vedlikeholdes. I tillegg til å lage datavarehusarkitekturen, bør designen gjøre realistiske estimater for hva som vil være nødvendig i en datalagringskapasitet så vel som et bånd med datatilgangskapasitet. Disse kravene vil være kritiske ettersom datavarehuset blir mye brukt i hele bedriften.