Co je to architektura datových skladů?
Architektura datového skladu je design, který zapouzdřuje všechny aspekty skladování dat pro podnikové prostředí. Skladování dat je vytvoření centrální domény pro ukládání komplexních, decentralizovaných podnikových dat v logické jednotce, která umožňuje dolování dat, obchodní zpravodajství a celkový přístup ke všem relevantním datům v organizaci. Architektura datového skladu zahrnuje všechny požadavky na podávání zpráv, správu dat, požadavky na zabezpečení, požadavky na šířku pásma a požadavky na úložiště.
Při vytváření architektury datového skladu je důležité rozdělit architekturu do konkrétních domén, které jsou spojeny do holistického finálního návrhu. Tento návrh by měl být považován za modrý tisk pro architekturu podnikových dat. Při zvažování architektury datového skladu by mělo být vyvinuto zejména několik primárních oblastí. Těmito oblastmi jsou přístup ke zdrojovému systému, proces pracovní oblasti, proces obohacení dat, architektura dat, proces business intelligence a požadavky na úložiště.
Skladování dat vyžaduje, aby byla zdrojová data přenesena z transakčního nebo databáze záznamu do datového skladu. Tento proces je zjednodušen na pojem extrakce transformace a zatížení (ETL), který v zásadě zahrnuje oblasti přístupu ke zdrojovému systému, obohacení dat a architektury dat. V zájmu jasnosti je lepší tyto architektonické oblasti navrhnout podrobně, což nastíní, jak bude dosaženo procesu ETL. Zatímco některá data jsou požadována od zdrojových systémů, všechna data nejsou žádoucí, protože by to přetížilo podnikový sklad. Primárními oblastmi zájmu při adresování zdrojové systémové vrstvy jsou metodiky přístupu k datům, data požadovaná od zdrojového systému a požadavky na aktualizaci.
Další architektonická vrstva pro ukládání dat, která je třeba zvážit, je proces pracovní plochy. Protože většina dat ze zdrojových systémů bude vyžadovat ověření a čištění dat, je důležité vytvořit vstupní zónu pro zdrojová data, která budou umístěna před načtením do vrstvy obchodních pravidel datového skladu. Pracovní plocha udržuje zdroje prvotních dat ze zdrojových systémů, které jsou obvykle časově označeny, aby byla zajištěna aktuálnost dat.
Proces obohacení dat nebo obchodních pravidel je místo, kde jsou data čištěna, aby splňovala požadovaný výsledek datového skladu. Dobrým příkladem tohoto přístupu k čištění je použití nástrojů pro čištění adres; v případě, že zdrojový systém obsahuje nesprávná data, proces obohacení dat spustí adresu ze sady prvotních dat do systému obchodních pravidel, který by opravil neplatné adresy. To je také čas, kdy jsou nepřesná data vymazána nebo upravena, aby byla zajištěna úplnost v datovém skladu.
Další vrstvou, kterou je třeba zvážit, je vrstva datové architektury. V této oblasti je dokončen skutečný návrh nebo schéma datového skladu podnikových dat. Skladování dat není kombinací všech datových sad v rámci podniku, nýbrž je to nově definovaná databáze, která umožňuje přehled všech podnikatelských subjektů v podniku.
To vyžaduje, aby datová architektura odpovídala na otázky, které bude klást podnik v oblasti business intelligence a dolování dat. Tímto způsobem vytvoříte datovou architekturu tímto způsobem, surové datové sady budou transformovány do faktických tabulek, které uživatelům umožní provádět ad-hoc reporting v celém podnikovém zobrazení, spíše než v konkrétní databázi. Toto je také oblast, která bude udržovat metadata o datech z nezpracovaného systému, která by mohla zahrnovat název zdrojového systému nebo primární klíče.
Další oblastí, kterou je třeba zvážit, jsou požadavky na obchodní zpravodajství a podávání zpráv. Tuto vrstvu lze považovat za požadavek uživatele na skladování dat. Tato oblast obvykle obsahuje předpřipravené přehledy, možnost podávání zpráv ad hoc a podnikové dashboardy nebo výstrahy. Vrstvy podnikové inteligence obvykle dostávají nejvíce pozornosti, protože je to jediná součást směřující ven v datovém skladu.
Poslední vrstvou, kterou je třeba zvážit, jsou celkové požadavky na ukládání a údržbu dat. Protože datový sklad neustále roste a rozšiřuje se, musí být striktně spravováno a udržováno ukládání dat na uživatelské základně. Kromě toho by při vytváření architektury datového skladu mělo být provedeno realistické odhady toho, co bude vyžadováno od kapacity pro ukládání dat a pásma s kapacitou pro přístup k datům. Tyto požadavky budou kritické, protože datový sklad bude v celém podniku široce využíván.