Che cos'è l'architettura del data warehouse?
L'architettura del data warehouse è un progetto che incapsula tutti gli aspetti del data warehousing per un ambiente aziendale. Il data warehousing è la creazione di un dominio centrale per l'archiviazione di dati aziendali complessi e decentralizzati in un'unità logica che consente il data mining, la business intelligence e l'accesso globale a tutti i dati rilevanti all'interno di un'organizzazione. L'architettura del data warehouse include tutti i requisiti di reporting, gestione dei dati, requisiti di sicurezza, requisiti di larghezza di banda e requisiti di archiviazione.
Quando si crea un'architettura di data warehouse, è importante suddividere l'architettura in domini specifici che sono uniti in un progetto finale olistico. Questo design deve essere considerato la stampa blu per l'architettura dei dati aziendali. In particolare, è necessario sviluppare diverse aree primarie quando si considera l'architettura del data warehouse. Queste aree sono l'accesso al sistema di origine, il processo dell'area di gestione temporanea, il processo di arricchimento dei dati, l'architettura dei dati, il processo di business intelligence e i requisiti di archiviazione.
Il data warehousing richiede che i dati di origine vengano trasferiti da un database transazionale o transazionale nel data warehouse. Questo processo è semplificato con il termine Extract Transform and Load (ETL), che sostanzialmente incapsula le aree di accesso al sistema di origine, l'arricchimento e l'architettura dei dati. Per motivi di chiarezza, è meglio progettare queste aree architettoniche in dettaglio, il che delinea il modo in cui verrà realizzato il processo ETL. Mentre alcuni dati sono richiesti dai sistemi di origine, tutti i dati non sono desiderabili in quanto sovraccaricherebbero il magazzino aziendale. Le principali aree di preoccupazione quando si affronta il livello del sistema di origine sono le metodologie di accesso ai dati, i dati richiesti dal sistema di origine e i requisiti di aggiornamento.
Il prossimo livello architettonico di data warehousing da considerare è il processo dell'area di gestione temporanea. Poiché la maggior parte dei dati provenienti dai sistemi di origine richiederà la convalida e la pulizia dei dati, è importante creare una zona di atterraggio affinché i dati di origine risiedano prima del caricamento nel livello delle regole di business del data warehouse. L'area di gestione temporanea mantiene i feed di dati non elaborati dai sistemi di origine che sono in genere con data e ora per garantire la modernità dei dati.
Il processo di arricchimento dei dati o delle regole aziendali è il luogo in cui i dati vengono puliti per soddisfare il risultato desiderato del data warehouse. Un buon esempio di questo approccio di pulizia è l'utilizzo degli strumenti di pulizia degli indirizzi; nel caso in cui il sistema di origine abbia dati errati, il processo di arricchimento dei dati eseguirà l'indirizzo dal set di dati grezzi in un sistema di regole di business che correggerebbe gli indirizzi non validi. Questo è anche il momento in cui i dati inaccurati vengono eliminati o modificati per garantire completezza all'interno del data warehouse.
Il livello successivo da considerare è il livello dell'architettura dei dati. Quest'area è il punto in cui viene completato il vero disegno o schema del data warehouse aziendale. Il data warehousing non è una combinazione di tutti i set di dati all'interno di un'azienda, ma è invece un database appena definito creato per consentire una panoramica di tutte le entità aziendali all'interno dell'azienda.
Ciò richiede che l'architettura dei dati risponda alle domande che verranno poste dall'azienda nell'area della business intelligence e del data mining. Creando l'architettura dei dati in questo modo, i set di dati grezzi verranno trasformati in tabelle di fatti che consentiranno agli utenti di eseguire report ad hoc sull'intera vista aziendale anziché su un database specifico. Questa è anche l'area che manterrà i metadati sui dati dal sistema grezzo, che potrebbe includere il nome del sistema di origine o le chiavi primarie.
La prossima area da considerare sono i requisiti di business intelligence e di reporting. Questo livello può essere considerato un requisito rivolto all'utente per il data warehousing. In genere, quest'area contiene report predefiniti, funzionalità di reporting ad hoc e dashboard o avvisi aziendali. I livelli di business intelligence ottengono normalmente la massima considerazione, in quanto è l'unico componente rivolto verso l'esterno all'interno del data warehouse.
Il livello finale da prendere in considerazione sono i requisiti generali di conservazione e manutenzione dei dati. Man mano che un data warehouse continua a crescere ed espandersi, l'archiviazione dei dati di base degli utenti deve essere rigorosamente gestita e mantenuta. Inoltre, durante la creazione dell'architettura del data warehouse, il progetto dovrebbe fare stime realistiche su ciò che sarà richiesto da una capacità di archiviazione dei dati e da una banda con capacità di accesso ai dati. Questi requisiti saranno fondamentali poiché il data warehouse sarà ampiamente utilizzato in tutta l'azienda.