データウェアハウスアーキテクチャとは
データウェアハウスアーキテクチャは、エンタープライズ環境のデータウェアハウジングのすべての側面をカプセル化する設計です。 データウェアハウジングとは、データマイニング、ビジネスインテリジェンス、および組織内のすべての関連データへの全体的なアクセスを可能にする論理ユニットに複雑な分散エンタープライズデータを格納する中央ドメインの作成です。 データウェアハウスアーキテクチャには、すべてのレポート要件、データ管理、セキュリティ要件、帯域幅要件、およびストレージ要件が含まれます。
データウェアハウスアーキテクチャを作成する場合、アーキテクチャを特定のドメインに分割して、全体的な最終設計に結合することが重要です。 この設計は、エンタープライズデータアーキテクチャの青写真と見なされる必要があります。 特に、データウェアハウスアーキテクチャを検討する際には、いくつかの主要な領域を開発する必要があります。 これらの領域は、ソースシステムアクセス、ステージング領域プロセス、データ強化プロセス、データアーキテクチャ、ビジネスインテリジェンスプロセス、およびストレージ要件です。
データウェアハウジングでは、ソースデータをトランザクションまたはレコードのデータベースからデータウェアハウスに転送する必要があります。 このプロセスは、基本的にソースシステムアクセス、データ強化、およびデータアーキテクチャの領域をカプセル化する用語、変換およびロードの抽出(ETL)に簡略化されています。 明確にするために、これらのアーキテクチャ領域を詳細に設計することをお勧めします。これは、ETLプロセスがどのように達成されるかを概説しています。 ソースシステムからの一部のデータが必要ですが、すべてのデータがエンタープライズウェアハウスに負担をかけるため、望ましくありません。 ソースシステムレイヤーに対処する際の主要な関心領域は、データアクセス方法、ソースシステムから必要なデータ、およびリフレッシュ要件です。
次に考慮すべきデータウェアハウジングアーキテクチャ層は、ステージングエリアプロセスです。 ソースシステムからのほとんどのデータには検証とデータクレンジングが必要になるため、データウェアハウスのビジネスルールレイヤーに読み込む前に、ソースデータが常駐するランディングゾーンを作成することが重要です。 ステージング領域は、データの最新性を確保するために通常タイムスタンプが付けられたソースシステムからの生データフィードを維持します。
データエンリッチメントまたはビジネスルールプロセスでは、データウェアハウスの望ましい結果に合わせてデータがクリーンアップされます。 このクレンジングアプローチの良い例は、アドレスクレンジングツールの使用です。 ソースシステムに不正なデータがある場合、データエンリッチメントプロセスは、生データセットから無効なアドレスを修正するビジネスルールシステムにアドレスを実行します。 これは、データウェアハウス内の完全性を確保するために、不正確なデータが削除または変更される時期でもあります。
次に考慮すべき層は、データアーキテクチャ層です。 この領域では、エンタープライズデータウェアハウスの真の設計またはスキーマが完成します。 データウェアハウジングは、企業内のすべてのデータセットの組み合わせではなく、企業内のすべてのビジネスエンティティの概要を可能にするために構築された新しく定義されたデータベースです。
これには、ビジネスインテリジェンスとデータマイニングの分野でビジネスが提起する質問に答えるためのデータアーキテクチャが必要です。 この方法でデータアーキテクチャを作成すると、生データセットがファクトテーブルに変換され、ユーザーは特定のデータベースではなくエンタープライズビュー全体でアドホックレポートを実行できます。 これは、ソースシステム名またはプライマリキーを含む可能性のあるrawシステムからのデータに関するメタデータを保持する領域でもあります。
次に考慮すべき分野は、ビジネスインテリジェンスとレポートの要件です。 この層は、データウェアハウジングのユーザー向けの要件と考えることができます。 通常、この領域には、定型レポート、アドホックレポート機能、エンタープライズダッシュボードまたはアラートが含まれます。 ビジネスインテリジェンスレイヤーは、データウェアハウス内で唯一の外向きコンポーネントであるため、通常、最も考慮されます。
考慮すべき最後の層は、全体的なデータストレージ要件とメンテナンスです。 データウェアハウスが拡大および拡大し続けるにつれて、ユーザーベースのデータストレージを厳密に管理および維持する必要があります。 さらに、データウェアハウスアーキテクチャの作成中に、データストレージ容量およびデータアクセス容量の帯域から何が必要かについて、現実的な見積もりを行う必要があります。 これらの要件は、データウェアハウスが企業全体で広く使用されるようになるにつれて重要になります。