O que é arquitetura de data warehouse?
A arquitetura de data warehouse é um design que encapsula todas as facetas do data warehousing para um ambiente corporativo. O data warehousing é a criação de um domínio central para armazenar dados corporativos complexos e descentralizados em uma unidade lógica que permite mineração de dados, inteligência comercial e acesso geral a todos os dados relevantes dentro de uma organização. A arquitetura do data warehouse inclui todos os requisitos de relatórios, gerenciamento de dados, requisitos de segurança, requisitos de largura de banda e requisitos de armazenamento.
Ao criar uma arquitetura de armazém de dados, é importante dividir a arquitetura em domínios específicos que são unidos em um design final holístico. Esse design deve ser considerado a cópia azul da arquitetura de dados da empresa. Em particular, várias áreas principais devem ser desenvolvidas ao considerar a arquitetura do armazém de dados. Essas áreas são acesso ao sistema de origem, processo da área de preparação, processo de enriquecimento de dados, arquitetura de dados, processo de inteligência de negócios e requisitos de armazenamento.
O data warehousing exige que os dados de origem sejam transferidos de um transacional ou banco de dados de registro para o data warehouse. Esse processo é simplificado no termo ETL (Extract Transform and Load), que basicamente encapsula as áreas de acesso ao sistema de origem, enriquecimento de dados e arquitetura de dados. Por uma questão de clareza, é melhor projetar essas áreas arquitetônicas em detalhes, descrevendo como o processo ETL será alcançado. Embora alguns dados sejam necessários nos sistemas de origem, todos os dados não são desejáveis, pois sobrecarregariam o armazém da empresa. As principais áreas de preocupação ao abordar a camada do sistema de origem são metodologias de acesso a dados, dados exigidos do sistema de origem e requisitos de atualização.
A próxima camada arquitetural do data warehouse a considerar é o processo da área de preparação. Como a maioria dos dados dos sistemas de origem exigirá validação e limpeza de dados, é importante criar uma zona de aterrissagem para que os dados de origem residam antes do carregamento na camada de regras de negócios do armazém de dados. A área de armazenamento temporário mantém feeds de dados brutos dos sistemas de origem que normalmente possuem carimbo de data e hora para garantir a atualidade dos dados.
O processo de enriquecimento de dados ou de regras de negócios é onde os dados são limpos para atender ao resultado desejado do data warehouse. Um bom exemplo dessa abordagem de limpeza é usar ferramentas de limpeza de endereço; caso o sistema de origem tenha dados incorretos, o processo de enriquecimento de dados executará o endereço do conjunto de dados brutos em um sistema de regras de negócios que corrija endereços inválidos. Também é o momento em que dados imprecisos são excluídos ou modificados para garantir a integridade dentro do armazém de dados.
A próxima camada a considerar é a camada de arquitetura de dados. É nessa área que o verdadeiro design ou esquema do data warehouse corporativo é concluído. O data warehousing não é uma combinação de todos os conjuntos de dados de uma empresa, mas, em vez disso, é um banco de dados recém-criado, criado para permitir uma visão geral de todas as entidades de negócios da empresa.
Isso requer que a arquitetura de dados responda às perguntas que serão colocadas pelos negócios na área de business intelligence e mineração de dados. Ao criar a arquitetura de dados dessa maneira, os conjuntos de dados brutos serão transformados em tabelas de fatos que permitirão que os usuários executem relatórios ad-hoc em toda a exibição da empresa e não em um banco de dados específico. Essa também é a área que manterá os metadados sobre os dados do sistema bruto, que podem incluir o nome do sistema de origem ou as chaves primárias.
A próxima área a considerar são os requisitos de inteligência de negócios e relatórios. Essa camada pode ser considerada o requisito voltado ao usuário para o data warehousing. Normalmente, essa área contém relatórios em lata, capacidade de relatório ad-hoc e painéis ou alertas corporativos. As camadas de inteligência de negócios normalmente recebem mais consideração, pois é o único componente externo no armazém de dados.
A camada final a considerar é a manutenção e os requisitos gerais de armazenamento de dados. Como um data warehouse continua a crescer e a se expandir, o armazenamento de dados da base de usuários deve ser rigorosamente gerenciado e mantido. Além disso, ao criar a arquitetura do data warehouse, o design deve fazer estimativas realistas sobre o que será necessário para formar uma capacidade de armazenamento de dados e também uma banda com capacidade de acesso a dados. Esses requisitos serão críticos à medida que o data warehouse se tornar amplamente utilizado em toda a empresa.