¿Qué es la arquitectura de Data Warehouse?
La arquitectura de almacenamiento de datos es un diseño que encapsula todas las facetas del almacenamiento de datos para un entorno empresarial. El almacenamiento de datos es la creación de un dominio central para almacenar datos empresariales complejos y descentralizados en una unidad lógica que permite la minería de datos, la inteligencia empresarial y el acceso general a todos los datos relevantes dentro de una organización. La arquitectura del almacén de datos incluye todos los requisitos de informes, gestión de datos, requisitos de seguridad, requisitos de ancho de banda y requisitos de almacenamiento.
Al crear una arquitectura de depósito de datos, es importante dividir la arquitectura en dominios específicos que se unen en un diseño final holístico. Este diseño debe considerarse el anteproyecto de la arquitectura de datos empresariales. En particular, se deben desarrollar varias áreas principales cuando se considera la arquitectura del almacén de datos. Estas áreas son el acceso al sistema de origen, el proceso del área de preparación, el proceso de enriquecimiento de datos, la arquitectura de datos, el proceso de inteligencia empresarial y los requisitos de almacenamiento.
El almacenamiento de datos requiere que los datos de origen se transfieran desde una transacción o base de datos de registro al almacén de datos. Este proceso se simplifica en el término Extraer transformación y carga (ETL), que básicamente encapsula las áreas de acceso al sistema de origen, enriquecimiento de datos y arquitectura de datos. En aras de la claridad, es mejor diseñar estas áreas arquitectónicas en detalle, que describe cómo se logrará el proceso ETL. Si bien se requieren algunos datos de los sistemas de origen, no todos los datos son deseables ya que sobrecargarían el almacén de la empresa. Las principales áreas de preocupación al abordar la capa del sistema de origen son las metodologías de acceso a datos, los datos requeridos del sistema de origen y los requisitos de actualización.
La siguiente capa arquitectónica de almacenamiento de datos a considerar es el proceso del área de ensayo. Como la mayoría de los datos de los sistemas de origen requerirán validación y limpieza de datos, es importante crear una zona de aterrizaje para que los datos de origen residan antes de cargarlos en la capa de reglas de negocio del almacén de datos. El área de preparación mantiene las fuentes de datos sin procesar de los sistemas de origen que generalmente tienen una marca de tiempo para garantizar la actualidad de los datos.
El proceso de enriquecimiento de datos o de reglas comerciales es donde los datos se limpian para cumplir con el resultado deseado del almacén de datos. Un buen ejemplo de este enfoque de limpieza es usar herramientas de limpieza de direcciones; en el caso de que el sistema de origen tenga datos incorrectos, el proceso de enriquecimiento de datos ejecutará la dirección del conjunto de datos sin procesar en un sistema de reglas de negocio que corregiría direcciones no válidas. Este es también el momento en que los datos inexactos se eliminan o modifican para garantizar la integridad dentro del almacén de datos.
La siguiente capa a considerar es la capa de arquitectura de datos. Esta área es donde se completa el verdadero diseño o esquema del almacén de datos de la empresa. El almacenamiento de datos no es una combinación de todos los conjuntos de datos dentro de una empresa, sino que es una base de datos recientemente definida creada para permitir una visión general de todas las entidades comerciales dentro de la empresa.
Esto requiere que la arquitectura de datos responda las preguntas que planteará la empresa en el área de inteligencia empresarial y minería de datos. Al crear la arquitectura de datos de esta manera, los conjuntos de datos sin procesar se transformarán en tablas de hechos que permitirán a los usuarios realizar informes ad-hoc en toda la vista empresarial en lugar de una base de datos específica. Esta es también el área que mantendrá metadatos sobre los datos del sistema sin procesar, que podrían incluir el nombre del sistema de origen o las claves primarias.
La siguiente área a considerar es la inteligencia empresarial y los requisitos de informes. Esta capa puede considerarse como el requisito de cara al usuario para el almacenamiento de datos. Por lo general, esta área contiene informes enlatados, capacidad de informes ad-hoc y paneles o alertas empresariales. Las capas de inteligencia de negocios normalmente reciben la mayor consideración, ya que es el único componente externo dentro del almacén de datos.
La capa final a considerar son los requisitos generales de almacenamiento de datos y el mantenimiento. A medida que un almacén de datos continúa creciendo y expandiéndose, el almacenamiento de datos de la base de usuarios debe ser estrictamente administrado y mantenido. Además, al crear la arquitectura del almacén de datos, el diseño debe hacer estimaciones realistas de lo que se requerirá de una capacidad de almacenamiento de datos, así como una banda con capacidad de acceso a datos. Estos requisitos serán críticos a medida que el almacén de datos se utilice ampliamente en toda la empresa.