Data warehouse

Arquitectura de almacenes de datos

Cuando los almacenes de datos aparecieron en escena a finales de los años 80, su objetivo era facilitar el flujo de datos desde los sistemas operativos a los sistemas de apoyo a la toma de decisiones (DSS). Estos primeros almacenes de datos requerían una enorme redundancia. La mayoría de las organizaciones contaban con múltiples entornos DSS que daban servicio a sus distintos usuarios. Aunque los entornos DSS utilizaban muchos de los mismos datos, la recopilación, limpieza e integración de los datos a menudo se replicaba para cada entorno.

A medida que los almacenes de datos se hicieron más eficientes, evolucionaron de almacenes de información que daban soporte a las plataformas de BI tradicionales a amplias infraestructuras de análisis que dan soporte a una gran variedad de aplicaciones, como el análisis operativo y la gestión del rendimiento.

Cada uno de estos cinco pasos ha requerido una variedad cada vez mayor de conjuntos de datos. Los tres últimos pasos, en particular, crean el imperativo de una gama aún más amplia de datos y capacidades analíticas.

Hoy en día, la IA y el aprendizaje automático están transformando casi todos los sectores, servicios y activos empresariales, y los almacenes de datos no son una excepción. La expansión del big data y la aplicación de nuevas tecnologías digitales están impulsando el cambio en los requisitos y capacidades de los almacenes de datos.

Herramientas de almacén de datos

Un almacén de datos es un depósito centralizado de datos integrados procedentes de una o varias fuentes dispares. Los almacenes de datos almacenan datos actuales e históricos y se utilizan para la elaboración de informes y el análisis de los datos.

Para trasladar datos a un almacén de datos, éstos se extraen periódicamente de diversas fuentes que contienen información empresarial importante. A medida que se trasladan, los datos pueden formatearse, limpiarse, validarse, resumirse y reorganizarse. Alternativamente, los datos pueden almacenarse en el nivel más bajo de detalle, con vistas agregadas proporcionadas en el almacén para la elaboración de informes. En cualquiera de los dos casos, el almacén de datos se convierte en un depósito permanente de datos para la elaboración de informes, análisis e inteligencia empresarial (BI).

Elija un almacén de datos cuando necesite convertir cantidades masivas de datos procedentes de sistemas operativos en un formato fácil de entender. Los almacenes de datos no tienen por qué seguir la misma estructura de datos tersa que puede estar utilizando en sus bases de datos OLTP. Puede utilizar nombres de columnas que tengan sentido para los usuarios y analistas de negocio, reestructurar el esquema para simplificar las relaciones y consolidar varias tablas en una sola. Estos pasos ayudan a orientar a los usuarios que necesitan crear informes y analizar los datos en sistemas BI, sin la ayuda de un administrador de bases de datos (DBA) o un desarrollador de datos.

Ejemplo de almacén de datos

En informática, un almacén de datos (DW o DWH, por sus siglas en inglés), también conocido como almacén de datos empresariales (EDW, por sus siglas en inglés), es un sistema utilizado para la elaboración de informes y el análisis de datos, y se considera un componente básico de la inteligencia empresarial[1]. Los DW son depósitos centrales de datos integrados procedentes de una o varias fuentes dispares. Almacenan datos actuales e históricos en un único lugar[2] que se utilizan para crear informes analíticos para los trabajadores de toda la empresa[3]. Esto es beneficioso para las empresas, ya que les permite interrogar y extraer información de sus datos y tomar decisiones[4].

Los datos almacenados en el almacén se cargan desde los sistemas operativos (como los de marketing o ventas). Los datos pueden pasar por un almacén de datos operativos y pueden requerir una limpieza de datos[2] para realizar operaciones adicionales que garanticen la calidad de los datos antes de que se utilicen en el DW para la elaboración de informes.

El típico almacén de datos basado en extracción, transformación y carga (ETL)[5] utiliza capas de preparación, integración de datos y acceso para albergar sus funciones clave. La capa de preparación o base de datos de preparación almacena los datos en bruto extraídos de cada uno de los sistemas de datos de origen dispares. La capa de integración integra los conjuntos de datos dispares transformando los datos de la capa de preparación, y a menudo almacena estos datos transformados en una base de datos de almacenamiento de datos operativos (ODS). A continuación, los datos integrados se trasladan a otra base de datos, a menudo denominada base de datos del almacén de datos, donde los datos se organizan en grupos jerárquicos, a menudo denominados dimensiones, y en hechos y hechos agregados. La combinación de hechos y dimensiones se denomina a veces esquema en estrella. La capa de acceso ayuda a los usuarios a recuperar los datos[6].

Almacén de datos – azure

Un almacén de datos (o almacén de datos empresariales) almacena grandes cantidades de datos que se han recopilado e integrado a partir de múltiples fuentes. Dado que las organizaciones dependen de estos datos para el análisis y la elaboración de informes, los datos deben tener un formato coherente y ser fácilmente accesibles, dos cualidades que definen el almacenamiento de datos y lo hacen esencial para las empresas de hoy en día.

Cuando los datos empezaron a proliferar en los años 70 y 80, las organizaciones necesitaban una forma de almacenar y acceder a toda su información. El informático Bill Inmon, padre del data warehousing, empezó a definir el concepto en los años 70 y se le atribuye la acuñación del término «almacén de datos». En 1992 publicó Building the Data Warehouse, alabado como fuente fundamental de la tecnología de almacenamiento de datos. La definición de almacén de datos de Inmon adopta un enfoque «descendente», según el cual primero se establece un repositorio centralizado y luego se crean dentro de ese repositorio los data marts, que contienen subconjuntos específicos de datos.

Ralph Kimball, otro experto en tecnología que publicó The Data Warehouse Toolkit a mediados de los 90, adoptó una visión ligeramente distinta del concepto de almacén de datos. En su enfoque «ascendente», primero se desarrollan los data marts individuales y luego se integran para crear un almacén de datos.