¿Qué es un Data Warehouse?
El Data Warehouse es el almacenamiento electrónico donde se centrará toda la información de una empresa u organización.
Este puede almacenar tanto datos y registros históricos como la información más reciente. Los datos presente en un data warehouse deben ser almacenados de forma que sea segura, fácil de recuperar y administrar, como fiable.
La primera vez que se tiene conocimiento de este concepto es en 1988, fueron Barry Devlin y Paul Murphy, unos investigadores de IBM, quienes hicieron referencia a él. Pero el gran protagonista de esta historia en realidad es William H. (Bill) Inmon, quien acuñó el término, haciendo esto pasó a ser reconocido por todos como el gran padre del Data Warehousing.
Él lo describió como una variedad o colección de datos que se centran en un tema muy específico, variante en el tiempo, no volátil, integrado capaz de soportar procesos de toma de decisiones.
Entonces, para resumir toda la ide el data warehouse va a servir para recolectar todo dato que se generen por los sistemas de las empresas que lo usen. Este repertorio puede ser tanto físico como lógico, hará mayor esfuerzo en la captura de datos que se generen en diversas fuentes, sobre todo con un fin analítico y de acceso. Este generalmente se va a alojar en un servidor corporativo o en la nube.
Características del Data warehouse
Integrado
Los datos que se almacenarán en el data warehouse deben estar integrados en una estructura consistente, por lo que se requiere que cualquier inconsistencia esté eliminada. La información que se estructura en distintos niveles de detalle para que así se pueda adecuar a las distintas necesidades que tengan los usuarios.
Temático
Esto quiere decir que únicamente los datos que sean necesarios para un proceso de generación de conocimiento del negocio son los que se integrarán desde el entorno operacional. Estos datos van a ser organizados por temas, de forma que sea más fácil el proceso de acceder y entender los datos por parte de los usuarios.
Histórico
Implícitamente el tiempo es parte de lo que está en una data warehouse. En los sistemas de operación, estos datos siempre querrán transmitir el estado de actividad que tiene un negocio en ese momento. La información que allí se encuentra puede ser usada para hacer análisis de las tendencias de ese instante. Por lo que el data warehouse se encargará de aplicar en una variable de tiempo las comparaciones necesarias en los distintos valores que requiera.
No volátil
La información que se almacena en un data warehouse existe para que pueda ser leída, pero no para que se modifique. Lo que quiere decir que es permanente, la actualización del data warehouse solo va a significar que se incorporaron nuevos valores, sin que esto requiera alguna acción sobre las variables que ya existían.
Una característica extra del data warehouse es que contiene en el metadatos, lo que quiere decir, que tiene datos sobre los datos. Esto lo que va a permitir es que se pueda saber la procedencia de cada información, fiabilidad, forma de cálculo, entre otras cosas.
Los metadatos también van a cumplir con el propósito de simplificar y automatizar la obtención de la información que se genera desde los sistemas operaciones a los informacionales.
Ventajas principales del data warehouse
Ofrece una herramienta para que se puedan tomar decisiones en las diferentes áreas funcionales, esto solo basándose en información integrada y global de la empresa.
Hace que sea fácil la aplicación de técnicas de estadísticas para el análisis y modelación, de forma en la que se pueden encontrar relaciones que parecieran ocultas entre los datos que se almacenan.
Da la capacidad de que se pueda aprender de los datos del pasado, así como predecir las situaciones que se puedan dar en el futuro en los distintos escenarios existentes.
Va a simplificar la implantación de sistemas de gestión integral dentro de la empresa, esto en relación con el cliente.
Va a implicar la optimización tanto económica como tecnológica en entornos de centro de información, así como generación de informes con retornos de inversiones increíbles y estadísticas.
Estructura
La estructura de un data warehouse va a estar dividida en tres:
Estructura básica: los sistemas operativos y archivos planos van a proporcionar los datos en bruto que serán guardado junto con metadatos.
Es el usuario final el que tendrá acceso a ellos, para poder así analizarlos, generar tanto informes como hacer minería.
Básica con área de ensayo: este se puede poner entre las fuentes de datos y el almacenamiento. Va a proporcionar un lugar donde se puedan limpiar los datos antes de que estos entren al almacén. La personalización de la arquitectura del almacén para los grupos existentes de la organización es posible.
Agregando data marts: estos sistemas están específicamente diseñados para una línea de negocio específica. Se puede tener cada data marts de forma separada para ventas, inventarios, compras, por mencionar alguno. Los usuarios finales van a poder tener acceso a los datos de uno o de todos los data marts que posea su departamento.