漫谈企业数据仓库的演进

数据仓库的概念诞生最早可追溯到上世纪70年代,回顾早期的企业环境,企业的生产与服务是一个很长周期,导致业务
摘要

数据仓库的概念诞生最早可追溯到上世纪70年代,回顾早期的企业环境,企业的生产与服务是一个很长周期,导致业务数据呈现一种粗粒度模式。

随着互联网的快速渗透,从早期的pc到现在的移动互联网,业务的需求与服务周期逐渐变短,业务数据量级,与数据类型的多样化暴增,对应着的技术、架构、理论也显出快速发展。从最开始的数据仓库到现在的大数据,中间经历过太多的技术、架构模式的演进与变革,从最初的数据仓库到海量数据,从大数据到现在的数据平台,从数据中台到数据湖。中间还穿插着人工智能与云计算两大技术体系。

数据仓库在国外的发展历史多年,进入中国的时间大概在1998-1999年左右,中间大致经历了两个阶段,从传统企业的数据仓库架构到现在互联网时代的大数据之下的数据仓库架构,有着明显的变更。本文按照数据仓库的发展历程,细说数据仓库的发展历程,最后再讨论下技术体系对数据仓库架构的影响。

1

传统企业数据仓库

从数据仓库的萌芽至今,传统企业的数据仓库大致可以分为五个时代,四种架构。

1970~1991 数据仓库概念萌芽到全企业集成

1991~1994 EDW企业数据集成时代(Inmon 数据仓库一书,范式建模)

1994~1996 数据集市时代(kimball维度建模)

1996~1997 神仙大战时代(维度建模与范式建模争论)

1998~2001 合并时代(CIF架构)

1.1 范式建模

五个时代均是以重要事件或者人物的出现作为划分,比如说EDW企业数据集成时代是以Bill Inmon大作《Building the Data Warehouse》作为划分,在这本书里面Inmon给出了数据仓库定义:数据仓库(DataWarehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策(Decision-Making Support)。该书还提供了建立数据仓库的指导意见和基本原则。凭借此书,Bill Inmon被称为数据仓库之父。

1.2 维度建模

数据仓库的概念确立之后,有关数据仓库的实施方法、实施路径和架构等问题引发了诸多争议。在实际运用中,大部分企业也都以失败告终。这时候数据集市时代代表人物 Ralph kilmball及其代表作《The Data Warehouse Toolkit》出现。在数据仓库的建设上提出了自下而上的建设方法,刚好与Bill Inmon的范式建模自上而下建设理论相反。这两种理论的架构是各有千秋,所以就进入的争吵年代。

(范式建模以及维度建模的架构图)

Inmon提出的集线器的自上而下(EDW-DM)的数据仓库架构。操作型或事务型系统的数据源,通过ETL抽取转换和加载到数据仓库的ODS层,然后通过ODS的数据建设原子数据的数据仓库EDW,EDW不是多维格式的,不方便上层应用做数据分析,所以需要通过汇总建设成多维格式的数据集市层。

范式建模应用在EDW层,一个符合3范式的关系必须具有以下三个条件:

每个属性的值唯一,不具有多义性;

每个非主属性必须完全依赖于整个主键,而非主键的一部分;

每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去。

但是由于EDW的数据是原子粒度的,数据量比较大,完全规范的3范式在数据的交互的时候效率比较低下,所以通常会根据实际情况在事实表上做一些冗余,减少过多的数据交互。

Inmon理论下结构就是:ODS、EDW(ADM/FDM)和DM,也就是贴源层、主题模型层、共性加工层以及集市层。每一个层对应于数据库下面的模式,接下来依次介绍这四个层:

(1)ODS(贴源层):即这里存放的数据与原系统保持一致,将采集公司所有的系统产生的数据以及外部数据(包括合作数据以及爬虫获得的数据),将所采集的数据汇总到一起,供EDW和DM使用;

(2)EDW:这一层分为两个,即ADM(共性加工层)和FDM(主题模型层)。其中FDM将从ODS层不同系统不同表的字段进行分类,同一主题的字段都归为一类,之前针对不同行业的十大主题;ADM是加工一些共性的指标,指标从ODS或者FDM的字段加工来,这层主要供集市层使用;

(3)DM:数据集市层,这一层是将业务部门所关注的指标进行汇总,形成的数据,不同的业务部门可以形成不同的集市,具体情况可以视情况而定;集市层的架构可以细分为:基础层、汇总层和分析层。

Kimball提出的总线式的自下而上(DM-DW)的数据仓库架构。同样的,操作型或事务型系统的数据源,通过ETL抽取转换和加载到数据仓库的ODS层,然后通过ODS的数据,利用维度建模方法建设一致维度的数据集市。通过一致性维度可以将数据集市联系在一起,由所有的数据集市组成数据仓库。

中国IDC资讯网,是IDC产业最具权威性新闻报道中心,我们会在第一时间报道云计算、数据中心、大数据技术应用、云信息安全、IDC服务商,IDC机房,IDC行业分析、IDC主机托管等行情资讯。
Copyright © 2012-2021 IDC311.COM. IDC资讯网 版权所有        网站地图