数据仓库(Data Warehouse,DW[2])是一个面向主题的、集成的、稳定的、随时间变化的数据的集合,它是一个综合的解决方案,主要用来帮助企业有关主管部门和业务人员做出更符合业务发展规律的决策[3]。数据仓库的优势在于分析历史数据、整合多来源数据,以及保证数据质量的一致性和准确性。[4] 数据仓库最早的概念可以追溯到20世纪70年代,初衷是为了实 现全企业的集成[2][5]。而最早将数据仓库提升到理论高度进行分析并提出数据仓库这个概念的则是学者比尔·恩门(Bill Inmon)[2]。数据仓库于20世纪90年代开始流行[6]。1994年,拉尔夫·金博尔(Ralph Kimball)提出数据集市概念,允许构建更小、更专注的数据仓库,以解决企业级数据仓库实施中的困难[7]。随着数据集市的增多,企业面临数据一致性问题,最终比尔·恩门(Bill Inmon)提出的CIF(Corporation Information Factory)架构将数据集市整合进行统一地企业信息框架中[8][9]。 数据仓库基本架构包括了数据源、数据存储与计算、OLAP服务器和前端工具与应用[10],分为逻辑结构、客户端-服务器(C/S)结构及不同的架构模式[11][12]。其由数据源、数据抽取、数据仓库管理、数据集市等四 个层次组成,同时涵盖索引和分区等技术[13][14]。由于它为终端用户处理所需要的决策信息提供了一种有效方法,因此在银行、金融服务、消费物品和零售批发部门,以及诸多基于需求的产品的生产部门[15]被广泛应用[16]。 发展历程
概念萌芽阶段