数据仓库原理 -by zvane 1. 数据仓库概念 传统数据库以及OLTP(On-Line Transaction Processing 联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。 因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。 为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehouse)。 1.1 定义 William H.Inmon 在1993 年所写的论著《Building the DataWarehouse》首先系统地阐述了关于数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。文中他将数据仓库定义为: A data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions. 一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。 1.2 特性 1.2.1 su bject-oriented(面向主题性) 面向主题表示了数据仓库中数据组织的基本原则,数据仓库中的数由数据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。例如,企业中的客户、产品、供应商等都可以作为主题看待。 从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。 从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。 1.2.2 integrated (数据集成性) 数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,使数据仓库的数据具有集成性。 数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合等集成工作。 1.2.3 time-variant 数据的时变性 数据仓库的时变性,就是数据应该随着时间的推移而变化。 尽管数据仓库中的数据并不像业务数据库那样反映业务处理的实际状况,但是数据也不能长期不变,如果依据1 0 年前的数据进行决策分析,那决策所带来的...