1 . 数据仓库 1.1. 概念 数据仓库项目是以关系数据库为依托,以数据仓库理论为指导、以OLAP 为多层次多视角分析,以ETL 工具进行数据集成、整合、清洗、加载转换,以前端工具进行前端报表展现浏览,以反复叠代验证为生命周期的综合处理过程。最终目标是为了达到整合企业信息信息,把数据转换成信息、知识,提供决策支持。 1.2. 数据源 数据库、磁带、文件、网页等等。同一主题的数据可能存储在不同的数据库、磁带、甚至文件、网页里都有。 1.3. 数据粒度 粒度问题第一反应了数据细化程度;第二在决策分析层面粒度越大,细化程度越低。 一般情况,数据仓库需求存储不同粒度的数据来满足不同层面的要求。 例子如顾客的移动话费信息。 1.4. 数据分割 分割结构相同的数据,保证灵活的访问数据。 1.5. 设计数据仓库 与 OLTP 系统的接口设计:ETL 设计 数据仓库本身存储模型的设计:数据存储模型设计 1.6. ETL 设计难点 数据仓库有多个应用数据源,导致同一对象描述方式不同: 表达方式不同:字段类型不同 度量方式不同:单位不同 对象命名方式不同:字段名称不同 数据源的数据是逐步加载到数据仓库,怎么确定数据已经加载过 如何避免对已经加载的数据的读取,提高性能 数据实时发生变化后怎么加载 2 . 数据存储模型 过程模型:适用于操作性环境。 数据模型:适用于数据仓库和操作性环境。 数据模型从设计的角度分:高层次模型(实体关系型),中间层建模(数据项集),物理模型。 2.1. 数据仓库的存储方式 数据仓库的数据由两种存储方式:一种是存储在关系数据库中,另一种是按多维的方式存储,也就是多维数组。 2.2. 数据仓库的数据分类 数据仓库的数据分元数据和用户数据。 用户数据按照数据粒度分别存放,一般分四个粒度:早期细节级数据,当前细节级数据,轻度综合级,高度综合级。 元数据是定义了数据的数据。传统数据库中的数据字典或者系统目录都是元数据,在数据仓库中 元数据表现为两种形式:一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包含了数据源的各种属性以及转换时的各种属性;另一种元数据是用来与多维模型和前端工具建立映射用的。 2.3. 数据存储模型分类 多维数据建模以直观的方式组织数据,并支持高性能的数据访问。每一个多维数据模型由多个多维数据模式表示,每一个多维数据模式都是由一个事实表和一组维表组成的。 多维...