概念数据仓库工程是以关系数据库为依托,以数据仓库理论为指导、以 OLAP 为多层次多视角分析,以 ETL 工具进行数据集成、整合、清洗、加载转换,以前端工具进行前端报表展现浏览,以反复叠代验证为生命周期的综合处理过程
最终目标是为了到达整合企业信息信息,把数据转换成信息、知识,提供决策支持
数据源数据库、磁带、文件、网页等等
同一主题的数据可能存储在不同的数据库、磁带、甚至文件、网页里都有
数据粒度粒度问题第一反响了数据细化程度;第二在决策分析层面粒度越大,细化程度越低
一般情况,数据仓库需求存储不同粒度的数据来满足不同层面的要求
例子如顾客的移动话费信息
数据分割分割结构相同的数据,保证灵活的访问数据
设计数据仓库与 OLTP 系统的接口设计:ETL 设计数据仓库本身存储模型的设计:数据存储模型设计1
ETL 设计难点数据仓库有多个应用数据源,导致同一对象描述方式不同:表达方式不同:字段类型不同度量方式不同:单位不同对象命名方式不同:字段名称不同数据源的数据是逐步加载到数据仓库,怎么确定数据已经加载过如何防止对已经加载的数据的读取,提高性能数据实时发生变化后怎么加载2
数据存储模型过程模型:适用于操作性环境
数据模型:适用于数据仓库和操作性环境
数据模型从设计的角度分:高层次模型〔实体关系型〕,中间层建模〔数据项集〕,物理模型
数据仓库的存储方式数据仓库的数据由两种存储方式:一种是存储在关系数据库中,另一种是按多维的方式存储,也就是多维数组
数据仓库的数据分类数据仓库的数据分元数据和用户数据
用户数据根据数据粒度分别存放,一般分四个粒度:早期细节级数据,当前细节级数据,轻度综合级,高度综合级
元数据是定义了数据的数据
传统数据库中的数据字典或者系统目录都是元数据,在数据仓库中 元