1、数据仓库定义:数据仓库是一种新的数据处理体系结构,它与组织机构的操作数据库分别维护,允许将各种应用系统一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持
数据仓库 是面对主题的、集成的、相对稳定的、反映历史变化的数据集合,为企业决策支持系统提供所需的集成信息
设计和构造步骤:1)选取待建模的商务处理;2)选取商务处理的粒变;3)选取用于每个事实表记录的维;4)选取事实表中每条记录的变量系统结构:(1)底层是仓库数据服务器,总是关系数据库系统
(2)中间层是 OLAP 服务器,有 ROLAP 和MOLAP,它将对多维数据的操作映射为标准的关系操作(3)顶层是前端客户端,它包括查询和报表工具、分析工具和数据挖掘工具2、数据仓库的多维数据模型:(1)星形模式:在此模型下,数据仓库包括一个大的包含大批数据并且不含冗余的中心表,一组小的附属表,维表围绕中心事实表显示的射线上
特征:星型模型四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小访问范围
每个维表都有自己的属性,维表和事实表通过关键字相关联
【例子:sales 数据仓库的星形模式,此模式包含一个中心事实表 sales,它包含四个维 time, item, branch 和 location
(2)雪花型模式:它是星形模式的变种,其中某些维表是法律规范化的,因而把数据进一步分解到附加的表中
特征:雪花模型通过最大限度地减少数据存储量和联合较小的维表来改善查询性能,增加了用户必须处理的表数量和某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求
【例子同上,只不过把其中的某些维给扩展了
(3)事实星座形:复杂的应用可能需要多个事实表共享维表,这种模式可看作星形模式的汇合
特征:事实星座模型能对多个相关的主题建模
例子:有两个事实表 sales 和 shipping