第2章数据仓库的数据存储与处理数据存储与数据处理是数据仓库系统实施的三个关键环节中的中心环节。数据存储结构设计和数据处理技术的研究在数据仓库理论中占有重要地位。第2章数据仓库的数据存储与处理2.1数据仓库的数据结构导出数据(如:数据集市)数据集市元数据调和数据(EDW&ODS)EDW元数据操作型数据(如:业务处理系统)操作型元数据企业数据模型三层数据结构2.1数据仓库的数据结构各个组成部分的含义:操作性数据:来源于业务系统中的数据。调和数据:存储在企业级数据仓库中的数据。导出数据:从数据仓库中导出并存储在各个数据集市中的数据。企业数据模型:企业组织所需数据的整体轮廓。元数据:有关数据的说明。2.2数据仓库的数据特征状态数据与事件数据当前数据与周期数据数据仓库中的元数据状态数据与事件数据:状态数据:描述对象状态的数据。事件数据:描述对象发生的事件的数据。数据库和数据仓库中存储的基本数据类型是状态数据。但是数据仓库中往往还存储事务或事件数据的汇总。当前数据与周期数据:当前数据(业务系统):保留的最新数据。周期数据(数据仓库):保留的历史数据。数据仓库中的元数据:数据仓库中的另一特征。2.3数据仓库的数据ETL过程ETL概念ETL过程前后数据的特征数据的ETL过程描述抽取(Capture/Extract)清洗(Scrub/Cleanse)转换(Transform)加载和索引(Load/Index)ETL的概念:数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrubordatacleansing)、转换(Transform)、装载与索引(LoadandIndex)等数据调和工作。数据的ETL过程描述:操作型系统EDW或ODS抽取/抓取清洗转换加载与索引拒绝数据的信息有关拒绝数据的信息集结地(StagingArea)数据抽取:几点要求:数据源命名的透明度。源系统实施的业务规则的完整性和准确性。数据格式的一致性。SELECT……INTO、存储过程等方法。数据清洗:原因:操作型业务系统中的数据质量很差。错误拼写的名字和地址。不可能的或错误的出生日期。不匹配的地址和电话区号。缺失的数据。重复的数据。……数据转换:在ETL过程中处于中心位置,又很麻烦。将经过清洗后的数据(源系统)转换成装载对象(目标系统)的格式。数据加载和索引:将整理好的数据添加到数据仓库中。(方法?)建立索引。数据ETL过程的实施要点:ETL过程是一个数据流动的过程,中间的“T”(转换)是关键;ETL工具的选择非常重要,运用合适的工具会事半功倍;如何保证数据质量?数据质量在一定程度上决定了数据仓库的价值。2.4多维数据模型和星模式多维数据模型及其相关概念多维数据模型的物理实现多维建模技术简介一个星模式的例子多维数据模型及其相关概念有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等维的类别即维的分层。可分为:简单层次复杂层次全国江苏北京上海维类别全国江苏北京上海苏州市扬州市宝应县复杂层次维属性维的一个取值。度量即度量值,是多维数据空间中的单元格,用以存放数据,也叫事实。度量粒度与分割•数据粒度:是对数据仓库中的数据的综合程度数据粒度:是对数据仓库中的数据的综合程度高低的度量。(一般分为四个级别:高度综合级、高低的度量。(一般分为四个级别:高度综合级、轻度综合级、当前细节级、早期细节级)轻度综合级、当前细节级、早期细节级)•分割:将数据分散到各自的物理单元中去以便能分割:将数据分散到各自的物理单元中去以便能分别处理,提高数据处理效率,数据分割后的数分别处理,提高数据处理效率,数据分割后的数据单元称为分片。据单元称为分片。•数据分割的标准:可按日期、地域、业务领域或数据分割的标准:可按日期、地域、业务领域或按多个分割标准的组合。按多个分割标准的组合。•数据分割的目的:便于进行数据的重构...