各章节知识点及课后习题
(知识点事课后习题的斜体表示)第一章:概论数据仓库定义和特征:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程
第二章:数据仓库技术与开发数据仓库的技术体系结构:后台数据预处理、数据仓库数据管理和数据仓库的前台查询服务
数据仓库的开发流程:规划与分析阶段、设计与实施阶段、应用阶段
总线型数据仓库结构:总线型数据仓库结构的核心思想是使用统一的维和统一的事实来构造数据仓库的总线
数据仓库的概念模型是用什么来表达的,为什么实体——联系模型不适用来建立数据仓库的概念模型
数据仓库的概念模型一般用多维数据模型
实体联系模型不适合建立数据仓库是因为实体联系使用于事务性处理,它可以保证数据的唯一性、一致性,使操作变得简单而高效
但数据仓库是面向分析的应用,进行分析时关心的是一个个分析领域,而这不适合用实体关系建模,由于分析的各种要素分散在关心复杂的各种实体及其联系中,这使得分析难以顺利进行
粒度的大小与数据量、查询能力、查询效率有什么关系
粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别,越是详细的数据,粒度级别就越小
粒度越小,数据量越大,查询能力越高,查询效率越低3
什么叫数据分割
怎么确定数据分割的标准
数据分割是指把打的数据集划分为多个较小的数据集,并分散到不同的物理单元进行存储,使他们能独立的被处理
数据分割的标准一般基于两方面:数据量:数据量的大小是决定是否要进行数据分割以及如何分割的主要因素
分析对象性质:不同的性质的主题数据,其分割的标准可能不同
第三章:数据仓库的管理技术数据仓库三类数据:休眠数据、元数据、脏数据
休眠数据:存在于数据仓库中、当前并不使用、将来也很少使用或者根本就不会使用的数据
休眠数据进入数据库的方法:概括表格的创建错误估计