各章节知识点及课后习题。(知识点事课后习题的斜体表示)第一章:概论数据仓库定义和特征:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。第二章:数据仓库技术与开发数据仓库的技术体系结构:后台数据预处理、数据仓库数据管理和数据仓库的前台查询服务。数据仓库的开发流程:规划与分析阶段、设计与实施阶段、应用阶段。总线型数据仓库结构:总线型数据仓库结构的核心思想是使用统一的维和统一的事实来构造数据仓库的总线。1.数据仓库的概念模型是用什么来表达的,为什么实体——联系模型不适用来建立数据仓库的概念模型?数据仓库的概念模型一般用多维数据模型。实体联系模型不适合建立数据仓库是因为实体联系使用于事务性处理,它可以保证数据的唯一性、一致性,使操作变得简单而高效。但数据仓库是面向分析的应用,进行分析时关心的是一个个分析领域,而这不适合用实体关系建模,由于分析的各种要素分散在关心复杂的各种实体及其联系中,这使得分析难以顺利进行。2.什么是粒度?粒度的大小与数据量、查询能力、查询效率有什么关系?粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别,越是详细的数据,粒度级别就越小。粒度越小,数据量越大,查询能力越高,查询效率越低3.什么叫数据分割?怎么确定数据分割的标准?数据分割是指把打的数据集划分为多个较小的数据集,并分散到不同的物理单元进行存储,使他们能独立的被处理。数据分割的标准一般基于两方面:数据量:数据量的大小是决定是否要进行数据分割以及如何分割的主要因素。分析对象性质:不同的性质的主题数据,其分割的标准可能不同。第三章:数据仓库的管理技术数据仓库三类数据:休眠数据、元数据、脏数据。休眠数据:存在于数据仓库中、当前并不使用、将来也很少使用或者根本就不会使用的数据。休眠数据进入数据库的方法:概括表格的创建错误估计实际上所需要的历史数据的年限随着时间推移,需求的现实性逐渐明显坚持让详细数据驻留在数据仓库中处理:丢进垃圾桶、归档处理、近线处理。元数据:关于数据的数据。管理:建立企业级的中心知识库是实现元数据管理的基本途径和关键。脏数据进入数据仓库的四种方法:数据源系统中的脏数据进入仓库不合适的集成造就脏数据进入数据仓库数据仓库中以前输入的数据过期用户需求的改变或添加了对数据质量有不同要求的用户。清理脏数据:数据分析、数据检测、数据修正。第四章:联机分析处理OLAP(联机分析处理)定义:利用联机事务处理系统产生的大量数据为组织的决策提供信息。FASMI:快速性(Fast):系统能在数秒内对用户的多数分析要求做出反应可分析性(Analysis):用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告共享性(Shared):在有安全保障的前提下支持多用户共享与并发操作多维性(Multi-dimensional):提供对数据分析的多维视图和分析信息性(Information):能及时获得信息,并且管理大容量信息OLAP的基本操作:切片、切块、旋转。多维OLAP(MOLAP):直接采用多维数据库进行联机分析处理。关系OLAP(ROLAP):采用关系数据库来存放多维数据库进行联机分析处理。1.试解释度量值、维、多维数据集的概念。度量值:是人们观察事务的焦点。如:销售额维:是人们观察事务的角度。如:时间多维数据集:所以同质的度量值及其关联的维的维成员构成的一个多维数据集。是OLAP的核心。第五章:SQLServer数据仓库的应用与开发星形模式:是一种多维的数据关系,它由一个事实表(FactTable)和一组维表(DimensionTable)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求和(summary)、求平均(average)、计数(count)、百分比(percent)的聚集计算,甚至可以做20~80分析。这样就可以从不同...