数据仓库构建步骤 概述: 1. 数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法 2. 需求不明确 数据仓库系统的原始需求不明确 需求不断变化与增加 开发者最初不能确切了解到用户的明确而详细的需求,也不能准确的预见未来的需求 用户所能提供的无非是需求的大的方向以及部分需求 ==>采用原型法来进行数据仓库的开发是比较合适的 3. 需求不明确 不等于传统意义上的原型法,即数据仓库的设计是数据驱动的,即在原有的数据库系统上开发,有效的使用原有系统 数据仓库系统开发是一个经过不断循环、反馈而使系统不断增长与完善的过程,这是区别于系统生命周期法的主要特点 4. 设计步骤: 概念模型设计; 技术准备工作; 逻辑模型设计; 物理模型设计; 数据仓库生成; 数据仓库运行与维护。 第一步:概念模型设计 进行概念模型设计所要完成的工作是: <1>界定系统边界 <2>确定主要的主题域及其内容 成果:在原有的数据库的基础上建立了一个较为稳固的概念模型。 数据驱动: 数据仓库中的数据即是对原有数据库系统中的数据进行集成和重组而形成的数据集合, =>数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。 A、 一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识 B、 另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。 注:概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。 1. 界定系统的边界 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前: 要做的决策类型有哪些? 决策者感兴趣的是什么问题? 这些问题需要什么样的信息? 要得到这些信息需要包含原有数据库系统的哪些部分的数据? =>划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。 2. 确定主要的主题域 要确定系统所包含的...