数据仓库概念的简单理解一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部分
如下图所示:数据源:是数据仓库系统的基础,是整个系统的数据源泉
通常包括企业内部信息和外部信息
内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据
外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等;数据的存储与管理:是整个数据仓库系统的核心
在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)
按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,DataMart)
数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作
这些功能与目前的DBMS基本一致
OLAP服务器:对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势
其具体实现可以分为:ROLAP、MOLAP和HOLAP
ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中
前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用
其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器
集线器与车轮状结构的企业级数据仓库
这种结构也称为“HubandSpoke”,这是因为中央数据库