一、名词解释1
数据仓库:是一种新的数据处理体系结构
是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合
为企业决策支持系统提供所需的集成信息
孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据
OLAPOLAP是在OLTP的基础上发展起来的
以数据仓库为基础的数据分析处理
是共享多维信息的快速分析
是被专门设计用于支持复杂的分析操作
侧重对分析人员和高层管理人员的决策支持
粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别
粒度影响存放在数据仓库中的数据量的大小
同时影响数据仓库所能回答查询问题的细节程度
数据规范化:指将数据按比例缩放(如更换大单位)
使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法
规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化
关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识
如果两项或多项属性之间存在关联
那么其中一项的属性值就可以依据其他属性值进行预测
数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中
提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程
OLTP:OLTP为联机事务处理的缩写
OLAP是联机分析处理的缩写
前者是以数据库为基础的
面对的是操作人员和低层管理人员
对基本数据进行查询和增、删、改等处理
ROLAP是基于关系数据库存储方式的
在这种结构中
多维数据被映像成二维关系表
通常采用星型或雪花型架构
由一个事实表和多个维度表构成
MOLAP:是基于类似于“超立方”块的OLAP存储结构
由许多经压缩的、类似于多维数组的对象构成
并带有高度压缩的索引及指针结构
通过直接偏移计算进行存取
数据归约:缩小数据的取值范围
使其更适合于数据挖掘算法的需要
并且能够得到和原始数