知识点一数据仓库1
数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上
数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造
数据仓库围绕主题组织4
数据仓库基于历史数据提供消息,是汇总的
数据仓库用称作数据立方体的多维数据结构建模,每一个维对应于模式中的一个或者一组属性,每一个单元存放某种聚集的度量值6
数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据7
提供提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理,允许在不同的抽象层提供数据,这种操作适合不同的用户角度8
OLAP例子包括下钻和上卷,允许用户在不同的汇总级别上观察数据9
多维数据挖掘又叫做探索式多维数据挖掘OLAP风格在多维空间进行数据挖掘,允许在各种粒度进行多维组合探查,因此更有可能代表知识的有趣模式
知识点二可以挖掘什么数据1
大量的数据挖掘功能,包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析2
数据挖掘功能用于指定数据挖掘任务发现的模式,分为描述性和预测性3
描述性挖掘任务刻画目标数据中数据的一般性质4
预测性挖掘任务在当前数据上进行归纳,以便做出预测5
数据可以与类或概念相关联6
用汇总、简洁、精确的表达描述类和概念,称为类/概念描述7
描述的方法有数据特征化(针对目标类)、数据区分(针对对比类)、数据特征化和区分8
数据特征化用来查询用户指定的数据,上卷操作用来执行用户控制的、沿着指定维的数据汇总
面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必与用户交互
形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表
结果描述可以用广义关系或者规则(也叫特征规则)提供
用规则表示的区分描述叫做区分规则
数据频繁出现的模式叫做频繁模式,类型包括频繁项集、频