一、概述数据挖掘概念:数据挖掘是对大量数据进行探索和分析、以便发现有意义的模式和规则的过程
数据仓库:数据仓库就是面向主题的、集成的、非易失的(稳定性)、随时间变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程
数据立方体:允许以多维对数据建模和观察
由维和事实组成
其中事实是数值的度量
分类:就是通过学习获得一个目标函数f,将每个属性集x映射到一个预先定义好的类标号y
分类任务的输入数据是纪录的集合,每条记录也称为实例或者样例
用元组(X,y)表示,其中,X是属性集合,y是一个特殊的属性,指出样例的类标号(也称为分类属性或者目标属性)
信息检索:信息检索(InformationRetrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术
狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(InformationSearch或InformationSeek)
知识发现(KDD):知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程
OLAP:OLAP是针对特定问题的联机数据访问和分析
通过对信息(这些信息已经从原始的数据进行了转换,以反映用户所能理解的企业的实的“维”)的很多可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察
维:是人们观察数据的特定角度
企业常常关心产品销售随着时间推移而产生的变化的情况,这时企业是从时间的角度来观察产品的销售,所以时间就是一个维(时间维)
企业也常常关心自己的产品在不同地区的销售分布情况,这时企业是从地理分布的角度来观察产品的销售,所以地理分布也是一个维(地理维)
上卷:--通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集,也称为聚合操作
下卷:--是上钻的