数据挖掘——概念概念与技术 Jiaw ei Han Micheline Kamber 著 范明 孟晓峰 译 第 1 章 引言 1
1 什么是数据挖掘
在你的回答中,针对以下问题: 1
6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚 类和演变分析
使用你熟悉的现实生活的数据库,给出每种数据挖掘功 能的例子
解答: 特征化是一个目标类数据的一般特性或特性的汇总
例如,学生的特征 可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特 征包括作为一种高的年级平均成绩(GPA:Grade point aversge) 的信息, 还有所修的课程的最大数量
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般 特性进行比较
例如,具有高 GPA 的学生的一般特性可被用来与具有 低 GPA 的一般特性比较
最终的描述可能是学生的一个一般可比较的 轮廓,就像具有高 GPA 的学生的 75%是四年级计算机科学专业的学生, 而具有低 GPA 的学生的 65%不是
关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特 征 值的 条 件
例 如, 一 个数 据 挖掘 系 统可 能 发现 的 关联 规 则为 : major(X, “ computing science”) ow ns(X, “personal computer” ) [support=12%, confid ence=98%] 其中,X 是一个表示学生的变量
这个规则指出正在学习 的学生,12% ( 支 持 度 ) 主 修计算机科学并 且 拥 有一台 个人 计算机
这个组 一个学生 拥 有一台 个人 电 脑 的概率 是 98%( 置 信度 ,或确 定度 )
分类与预测不同 ,因 为前 者 的作用是构 造 一系列能描述和区分数据类型 或概念的模 型 ( 或