数据挖掘——概念概念与技术 Jiaw ei Han Micheline Kamber 著 范明 孟晓峰 译 第 1 章 引言 1.1 什么是数据挖掘?在你的回答中,针对以下问题: 1.2 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚 类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功 能的例子。 解答: 特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征 可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特 征包括作为一种高的年级平均成绩(GPA:Grade point aversge) 的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般 特性进行比较。例如,具有高 GPA 的学生的一般特性可被用来与具有 低 GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的 轮廓,就像具有高 GPA 的学生的 75%是四年级计算机科学专业的学生, 而具有低 GPA 的学生的 65%不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特 征 值的 条 件。 例 如, 一 个数 据 挖掘 系 统可 能 发现 的 关联 规 则为 : major(X, “ computing science”) ow ns(X, “personal computer” ) [support=12%, confid ence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习 的学生,12% ( 支 持 度 ) 主 修计算机科学并 且 拥 有一台 个人 计算机。这个组 一个学生 拥 有一台 个人 电 脑 的概率 是 98%( 置 信度 ,或确 定度 )。 分类与预测不同 ,因 为前 者 的作用是构 造 一系列能描述和区分数据类型 或概念的模 型 ( 或功能),而后 者 是建 立 一个模 型 去 预测缺 失 的或无 效 的、并 且 通 常 是数字 的数据值。它 们 的相似 性是他 们 都 是预测的工 具: 分类被用作预测目标数据的类的标签 ,而预测典 型 的应 用是预测缺 失 的 数字 型 数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相 似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可 以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可 能...