电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

《数据仓库与数据挖掘》(分类规则)VIP免费

《数据仓库与数据挖掘》(分类规则)_第1页
1/46
《数据仓库与数据挖掘》(分类规则)_第2页
2/46
《数据仓库与数据挖掘》(分类规则)_第3页
3/46
第9章分类规则挖掘与预测第9章分类规则挖掘与预测主要内容分类与预测的基本概念决策树方法分类规则挖掘的ID3算法1第9章分类规则挖掘与预测其他分类规则挖掘算法分类规则的评估微软决策树及其应用2第9章分类规则挖掘与预测9.1分类与预测的基本概念1.什么是分类数据分类(dataclassfication)是数据挖掘的主要内容之一,主要是通过分析训练数据样本,产生关于类别的精确描述。这种类别通常由分类规则组成,可以用来对未来的数据进行分类和预测。数据分类(dataclassfication)是一个两个步骤的过程:第1步:建立一个模型,描述给定的数据类集或概念集(简称训练集)。通过分析由属性描述的数据库元组来构造模型。每个元组属于一个预定义的类,由类标号属性确定。用于建立模型的元组集称为训练数据集,其中每个元组称为训练样本。由于给出了类标号属性,因此该步骤又称为有指导的学习。如果训练样本的类标号是未知的,则称为无指导的学习(聚类)。学习模型可用分类规则、决策树和数学公式的形式给出。第2步:使用模型对数据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进行分类。(a)学习训练数据分类算法分类规则分类规则测试数据模型评估新数据分类3第9章分类规则挖掘与预测(b)分类图9-1数据分类过程2.常用的分类规则挖掘方法分类规则挖掘有着广泛的应用前景。对于分类规则的挖掘通常有以下几种方法,不同的方法适用于不同特点的数据:决策树方法贝叶斯方法人工神经网络方法约略集方法遗传算法典型的分类规则挖掘算法有:ID3C4.5DBlearn等3.什么是预测预测(prediction)是构造和使用模型评估无标号样本类,或评估给定的样本可能具有的属性或区新数据4第9章分类规则挖掘与预测间值。分类和回归是两类主要的预测问题。分类是预测离散值,回归用于预测连续或有序值。4.分类和预测数据的预处理数据清理:使用平滑技术消除或减少噪声;处理空缺值。相关性分析:删除与分类或预测无关的属性;删除冗余属性。数据变换:使用概念分层将数据概化到高的层次;连续值属性概化为离散区间;数据规范化,即将某一属性的所有值按比例缩放,使其落入指定的区间。5.分类方法的评估标准准确率:模型正确预测新数据类标号的能力。速度:产生和使用模型花费的时间。健壮性:有噪声数据或空缺值数据时模型正确分类或预测的能力。伸缩性:对于给定的大量数据,有效地构造模型的能力。可解释性:学习模型提供的理解和观察的层次。9.2决策树方法决策树方法的起源是概念学习系统CLS,然后发展到由Quiulan研制ID3方法,然后到著名的C4.55第9章分类规则挖掘与预测算法,C4.5算法的一个优点是它能够处理连续属性。还有CART算法和Assistant算法也是比较有名的决策树方法。1.什么是决策树决策树(DecisionTree)又称为判定树,是运用于分类的一种树结构。其中的每个内部结点(internalnode)代表对某个属性的一次测试,每条边代表一个测试结果,叶结点(leaf)代表某个类(class)或者类的分布(classdistribution),最上面的结点是根结点。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。下例是为了解决这个问题而建立的一棵决策树,从中可以看到决策树的基本组成部分:决策结点、分支和叶结点。〖例〗图9-2给出了一个商业上使用的决策树的例子。它表示了一个关心电子产品的用户是否会购买PC(buys_computer)的知识,用它可以预测某条记录(某个人)的购买意向。Age?Credit_rating?student?yesnoyesyesno<=30?>4030…40yesnofairexcellent6第9章分类规则挖掘与预测图9-2buys_computer的决策树这棵决策树对销售记录进行分类,指出一个电子产品消费者是否会购买一台计算机“buys_computer”。每个内部结点(方形框)代表对某个属性的一次检测。每个叶结点(椭圆框)代表一个类:buys_computers=yes或者buys_computers=no在这个例子中,样本向量为:(age,student,credit_rating;buys_computers)7第9章分类规则挖掘与预测被决策数据的格式为:(age,student,credit_rating)输入新的被决策的记录,可以预测该记录隶...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

《数据仓库与数据挖掘》(分类规则)

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部