第四章分类分类(Classification)就是通过学习得到一个目标函数(称为模型函数)f,然后把新的对象x通过f映射到一个预先定义的类别号y
分类的定义:一、相关概念2
数据挖掘中分类任务的一般模型数据集构造模型函数f模型是否合理不合理新对象合理模型确定输出类别训练样本集检验样本集输入模型检验2
分类性能的度量考虑二分类问题即类标号只有2个,可设为1和0
定义:f11:实际为第一类,按模型也判别为第一类;f00:实际为第二类,按模型也判别为第二类;f10:实际为第一类,按模型也判别为第二类;f01:实际为第二类,按模型也判别为第一类;则分类性能可以用准确率或错误率来度量准确率=(f11+f00)/(f11+f00+f10+f01)准确率=1-准确率3
常见的分类方法常见的分类有:决策树、神经网络、支持向量机、遗传算法、粗糙集、贝叶斯等
三、基于决策树的分类方法例1
下表是用于构造分类模型的数据集,包括14个样本和5个属性:Outlook、Temperature、Humidity、Windy和Play,其中前4个属性是天气,最后一个属性是根据前4个属性的情况说明这样的天气状况是否适合比赛
各属性取值如下:Outlook:sunny(s),overcast(o),rain(r);Temperature:hot(h),mild(m),cool(c);Humidity:high(h),normal(n);Windy:false,truePlay:Yes(y),no(n)训练样本集如下OutlookTempHumiWindyPlaySHHFNSHHTNOHHFYRMHFYRCNFYRCNTNOCNTYSMHFNSCNFYRMNFYOMNTYOMHTYOHNFYRMHTN决策树是类似如下的一棵树OutlooksunnyrainovercastPlay=noPlay=yeswin