第 6 章 决策树主要内容决策树基本概念决策树算法决策树研究问题主要参考文献主要内容决策树基本概念决策树算法决策树研究问题主要参考文献第 6 章 决策树决策树基本概念关于分类问题 分类( Classification )任务就是通过学习获得一个目标函数( Target Function ) f, 将每个属性集 x 映射到一个预先定义好的类标号 y 。 分类任务的输入数据是纪录的集合,每条记录也称为实例或者样例。用元组 (X,y) 表示,其中, X 是属性集合, y 是一个特殊的属性,指出样例的类标号(也称为分类属性或者目标属性)第 6 章 决策树决策树基本概念关于分类问题名称体温表皮覆盖胎生水生动物飞行动物有腿冬眠类标号人类恒温毛发是否否是否哺乳动物海龟冷血鳞片否半否是否爬行类鸽子恒温羽毛否否是是否鸟类鲸恒温毛发是是否否否哺乳类Xy分类与回归分类目标属性 y 是离散的,回归目标属性 y 是连续的第 6 章 决策树决策树基本概念解决分类问题的一般方法 分类技术是一种根据输入数据集建立分类模型的系统方法。分类技术一般是用一种学习算法确定分类模型,该模型可以很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好拟合输入数据,还要能够正确地预测未知样本的类标号。因此,训练算法的主要目标就是要建立具有很好的泛化能力模型,即建立能够准确地预测未知样本类标号的模型。 分类方法的实例包括:决策树分类法、基于规则的分类法、神经网络、支持向量级、朴素贝叶斯分类方法等。第 6 章 决策树决策树基本概念解决分类问题的一般方法 通过以上对分类问题一般方法的描述,可以看出分类问题一般包括两个步骤: 1 、模型构建(归纳) 通过对训练集合的归纳,建立分类模型。 2 、预测应用(推论) 根据建立的分类模型,对测试集合进行测试。第 6 章 决策树决策树基本概念解决分类问题的一般方法TIDA1A2A3类1Y100LN2N125SN3Y400LY4N415MN学习算法学习模型模型应用模型TIDA1A2A3类1Y100L?2N125S?3Y400L?4N415M?训练集(类标号已知)检验集(类标号未知)归纳推论第 6 章 决策树决策树基本概念有指导的学习与无指导的学习 ( 有监督学习与无监督学习 )有指导的学习( supervised learning 一般用于分类) 模型的学习在被告知每个训练样本属于“那个类”的指导下进行。 新数据使用训练数据集中得到的规则进行分类。无指导的学习( unsupervised learning 一般用于聚类...