智能数据挖掘课题名称:决策树姓名:学号:02115090一、决策树的基本概念机器学习中,决策树是一个预测模型;它代表的是对象属性值与对象值之间的一种映射关系
树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象
决策树仅有单一输出;若需要多个输出,可以建立独立的决策树以处理不同输出
从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树
决策树学习也是数据挖掘中一个普通的方法
在这里,每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类
每个决策树可以依靠对源数据库的分割进行数据测试
这个过程可以递归式的对树进行修剪
当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了
另外,随机森林分类器将许多决策树结合起来以提升分类的正确率
决策树同时也可以依靠计算条件概率来构造
决策树如果依靠数学的计算方法可以取得更加理想的效果
决策树一般可归纳为2类:分类与预测
本文着重关于其分类的作用,并以此来构建一个完整的决策树
二、决策树分类器的优点以此次用的ID3算法为例,以此算法产生的决策树分类器具有很多优点:决策树的构造不需要任何领域知识或参数设置,因此适合于探测式知识发现;决策树可以处理高维数据,推理过程完全依赖于属性变量的取值特点,可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考,同时对噪声数据具有很好的健壮性;决策树归纳的学习和分类步骤是简单和快速的,推理过程可以表示成IfThen形式,并且具有很好的准确率;获取的知识用树的形式表示是直观的,并且容易被人理解
因而,决策树归纳分类是目前应用最广泛的归纳推理算法之一,在数据挖掘中受到研究者的广泛关注
但是其缺点也是很多的,如:信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最