实验四 决策树一、 实验目的1
了解典型决策树算法2
熟悉决策树算法的思路与步骤3
掌握运用 Matlab 对数据集做决策树分析的方法二、 实验内容1
运用 Matlab 对数据集做决策树分析三、 实验步骤1
写出对决策树算法的理解决策树方法是数据挖掘的重要方法之一,它是利用树形结构的特性来对数据进行分类的一种方法
决策树学习从一组无规则、无次序的事例中推理出有用的分类规则,是一种实例为基础的归纳学习算法
决策树首先利用训练数据集合生成一个测试函数,根据不同的权值建立树的分支, 即叶子结点, 在每个叶子节点下又建立层次结点和分支,如此重利生成决策树,然后对决策树进行剪树处理,最后把决策树转换成规则
决策树的最大优点是直观,以树状图的形式表现预测结果,而且这个结果可以进行解释
决策树主要用于聚类和分类方面的应用
决策树是一树状结构,它的每一个叶子节点对应着一个分类,非叶子节点对应着在某个属性上的划分, 根据样本在该属性上的不同取值将其划分成若干个子集
构造决策树的核心问题是在每一步如何选择适当的属性对样本进行拆分
对一个分类问题, 从已知类标记的训练样本中学习并构造出决策树是一个自上而下分而治之的过程
启动 Matlab ,运用 Matlab 对数据集进行决策树分析,写出算法名称、数据集名称、关键代码,记录实验过程,实验结果,并分析实验结果(1) 算法名称 : ID3 算法ID3 算法是最经典的决策树分类算法
ID3 算法基于信息熵来选择最佳的测试属性,它选择当前样本集中具有最大信息增益值的属性作为测试属性;样本集的划分则依据测试属性的取值进行, 测试属性有多少个不同的取值就将样本集划分为多少个子样本集,同时决策树上相应于该样本集的节点长出新的叶子节点
ID3 算法根据信息论的理论,采用划分后样本集的不确定性作为衡量划分好坏的标准,用信息增益值度量不确定性:信息增益值越