山东大学计算机学院实验报告实验题目:决策树算法ID3学号:日期:2016
6班级:2014级4班姓名:Email:实验目的:1.熟悉matlab环境及相关函数的熟练使用
2.学习如何构造一棵决策树,并且用matlab画出树形状
3.学习如何使用一棵决策树,即将测试数值代入时,如何判断属于哪一类
4.会写测试集代入的分类表达式和类别的逻辑表达式并化简
5.分析该算法准确性
硬件环境:windows10操作系统软件环境:matlab环境,AzureML平台实验步骤:一、背景知识及原理决策树算法:树状结构,每一个叶子节点对应着一个分类决策树方法在分类、预测、规则提取等领域有着广泛的应用
在20世纪70年代后期和80年代初期,机器学习研究者J
RossQuinilan提出了ID3算法以后,决策树在机器学习、数据挖掘领域得到极大的发展
Quinilan后来又提出了C4
5,成为新的监督学习算法
1984年几位统计学家提出了CART分类算法
ID3和ART算法大约同时被提出,但都是采用类似的方法从训练样本中学习决策树的
决策树是一树状结构,它的每一个叶子节点对应着一个分类,非叶子节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集
构造决策树的核心问题是在每一步如何选择适当的属性对样本进行拆分
对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下分而治之的过程
ID3算法简介及基本原理ID3算法基于信息熵来选择最佳的测试属性,它选择当前样本集中具有最大信息增益值的属性作为测试属性;样本集的划分则依据测试属性的取值进行,测试属性有多少个不同的取值就将样本集划分为多少个子样本集,同时决策树上相应于该样本集的节点长出新的叶子节点
ID3算法根据信息论的理论,采用划分后样本集的不确定性作为衡量划分好坏的标准,用信息增益值度量不确定性:信息增益