决策树算法C4.5VIP免费

下载本文档

阅读 109
下载 15
格式 pdf
大小 489.34 KB
约14页
2024-11-27 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/14页

2/14页

3/14页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/14

文本预览下载提示常见问题

数据仓库与数据挖掘《数据仓库与数据挖掘》决策树算法 C4.5 本组成员： 07103218 王维光 07103224 郑辰 07103229 刘倩 07103230 宋琛数据仓库与数据挖掘一．背景最早的决策时算法是由Hunt 等人于1966 年提出的CLS。当前最有影响的决策树算法是Quinlan 于1986 年提出的ID3 和 1993 年提出的C4.5。ID3 只能处理离散型描述属性，它选择信息增益最大的属性划分训练样本，其目的是进行分枝时系统的熵最小，从而提高算法的运算速度和精确度。ID3 算法的主要缺陷是，用信息增益作为选择分枝属性的标准时，偏向于取值较多的属性，而在某些情况下，这类属性可能不会提供太多有价值的信息。C4.5 是ID3 算法的改进算法，不仅可以处理离散型描述属性，还能处理连续性描述属性。C4.5 采用了信息增益比作为选择分枝属性的标准，弥补了 ID3 算法的不足。决策树算法的优点如下：（1）分类精度高；（2）成的模式简单；（3）对噪声数据有很好的健壮性。因而是目前应用最为广泛的归纳推理算法之一，在数据挖掘中受到研究者的广泛关注。二．C4.5 改进的具体方面 1.ID3 算法存在的缺点（1）ID3 算法在选择根节点和各内部节点中的分支属性时，采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有价值的信息。（2）ID3 算法只能对描述属性为离散型属性的数据集构造决策树。 2． C4.5 算法做出的改进 (1)用信息增益率来选择属性克服了用信息增益来选择属性时偏向选择值多的属性的不足。信息增益率定义为：其中Gain(S,A)与ID3 算法中的信息增益相同，而分裂信息 SplitInfo(S,A)代表了按照属性 A 分裂样本集 S 的广度和均匀性。数据仓库与数据挖掘其中，S1到Sc 是c 个不同值的属性A 分割S 而形成的c 个样本子集。如按照属性A 把S 集（含30 个用例）分成了10 个用例和20 个用例两个集合则SplitInfo(S,A)=-1/3*log(1/3)-2/3*log(2/3) (2)可以处理连续数值型属性 C4.5 既可以处理离散型描述属性，也可以处理连续性描述属性。在选择某节点上的分枝属性时，对于离散型描述属性，C4.5 的处理方法与ID3 相同，按照该属性本身的取值个数进行计算；对于某个连续性描述属性Ac，假设在某个结点上的数据集的样本数量为total，C4.5 将作以下处理。  将该结点上的所有数据...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

决策树算法C4.5

小辰7 + 关注: 实名认证
内容提供者

出售各种资料和文档

收藏店铺进入空间

决策树算法C4.5VIP免费

决策树算法C4.5

您可能关注的文档

热门下载

相关标签