基于决策树规则分类算法的研究报告人:孙秀芳2010 年 12 月 15 日介绍内容• 研究的主要内容• 数据挖掘及其分类方法概述• C4.5 算法• 基于规则排序的决策树分类算法 CABRR 的研究 一、研究的主要内容 研究的主要内容:从决策树入手,从中提取决策树规则,并通过对决策树规则进行有效地排序后生成分类器,应用于分类预测。 二、数据挖掘及其分类方法概述• 数据挖掘的理论• 分类概念及算法描述• 分类算法度量的方法与尺度2.1 数据挖掘的理论• 数据挖掘的概念:所谓数据挖掘(又称数据库中的知识发现)是指从大量的、不完全的、有噪声的、模糊的、随机的海量数据中,或是大型数据库或数据仓库中提取隐含的、未知的、非平凡的、有潜在应用价值的信息或模式。• 数据挖掘的过程:确定挖掘目的、数据准备、数据挖掘、模式评估与知识表示。• 数据挖掘的具体过程如下图所示:数据源 清理 / 集成后数据选择 / 变换后数据模式提供可供挖掘的知识清理与集成选择与变换数据挖掘评估与表示2.2 分类概念及算法描述• 分类的概念:所谓分类,就是对己知现存的类别,建立类别的描述规则分类器,然后对未知新例的观察值进行判断归类。• 下图为分类过程图:训练集分类模型可接受的模型预测结果通过分类算法建立模型评估模型预测未知数据元组 • 典型的分类算法 : 常用的分类方法包括:决策树分类、关联分类、神经网络、贝叶斯分类方法等。 基于决策树分类的典型算法有 :ID3 算法、 C4.5算法、 PART 算法、 CABRR 算法等。2.3 分类算法度量的方法与尺度• 每种分类方法都需要用一定的指标来进行评估,常用的分类算法的比较与评估标准有如下几个方面: 预测的准确率 可理解性 可伸缩性 速度 强壮性 三、 C4.5 算法• 决策树算法的基本理论• 决策树的基本算法• C4.5 算法3.1 决策树算法的基本理论• 决策树:是一种结构,一种知识的表达形式,它由两种元素组成 : 节点和分支。在最终生成的决策树上,其中每个内部节点表示数据集的一个属性,每个分支代表对该属性的一个测试输出,每个叶结点代表划分的类别,最顶端节点为根节点。• 决策树的生成过程:主要分成两个步骤 : 一是生成树,二是树的修剪。• 树的修剪:即树的剪枝,最常用的剪枝技术有预剪枝和后剪枝。 • 决策树的工作原理流程图如下:数据源训练集预处理决策树分类算法归纳生成决策树分类规则剪枝3.2 决策树的基本算法Gener...