数据挖掘之随机森林算法VIP免费

下载本文档

阅读 71
下载 15
格式 pptx
大小 2.7 MB
约45页
2024-10-24 发布于江苏
收藏
评论
点赞(0)
海报
举报

1/45页

2/45页

3/45页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/45

文本预览下载提示常见问题

随机森林成员：XXXXXXXXX目录随机森林的引入及相关基本概念·什么是随机森林·决策树算法随机森林的生成·袋外错误率随机森林的特点·过拟合随机森林的实例分析1.什么是随机森林？随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（EnsembleLearning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们很好理解，一棵叫做树，那么成百上千棵就可以叫做森林了，这样的比喻还是很贴切的，其实这也是随机森林的主要思想--集成思想的体现。2.随机森林的相关基础知识1）信息、熵以及信息增益的概念这三个基本概念是决策树的根本，是决策树利用特征来分类时，确定特征选取顺序的依据。理解了它们，决策树你也就了解了大概。引用香农的话来说，信息是用来消除随机不确定性的东西。当然这句话虽然经典，但是还是很难去搞明白这种东西到底是个什么样，可能在不同的地方来说，指的东西又不一样。对于机器学习中的决策树而言，如果带分类的事物集合可以划分为多个类别当中，则某个类（xi）的信息可以定义如下:I(x)用来表示随机变量的信息，p(xi)指是当xi发生时的概率。熵是用来度量不确定性的，当熵越大，X=xi的不确定性越大，反之越小。对于机器学习中的分类问题而言，熵越大即这个类别的不确定性更大，反之越小。信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好3.决策树算法决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。在之前介绍过决策树的ID3算法实现，今天主要来介绍决策树的另一种实现，即CART算法。1.CART算法的认识2.CART算法的原理3.CART算法的实现1.CART算法的认识ClassificationAndRegressionTree，即分类回归树算法，简称CART算法，它是决策树的一种实现。CART算法是一种二分递归分割技术，把当前样本划分为两个子样本，使得生成的每个非叶子结点都有两个分支，因此CART算法生成的决策树是结构简洁的二叉树。由于CART算法构成的是一个二叉树，它在每一步的决策时只能是“是”或者“否”，即使一个feature有多个取值，也是把数据分为两部分。在CART算法中主要分为两个步骤（1）将样本递归划分进行建树过程（2）用验证数据进行剪枝————————————————2.CART算法的原理设代表单个样本的个属性，表示所属类别。CART算法通过递归的方式将维的空间划分为不重叠的矩形。划分步骤大致如下：（1）选一个自变量，再选取的一个值，把维空间划分为两部分，一部分的所有点都满足，另一部分的所有点都满足，对非连续变量来说属性值的取值只有两个，即等于该值或不等于该值。（2）递归处理，将上面得到的两部分按步骤（1）重新选取一个属性继续划分，直到把整个维空间都划分完。CART原则：用基尼系数作为建立决策树的指标，分别各种计算各种水平分割后的标签列的各种取值的概率分布其中表示属于i类的概率，当Gini(A)=0时，所有样本属于同类。下面举个简单的例子，如下图01在上述图中，属性有3个，分别是有房情况，婚姻状况和年收入，其中有房情况和婚姻状况是离散的取值，而年收入是连续的取值。拖欠贷款者属于分类的结果。假设现在来看有房情况这个属性，那么按照它划分后的Gini指数计算如下：而对于婚姻状况属性来说，它的取值有3种，按照每种属性值分裂后Gini指标计算如下决策树C4.5•定义:C4.5是决策树算法的一种。决策树算法作为一种分类算法，目标就是将具有p维特征的n个样本分到c个类别中去。相当于做一个投影，c=f(n)，将样本经过一种变换赋予一种类别标签。决策树为了达到这一目的，可以把分类的过程表示成一棵树，每次通过选择一个特征pi来进行分叉。•这里通过下面的数据集（均为离散值，对于连续值，下面有详细介绍）看下信息增益率节点选择•上面的训练集有4个属性，即属性集合A={OUTLOOK,TEMPERATURE,HUMIDITY,WINDY}；而类标签有2个，即类标签...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

数据挖掘之随机森林算法

随机森林成员：XXXXXXXXX目录随机森林的引入及相关基本概念·什么是随机森林·决策树算法随机森林的生成·袋外错误率随机森林的特点·过拟合随机森林的实例分析1

什么是随机森林

随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（EnsembleLearning）方法

随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”

“森林”我们很好理解，一棵叫做树，那么成百上千棵就可以叫做森林了，这样的比喻还是很贴切的，其实这也是随机森林的主要思想--集成思想的体现

随机森林的相关基础知识1）信息、熵以及信息增益的概念这三个基本概念是决策树的根本，是决策树利用特征来分类时，确定特征选取顺序的依据

理解了它们，决策树你也就了解了大概

引用香农的话来说，信息是用来消除随机不确定性的东西

当然这句话虽然经典，但是还是很难去搞明白这种东西到底是个什么样，可能在不同的地方来说，指的东西又不一样

对于机器学习中的决策树而言，如果带分类的事物集合可以划分为多个类别当中，则某个类（xi）的信息可以定义如下:I(x)用来表示随机变量的信息，p(xi)指是当xi发生时的概率

熵是用来度量不确定性的，当熵越大，X=xi的不确定性越大，反之越小

对于机器学习中的分类问题而言，熵越大即这个类别的不确定性更大，反之越小

信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好3

决策树算法决策树算法是一种逼近离散函数值的方法

它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析

本质上决策树是通过一系列规则对数据进行分类的过程

在之前介绍过决策树的ID3算法实现，今天主要来介绍决策树的另一种实现，即CART算法

CART算法的认识2

CART算法

您可能关注的文档

静心书店 + 关注: 实名认证
内容提供者

专注于各类考试试卷和真题。

收藏店铺进入空间

数据挖掘之随机森林算法VIP免费

数据挖掘之随机森林算法

您可能关注的文档

相关文档

热门下载

相关标签