电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

随机森林讲解VIP免费

随机森林讲解_第1页
1/14
随机森林讲解_第2页
2/14
随机森林讲解_第3页
3/14
随机森林目标1.为什么要学随机森林2.什么是随机森林3.随机森林的构建4.随机森林的优势和不足为什么要学随机森林决策树往往容易出现过拟合的问题,我们可以让很多树组成团队来工作,也就是——随机森林。什么是随机森林随机森林有的时候也被称为是随机决策森林,是一种集合学习方法,既可以用于分类,也可以用于回归。而所谓集合学习算法,其实就是把多个机器学习算法综合在一起,制造出一个更加大模型的意思。什么是随机森林决策树算法很容易出现过拟合的现象。那么为什么随机森林可以解决这个问题呢?因为随机森林是把不同的几棵决策树打包到一起,每棵树的参数都不相同,然后我们把每棵树预测的结果取平均值,这样即可以保留决策树们的工作成效,又可以降低过拟合的风险。随机森林的构建随机森林的构建bootstrap参数代表的是bootstrapsample,也就是“有放回抽样”的意思,指每次从样本空间中可以重复抽取同一个样本(因为样本在第一次被抽取之后又被放回去了)假设,原始样本是「'苹果','西瓜','香蕉','桃子'],那么经过bootstrapsample重构的样本就可能是「西瓜','西瓜','香蕉','桃子'],还有可能是['苹果','西瓜','桃子','桃子'],bootstrapsample生成的数据集和原始数据集在数据量上是完全一样的,但由于进行了重复采样,因此其中有一些数据点会丢失。为什么要生成bootstrapsample数据集?这是因为通过重新生成数据集,可以让随机森林中的每一棵决策树在构建的时候,会彼此之间有些差异。再加上每棵树的节点都会去选择不同的样本特征,经过这两步动作之后,可以完全肯定随机森林中的每棵树都不一样。随机森林的构建模型会基于新数据集建立一棵决策树,在随机森林当中,算法不会让每棵决策树都生成最佳的节点,而是会在每个节点上随机地选择一些样本特征,然后让其中之一有最好的拟合表现。可以用max_features这个参数来控制所选择的特征数量最大值的,在不进行指定的情况下,随机森林默认自动选择最大特征数量。假如把max_features设置为样本全部的特征数n_features就意味着模型会在全部特征中进行筛选,这样在特征选择这一步,就没有随机性可言了。而如果把max_features的值设为1,就意味着模型在数据特征上完全没有选择的余地,只能去寻找这1个被随机选出来的特征向量的阈值了。max_features的取值越高,随机森林里的每一棵决策树就会“长得更像”,它们因为有更多的不同特征可以选择,也就会更容易拟合数据;反之,如果max_features取值越低,就会迫使每棵决策树的样子更加不同,而且因为特征太少,决策树们不得不制造更多节点来拟合数据。随机森林的构建n_estimators这个参数控制的是随机森林中决策树的数量。在随机森林构建完成之后,每棵决策树都会单独进行预测。如果是用来进行回归分析的话,随机森林会把所有决策树预测的值取平均数;如果是用来进行分类的话,在森林内部会进行“投票”,每棵树预测出数据类别的概率,比如其中一棵树说,“这瓶酒80%属于class_l”,另外一棵树说"这瓶酒60%属于class_2”,随机森林会把这些概率取平均值,然后把样本放入概率最高的分类当中。随机森林的构建因为随机森林生成每棵决策树的方法是随机的,那么不同的random_state参数会导致模型完全不同,所以如果不希望建模的结果太过于不稳定,一定要固化random_state这个参数的数值。随机森林的构建对于超大数据集来说,随机森林会比较耗时,不过我们可以用多进程并行处理的方式来解决这个问题。实现方式是调节随机森林的njobs参数,记得把njobs参数数值设为和CPU内核数一致,比如你的CPU内核数是2,那么njobs参数设为3或者更大是没有意义的。当然如果你搞不清楚自己的CPU到底就多少内核,可以设置njobs=-1,这样随机森林会使用CPU的全部内核,速度就会极大提升了。随机森林的构建随机森林的构建可以发现随机森林所进行的分类要更加细腻一些,对训练数据集的拟合更好。同学们可以自己试试调节n_estimator参数和random_state参数,看看分类器的表现会有怎样的变化。随机森林的优势和不足在机器学习领域,无论是分类还是回归,随机森林都是应用最广泛的算法之一优势1.不需要过于在意参数的调节...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

随机森林讲解

您可能关注的文档

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部