目录•1什么是随机森林o1
1集成学习o1
2随机决策树o1
3随机森林o1
4投票•2为什么要用它•3使用方法o3
1变量选择o3
3回归•4一个简单的Python示例•结语前言:随机森林是一个非常灵活的机器学习方法,从市场营销到医疗保险有着众多的应用
它可以用于市场营销对客户获取和存留建模或预测病人的疾病风险和易感性
随机森林能够用于分类和回归问题,可以处理大量特征,并能够帮助估计用于建模数据变量的重要性
这篇文章是关于如何使用Python构建随机森林模型
1什么是随机森林随机森林可以用于几乎任何一种预测问题(包括非线性问题)
它是一个相对较新的机器学习策略(90年代诞生于贝尔实验室)可以用在任何方面
它属于机器学习中的集成学习这一大类
1集成学习集成学习是将多个模型进行组合来解决单一的预测问题
它的原理是生成多个分类器模型,各自独立地学习并作出预测
这些预测最后结合起来得到预测结果,因此和单独分类器的结果相比,结果一样或更好
随机森林是集成学习的一个分支,因为它依靠于决策树的集成
更多关于python实现集成学习的文档:Scikit-Learn文档
2随机决策树我们知道随机森林是将其他的模型进行聚合,但具体是哪种模型呢
从其名称也可以看出,随机森林聚合的是分类(或回归)树
一颗决策树是由一系列的决策组合而成的,可用于数据集的观测值进行分类
StarICarnivoreIsBirdEya5__,'bliia,Gre1
3随机森林引入的随机森林算法将自动创建随机决策树群
由于这些树是随机生成的,大部分的树(甚至99
9%)对解决你的分类或回归问题是没有有意义
4投票那么,生成甚至上万的糟糕的模型有什么好处呢
好吧,这确实没有
但有用的是,少数非常好的决策树也随之一起生成了
当你要做预测的时候,新的观察值随着决策树自上而下走下来并被赋予一个