随机森林成员:XXXXXXXXX目录随机森林的引入及相关基本概念·什么是随机森林·决策树算法随机森林的生成·袋外错误率随机森林的特点·过拟合随机森林的实例分析1
什么是随机森林
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(EnsembleLearning)方法
随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”
“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随机森林的主要思想--集成思想的体现
随机森林的相关基础知识1)信息、熵以及信息增益的概念这三个基本概念是决策树的根本,是决策树利用特征来分类时,确定特征选取顺序的依据
理解了它们,决策树你也就了解了大概
引用香农的话来说,信息是用来消除随机不确定性的东西
当然这句话虽然经典,但是还是很难去搞明白这种东西到底是个什么样,可能在不同的地方来说,指的东西又不一样
对于机器学习中的决策树而言,如果带分类的事物集合可以划分为多个类别当中,则某个类(xi)的信息可以定义如下:I(x)用来表示随机变量的信息,p(xi)指是当xi发生时的概率
熵是用来度量不确定性的,当熵越大,X=xi的不确定性越大,反之越小
对于机器学习中的分类问题而言,熵越大即这个类别的不确定性更大,反之越小
信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好3
决策树算法决策树算法是一种逼近离散函数值的方法
它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析
本质上决策树是通过一系列规则对数据进行分类的过程
在之前介绍过决策树的ID3算法实现,今天主要来介绍决策树的另一种实现,即CART算法
CART算法的认识2
CART算法