随机森林试验报告VIP免费

下载本文档

阅读 181
下载 2
格式 pdf
大小 730.75 KB
约9页
2024-11-08 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/9页

2/9页

3/9页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

随机森林实验报告实验目的实现随机森林模型并测试。实验问题Kaggle第二次作业Non-linearclassification算法分析与设计一．算法设计背景:1.随机森林的原子分类器一般使用决策树，决策树又分为拟合树和分类树。这两者的区别在于代价估值函数的不同。2.根据经验，用拟合树做分类的效果比分类树略好。3.对于一个N分类问题,它总是可以被分解为N个2分类问题，这样分解的好处是其决策树更加方便构造，更加简单，且更加有利于用拟合树来构建分类树。对于每一个2分类问题，构造的树又叫CART树，它是一颗二叉树。4.将N个2分类树的结果进行汇总即可以得到多分类的结果。5.CART树构造：6.随机森林构造：二．算法思路：将一个N分类问题转化为N个二分类问题。转化方法是：构造N棵二叉拟合树，这里假设N为26，然后我们给N棵二叉树依次标号为1，2，3...26。1号树的结果对应于该条记录是不是属于第一类，是则输出1，否则输出0.2号树的结果对应于该条记录是不是属于第二类，是则1否则0，依此类推。这样，我们的26棵二叉树的结果就对应了26个下标。例如对于某条记录，这26个二叉树的结果按序号排列为{0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，...1,0}，那么这条记录的分类应该为25。要将一个26维的0，1序列变回一个索引，我们只需要找出这个序列中值最大的元素的索引，这个索引即是序列号。我们将上面的26棵分别对26个索引做是否判断的二分类树视为一个整体，在多线程的环境下，构造多个这样的整体，然后进行求和运算，最后取出每个结果序列中值最大的元素的下标作为分类值，那么久得到了我们想要的结果，随机森林完成。三．算法流程：1.读入训练集trainset,测试集testset2.将训练集分割为输入trainIn,输出trainOut3.这里假设类别数N为26，将trainOut[记录条数]映射为transformTrainOut[训练记录数][26]4.初始化transformTestOut[测试记录数][26]全部为05.Fori=1:ForestSize://对训练集采样，这里要注意输入和输出一致[sampleIn,transformSampleOut]=TakeSample(trainIn,transformTrainOut)Forcategory=1:26://CartTree数组存放着26棵二分类树CartTree[category]=TrainCartTree(sampleIn,transformSampleOut);end//transformTestOut[测试记录数][26]为承接二分类树输出的容器fori1=1:testSetNum:Forcategory=1:26:transformTestOut[i1][category]+=predict(CartTree[category],testset[i1])endEndEnd6.遍历transformTrainOut[]，将其每一行的最大值的下标作为该行记录的索引值。四．决策树及随机森林的配置1.决策树在这里，我们每一次26分类是由26棵CART共同完成的，CART的costfunction采用的是gini系数，CART的最大层数为7，分裂停止条件为当前节点GINI为0或者当前节点所在层数到达了7.2.随机森林a.随机森林每次循环的训练集采样为原训练集的0.5.b.对于森林中每一棵决策树每一次分割点的选取，对属性进行了打乱抽样，抽样数为25，即每次分割只在25个属性中寻找最合适的值。并且对于每个选取的属性，我们进行了行采样。即如果这个属性所拥有的属性值数大于30，我们选取其中30个作为分割候选，如果小于30，则全部纳入分割候选。五．代码详解1.训练集/测试集的读入a.在dataDefine.h中定义了：训练集记录列数numparametres（ID（1）+参数数量（617）+输出（1）=619）训练集记录条数transetNum测试集记录条数testsetNum分类类型数typesNum而在main.cpp中，我们声明了全局变量trainIn用于装载训练集输入，trainOut用于装载训练集的输出（这里trainOut是二维数组是出于模型如果泛化，那么输出值不一定只有一个的情况，在本次实验中并未派上什么真正用场，可以将trainOut看作一个普通一维数组）。trainID用于装载训练集中每一行的第一列ID号。testIn,testID则对应测试集的输入和ID号。这里注意，没有testOut的原因是测试集的结果理论上应该是不存在的。然后通过自己编写的读入函数读入测试集合训练集，这个函数将分别装载我们在前面提到的trainIn、trainOut、trainID、testIn、testID。这个函数使用的fstream逐行读入的方法，这里不做详述。2.训练集输出转化为对应的26维01数组transformOut[typesNum]在...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

随机森林试验报告

随机森林实验报告实验目的实现随机森林模型并测试

实验问题Kaggle第二次作业Non-linearclassification算法分析与设计一．算法设计背景:1

随机森林的原子分类器一般使用决策树，决策树又分为拟合树和分类树

这两者的区别在于代价估值函数的不同

根据经验，用拟合树做分类的效果比分类树略好

对于一个N分类问题,它总是可以被分解为N个2分类问题，这样分解的好处是其决策树更加方便构造，更加简单，且更加有利于用拟合树来构建分类树

对于每一个2分类问题，构造的树又叫CART树，它是一颗二叉树

将N个2分类树的结果进行汇总即可以得到多分类的结果

CART树构造：6

随机森林构造：二．算法思路：将一个N分类问题转化为N个二分类问题

转化方法是：构造N棵二叉拟合树，这里假设N为26，然后我们给N棵二叉树依次标号为1，2，3

1号树的结果对应于该条记录是不是属于第一类，是则输出1，否则输出0

2号树的结果对应于该条记录是不是属于第二类，是则1否则0，依此类推

这样，我们的26棵二叉树的结果就对应了26个下标

例如对于某条记录，这26个二叉树的结果按序号排列为{0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，

1,0}，那么这条记录的分类应该为25

要将一个26维的0，1序列变回一个索引，我们只需要找出这个序列中值最大的元素的索引，这个索引即是序列号

我们将上面的26棵分别对26个索引做是否判断的二分类树视为一个整体，在多线程的环境下，构造多个这样的整体，然后进行求和运算，最后取出每个结果序列中值最大的元素的下标作为分类值，那么久得到了我们想要的结果，随机森林完成

三．算法流程：1

读入训练集trainset,测试集testset2

将训练集分割为输入trainIn,输出trainOut3

这里假设类别数N为26，将trainOut[记

您可能关注的文档

爱的疯狂 + 关注: 实名认证
内容提供者

该用户很懒，什么也没介绍

收藏店铺进入空间

随机森林试验报告VIP免费

随机森林试验报告

您可能关注的文档

相关文档

热门下载

相关标签