李东起重采样方法在高度不平衡数据分类中的应用研究

下载本文档

阅读 67
下载 17
格式 docx
大小 1023.2 KB
约28页
2025-04-19 发布于山西
收藏
评论
点赞(0)
海报
举报

1/28页

2/28页

3/28页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/28

文本预览下载提示常见问题

PAGE \* MERGEFORMATIV 重采样方法在高度不平衡数据分类中的应用研究摘要随着信息技术的飞速发展，医疗、银行、互联网等领域数据的数据信息会被广泛的收集，在这其中不平衡数据普遍存在。不平衡数据学习现在也是机器学习领域的研究热点之一。在机器学习传统的分类算法中，通常是在数据集的类别样本数均匀分布和错分代价相等的情况下假设的。然而在实际的数据大多数都存在不平衡的特点，这就导致传统分类方法在为了保证整体分类准确性上偏向于多数类而忽略了少数类的数据，最终数据没办法得到准确有效的分类，这种情况在不平衡比越大的数据集中所带来较差的分类效果越明显。然而这些少数类的样本通常都存在很高的错分代价，所以不平衡数据集分类是我们所研究的重点。对于不平衡数据分类的研究分为三个层面，分别为数据预处理层面、特征层面和分类算法层面。本文针对高度不平衡数据集所存在不平衡分类问题，从数据预处理的角度提出切实可行的的重采样方法，并且通过一系列的实验证明这些方法是合理可行的，对PAGE \* MERGEFORMATIV高度不平衡数据的分类问题分析，针对存在的问题本文主要做了下列两种不同的重采样方法的研究：1）针对少数类样本的数据特征表达不明显进而对分类器的性能产生影响，本文基于在数据预处理层面上对高度不平衡数据集采用 SMOTE 算法以及对针对使用 SMOTE 算法存在较高的时间复杂度，而且很有可能会加大对噪声的传播从而影响分类器的性能，本文采用了 Borderline_SMOTE ，并且对比了 ADASYN 的过采样方法在分别在Bagging、AdaBoost、C4.5、KNN 分类算法下研究分类效果。2）针对在不平衡数据集中多数类样本远大于少数类样本数量，采取基于在数据预处理层面上对数据集采用方法，但此方法很有可能会在删除多数类样本时把多数类中的重要信息删除，造成分类信息的缺失，进而影响分类效果。进而本文又采用 TL、NCL 的欠采样方法在分别在 Bagging、AdaBoost、C4.5、KNN 分类器下研究分类效果。根据实验对所得数据进行数据信息分析统计，得出 SMTOTE 方法在 Bagging 分类算法下对不平衡数据集处理效果最好，结果为 0.803464823。关键词：高度不平衡数据；重采样方法；不平衡分类；机器学习AbstractWith the rapid development of information technology, data information of medical, banking, Internet and other fields of data will be widely...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

李东起重采样方法在高度不平衡数据分类中的应用研究

PAGE \* MERGEFORMATIV 重采样方法在高度不平衡数据分类中的应用研究摘要随着信息技术的飞速发展，医疗、银行、互联网等领域数据的数据信息会被广泛的收集，在这其中不平衡数据普遍存在

不平衡数据学习现在也是机器学习领域的研究热点之一

在机器学习传统的分类算法中，通常是在数据集的类别样本数均匀分布和错分代价相等的情况下假设的

然而在实际的数据大多数都存在不平衡的特点，这就导致传统分类方法在为了保证整体分类准确性上偏向于多数类而忽略了少数类的数据，最终数据没办法得到准确有效的分类，这种情况在不平衡比越大的数据集中所带来较差的分类效果越明显

然而这些少数类的样本通常都存在很高的错分代价，所以不平衡数据集分类是我们所研究的重点

对于不平衡数据分类的研究分为三个层面，分别为数据预处理层面、特征层面和分类算法层面

本文针对高度不平衡数据集所存在不平衡分类问题，从数据预处理的角度提出切实可行的的重采样方法，并且通过一系列的实验证明这些方法是合理可行的，对PAGE \* MERGEFORMATIV高度不平衡数据的分类问题分析，针对存在的问题本文主要做了下列两种不同的重采样方法的研究：1）针对少数类样本的数据特征表达不明显进而对分类器的性能产生影响，本文基于在数据预处理层面上对高度不平衡数据集采用 SMOTE 算法以及对针对使用 SMOTE 算法存在较高的时间复杂度，而且很有可能会加大对噪声的传播从而影响分类器的性能，本文采用了 Borderline_SMOTE ，并且对比了 ADASYN 的过采样方法在分别在Bagging、AdaBoost、C4

5、KNN 分类算法下研究分类效果

2）针对在不平衡数据集中多数类样本远大于少数类样本数量，采取基于在数据预处理层面上对数据集采用方法，但此方法很有可能会在删除多数类样本时把多数类中的重要信息删除，

文章天下 + 关注: 实名认证
内容提供者

各种文档应有尽有

收藏店铺进入空间

李东起重采样方法在高度不平衡数据分类中的应用研究

李东起重采样方法在高度不平衡数据分类中的应用研究

您可能关注的文档

相关文档

热门下载

相关标签