PAGE \* MERGEFORMATIV 重采样方法在高度不平衡数据分类中的应用研究摘 要随着信息技术的飞速发展,医疗、银行、互联网等领域数据的数据信息会被广泛的收集,在这其中不平衡数据普遍存在。不平衡数据学习现在也是机器学习领域的研究热点之一。在机器学习传统的分类算法中,通常是在数据集的类别样本数均匀分布和错分代价相等的情况下假设的。然而在实际的数据大多数都存在不平衡的特点,这就导致传统分类方法在为了保证整体分类准确性上偏向于多数类而忽略了少数类的数据,最终数据没办法得到准确有效的分类,这种情况在不平衡比越大的数据集中所带来较差的分类效果越明显。然而这些少数类的样本通常都存在很高的错分代价,所以不平衡数据集分类是我们所研究的重点。对于不平衡数据分类的研究分为三个层面,分别为数据预处理层面、特征层面和分类算法层面。本文针对高度不平衡数据集所存在不平衡分类问题,从数据预处理的角度提出切实可行的的重采样方法,并且通过一系列的实验证明这些方法是合理可行的,对PAGE \* MERGEFORMATIV高度不平衡数据的分类问题分析,针对存在的问题本文主要做了下列两种不同的重采样方法的研究:1)针对少数类样本的数据特征表达不明显进而对分类器的性能产生影响,本文基于在数据预处理层面上对高度不平衡数据集采用 SMOTE 算法以及对针对使用 SMOTE 算法存在较高的时间复杂度,而且很有可能会加大对噪声的传播从而影响分类器的性能,本文 采 用 了 Borderline_SMOTE , 并 且 对 比 了 ADASYN 的 过 采 样 方 法 在 分 别 在Bagging、AdaBoost、C4.5、KNN 分类算法下研究分类效果。2)针对在不平衡数据集中多数类样本远大于少数类样本数量,采取基于在数据预处理层面上对数据集采用方法,但此方法很有可能会在删除多数类样本时把多数类中的重要信息删除,造成分类信息的缺失,进而影响分类效果。进而本文又采用 TL、NCL 的欠采样方法在分别在 Bagging、AdaBoost、C4.5、KNN 分类器下研究分类效果。根据实验对所得数据进行数据信息分析统计,得出 SMTOTE 方法在 Bagging 分类算法下对不平衡数据集处理效果最好,结果为 0.803464823。关键词:高度不平衡数据;重采样方法;不平衡分类;机器学习AbstractWith the rapid development of information technology, data information of medical, banking, Internet and other fields of data will be widely...