基于商空间理论的非平衡数据集分类算法文章编号:1001-9081(2012)01-0210-03doi:10
3724/sp
00210摘要:在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即qmsvm算法
对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(svm)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行smote采样,最后把上述得到的两类样本合并进行svm学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面
实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好
关键词:非平衡数据集;商空间理论;支持向量机;过采样;qmsvm算法中图分类号:tp311
13文献标志码:aabstract:theapplicationofdataclassificationisusuallyconfrontedwithaproblemnamedimbalanceddatasetinthemachinelearning
toimprovetheperformanceofimbalanceddatasetclassification,theover-samplingclassificationalgorithmbasedonquotientspacetheory(qmsvm)wasproposed
thealgorithmpartitionedmajoritydataonclusteringstructure,andcombinedtheresultsandminoritydatafo