基于SVM的半监督迁移学习的算法研究摘要在数据挖掘中,合理的采用相关数据域去帮助新的数据域分类已经成了一项重要课题
半监督学习已经广泛应用于数据挖掘、机器学习的分类等研究中,但结合迁移学习方式的方法却较少见
SVM在处理大数据方面也越受到关注,不同学习方式结合SVM的算法也陆续提出
本文结合半监督SVM(Semi-supervisedSVM)算法与迁移学习的方法,给出了一种半监督迁移SVM分类方法,通过对辅助数据域的局部与目标域的全局一致学习(LLGC)得到目标方程,并以半监督的方式对目标方程进行迭代,收敛得到最终的SVM分类器,对目标任务中未标记样本得到最终标签
应用该方法得到分类器具有较高的精确度
关键词数据挖掘;半监督学习;迁移学习;一致学习1引言在传统分类方法中,大部分都是有监督的,即用带标签的数据来训练分类模型,并且只局限于目标数据域
然而,收集带标签的实例是非常困难且要耗费巨大的[1],不带标签的数据却是相当巨大,很容易获取
如果只有少量的带标签的数据和大量未标记的数据可用,那么半监督学习在一定程度上便能弥补因训练数据不足而导致过拟化的分类误区
很多机器学习的方法,无论是传统的机器学习还是半监督学习问题,都是建立在一个共同假设:测试数据与训练数据属于统一数据分布与同一特征空间
一旦数据分布有差异,很多学习方法便无法表现的很好
于是又要重新标记大量数据去训练模型来适应新的数据分布,这样的代价是昂贵的
基于这个局限,便引入了迁移学习[3],目的是从其他相关辅助数据域中迁移知识去帮助目标域中解决学习任务
例如,在网页分类中,我们能利用迁移学习从大学网页迁移知识来帮助Facebook
com分类任务训练一个分类器[4]
虽然大学网页与社交网络的数据分布十分不同,但是始终存在一些共同的分类知识来构建知识迁移的桥梁帮助提高分类器性能
近年来,随着研究的深入,半监督、迁移学习