电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

半监督学习存在的问题和对策分析研究 教育教学专业VIP免费

半监督学习存在的问题和对策分析研究 教育教学专业_第1页
1/32
半监督学习存在的问题和对策分析研究 教育教学专业_第2页
2/32
半监督学习存在的问题和对策分析研究 教育教学专业_第3页
3/32
摘要半监督学习利用大量未标记数据结合少量标记数据提升学习性能。本文涉及几种半监督分类方法的评价。文章由三个主要部分组成。首先,介绍半监督学习的定义和基本假设;第二部分为本文的主体部分,介绍了四种半监督学习方法:弱监督学习、生成模型、直推式支持向量机、基于图的方法,结合数据集对其优势和缺陷进行评价;在第三部分中,本文从理论上分析了未标记数据对分类性能提升的作用。关键词:半监督学习分类生成模型直推式支持向量机基于图的方法AbstractSemi-supervisedlearningusesalargeamountofunlabeleddata,togetherwiththelabeleddatatobuildabetterclassifier.Thispaperisconcernedwiththeevaluationofseveralsemi-supervisedmethods.Therearethreemajoringredients.Thefirstisanintroductiononthedefinitionandsomepopularassumptionsofsemi-supervisedlearning.Thesecond,whichisthemainingredientofthispaper,studiesthefourmainsemi-supervisedmethods,includingweaklysupervisedmethods,generativemodel,transductivesupportvectormachineandgraph-basedmethods.Someexperimentsondatasetsofthesemethodshavebeencarriedout,tocharacterizetheiradvantagesandlimitations.Thethirdingredientpresentthetheoreticalanalysisofhowunlabeleddatacanbeusedsuccessfullyforclassification.Keywords:semi-supervisedleaning,classification,generativemodel,transductivesupportvectormachine,graph-basedmethod第一章前言1.1研究背景与意义1.1.1半监督学习的定义为定义半监督学习,首先我们需要明确监督学习和无监督学习的含义。首先给出一些基本的定义Error:ReferencesourcenotfoundError:Referencesourcenotfound。样例x通常指一个D维向量x={x1,x2,⋯,xd},它的每一维称为一个特征,D即为特征向量的维数。训练集{xi,yi}i=1n则是由n个样本点组成的集合,它是学习过程的输入值。标签y与样例x相对应。在分类问题中,它指代类别,通常为整数。对于多分类问题,可令y∈{1,2,…,C},其中,C是类别的数量。监督学习是指,通过给定的有标记训练集{xi,yi}i=1l,训练一个从输入X到输出Y的映射f。监督学习根据标签y的类型可分为两类。如果y是离散值,则为分类问题,此时f是一个分类器;否则为回归问题,f则为回归函数。无监督学习的输入是一个未标记数据集{xi}i=1u,最常见的一类无监督学习是聚类问题,它的目标是将n个样本点分为若干簇。无监督学习还包括离群点检测和降维等类型。本文集中于讨论分类问题。半监督学习是一种介于监督学习和无监督学习之间的学习方法Error:Referencesourcenotfound。对于半监督分类问题,它综合利用标记数据集{xi,yi}i=1l和未标记数据集{xi}i=l+1u进行训练,通常情况下有标签的样例数目远大于无标签的样例数目,即u≫l。根据学习目的,半监督学习可分为两种类型:纯半监督学习和直推式半监督学习。前者的目标是利用给定训练集{xi,yi}i=1l,{xi}i=l+1u训练f:X→Y,使f在新的样本上依然能给出好的预测。后者根据训练集训练f:Xl+u→Yl+u,即只需预测训练集中无标记样本的标签,不需要对新的样本具备预测能力。1.1.2半监督学习的动机传统的监督学习需要一定规模的标记训练集,然而,实际问题中标签的获取代价很高。相比于难以获得的标记数据,我们更容易获取大量无标记数据。例如,在文本分类问题中,根据内容对文档进行人工标记很费时,但未标注的文档容易获得。半监督学习的动机在于,有效利用大量相对廉价的未标记数据提升学习性能。半监督学习通常需要依赖某些基本假设。常用的假设有以下三种:1)平滑假设Error:Referencesourcenotfound,即当样本x1,x2在样本分布密集的区域内距离相近时,它们的标签相同。2)低密度分离假设Error:Referencesourcenotfound,要求决策边界位于样本分布稀疏的区域。低密度分离假设的等价表述为聚类假设,即位于同一聚类的样本有相同标签。聚类假设也可被视为平滑假设的一个特例,因为通常样本集中的区域组成一个聚类。在聚类假设下,未标记数据指导分类器识别数据密集和稀疏的区域,使决策平面穿过低密度区域。3)流...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

半监督学习存在的问题和对策分析研究 教育教学专业

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部