电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

多模态深度学习VIP免费

多模态深度学习_第1页
1/8
多模态深度学习_第2页
2/8
多模态深度学习_第3页
3/8
MultimodalDeepLearning(多模态深度学习)未完待续原创2016年06月22日08:53:40摘要:本文提出一种在深度网络上的新应用,用深度网络学习多模态。特别的是,我们证明了跨模态特征学习——如果在特征学习过程中多模态出现了,对于一个模态而言,更好的特征可以被学习(多模态上学习,单模态上测试)。此外,我们展示了如何在多模态间学习一个共享的特征,并在一个特别的任务上评估它——分类器用只有音频的数据训练但是在只有视频的数据上测试(反之亦然)。我们的模型在CUAVE和AVLetters数据集上进行视-听语音分类,证明了它在视觉语音分类(在AVLetters数据集上)和有效的共享特征学习上是已发表中论文中最佳的。1.介绍在语音识别中,人类通过合并语音-视觉信息来理解语音。视觉模态提供了发音地方和肌肉运动的信息,这些可以帮助消除相似语音(如不发音的辅音)的歧义。多模态学习包括来自多源的相关信息。语音和视觉数据在语音识别时在某个“中间层”是相关的,例如音位和视位;未加工的像素是很难与语音波形或声谱图产生相关性的。在本文中,我们对“中间层”的关系感兴趣,因此我们选择使用语音-视觉分类来验证我们的模型。特别的是,我们关注用于语音识别的学习特征,这个学习特征是和视觉中的唇形联系在一起的。全部任务可分为三部分-特征学习、有监督训练和测试。用一个简单的线性分类器进行有监督训练和测试,以检查使用多模态数据的不同的特征学习模型(eg:多模态融合、跨模态学习和共享特征学习...)的有效性。我们考虑三个学习布置——多模态融合、跨模态学习和共享特征学习。(如图1所示)多模态融合:数据来自所有模态,用于所有模态。跨模态学习:数据来自所有模态,但只在某模态可用。共享特征学习:训练和测试用的不同模态的数据。如果特征可以在跨不同模态下捕获相关性,这会允许我们进行评价。特别的是,学习这些布置可以使我们评估学到的特征是否具有模态不变性。接下来,我们描述模型的构造块。然后,我们实现了不同的使用深度学习的多模态学习模型,这些模型可以实现不同的多模态任务。最后,我们展示实验结果和总结。2.背景深度学习的当前工作已经测试了deepsigmoidalnetworks是如何被训练的,以产生有用的用于手写数字识别和文本的特征。当前工作的关键在于使用RBMs(RestrictedBoltzmannMachines)微调的进行贪心的逐层训练。我们使用一个扩展的稀疏RBMs,它学习到的特征对于数字和自然的图像来说是有意义的特征。2.1稀疏RBMs为了正则化模型使其稀疏,我们让每个隐藏层单元有一个使用了正则化惩罚的预先期望的激活函数,这个正则化惩罚的形式是,其中是训练集,决定了隐藏层单元激活函数的稀疏性(就是隐藏层单元激活函数是否被激活)。3.学习结构这部分描述我们的模型,用它来完成语音-视频二模态的特征学习任务。输入到模型里的语音和视频是连续的音频和视频图像。为了推出我们的深度自编码模型,我们先描述一些简单的模型以及他们的缺点。(下面的都是预训练模型)I.RBM模型。用其分别训练语音和视频,学习RBM之后,在v固定时得到的隐藏层值可以作为数据的一个新特征。我们将这个模型作为基准来比较我们的多模态模型的结果,也可以将其用来预训练我们的深度网络。II.为了训练多模态模型,一个直接的方法是训练一个把语音和视频数据连接在一起的RBM。虽然这个模型联合了语音和视频数据的分布,但它仍是一个浅层模型。语音和视频数据之间的关联是高度非线性的,RBM很难学习这些相关性形成多模态特征。事实上,我们发现在隐藏层单元学习到的浅层的二模态RBM结果与单模态下的值有很强的关联,但与跨模态下的值就没有。III.因此,我们考虑在每个模态的预训练层贪婪的训练一个RBM,前面()的第一层的隐藏值作为新层的训练数据。通过学习到的第一层特征来表示数据可以更容易的让模型来学习跨模态的高阶相关性。通俗的来说,第一层特征相当于音位和视位,第二层模型化了他们之间的关系。然而,上述的多模态模型还有两个问题。第一,没有明确的目标提供给模型去发现跨模态间的相关性;一些隐藏层单元只针对语音调整参数,另一些只针对视频调整参数,这样模型...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

多模态深度学习

您可能关注的文档

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部