电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

多个声源下基于人耳听觉特性的语音分离VIP免费

多个声源下基于人耳听觉特性的语音分离_第1页
1/8
多个声源下基于人耳听觉特性的语音分离_第2页
2/8
多个声源下基于人耳听觉特性的语音分离_第3页
3/8
书第7卷第2期智能系统学报Vol.7№.22012年4月CAAITransactionsonIntelligentSystemsApr.2012DOI:10.3969/j.issn.1673-4785.201109007多个声源下基于人耳听觉特性的语音分离罗元,童开国,张毅,邢武超,陈凯,陈红松,何春江,陈君(重庆邮电大学智能系统及机器人研究所,重庆400065)摘要:受声学研究启发,结合人脑人耳听觉特性对语音的处理方式,建立了一个完整的模拟听觉中枢系统的语音分离模型.首先利用外周听觉模型对语音信号进行多频谱分析,然后建立重合神经元模型提取语音信号的特征,最后在脑下丘的神经细胞模型中完成对语音的分离.基于现有的语音识别方法,该模型能够很好地解决绝大多数的语音识别方法都只能在单声源和低噪声的环境下使用的问题.实验结果表明,该模型能够实现多声源环境下语音的分离并且具有较高的鲁棒性.随着研究的深入,基于人耳听觉特性的语音分离模型将有很广泛的应用前景.关键词:多声源;人耳听觉特性;双耳时间差;双耳水平差;语音分离中图分类号:TP311文献标志码:A文章编号:1673-4785(2012)02-0121-08Soundsourceseparationofamulti-voiceenvironmentbasedonhumanearlisteningpropertiesLUOYuan,TONGKaiguo,ZHANGYi,XINGWuchao,CHENKai,CHENHongsong,HEChunjiang,CHENJun(ResearchCenterofIntelligentSystemandRobot,ChongqingUniversityofPostsandTelecommunications,Chongqing400065,China)Abstract:Inspiredbyacoustics,anintegratedvoiceseparationmodelsimulatingthecentralauditorysystemwasestablishedtoprocessavoicebyimitatingthelisteningpropertiesofhumanears.First,multi-spectralanalysisofvoicesignalswascarriedoutbyaperipheralauditorymodel.Next,acoincidenceneuronmodelwasestablishedtoextractthefeaturesofvoicesignals.Last,thevoiceswereseparatedinthecellmodelofthebraininferiorcollicu-lus.Comparedtothemajorityofspeechrecognitionmodelsthatcanonlybeusedinasinglesoundsourceandlow-noiseenvironment,thismodelisagoodchoice.Experimentalresultsshowthatthemodelcanseparatevoicesinamulti-soundsourceenvironment,thushavingahighrobustness.Withfurtherresearch,speechseparationmodelsbasedonhumanearlisteningpropertieswillhaveawiderangeofapplications.Keywords:multi-voicesourceenvironment;humanearlisteningproperties;interauraltimedifference;interauralleveldifference;soundsourceseparation收稿日期:2011-09-28.基金项目:科技部国际合作资助项目(2010DF12160);重庆市攻关计划资助项目(CSTC:2010AA2055).通信作者:童开国.E-mail:359018647@qq.com.在多声源下,利用听觉中枢系统对语音分离已有20多年的研究历史,总体来说有3个阶段的模型.第1个模型是Bhadkamkar提出的,方法是构建COMS电路来处理双耳时间差(interauraltimediffer-ence,ITD),这种方法简单、容易实现,适用于工程,但是精度不够高[1].第2个模型是Willert等提出的,方法是构建概率模型来估计声源的方位,结合了内侧上橄榄(medialsuperiorolive,MSO)、外侧上橄榄(lateralsuperiorolive,LSO)和脑下丘,并且利用贝叶斯理论来计算他们之间的联系,但是没利用生物电信号神经网络来模拟现实的神经元对语音的分离[2].第3个模型是Voutsas等提出的,构建尖峰神经网络多滞后线模型,利用ITD,对低频语音信号分离有良好的效果,但是由于只考虑ITD,对高于1.5kHz的语音信号没有效果[3].在过去的25年里,对于听觉中枢系统的结构和功能的研究已经有了长足的进步[4],脑下丘在听觉信息的获取过程中起到了非常关键的作用[5].脑下丘是提取声音特征的一个枢纽和处理中心[6].在这里,声音中双耳时间差和水平差都被提取出来.听觉学研究表明,双耳的辨别功能比单耳好[7].根据从声源到两耳距离的不同及传声途径中屏蔽条件的不同,从某一方位发出的声音到达双耳时,便出现双耳时间差和双耳水平差,在听觉中枢系统对输入语音信息进行分离时,双耳时间差和水平差便是声源定位的重要依据[8...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

多个声源下基于人耳听觉特性的语音分离

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部