第10期1993年10月电子学报ACTAELECTRONICASINIC人Vol.21冲101993听觉模型用于语音识别以及与一般方法的比较’AlditoryMod6IBas6dSpechRecognitionandComParisonwithOtherMethods高雨青(中国科学院自动化研究所黄泰冀陈韶岩国家模式识别实验室,北京100080).【提要l本文在文献〔1〕建立的外周听觉系统以及部分中枢听觉神经系统的荃础上.建立了一个语音识别器.它由听觉模型作为语音声学前端处理器(即特征提取).由具有tonotopic组织结构的神经网络作为识别分类器.大量实验表明,由该听觉模型提取的特征参数不仅能很好地表示语音区别意义,而且对于噪声环境下的语音特征表示有较好的robustn.妈.语音识别实验表明:在有噪声的情况下.采用听觉模型参数的识别器,其识别率明显优于由LPC一倒谱作为语音特征参数的方法.关.词:听觉模型,语音识别.神经网络刊比住r的t:Onthe比515oftheperiPheryau山torym曰eland呷rt运1cen廿a】a叻itoryneuraiProc已润ingmodelset叩in〔l〕,aspeeChrec哪娜妞eru咖9anauditorym司elastheacoustierront一endnreproo民.OrandatonotoP众昌IQr少田切edne以ain饮workas山erec明必iU饰d即娜f沁,have比enbuilt.Tbeex讲r红nents而owthatthe件rametetsderivedfromtheauditorymodelOreagCx川rePtesentationofspeechdisCri劝心.ti闭,es侧沈运11yinnoisyenvironrnents·Theresul.ofspeeChreCo目目tionshowthatunderthecondidonof3dB比ck盯oundno巧冷withthesameneurainetworkasrhee场S廿ier,山ereCOgnltionrateof3eonfusablecon日Onants(P,t,k)is80.3%forauditorymodelast讹front一。ndProO改召。rand69.2%forLPC一deriv司ce脚trumassp创兄h阵-ralr岭ters。res口沈tively·K叮姗d.:Auditorymodel,SP以沱hr倪翎川眨on,Neuralnetwork一、引言语音识别作为人和通信的一种手段正在得到很大的发展.对于特定领域的语音识别而言,目前的主要困难不仅在于绝对意义上的如何提高识别率,还在于如何提高识别器的鲁棒性(rebustnes).例如,当存在背景噪声时,如何保持原有的识别率,或尽可能使识别率的下降比较小.在研究噪声环境下语音识别问题时人们自然会想到,在一定的背景噪声下,人们的语音交·1992年3月18日收到,1992年1月定稿.国家自然科学基金委资助课题一Oaoyuql雌,Hu山,gT目yi.ChenS抽oyan(Nation目比卜旅.toryof入tternR以义心nidon,InstituteofAuto打以tion,伪ine‘eA口目.myofSd朋.,三阎朋明100080).电子学报1993年流几乎不受噪声影响而可以正常进行.这表明人的听觉系统具有较高的抗噪声能力.因此.如果语音识别系统能够在某些环节上模仿人的听觉系统,将会有良好的抗噪声能力.神经科学的最新研究结果,使我们对听觉系统各部分,主要是外周听觉系统和中枢神经传导通路的作用、功能和机理,声音信号在这些部分中的处理和传递过程,以及如何用数学模型和电路系统来实现和模拟都有了较清楚的认识.本文将介绍如何利用听觉模型作为声学前端处理器,用特殊结构的神经网络作为识别分类器来构成识别器,用于语音识别.并且将这个识别器的性能与由一般的LPC一倒谱参数作为特征的识别器性能进行比较.实验证明,听觉模型作为语音分析器,可得到鲁棒性较高的参数,用于识别可提高语音识别器的抗噪声能力.二、听觉模型该模型可以模拟声音信号经过中耳、内耳,到神经纤维,直到中枢的全过程.模型主要包括四个部分:(l)中耳电路及基底膜电路;(2)内毛细胞一突触模型;(3)模型中枢对外周系统进行下行控制的反馈电路;(4)中枢神经网络.模型框图如图l所示.其中(l)、(2)两个部分为外周听觉系统模型,(3)、(4)两个部分为中枢系统模型.中耳和基底膜电路主要表示中耳和内耳的颇率分析和滤波功能,听觉系统的频率选择和分辨能力主要由基底膜的响应特性决定.基底膜电路由一组按Bark频率刻度线性分布的带通滤波器组构成,39个相互独立的通道覆盖了150~70OOHz的频率范围,每个通道具有0.6Bark的通带宽度.各通道中心频率相距0.SBark.滤波器组的频率响应曲线如图2所示,图中频率轴为线性频率刻度.笋娜去奋艘护自通护自通奋去释冲脚幼低通幼映去奋袅护盆皇护趁皿图1听觉模型框图内毛细胞一突触电路模型主要反映内毛细胞的静态响应和低通滤波特...