基于 DTW 算法的语音识别原理与实现[摘 要]以一个能识别数字 0~9 的语音识别系统的实现过程为例,阐述了基于 DTW 算法的特定人孤立词语音识别的基本原理和关键技术.其中包括对语音端点检测方法、特征参数计算方法和 DTW 算法实现的详细讨论,最后给出了在 Matlab 下的编程方法和实验结果。[关键字]语音识别;端点检测;MFCC 系数;DTW 算法[中图分类号]TN912.34[文献标识码]APrinciple and Realization of Speech Recognition Based on DTW AlgorithmAbstractWith an example of the realization of a 0~9 identifiable speech recognition system, the paper described the basic principles and key technologies of isolated word speech recognition based on DTW algorithm , including method of endpoint detection, calculation of characteristic parameters, and implementation of DTW algorithm 。 Programming method under Matlab andexperimental results are given at the end of the paper 。 Keywordspeech recognition; endpoint detection; MFCC parameter; DTW algorithm0引言自计算机诞生以来,通过语音与计算机交互一直是人类的梦想,随着计算机软硬件和信息技术的飞速进展,人们对语音识别功能的需求也更加明显和迫切。语音识别技术就是让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术,属于多维模式识别和智能计算机接口的范畴[1]。传统的键盘、鼠标等输入设备的存在大大阻碍了系统的小型化[10],而成熟的语音识别技术可以辅助甚至取代这些设备。在 PDA、智能手机、智能家电、工业现场、智能机器人等方面语音识别技术都有着宽阔的前景.语音识别技术起源于 20 世纪 50 年代,以贝尔实验室的 Audry 系统为标志[1,8]。先后取得了线性预测分析(LP)、动态时间归整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)等一系列关键技术的突破和以 IBM 的 ViaVoice、Microsoft 的 VoiceExpress[9]为代表的一批显著成果。国内的语音识别起步较晚,1987 年开始执行国家 863 计划后语音识别技术才得到广泛关注。具有代表性的讨论单位为清华大学电子工程系与中科院自动化讨论所模式识别国家重点实验室,中科院声学所等[9]。其中中科院自动化所研制的非特定人连续语音听写系统和汉语...