数字语音处理课程论文数字语音处理课程论文指导老师:班级:姓名:学号:语音识别语音识别技术涉及到好几个领域,其中有:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等
声学特征声学特征的提取与选择是语音识别的一个重要环节
声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分
由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析
这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3
通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响
下面介绍常用的一些声学特征
线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n时刻的信号可以用前若干时刻的信号的线性组合来估计
通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC
对LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等
计算上的快速有效保证了这一声学特征的广泛使用
与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等
倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数
对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出
实验表明,使用倒谱可以提高特征参数的稳定性
Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征
对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调
临界带宽指的就是这样一种令人