听话要听音—情感语音处理技术原作者:陶建华2005-02-0411:49:31同样一句话,往往会由于说话人的情感不同,其意思和给听者的印象就会不同,所谓“听话听音”就是这个道理
传统的语音处理系统多着眼于语音词汇传达的准确性,而忽略了包含在语音信号中的情感因素
传统的语音处理系统只是反映了信息的一个方面,而忽略了与知识世界相对应且具有同等重要地位的感性科学世界,这其实也是信息处理的一个重要组成部分
近几年来,语音识别与合成技术在语音分析、自然语言处理、信号处理、随即过程处理等方法的推动下获得了很大的发展
但从语音信号中提取情感特征,分析人的情感与语音信号的关联,只是国内外刚刚兴起的研究课题
目前这一领域的研究主要还是集中在情感的声学特征分析上,有关情感建模以及结合情景、语言特征建立完整的情感控制模型还少有涉及
声学特征判断情感因素当说话人处于不同情感状态时,会在语速上表现出一定的变化,在激动状态时,语速较平常状态快
因此可以利用判断语音信号中的语速和发话持续时间等参数来判别情感中激动成分的程度
同语音信号中的时间特征相类似,信号的振幅特征和各种情感信息也具有较强的相关性
由于人对语音的感知非常多样化,全面考虑情感的声学特征是一个非常困难的工作,考虑到计算机的处理能力,只能通过部分参数从一定程度上对情感语音的声学特性进行概括
一般情况下,语音情感相关性的表示形式可以通过说话人模型或者声学模型来实现
由于汉语的韵律多以音节为处理单位,在这种有调音节的韵律分析中,音节的韵律特征起着非常重要的作用,为了便于在汉语中处理,通常将情感语音的声学特征直接分为三类:韵律类、音质类和清晰度类
韵律类韵律类主要用来表征不同情感状态下语气的变化,它包括如下韵律参数描述
平均基频:整个语句的基频(F0)平均值,根据语音信号分析声带的共振频率
基频范围:整个语句的基频范围,基频范围在很大程度上能够反