听话要听音— 情感语音处理技术VIP免费

下载本文档

阅读 163
下载 19
格式 doc
大小 30 KB
约4页
2024-11-11 发布于河南
收藏
评论
点赞(0)
海报
举报

1/4页

2/4页

3/4页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

听话要听音—情感语音处理技术原作者：陶建华2005-02-0411:49:31同样一句话，往往会由于说话人的情感不同，其意思和给听者的印象就会不同，所谓“听话听音”就是这个道理。传统的语音处理系统多着眼于语音词汇传达的准确性，而忽略了包含在语音信号中的情感因素。传统的语音处理系统只是反映了信息的一个方面，而忽略了与知识世界相对应且具有同等重要地位的感性科学世界，这其实也是信息处理的一个重要组成部分。近几年来，语音识别与合成技术在语音分析、自然语言处理、信号处理、随即过程处理等方法的推动下获得了很大的发展。但从语音信号中提取情感特征，分析人的情感与语音信号的关联，只是国内外刚刚兴起的研究课题。目前这一领域的研究主要还是集中在情感的声学特征分析上，有关情感建模以及结合情景、语言特征建立完整的情感控制模型还少有涉及。声学特征判断情感因素当说话人处于不同情感状态时，会在语速上表现出一定的变化，在激动状态时，语速较平常状态快。因此可以利用判断语音信号中的语速和发话持续时间等参数来判别情感中激动成分的程度。同语音信号中的时间特征相类似，信号的振幅特征和各种情感信息也具有较强的相关性。由于人对语音的感知非常多样化，全面考虑情感的声学特征是一个非常困难的工作，考虑到计算机的处理能力，只能通过部分参数从一定程度上对情感语音的声学特性进行概括。一般情况下，语音情感相关性的表示形式可以通过说话人模型或者声学模型来实现。由于汉语的韵律多以音节为处理单位，在这种有调音节的韵律分析中，音节的韵律特征起着非常重要的作用，为了便于在汉语中处理，通常将情感语音的声学特征直接分为三类：韵律类、音质类和清晰度类。韵律类韵律类主要用来表征不同情感状态下语气的变化，它包括如下韵律参数描述。平均基频：整个语句的基频（F0）平均值，根据语音信号分析声带的共振频率。基频范围：整个语句的基频范围，基频范围在很大程度上能够反映人的情绪状态。重音的突变特性：在情感语句中，重音多体现情感焦点特性，经常由情感关键词承载。停顿的连贯性：用以表示语句的停顿是否连贯。人在情绪受到压抑或快速膨胀时，有时会出现由于概念表述不清而导致的语气断续特征。语速：用以表征语气的缓急程度，人在焦急、恐惧时多出现语速加快的现象，有时欢快的语气也能带来类似效果。重音频度：重音的频度在一定程度上能够体现情感状态的持续性。音强：实验证明在情感语音中，音强的变化往往表现出与基频范围变化的一致性。但是相对基频变化来说，大部分音强变化并不明显。音节基频高线倾斜程度：语句中音节基频高点连线的变化情况（上升、水平和下降）。音节基频低线倾斜程度：语句中音节基频低点连线的变化情况（上升、水平和下降）。基频抖动：焦虑语音会出现“F0抖动”现象，这一现象描述了基频从一个区域到另一个区域之间快速和反复的变化。在此情况下，有时音节会失去其固有调型。音质类音质类用来表征不同情感状态下语音音质发生的变化，它通过如下参数描述。呼吸声：在语音流中，出现呼吸气等声音。当一个人处于紧张或欢快状态时会出现的快速呼吸停顿，或一个人由于恐惧而牙齿紧压会产生的回旋气流噪声。明亮度：低频能量和高频能量的比值，用以反映语音的清亮特性。喉化度：发音时声门出现不连续的脉冲震动特性，经常出现在极度恐惧的情感状态中。清晰度类情感信息与人的声道同样具有一定的关联。清晰度可分为正常、焦急、模糊和准确。清晰度描述了元音质量的变化和清辅音是否变化为相应的浊辅音。比如：人在厌恶时，有时说话“嘟嘟囔囔”，表达不清。情感表现的多样性和复杂性导致情感声学参数的数值分布多呈现较大的离散特性，表1针对五种基本情感状态列出了几种基本声学参数较为平均的体现。从语音中抽取个性特征通常情况下，语音理解是从一段语音中分析出文本，让系统“听懂”语音的内容。它的研究重点是分析语音中的共性特征。情感语音的研究则是从语音中抽取个性特征，并加以参数化描述。充分的利用情感韵律特征，从中获取说话人意向及部分语义信息，可以从一定程度上提高理解的准确率。由于一般情况下人们很少进...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

听话要听音— 情感语音处理技术

听话要听音—情感语音处理技术原作者：陶建华2005-02-0411:49:31同样一句话，往往会由于说话人的情感不同，其意思和给听者的印象就会不同，所谓“听话听音”就是这个道理

传统的语音处理系统多着眼于语音词汇传达的准确性，而忽略了包含在语音信号中的情感因素

传统的语音处理系统只是反映了信息的一个方面，而忽略了与知识世界相对应且具有同等重要地位的感性科学世界，这其实也是信息处理的一个重要组成部分

近几年来，语音识别与合成技术在语音分析、自然语言处理、信号处理、随即过程处理等方法的推动下获得了很大的发展

但从语音信号中提取情感特征，分析人的情感与语音信号的关联，只是国内外刚刚兴起的研究课题

目前这一领域的研究主要还是集中在情感的声学特征分析上，有关情感建模以及结合情景、语言特征建立完整的情感控制模型还少有涉及

声学特征判断情感因素当说话人处于不同情感状态时，会在语速上表现出一定的变化，在激动状态时，语速较平常状态快

因此可以利用判断语音信号中的语速和发话持续时间等参数来判别情感中激动成分的程度

同语音信号中的时间特征相类似，信号的振幅特征和各种情感信息也具有较强的相关性

由于人对语音的感知非常多样化，全面考虑情感的声学特征是一个非常困难的工作，考虑到计算机的处理能力，只能通过部分参数从一定程度上对情感语音的声学特性进行概括

一般情况下，语音情感相关性的表示形式可以通过说话人模型或者声学模型来实现

由于汉语的韵律多以音节为处理单位，在这种有调音节的韵律分析中，音节的韵律特征起着非常重要的作用，为了便于在汉语中处理，通常将情感语音的声学特征直接分为三类：韵律类、音质类和清晰度类

韵律类韵律类主要用来表征不同情感状态下语气的变化，它包括如下韵律参数描述

平均基频：整个语句的基频（F0）平均值，根据语音信号分析声带的共振频率

基频范围：整个语句的基频范围，基频范围在很大程度上能够反

起跑线书城 + 关注: 实名认证
内容提供者

热爱教学事业，对互联网知识分享很感兴趣

收藏店铺进入空间

听话要听音— 情感语音处理技术VIP免费

听话要听音— 情感语音处理技术

您可能关注的文档

相关文档

热门下载

相关标签