2015年10月第41卷第lO期北京航空航天大学学报JournalofBeijingUniversityofAeronauticsandAstronautics0ctober2O15Vo1.41NO.1Ohttpffbhxb.buaa.edu.cnbuaa@buaa.edu.onDOI:10.13700/j.bh.1001—5965.2014.0771汉语双模情感语音数据库标注及一致性检测景少玲,毛峡,陈立江,张娜娜(北京航空航天大学电子信息工程学院,北京100191)摘要:对缺少含有丰富情感标注信息的情感语音数据库问题,建立了一个包含语音和电声门图仪(EGG)信息的汉语双模情感语音数据库,并对其进行了标注和一致性检测.首先,根据情感语音数据库的特色制定了详细的标注规则和方法,由5名标注者按照制定的标注规则对情感语音数据库进行标注.其次,为了确保情感语音数据库的标注质量和测试标注规则的完整性,标注者在正式标注之前先进行了测试性标注,测试语音包含280条语音(7种情感X2名说话人×2O条语音).最后,根据语音标注规则设计了相应的一致性检测算法.结果表明,在5ms的时间误差范围内,5名标注者对相同语音标注的一致性平均可以达到60%以上,当误差范围增大至8ms和10ms时,一致性平均可提高5%和8%.实验说明5名标注者对语音的理解较一致,制定的标注规则比较完整,情感语音数据库的质量也较高.关键词:汉语;双模;情感语音数据库;语音标注;一致性检测中图分类号:TP391.4文献标识码:A文章编号:1001.5965(2015)10.1925.10情感语音中含有丰富的情感交流信息,在人们日常生活中起着非常重要的作用,对其研究可以进一步了解人类相应的心理状态,情感语音识别在情感计算和智能交互领域有重要意义.情感语音数据库是情感语音识别、合成等研究的基础.由于情感的复杂性、数据收集的困难性、录制标准的不统一性、情感分类目的和任务的差异性等,导致目前大多数研究机构都是按照各自的科研需求建立相应的情感语音数据库¨。.情感化的智能交互要求机器具有接近人类的语音情感识别和表达能力,为了实现该目标,建立一个真实自然并且拥有完整情感标注信息的优质情感语音数据库是十分重要的.电声门图仪(Electroglottography,EGG)是测量说话人声门开启与闭合状态以及声门振动方式的仪器.客观地反应了发元音时声带开闭的状态,对情感语音识别研究有重要作用.目前大多数情感语音数据库都不含EGG信息,而本文的汉语双模情感语音数据库中采用了EGG信息.1情感语音数据库概况2003年在Ververidis和Kotropoulos总结的情感语音数据库中,和汉语相关的仅列出了微软公司从电视剧截取录音片段的数据库,表1总结了语音情感识别研究中常用的一些情感语音数据库的基本情况.从表1中可以看出,目前的情感语音数据库收稿日期:2014—12-08;录用日期:2015-01.16:网络出版时间:2015-03—1814:37网络出版地址:WWW.cnki.net/kcms/detail/11.2625.V.20150318.1437.002.html基金项目:高等学校博士学科点专项科研基金(20121102130001);中央高校基本科研业务费专项资金(YwF.14.DZXY-O15)作者简介:景少玲(1987一),女,山西永济人,博士研究生,jingshaoling2013@163.corn通讯作者:毛峡(1952一),女,浙江义乌人,教授,moukyou@buaa.edu.ca,主要研究方向为人工智能、模式识别、情感计算、人机交互及红外目标检测、跟踪、识别和评价等.;f用格式:景少玲,毛峡,陈立江,等.汉语双模恃感语音数据库标注及一致性检测J.北京航空航天大学学报,2015,41(10):1925—1934.JingSL,MaoX,ChenLJ,eta1.Annotationsandconsistencydetec~onforChinesedual-modeemotionalspeechdatabase【J].JournalofBeringUniversityofAeronauticsandAstronautics2015.41(10):1925—1934(inChinese).1926北京航空航天大学学报2015年存在的共同问题是:①包含EGG信息的情感语音数据库非常少,汉语中尚未有;②大多数库规模小,如NATURAL、ESMBS;③录制标准不统一,如情感类别多样;④一些库中记录的话语质量差,如KISMET,采样率为8kHz;⑤一些库不提供音标等标注信息,如BabyEars,对提取语言内容等信息造成困难.一个完整的情感语音数据库除了包括基本的语音文件外,还应该有相应的标注文件...