通常,人既是语音的发送主体,也是语音的接收主体
语音所具备的自然属性和社会属性决定了人对语音的感知涉及到语音信号的物理特征、听觉器官对语音的听觉表征及听觉心理等诸多方面,因此难以对语音质量这个概念做出全面、精确的定义
一般说来,语音质量至少包括三个方面内容:清晰度、可懂度和自然度
清晰度是指语音中语言单元为意义不连贯的(如音素、声母、韵母等)单元的清晰程度;可懂度是指语音中有意义的语言单元(如单词、单句等)内容的可识别程度;自然度则与语音的保真性密切相关
目前对语音可懂度、清晰度的主观评测己有国际和国内标准,对语音自然度还缺乏公认的评价准则
语音质量受到个人区别、可理解性、语音特征、周围环境、背景噪声传输、网络状况和人的期望等复杂的因素影响
用于评价输出语音质量的方法分为主观评价和客观评价两种1主观评价法主观评价方法以人为主体在某种预设原则的基础上对语音的质量作出主观的等级意见或者作出某种比较结果,它反映听评者对语音质量好坏的主观印象
不同的主观评价方法对语音质量考察的侧重点不同,常见的主观评价方法有平均意见分(MeanOpinionScore,MOS)方法、判断韵字测试(DiagnosticRhymeTest,DRT)方法、失真平均意见分(DegradationMeanOpinionScore,DMOS)、判断满意度测试(DignosticAcceptabilityMeasure,DAM)方法和汉语清晰度测试
ITU-T推荐用于传输性能的主观评价有以下几种[14]:1
绝对等级评价(AbsoluteCategoryRating,ACR)ACR主要通过平均意见分(MOS)对音质进行主观评价
这种情况下没有参考语音,听音人只听失真语音,然后对该语音作出1-5分的评价
ACR评价方法不需要参考音,比较灵活,然而由于人对不同声音的喜好不同,这种灵活性会导致一定的不公平性