1 第十四章 说话人识别 14.1 概述 说话人识别和指纹识别、虹膜识别等一样,属于生物识别的一种,被认为是最自然的生物特征识别身份鉴定方式,因此又被称为“声纹”识别。生物识别(Biometric Recognition),也称为生物特征识别、生物测定学、生物认证,是指通过人体显著的生物或行为特征来自动识别所测定人的身份的方法。适合生物识别的特征应该符合以下的几个性质:通用性(每个人都具有)、独特性(每个人都不一样)、恒定性(不随时间而变化)、可收集性(可定量测量)、准确性(准确性通常随量的增加而降低)、高可采用性(人们易于接受)和低欺骗性(不易被欺骗)[1]。语音不仅具有上述的性质,而且与其他的生物测定技术如指纹、虹膜和人脸识别等比较,声纹识别具有很大的优势。语音是个人所固有的特征,人的语音可以非常自然地产生,训练和识别时并不需要特别的输入设备,诸如个人电脑普遍配置的麦克风和到处都有的电话都可以作为输入设备,因此说话人识别系统的价格也较低,上述原因促使语音成为人们愿意接受的一种生物特征。 说话人识别(Speaker Recognition)按照任务可以分为两个范畴:即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification )。说话人辨认是指通过一段语音从注册的有限说话人集合中分辨出其身份的过程,是“多选一”的问题。说话人辨认系统的性能将随着说话人集合的规模增大而降低。说话人确认是证实某一说话人是否与他所声称的身份一致的过程,系统只需给出接受或拒绝两种选择,是“一对一判别”的问题。因此,说话人确认系统的性能是与说话人集合的规模无关的。另外,与其他生物识别技术类似,若考虑待识别的说话人是否在注册的说话人集合内,则说话人辨认分为开集(Open-set)辨认和闭集(Close-set)辨认,即开集辨认比闭集辨认多一个确认过程。显而易见,闭集辨认的结果要好于开集辨认,但开集辨认与实际情况更为接近。 目前的说话人识别方法按照语音的内容可分为与文本相关(Text-Dependent)的(规定语音内容,即注册和识别时说同样的话)、与文本无关(Text-Independent)的(不规定语音内容,即注册和识别时可以说任意的话)、文本提示(Text-Prompt)的(从大数据库中提示用户说一小段话,也可以归为与文本相关的)。 说话人识别最初的应用是在法庭上,1660 年,语音被用于查尔斯一世之死一案罪犯判定的关键证据。自动说话人识别的研究始于20 世纪 60 年代,Bell ...