您好,欢迎访问三七文档
声纹识别VoiceprintRecognition,VPR声纹识别技术简介发展状况实现原理实际应用声纹识别:通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的,简单的说就是辨别某一句话是否是某一个人说的技术。该项技术最早是在40年代末由贝尔实验室开发,主要用于军事情报领域。随着该项技术的逐步发展,60年代末后期在美国的法医鉴定、法庭证据等领域都使用了该项技术,从1967年到现在,美国至少5000多个案件都通过声纹识别技术提供了有效的线索和有力的证据。声纹识别(VoiceprintRecognition,VPR),也称为说话人识别(SpeakerRecognition),包括两类:说话人辨认(SpeakerIdentification)和说话人确认(SpeakerVerification)。说话人辨认技术:用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;说话人确认技术:用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。声纹(Voiceprint):是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。声音摄谱仪声纹识别的理论基础:每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有效的区分。声腔的尺寸•包括咽喉,鼻腔和口腔等,这些器官的形状,尺寸和位置决定了声带张力的大小和声音频率的范围。因为每个人的发声腔都是不同的,就像指纹一样,所以每个人的声音也就有独特的特征。发声器官被操纵的方式•发声器官包括唇、齿、舌等,他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中,通过模拟周围不同人的说话方式,就会逐渐形成自己的声纹特征。声纹识别发展的分水岭第一个分水岭是2000年。在2000年以前,进行声纹识别验证,主要是基于模板匹配,这种算法基于信号比对,通常要求比对双方的内容相同,比如要验证说“床前明月光”的人是谁,那验证人也必须要说“床前明月光”才能验证,如果他说“疑似地上霜”的话,验证就不能完成。2000年以后,开始出现基于高斯混合模型的声纹识别算法,高斯混合模型是典型基于统计学习理论的方法,该算法采用大量数据为每个说话人训练模型,使用高斯混合模型验证已经与文本无关了,即要验证“床前明月光”的说话人时,说“疑似地上霜”也能够验证成功。之后产生的许多主流研究方法都是在高斯混合模型的基础上改进的,但高斯混合模型注册语音的时间过长,无法满足实际应用场景的需求,因此需要新的技术来突破限制。声纹识别发展的分水岭第二个分水岭是2010年左右,这时候出现了iVector/PLDA算法。iVector最大的亮点在于,把语音映射到了一个固定的且低维的向量上,这意味这所有机器学习的算法都可以用来解决声纹识别的问题了,因此这是一个巨大的进步。PLDA是一种信道补偿算法,因为在iVector中,既包含说话人的信息,也包含信道信息,而我们只关心说话人的信息,所以才做信道补偿,目前PLDA是最好的信道补偿算法,但噪声对结果依然有很大的影响。声纹识别发展的分水岭第三分水岭是在2011年,在第十一届全国人机语音通讯学术会议上,邓力分享了他在微软DNN-basedspeechrecognition的研究结果,将识别率提升了30%,这将声纹识别的准确率一下子提升了一个层次。DNN能从大量样本中学习到高度抽象的说话人特征,并对噪声有很强的免疫力,至此深度学习被引入业界,国内对声纹识别技术的关注点也放到了深度学习上。趋势从近几年情形可以看出,相比于指纹识别、人脸识别等生物识别技术,声纹识别是“低调”的,但市场需求的确存在,且市场热度也有上升趋势。尽管前景可观,但就目前而言,声纹识别要想真正成熟并落地,还需要克服一些难题。因此,严格说来,声纹识别当“独行侠”的机会微乎其微。只有在智能家居等相对局限的场景中才能够独立提供服务。在更多场景下,则是通过与人脸、语音等其他识别技术配合,进行身份确认。人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异,主要体现在如下方面:共鸣方式特征:咽腔共鸣、鼻腔共鸣和口腔共鸣嗓音纯度特征:不同人的嗓音,纯度一般是不一样的,粗略地可分为高纯度(明亮)、低纯度(沙哑)和中等纯度三个等级平均音高特征:平均音高的高低就是一般所说的嗓音是高亢还是低沉音域特征:音域的高低就是通常所说的声音饱满还是干瘪不同人的声音在语谱图中共振峰的分布情况不同,声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人,从而实现“闻声识人”的功能。声纹识别可以说有两个关键问题,一是特征提取,二是模式匹配(模式识别)。特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是“个性化”特征,而说话人识别的特征对说话人来讲必须是“共性特征”。虽然目前大部分声纹识别系统用的都是声学层面的特征,但是表征一个人特点的特征应该是多层面的,包括:(1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等;(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等;(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。从利用数学方法可以建模的角度出发,声纹自动识别模型目前可以使用的特征包括:(1)声学特征(倒频谱);(2)词法特征(说话人相关的词n-gram,音素n-gram);(3)韵律特征(利用n-gram描述的基音和能量“姿势”);(4)语种、方言和口音信息;(5)通道信息(使用何种通道)。声纹识别在数学操作上,就是对输入的声音信号进行数学操作,得到一组特征描述向量.声纹识别方法的好坏,则主要在于从不同声纹对象提取的不同特征向量的区分度,以及从相同声纹对象的声音在不同时间提取的特征向量之间相似度.前者称为类间差异(InterclassVarience),后者称为类内差异(IntraclassVarience).类比我们对一个人的描述,如果说TA出门穿衣服,这个描述可以作为一个特征,但是不是一个好特征,因为几乎所有人出门都会穿衣服,这个特征描述的类间差异太小.而如果说TA面部某个地方有个胎记,那这就是一个好的描述特征,因为这个描述具有很好的区分度(类间差异大)和复现性(类内差异小).得到声纹对象的特征向量之后,我们把这个特征和注册的声纹特征向量进行比较,比如计算欧氏距离(d),当这个距离大于一定值(Th)时,我们认为是源自不同人,小于这个值时,则认为是同一个人。较好的特征,应该能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定,不易被他人模仿或能够较好地解决被他人模仿问题,具有较好的抗噪性能。当然,这些问题也可以通过模型方法去解决。模板匹配方法:利用动态时间弯折(DTW)以对准训练和测试特征序列,主要用于固定词组的应用(通常为文本相关任务);最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都很大;神经网络方法:有很多种形式,如多层感知、径向基函数(RBF)等,可以显式训练以区分说话人和其背景说话人,其训练量很大,且模型的可推广性不好;多项式分类器方法:有较高的精度,但模型存储和计算量都比较大。理论上来说,声纹就像指纹一样,很少会有两个人具有相同的声纹特征。美国研究机构已经表明在某些特点的环境下声纹可以用来作为有效的证据。并且美国联邦调查局对2000例与声纹相关的案件进行统计,利用声纹作为证据只有0.31%的错误率。目前利用声纹来区分不同人这项技术已经被广泛认可,并且在各个领域中都有应用。目前公安部声纹鉴别就采用类似方法,而且语谱图还是用的灰度来表示。主要抽取说话人声音的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等参数表征,然后再与模式识别等传统匹配方法结合进行声纹识别。声纹识别可以应用的范围很宽,可以说声纹识别几乎可以应用到人们日常生活的各个角落。比如下面举几个例子。信息领域。比如在自动总机系统中,把“得意”身份证之声纹辨认和“得意”关键词检出器结合起来,可以在姓名自动拨号的同时向受话方提供主叫方的身份信息。前者用于身份认证,后者用于内容认证。同样,声纹识别技术可以在呼叫中心(CallCenter)应用中为注册的常客户提供友好的个性化服务。银行、证券。鉴于密码的安全性不高,可以用声纹识别技术对电话银行、远程炒股等业务中的用户身份进行确认,为了提供安全性,还可以采取一些其他措施,如密码和声纹双保险,如随机提示文本用文本相关的声纹识别技术进行身份确认(随机提示文本保证无法用事先录好的音去假冒),甚至可以把交易时的声音录下来以备查询。军队和国防。声纹辨认技术可以察觉电话交谈过程中是否有关键说话人出现,继而对交谈的内容进行跟踪(战场环境监听);在通过电话发出军事指令时,可以对发出命令的人的身份进行确认(敌我指战员鉴别)。目前该技术在国外军事方面已经有所应用,据报道,迫降在我国海南机场的美军EP-3侦察机中就载有类似的声纹识别侦听模块。保安和证件防伪。如机密场所的门禁系统。又如声纹识别确认可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡,把声纹存在卡上,在需要时,持卡者只要将卡插入专用机的插口上,通过一个传声器读出事先已储存的暗码,同时仪器接收持卡者发出的声音,然后进行分析比较,从而完成身份确认。同样可以把含有某人声纹特征的芯片嵌入到证件之中,通过上面所述的过程完成证件防伪。近年来,随着AI的市场需求日益增加、技术革新以及重大政策利好,人工智能已逐渐普及。根据各方面的数据和报告显示,智能家居产品销量与日俱增。而人工智能在金融和安防等领域的应用同样越来越广泛,这些新兴力量打破了传统行业壁垒,不断获得发展。这些发展势头迅猛的人工智能有一个共同点,就是非常需要以声纹识别作为技术补充。有了声纹识别,能使弥补这些人工智能的固有缺陷;有了声纹识别,能提高这些人工智能的性能,使之更为人性化,从而更好地为人类服务。
本文标题:声纹识别(1)
链接地址:https://www.777doc.com/doc-5346995 .html