您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 声纹识别原理、技术及应用
声纹识别原理、技术及应用洪青阳副教授厦门大学信息科学与技术学院E-mail:qyhong@xmu.edu.cn文本无关声纹识别及应用4生物识别技术1声纹识别基本原理2文本相关声纹识别及应用3文本提示声纹识别及应用5总结及展望6主要内容生物识别技术当今信息社会中,在国家安全、金融、司法等社会各个领域均需要个人身份验证。生物特征识别(BiometricsAuthentification)技术是通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合,利用人体固有的生理特性(如指纹、人脸、虹膜、声音等)来进行个人身份的鉴定。生物特征识别技术比传统的身份鉴定方法更具安全、保密和方便性,且具有不易遗忘、防伪性能好、不易伪造或被盗、随身“携带”和随时随地可用等优点。生物识别技术图1各类认证技术比较生物识别技术你是谁你有什么你知道什么生物识别技术U盾/密保卡等文本密码生物识别技术市场机密6错误接受率错误拒绝率容易实用性处理速度/人指纹识别很低较低好2s-5s掌纹识别低5%使用困难5s-10s人脸识别低0.2%非常好≤5s虹膜识别很低约10%需要培训才能使用,手工操作对虹膜有困难仪器自动对准虹膜需要3s-5s,手工操作需要5s-25s视网膜识别未知未知不好15s-30s声纹识别较低较低好≤5s生物识别技术比较声纹唯一性由于每个人的声音器官,诸如声带、口腔、鼻腔、舌、齿、唇、肺等,在发音时呈现千姿百态,抑或有着哪怕是微小的差异,以及年龄、性格、语言习惯等多种原因,再加上发音容量的大小不一,发音频率的不尽相同,因而导致这些器官发出的声音必然有着各自的特点,形成每个人独具一格的声纹(Voiceprint),可用语谱图观察出来。机密8食道环状软骨声带喉管会咽舌根小舌口腔软腭鼻咽硬腭鼻腔气管甲状软骨舌骨下颚骨下唇牙齿上唇齿龈鼻语谱图分析语音信号的语谱(Sonogram)图分析:把和时序相关的傅里叶分析结果显示的图形称为语谱图(Sonogram,或者Spectrogram),它表示语音频谱随时间变化的三维图形。(Spectrogram:time,frequency,amplitude)Sonogram0500010000150000100020003000400000.511.522.53x1040100020003000400000.511.522.53x10401000200030004000050001000015000010002000300040000~9语谱图f001_1(0-9口令)f001_2(0-9口令)f002_1(0-9口令)f002_2(0-9口令)声纹识别(VPR)什么是“声纹识别”声纹识别(说话人识别),就是从某段语音中识别出说话人的身份的过程。与指纹类似,每个人说话过程中蕴涵的语音特征和发音习惯等也几乎是唯一的。与“语音识别”的不同“语音识别”是共性识别,判定所说的内容(说的什么)。“声纹识别”是个性识别,判定说话人身份(是谁说的)。声纹识别独特优势语音采集装置造价低廉,只需电话/手机或麦克风即可,无需特殊的设备。与指纹、人脸相比,声纹更适合于远程身份认证。声纹口令可动态变化。声纹应用领域声纹辨认刑侦破案、嫌疑人追踪情报过滤、反恐侦查、国防军事监听呼叫中心、个性化应用,等等声纹确认金融证券交易、银行交易司法鉴定、法庭证据社区矫正声纹门禁智能手机、民用安全/娱乐/数码设备,等等国内产业化进展中科院声学所、清华大学、中国科技大学、厦门大学等科研机构和高等院校已研制成功各具特色的声纹识别系统。涌现出北京得意音通、厦门天聪公司等专业的声纹识别技术开发商。其中厦门天聪公司已开发出手机声纹锁、社区矫正声纹识别系统以及声纹动态口令。分类方式一按识别任务分类声纹辨认(Identification)声纹确认(Verification)闭集开集前端处理说话人1说话人2说话人N…MAX匹配分数/概率说话人编号是哪个人的声音?前端处理冒名顶替者模型拒识接受宣称说话人模型对比+-是XX的声音吗?分类方式二按说话内容分类文本无关(Text-Independent)不限定说什么文本语种无关(Language-Independent)语种相关(Language-Dependent)文本相关(Text-Dependent)要求说特定的文本(与训练阶段一致,或现场提示)必定是语种相关的性能评价标准对于说话人辨认系统,其性能的评价标准主要是正确识别率。对于说话人确认(SV)系统,其最重要的两个指标是错误拒绝率(FRR)与错误接受率(FAR),前者是拒绝真实的说话人,又称“拒真率”,后者是接受冒认者而造成的错误,又称“认假率”,两者均与阈值的设定相关。等错率(EER):FRR与FAR相等。DET曲线图文本无关声纹识别及应用4生物识别技术1声纹识别基本原理2文本相关声纹识别及应用3文本提示声纹识别及应用5总结及展望6主要内容声纹识别基本原理特征提取过程MFCC参数计算过程分帧预加重加窗FFTMEL滤波器logDCT语音信号MFCC声纹建模方法类型主要算法文本相关SCHMM(半连续隐马尔科夫模型)GMM-UBM文本无关GMM-UBMGMM-SVM(支持向量机)GMM-UBM-LFAi-vector/PLDA文本提示HMM(自适应算法MLLR/MAP)GMM-UBMGMM-UBM说话人确认系统经典方法(GMM-UBM)说话人需要建立自己的模型时,就可以通过MAP自适应UBM来得到个性特征,即修正后的参数,从而得到自己的GMM。高斯混合模型(GMM)GMM本质上是一种多维概率密度函数M阶GMM的概率密度函数如下:M阶GMM是用M个单高斯分布的线性组合来描述。Dim1Dim2Model(|)pxMMiiixPicixPxP11),|()|,()|(Miic11其中}2)(1)(exp{2/12/)2(1),|(ixiTixiKixPParametersiμiDim1Dim2()pxNicolasMalyska,SanjeevMohindra,KarenLauro,DouglasReynolds,andJeremyKepner高斯混合模型(GMM)ciUBMUBM——通用背景模型UBM也是一个GMM,只是这个GMM需要用大量的不同说话人的语音数据经过训练来表示说话人无关的特征分布,这种特征是大多数说话人的共性特征。UBM采用比较大的高斯混合数(M阶)NIST评测:2048mixtures实网应用:512mixtures手机应用:64~128mixturesGMM优缺点GMM优点:概率统计模型,通过大量训练语音数据集的统计分布进行描述,可较好地刻画目标话者不同情况下的特点,具有良好的鲁棒性。同信道效果很好,已可实用。GMM缺点:有限的数据不一定能充分代表说话人的真实特征分布;只考虑某一类的模型参数和本类训练数据之间的相似程度,而没有考虑与其他类别之间的区分性。跨信道性能急剧下降!文本无关声纹识别及应用4生物识别技术1声纹识别基本原理2文本相关声纹识别及应用3文本提示声纹识别及应用5总结及展望6主要内容基于GMM的文本相关声纹识别基于GMM的文本相关声纹识别•固定口令(0~9)•采用Znorm得分归一化•EER3%•技术已经成熟可商用。文本相关0~9口令文本相关声纹识别的应用电话银行账户交易各类账户密码重设司法矫正智能终端隐私保护文本相关应用设计及案例(1)声纹识别的应用设计数据安全性前向兼容能力操作点设置模型库备份及恢复交互流程应用设计及案例(2)应用实例司法社区矫正中的应用司法社区矫正,是指将社区矫正对象置于社区内,由专门的国家机关负责并组织社会力量对其采取监督管理、教育、帮助措施,矫正其犯罪心理和行为恶习,促进其顺利回归社会的非监禁刑罚执行活动。声纹识别主要用来解决其“人机分离”的难题。智能移动终端上的应用SIVI声纹锁是一款安卓(Android)操作系统上的智能手机应用,用于保护手机的上的应用软件。SIVI声纹锁SIVI声纹锁文本无关声纹识别及应用4生物识别技术1声纹识别基本原理2文本相关声纹识别及应用3文本提示声纹识别及应用5总结及展望6主要内容研究热点技术难题:跨信道、噪声实验室理想条件√实际应用场合(跨信道、噪声背景)×训练阶段识别阶段跨信道因素类型采集设备座式麦克风、头戴式麦克风、计算机内置麦克风、录音笔、手机、固定电话传输信道移动传输信道:GSM、CDMA2000、WCDMA、TD-SCDMA、LTE等固定电话传输信道:IP、PSTN等表1语音采集设备类型和传输信道类型跨信道解决办法主要方法特征域倒谱均值减(CMS)、倒谱方差归一化(CMN)、RASTA滤波、特征弯折(FeatureWarping)等模型域支持向量机(SVM)有害因子映射(NAP)潜在因子分析(LFA),又称本征信道i-Vector/PLDA迁移学习(TransferLearning)得分域Znorm用在训练阶段Tnorm用在测试阶段SVM的核心思想:分类间隔越大,则推广能力(泛化能力)越好。SVM(1)——线性可分SVM(2)——线性可分凸二次规划:可行域为凸集,且目标函数又是w的二次函数。(规划=寻找最优解)定理:凸二次规划有唯一的全局最优解。SVM(3)——核函数线性不可分线性可分(曲线上下)红线在曲线上方黑线在曲线下方黑线在曲线下方SVM表达式:SVM(4)——核函数核函数:使低维空间线性不可分的数据在高维空间线性可分或近似线性可分。常用核函数:SVM(5)——核函数GSV生成GaussianSupervector(GSV)的获取过程提取语音特征说话人模型高斯超向量GSV通用背景模型语音MAPGSV训练过程特征矢量到超矢量的映射信道补偿特征矢量到超矢量的映射信道补偿特征矢量到超矢量的映射信道补偿...SVM训练目标说话人超向量(+1)背景模型超向量(-1)特征矢量到超矢量的映射信道补偿...目标说话人训练语音背景模型训练语音超平面XXXXXXGSV训练(包含NAP信道补偿)GMM-NAP-SVM-Tnorm系统实验数据以NIST评测中2006年的男性数据作为测试集,以SRE04的数据作为UBM的开发集,以SRE08年的数据作为有害因子映射和潜在因子分析的训练集和T-norm的开发集,同样也作为SVM负例的数据。测试集来源于SRE06的core-core对,有两种类型,由表2给出:一种是同信道训练测试对1conv4w-1conv4w,另一种是跨信道测试对1conv4w-1convmic。跨信道测试对中,训练数据来自电话信道,而测试数据来自麦克风。训练-测试环境模型数正例测试次数负例测试次数1conv4w-1conv4w3511595249451conv4w-1convmic35111599398表2SRE06训练测试集GMM-SVM的EER训练测试对/系统GMM-SVMGMM-SVM-TnormGMM-SVM-Tnorm-NAP1conv4w-1conv4w8%7%6.5%1conv4w-1convmic10.2%9.8%7.8%SVM优缺点SVM优点:区分性模型,只着眼于两类数据的边界描述,不注重某类数据内部的分布,具有良好的区分性。高斯超向量GSV比较采用点积,运算速度快,适合于大范围的声纹鉴别(1:N)任务。SVM缺点:对于文本无关的说话人确认,采用SVM模型时,需要较长的语音,因此我们将面临着特征矢量样本数量大、目标话者和冒认话者训练样本数极不平衡等一系列问题。对短语音(10s以内)效果不好!LFA(潜在因子分析)LFA分解式:mspk=mubm+Ux(h)+Vy(s)∆spk=Vy(s)∆channel=Ux(h)U为信道空间载荷矩阵,V为话者空间载荷矩阵。均需要大量的语音来训练得到:V可以由UBM的协方差矩阵来间接求得;因此训练一个好的U成
本文标题:声纹识别原理、技术及应用
链接地址:https://www.777doc.com/doc-5977427 .html