您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 基于说话人的音频分割与聚类-李稀敏
心智与计算139心智与计算,Vol.4,No.2(2010),139-147文章编号:MC–2010-16收稿日期:2010-04-01出版日期:2010-06-30©2007MC–厦门大学信息与技术学院基于说话人的音频分割与聚类李稀敏,洪青阳,黄晓丹(厦门大学智能科学与技术系,福建厦门361005)qyhong@xmu.edu.cn摘要:说话人分割与聚类主要应用于两个方面的问题,一方面可以用于自动语音识别的说话人自适应;另一方面可用于说话人检索和富文本转录。主要包括三个过程:有效语音检测、说话人分割以及说话人聚类。本文主要就这三个方面展开叙述,全面地介绍了各类算法。关键词:有效语音检测;说话人分割;说话人聚类中图分类号:TP391文献标识码:ASpeakerSegmentandClusteringLIXi-min,HONGQing-yang,HUANGXiao-dan(DepartmentofCognitiveScience,XiamenUniversity,Xiamen361005,China)qyhong@xmu.edu.cnAbstract:Intheliteratureonecannormallyfindtwomainapplicationsforspeakerdiarization.Ononehand,AutomaticSpeechRecognition(ASR)systemsmakeuseofthespeakerhomogeneousclusterstoadapttheacousticmodelstobespeakerdependentandthereforeincreaserecognitionperformance.Ontheotherhand,speakerindexingandrichtranscriptionsystemsusethespeakerdiarizationoutputasoneof(possibly)manyinformationpiecesextractedfromarecording,whichallowitsautomaticindexationandotherfurtherprocessingareas.Itmainlycontainsthreeprocesses,whicharespeechactivitydetection,speakersegment,andspeakerclustering.Thisworkreviewskindsofalgorithmsinthethreeaspects.Keywords:speechactivitydetection;speakersegment;speakerclustering1引言随着IT技术的发展,各类音频文档的获取途径越来越丰富,数据量呈爆炸式增长,从而对音频文档的管理也越来越困难。近年来,人们开始研究音频检索技术①,对电话语音、广播语音以及会议语音等多媒体语音文档进行管理。其中,对会议语音的检索难度昀大,因为会议语音文档中包含有多个信道、更多的说话人。基于说话人的音频分割与聚类,就是将一段有多个人在说话的语音分割成多个片段,并①音频检索技术,狭义上讲是结合基于内容和基于说话人的查询、检索已知的说话人和词语的技术。基于说话人的音频分割与聚类140将每个片段标上该段语音对应的说话人身份的标签②的技术。图1展示了说话人分割聚类任务。它实际上包含了两个过程:说话人分割,即检测说话人身份发生变化的点;说话人聚类,即将说话人身份相同的片段聚成一类。其中,说话人聚类是一个无监督的过程,因为没有音频文档中的说话人数目、说话人身份以及声学条件等先验知识。图1说话人分割与聚类任务Fig.1Thetaskofspeakersegmentationandclustering广义地来说,说话人分割与聚类系统可以分为两类,即在线和离线系统。它们的区别在于获取数据的数量不同。在线的说话人分割与聚类系统只能使用目前该点之前的录音数据,而离线的系统则在处理之前便能获取整个数据。说话人分割与聚类系统包含以下必要组件:(1)有效语音检测模块;(2)说话人分割(说话人身份变化点检测);(3)说话人聚类模块。其中有效语音检测对说话人分割和聚类的性能都有很大影响。大多数的说话人分割与聚类系统都是使用一种分层处理机制。自顶向下③(top-down)的算法中,语音文档被不断地切割成小片段直到某个截止条件得到满足;自底向上④(bottom-up)的算法中,语音片段被不断地合并成大类直到满足截止条件。因此,需要定义一个衡量两段语音之间距离的距离准则。此外,由于语音文档中说话人的数目未知,需要定义一个截止准则来获得昀佳的说话人数目。本文将从有效语音检测、说话人分割和说话人聚类三个方面综述近年来国际上的研究成果。2有效语音检测有效语音检测(speechactivitydetection)是指确定语音文档中包含有说话人语音的区域。根据所处理的语音文档类型,非语音区域可能包含有静音、笑声、音乐、室内噪声或者背景噪声等。有效语音检测是说话人分割与聚类系统非常重要的部分。如果在聚类过程中包含有非语音帧,将对正确区分两个说话人模型造成很大影响。有效语音检测一般可以广义地分为以下4类[19]:⑴基于能量/频谱的语音检测。⑵基于模型的语音/非语音检测。②该标签并不需要对应实际说话人的身份,它只是一个类别标识。③在该类算法中,首先用一个长滑动窗将原始语音文档切割成sub-segments,然后再用一个短滑动窗对sub-segments分而治之。④与自顶向下算法恰好相反。基于说话人的音频分割与聚类141⑶混合语音/非语音检测。⑷多信道有效语音检测。基于能量的语音检测通常用于电话语音的有效语音检测,因为在电话语音中,非语音一般只包括静音和缓变噪声。而在会议录音中,则有各种类型的噪声,比如翻动纸张的噪声、咳嗽、笑声等。由于基于能量的语音检测方法的局限,基于模型的有效语音检测方法在许多语音分割与聚类系统中被采用,因为它能够刻画各种声学特征。在Wooters等的系统中[1],只采用语音和非语音这两个模型。而在Nguyen等的复杂系统中[2]采用了区别性别和信道带宽的4个模型。在文献[3]和[4]中,Gauvain和Zhu则对噪声和音乐建模,在他们的系统中,音频文件由5部分组成,即语音、音乐、噪声、语音叠加音乐、语音叠加噪声。文献[5]将语音文档中的语音类型划分得更细。基于模型的方法也有它的局限之处,即需要用已标注的数据集来训练语音/非语音模型。而且训练集和测试集数据之间的不匹配会严重系统的泛化性能。为了解决上述这些问题,引入了混合语音/非语音检测方法。该方法由两步组成:第一步,进行简单地基于能量的检测;第二步,基于模型的检测,该模型由测试数据本身训练而成,因而不需要额外的训练数据。在文献[6,7]中,Anguera首次使用衍生滤波器和有限状态机(FiniteStateMachine,FSM)来检测语音和非语音区域。近年来,随着多信道音频文档的增加,出现了一些针对多信道有效语音检测的方法。在文献[8]中,Wrigley将多信道语音划分成4个子类:本信道语音、交叉谈话语音、本信道和交叉谈话语音以及非语音。他们着眼于帧层次上的分类精度,并选择各种语音特征加以分析。他们的实验结果发现,在所分析过的20种语音特征中,来自交叉信道关联(Cross-channelCorrelation)的特征效果昀佳。在文献[9]中,Laskowski提出了一种基于信道交叉作用(Crosscorrelation-based)的方法来处理多说话人有效语音检测任务。3说话人分割算法说话人分割(SpeakerSegment)通常是指说话人改变点检测,即定位语音文档中说话人身份发生改变的点。一般的做法是,观测并计算相邻语音窗之间的距离⑤,然后基于阈值或惩罚因子来决定这两段语音是否来自于同一个说话人。而这个阈值或惩罚因子是通过额外的训练集数据凭经验获得。很多文献提出了各种说话人分割算法,其主要区别就是使用不同的距离准则和阈值决策方法。在文献[10]中,Siegler将每个语音窗表示为一个高斯分布,并用KL2距离准则来计算相邻语音窗之间的距离。这样做需要估计音频流中每一段加窗语音的均值和方差。当当前相邻窗之间的距离达到一个局部极大值时,便获得一个新的分割点。随后,Chen和Gopalakrishman[11]将说话人分割问题归纳为一个模型选择问题,并引入贝叶斯信息准则(BayesInformationCriteria,BIC)来解决问题。该方法判断相邻窗内的两段语音是否可以用同一个⑤距离准则(DistanceMetrics)用来衡量两个语音特征向量之间的差距,比如GLR,KL2等。基于说话人的音频分割与聚类142分布来表示,如果可以,则说明这两段语音来自于同一个说话人,语音窗向前移动并继续搜索改变点;否则,存在改变点,语音窗以改变点为起点并重新搜索。在该论文中,作者引入了一个可调参数,调节这个参数以获得更好的效果。而在另一篇文献[12]中,Ajmera提出了一种新的方法,该方法通过调整模型独立参数的数目代替上述的可调节参数,使得BIC方法对未知数据的泛化性能更好。在文献[11]中,Chen和Gopalakrishman的研究发现,BIC值随着语音窗长的增加而增大。实际上当相邻窗之间的窗长不匹配时确实存在问题。因此,Perez-Freire[13]引入了一个依赖于窗长的惩罚权重来获得更好的鲁棒性。在文献[14]中,Vandecatseyes对BIC的值进行归一化,结果表明效果总是比未归一化的方法要好。使用BIC准则的系统存在以下一些问题:(1)当语音文档中说话人身份变化很快时(2~5s),会出现高漏报率。因此,将BIC准则应用于快速交谈的语音对话场合时,会存在很大问题。(2)计算量很大(N2复杂度)。下面介绍各类常用的距离准则(DistanceMetrics)。3.1对称Kullback-Leibler距离(KL2)Kullback-Leibler(KL)散度⑥用来衡量两个随机分布A和B之间的距离。A和B的KL散度表示用基于B(不是A)的昀优编码规则来编码A时所需的额外比特位。()()()()||logAABpxKLABpxdxpx∞−∞=∫(1)其中Ap和Bp分别表示A和B的概率密度函数。KL2是KL的一个对称形式,定义如下:()()()2,||||KLABKLABKLBA=+(2)当A和B都服从高斯分布时,可以获得如下闭式表达式[18]:()()()()1112,2ABABKLABtrCCCC−−=−−+()()()()1112TABABABtrCCμμμμ−−+−−(3)其中AC,BC,Aμ,Bμ分别表示Ap和Bp的协方差矩阵和均值。在文献[21]中,Lu和Zhang使用KL2来衡量两个相邻语音窗之间的相似度。3.2分歧形状距离(DivergenceShapeDistance,DSD)等式(3)有两部分组成,后者包含了向量均值Aμ,Bμ。由于向量均值会随录音环境的变化而改变,鲁棒性差,而分歧形状距离(DSD)就是将这一部分去掉所获得的新的距离准则。其表达式如下:()()()()()1112,TABABABtrCCDSDABμμμμ−−+−−=(4)在文献[19]中,LieLu使用分歧形状距离(DSD)计算LPC,MFCC以及LSP等语音特征的距离,实现一个实时系统,获得很好的效果。⑥也称信息增益,相对熵或信息散度基于说话人的音频分割与聚类1433.3广义似然比(GeneralLikelihoodRatio,GLR)给定两段语音数据1X和2X,考虑如下两个假设检验:⑴0H:1X和2X来自于同一个说话人⑵1H:1X和2X来自于不同的说话人假设说话人K的特征参数矢量的分布所对应的概率密度函数为()ijMβ,kβ为其参数集。则⑴在假设下0H:()~ijijXXMβ∪⑵在假设下1H:()~iiXMβ()~jjXMβGLR定义为:()()
本文标题:基于说话人的音频分割与聚类-李稀敏
链接地址:https://www.777doc.com/doc-7373300 .html