您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 倒谱本征空间结构化高斯混合模型语音转换方法-李阳春-(1)
第卷第期声学学报年月倒谱本征空间结构化高斯混合模型语音转换方法李阳春俞一彪苏州大学电子信息学院苏州年月日收到年月日定稿摘要针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。提取说话人语音倒谱特征参数之后,根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型。源和目标说话人各自独立训练的根据全局声学结构原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。实验结果表明,转换语音的目标说话人平均识别率达到平均谱失真度为相对基于原始倒谱特征空间的方法分别提高了和而和测评表明转换性能非常接近于传统平行语料方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。数,,果。等使用矢量量化的方法实现说话人转换的技术;采口用神经网络对语音的各共振峰值进行转换%语音转换的目的是将源说话人的语音转换成目提出采用线性多变量回归法标说话人的语音在保持语义不变的前提下改变说话和动态频率弯折法人的个性特征使得听起来像目标说话人的发音⑴。进行谱包络的转换⑷;语音转换系统在文语转换、电影配音、保密通信和医等使用了基于高斯混合模型学康复等许多领域有广泛的应用价值。的线性转换方法丨;和上世纪年代以来,国内外对基于平行语料的等提出了使用码本映射和高斯混合模型共同转换声语音转换技术进行了广泛研究并取得了一定的成学特征细节的混合映射算法■等提出了国家自然科学基金和苏州市应用基础研究计划(资助DOI牶10牣15949牤j牣cnki牣0371牠0025牣2015牣01牣0021期李阳春等:倒谱本征空闻结构化高斯混合模型语音转换方法动态内核偏最小二乘和等提出了基于结构化高斯混合模型的语音转换方法但这些方(的独立说话人法在实际应用中存在以下问题:(不同说话人的模型语音转换方法】,这一方法不仅没有平行语料平行语料不易获得;(基于联合特征矢量的训练的限制,同时也没有源目标说话人联合训练的要计算量很大,并且需要很高的语音成分对准精度;求,并取得了与传统转换方法相接近的性能,但存联合语音模型使得系统的扩展很不方便,在多在模型拟合不够精准的问题,源目标说话人模型匹人之间相互转换时需要大量训练。最近几年,一些配精度也有待提高。学者研究了非平行语料语音转换的方法。年,本文提出一种基于倒谱本征空间结构化高斯通过平行语料训练得到转换函数,然后混合模型采用自适应的方法使转换函数适用于具有非平行语的语音转换新方法,将料的另一对说话人。年,做了跨源—目标说话人语音短时谱转换从原始特征空间转语种的语音转换,他主要使用的是声道长度归一化移到倒谱本征空间进行,并通过线性变换与原始特对语音频征空间进行谱参数映射。由于倒谱本征空间中语音谱做规整,使得非平行的语料对齐,然后采用高斯特征参数的散布矩阵为对角阵,特征参数统计分布混合模型的方法实现了语音转换。年,之间具有更加清晰的边界,对短时谱统和等采用特征矢量最佳近邻匹配对准和临计分布的拟合更加精准因而在理论上基于本征空间时转换相结合并迭代处理的方式来最终得到转换函的源目标说话人匹配更加准确,从而将数。年,和等提出了混合因子提高语音短时谱转换的性能。实验结果同样说明了分析结合先验知识的方法推导得到非平行语音转换这一点。函数】。在国内,和等采用隐马尔科夫模提取说话人语音语音转换系统结构音素成分进行对准并训练联合码本模型,进而得到、一“转换函数。和等提出使用通用背景非平行语料条件下基于倒谱本征空间结构化模型建立独立说话人的声道系统转换模型叫。高斯混合模型的语音转换流程如图所示’系统采说话人、广标说话吾〒本分析短时谱短时谱射丨映射源目标模型对准转换公式——土丁—阶段飾普转换后;时谱转后;囊合成卜测试语音)图基于倒谱本征空间结构化高斯混合模型的语音转换框图14声学学报年用分析合成平台进行短时谱和基频的射到本征空间后的分布情况,可以看出在倒谱本征空提取与语音合成处理。间中个元音的特征分布之间的边界相对清晰、重叠训练阶段,每个说话人的语音样本通过大幅减少。由此看出,倒谱本征空间说话人语音特征提取短时谱和基音频率,根据参数分布更加符合线性混合高斯分布并且各个分布原始特征空间的散布矩阵计算本征向量建立倒谱本之间较清晰的边界将使得不同说话人之征空间,将特征参数映射到本征空间,然后基间的配与高斯分布对准变得更加准确与容易于本征空间训练结构化高斯混合模型。特征由一阶高斯分布描述。源和目标说话人的采用全局声学结构原理进行模型匹配和《高斯分布对准,并由此推导出基于倒谱本征空间的■°■语音短时谱转换函数。°■转换阶段,源说话人语音输入后由°°“‘提取傅里叶短时谱和基音频率将傅里叶短时(原始空间(本征空间谱转换成特征参数并映射到相应的倒谱本图五元音特征参数分布示意图征空间中,然后根据转换函数进行短时谱转换,最倒谱本征空间的构成后将转换后的特征参数由本征空间逆映射到原始倒、、、、谱特征空间中转换得到的目标说话人德普设为一个说话人的维特征参数、,其再反变换为醒叶短时谱,并结合转换后的自馳向量为协方差矩阵:即为该说话人合成输出目标说话人语音。吾音特征参数的散布矩阵’匕反映了语音特征参数与传统转换雜相比,所示系统可以采用巾心非平行语料、无需提取源目标说话人对应语音特征参数在特征空间的分布散度。、联合训练蹄觀。瓶,倒本征挪矩醜勤、,■,,对角化理社舰了的断分械合精任「本雌是满,的个解。假定个度,使擁型匹配和短时谱转换具有更高的觀,系、士征值对应的本征向量为,,,,是统的性能、实用性和灵活性都得到了较大提高。满足的一个非零解亦是维向量,可表示为使归一化,倒谱本征空间根据实对称矩阵的性质,有:原始语音特征空间中特征参数的散布矩阵为非…工,,对角阵,不仅参数之间的相关性较大,而且不同语音‘‘°对应的特征参数分布之间会有较多的重叠。这会影响幸—结构化高斯混合模型的拟合与匹配精度,从而进步影响整体语音转换性能明。基于原始特倒谱本征全间由这个本征向量作为基向量征参数的散布矩阵计算本征向量并以此构建倒谱本征空间,将原始特征参数映射到本征空间并训练说倒谱本征空间的特性话人语音的结构化高斯混合模型,由于本若选个归一化本征向量作为矩阵的列,则征空间特征参数之间的正交特性,其散布矩阵为对为归一化正交矩阵,即角阵,因此具有更好的短时谱统计分布叫,叱利用矩阵进行原始特拟合特性,这有利于后续的模型匹配和短时谱转换性征空间到倒谱本征空间的映射,原始倒谱特征向量能的提高。叉变换为本征空间中的特征向量:图是同一个说话人发汉语五元音(,,,,,的归一化特征参数分布示意图⑵取削一维特征)。是倒谱参数在原始父间巾本征空间特征向量的均值和协方差矩阵的分布情况,从图中可以看出,同一语音成分的特征力参数分布比较聚集但不同语音成分的分布之间有较多重叠,边缘不够清晰。图是将原始倒谱参数映,1期李阳春等:倒谱本征空间结构化高斯混合模型语音转换方法巴氏)距离;两个高斯分布,之间距离测度如下所示:叱叱⑷、,—入奴二」出明、,融合高斯混合模型与巴氏距离形成倒谱本征可见,变换后倒谱本征空间的特征参数的协方空间结构化高斯混合模型。差矩阵与自相关矩阵都为对角阵,即的各维参数图所示的中,节点而和之间互不相关。这一点保证了在倒谱本征空间结构表示各个高斯分量,其描述语音特征的统计化高斯混合模型训练时可以采用对角协方差矩阵,分布特性;节点之间的边表示距离,而以往在原始特征空间只能采用近似的对协方差其描述说话人语音特征分布之间的关系,即说话人矩阵高斯分布来拟合,从而保证了模型的短时谱分语音的内在声学特征结构。考虑到训练时间以及各布拟合精度,使得后续的源目标说话人模型匹配和高斯分布之间距离的计算量,以往在转换函数推导更加精确。原始特征空间中训练结构化高斯混合模型时一般将根据等人的研究结果,同一语音的不协方差矩阵近似看作对角阵,忽略特征参数各维之间同说话人发音,其语音倒谱之间是一种线性映射的相关性而造成了模型的拟合误差,并影响后来的模关系,即。那么在倒谱本征空间中,由型匹配与短时谱转换。但在倒谱本征空间中,特征参得:数各维之间是相互独立的,特征参数的协方差矩阵是对角阵,从而保证了对语音特征统计分布的拟合性能和距离计算的精确性。以上说明,在倒谱本征空间中,源说话人特征参数与对到目标说话人特征参数的关系仍然符合线性映射关全局声学结构采用距离测系。这符合全局声学结构原理,从而保证了基度描述一个语音的内在声学特征结构关系若采于倒谱本征空间的源目标说话人匹配用倒谱系数作为语音的特征参数,则可以证明卷积噪和短时谱转换函数推导具有充分理论依据。声干扰和说话人变化将不会改变语音的设原始倒谱特征矢量为,则卷积噪声在倒谱空间表倒谱本征空间训练与转现为叠加性干扰,使得原始特征矢量变为而根据小节所述,同一语音不同说话人的倒谱特征变化表现为一种线性映射,说话人和卷积噪声的影响训练使得原始特征矢量变化为这样,倒谱本征空间结构化高斯混合模型的训练与原始特征矢量的高斯分布由变成叫类似’,具体步骤如下:(:,丑!;丑〒,可以证明,计算说话人的倒谱特征参数的散布矩阵、例。;是在说话人各自的倒谱本征空间中根据散布矩阵求取本征向量,得到倒谱本征采用非平行语料独立训练的模型,相同语音成分对空间映射矩阵应的高斯特征分布在不同说话人模型中将原始倒谱特征参数映射到本征空间中,的顺序位置不一样,需要通过匹配对应一致起来。如即图所示,源和目标说话人的声学特征采用算法训练得到倒谱本征空闻中的高结构在匹配之前并不一致,但是,根据原理,不斯混合模型:断调整目标说话人与源说话人计算高斯混合模型各个分布之间的中的高斯分布对应关系,最终将得到具有最小声16声学学报年学特征结构差的对应关系,从而实现源目标说话人其中,是去均值的源说话人倒谱特征向量,的匹配和高斯分布对准。和分别是源说话人和目标说话人倒谱本征空间源说话人特征空间本征空间目标说话人特征空间变换矩阵,是源说话人中第个高斯分布概率值,和是该高斯分布的均值和协方差矩阵;是源说话人中第;;:个高斯分布对应的百标说话人的高斯分布序号,和该高斯分布的均值和协方差训练矩阵,由于是正交阵,所以在实际计算时为了减少求逆矩阵的误差用它的转置矩阵代替即可。除了短时谱,对说话人个性转换有重要作用的另一个参数是基音频率。在本文提出的系统中,源和目标说话人的基音频率特性都由单高斯分布描办模型对准述,并由此推导得到其转换公式如下:实验与分析图模型训练与对准定义两个结构化高斯混合模型的声学特征结构为了检验本文提出的语音转换方法的有效程距离为:度,设计了个实验对转换语音的特征倾向和声音质量进行主观和客观评价,并与传统的平行语料联如叫合训练方法以及方法进行比较。实验选用语料库,该语料库由苏州大学语音技其中,和分别表示源和目标中连术研究室采用音频录音设备在标准的录音接节点和的边,即式⑹所示的巴氏距离。当室录制,采样频率量化位。其中,包含不断调整说话人的结构化模型的高斯分布顺序使得男女共个说话人,每个说话人以自然的方式朗的值最小,即源说话人和目标说话人的声学读个语音片段,每个片段由不同数量的若干语句特征结构一致或差异最小化,此时说明两者的高斯组成,个语音片段的总时长约为。实验中,分布实现了对准。式(中,和分别表示传统平行语料方法直接采用原始语料进行处与源说话人第,个高斯分布对应的目理,而非平行语料的和方法先将标说话人高斯分布序号’是模型完原始语料分割成短时帧,然后进行顺序上的随机置乱成对准时的目标语音的高斯分布顺序。形成非平行语料之后再进行模型训练。这样,三种不同方法的处理和实验分析结果都针对相同的原始语、—音样本数据进行,而模型训练和转换函数的建立则《分别基于平行语料和非平行语料,使得实验结果具、’’、有较好的可比性。另外,根据预实验分析,传统方法转换函数的推导的模型、模型以及模型都短时谱转换基于倒谱本征空间进行,源说话人采用个高斯分布,倒谱特征矢量由阶在原始特征空间中的语音短时谱参数需要映射到本参数构成。征空间中进行转换,在转换之后再经过逆映射回到说话人识别测试原始特征空间中。于本征空间的转换公式如下:通
本文标题:倒谱本征空间结构化高斯混合模型语音转换方法-李阳春-(1)
链接地址:https://www.777doc.com/doc-5222601 .html