您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 畜牧/养殖 > 70语音信号处理第11章
11.1概述11.2语音转换的原理和应用11.3常用语音转换的方法11.4语音分析模型和语音库的选择11.5应用GMM模型的语音转换11.6语音转换今后的研究方向11.7语音信息隐藏的原理与应用11.8语音信息隐藏的常用方法11.9语音信息隐藏系统的常用评价标准11.10语音信息隐藏亟待研究解决的问题14.1概述语音信号包含了很多信息,除了最为重要的语义信息外,还有说话人的个性特征(或者说身份信息)、情感特征、说话人的态度以及说话场景信息等。语音中的说话人个性特征在现代通信及信息服务中扮演着越来越重要的作用,一个人的声音可以说就是他的“声音名片”,人们通常通过这张“声音名片”来辨别自己周围熟悉的人,人们常说到“未见其人,先闻其声”这些现象等成为语音转换研究的出发点。14.1概述语音转换(VoiceMorphing):将A话者的语音转换为具有B话者发音特征的语音,而保持语音内容不变。一个完整的语音转换系统包括提取说话人个性信息的声学特征,建立两话者间声学特征的映射规则,以及将转化后的语音特征合成语音信号三个部分。语音变换(VoiceConversion):语音变换不要求修改语音使其具有某个特定说话人的个性特征,而是对语音信号的某一个参量按照某个固定的因子进行修改,比如语音时长、频率或基音周期等。语音变换的应用1)时间尺度上的修改:增强语音的可懂性(放慢说话人的发音速率);快速的检索,节省存储器的存储空间(提高发音速率)2)频域:压缩语音频带,将语音在带宽有限的信道上传输;或者根据人耳的听觉特性,将语音频谱搬到一个特定的频段上,这样可以帮助那些存在听力障碍的人方便交流。3)心理声学的研究11.2语音转换的原理和应用说话人语音转换是首先提取说话人身份相关的声学特征参数,然后再用改变后的声学特征参数合成出新的接近目标语音的语音。要完成一个说话人语音转换,一般包含两个阶段:训练阶段和转换阶段。训练阶段:我们首先提取源说话人和目标说话人的个性特征参数,然后根据某种匹配规则建立源说话人和目标说话人之间的匹配函数。转换阶段:利用训练阶段获得的匹配函数,对源说话人的个性特征参数进行转换,最后利用转换后的特征参数合成出接近目标说话人的语音。说话人语音转换的核心问题就是找出源说话人和目标说话人之间的匹配函数。一个完整的说话人语音转换系统一般会考虑以下几个因素:(1)选择一个理想的分析合成模型(2)选择一种较为理想的转换算法(3)选择一种有效的语音特征参数来表征说话人的个性特征国内外说话人语音转换的研究情况研究语音转换有着重要的理论价值和应用前景。1.理论价值:加强对语音相关参数的研究、探索人类的发音机理、推动语音信号的其它领域如语音识别、语音合成、说话人识别等的发展2.应用前景:文语合成系统、多媒体娱乐、语言翻译系统,语音识别鲁棒性识别、极低速率的语音编码方案、医学领域语音增强系统、说话人伪装身份通信11.3常用语音转换的方法11.3.1频谱特征参数转换1.矢量量化法:主要分为训练阶段和转换阶段两个过程训练阶段的过程如下图所示:码本生成说话人A码本码本生成说话人B码本矢量量化A的学习单词矢量量化DTWB的学习单词(A-B)匹配码本统计直方图具体过程为:(1)对源语音和目标语音的频谱特征参数空间进行量化,得到具有相同码字数目的码本分别为V、U;(2)由源说话人和目标说话人分别产生学习集,然后对所有的单词逐帧进行矢量量化;(3)运用DTW(动态时间调整)对两说话人的相同的单词进行对齐;(4)两说话人之间的矢量量化对应关系累积成柱状图,将柱状图作为加权系数,映射码本即为目标语音矢量的线性合成时的加权系数。转换阶段的过程如下图所示:LPC分析矢量量化A的语音A的码本(频谱参数)译码标量量化译码合成滤波器转换语音(A-B)匹配码本(频谱参数)A的码本(基音频率)(A-B)匹配码本(基音频率)在转换阶段先将语音特征矢量进行矢量量化,假设量化成第l个码字,则转换后的特征向量为:(11-1)其中是映射码本H中的元素,满足,是目标码本U的第个码字。矢量量化的方法在一定程度上实现了不同说话人之间的转换,但是由于矢量量化的方法是在每一个特征子空间上进行转换,忽略了各个子空间的联系,会引起特征空间的不连续性,使得转换后的语音的效果不是很理想。,1Mnlklkyhlkh11Klkkhku2.线性多变量回归法90年代初,Valbret提出了LMR(线性多变量回归)的方法,训练时首先对源特征参数和目标特征参数进行归一化,用DTW方法将源语音和目标语音的频谱包络特征参数进行对齐,然后应用非监督的分类技术将源说话人和目标说话人的声学空间分成非叠加的子空间,通过在每一个子空间中运用LMR对源特征参数和目标特征参数建立一个简单的线性关系的方法,可以更好的进行特征的转换。在训练阶段,转换方程可以用下式表示:(11-2)的估计可以通过最小平方误差的方法进行求取。(11-3)其中代表转移矩阵,代表归一化的源特征矢量,代表归一化的转换后的特征矢量,代表归一化的目标特征矢量,i代表第个i子空间。ˆ*iiiyAXiA2ˆ||||iiyyiAiXˆiyiy在转换阶段,首先对源特征矢量进行归一化处理,然后对其进行量化归类,确定所用的转移矩阵,再将归一化之后的特征矢量乘以转移矩阵,再对得到的矢量进行解归一化,即得到转换后的频谱特征参数。3.神经网络法*Narendranath提出了一种使用神经网络实现语音转换的算法。*Baukoin采用BP神经网络进行类似的实验*我国学者左国玉提出了一种基于径向基函数神经网络的语音转换算法4.多说话人插值法多说话人插值法是根据预先存储的多个说话人频谱包络进行插值得到目标的频谱包络,频谱包络通过慢变化的插值率来进行平滑的转换。在进行插值之前,首先对多个说话人的语音频谱参数序列进行时间对齐,然后再进行下面的转换:(11-4)其中是第k个说话人的第n帧频谱参数,K是说话人的个数,是第k个人的加权系数,b是偏移向量,是经插值转换后得到的第n帧语音的参数,和b可以通过LMR方法或者神经网络的方法计算得到。1ˆMnnkkkyaxbnkxkaˆnyka5.高斯混合模型法Stylianou、Kain等引入了高斯混合模型(GMM)的算法。GMM方法是现在使用最为频繁的语音转换算法,相比矢量量化方法会使特征参数离散的特点,GMM方法通过加权求平均的方法在根本上解决了这一问题。Stylianou和Kain的方法基本上是相同的,不同点在于,Stylianou是对源特征参数和目标特征参数分别进行建模,而Kain是将源特征参数和目标特征参数进行联合概率密度建模,实验表明这两种方法取得的效果基本上一致。对于未知矢量的求解,我们便可以建立起源特征参数到目标特征参数之间的匹配关系。Stylianou采用了最小二乘法来进行估计,而Kain采用了更加简单、更易实现的联合概率估计算法。11.3.2基音周期转换1.平均基音周期转换法对基音周期进行转换时,常用的是方法是分别提取源说话人和目标说话人的平均基音周期,分别记为和。则平均基音周期转换率等于目标说话人的平均基音周期除以源说话人的平均基音周期(11-5)在转换阶段即用源语音的基音周期乘以即得转换语音的基音周期。(11-6)sptptsppSpcpCSpp2.高斯模型转换法在这种方法中,我们假定源说话人的基音周期和目标说话人的基音周期都服从高斯分布我们首先获得源说话人和目标说话人基音周期的均值和方差,分别记为。假定转换后语音的基音周期的均值和方差与目标语音相同,并且转换后语音的基音周期和源说话人的基音周期服从相同的高斯分布。可得:(11-7)(11-8)(,),(,)STsTcspApB,ttssABA3.句子码本模型转换法Chappell提出采用建立句子级别的基音周期轮廓码本的方法,运用这种方法可以直接运用目标语音的基音轮廓。但是由于基音的随意性很大,这种方法必须包含大量的基音轮廓的码本,合成出所有类型的基音轮廓是不可能的,而且对于基音周期轮廓的选择也是非常复杂的。这种方法对于有限词汇量和某些特定的应用效果是十分明显的,因为这时所需的基音周期的轮廓数量有限。11.3.3韵律信息转换在表征说话人信息的特征参数中,除了表示声道信息的特征参数外,还包括说话人的韵律信息,它同样能丰富的反映说话人的个人信息,韵律信息包括:说话人的说话时长、能量、基音频率等等,语音的韵律信息具有很大的不稳定性,很难对其进行有效的建模。虽然在这方面做了大量的工作,但是目前的研究中,主要是对基音周期和时长进行统计匹配,按照它们的平均值求出响应的比例因子,然后在合成语音时按比例的增加或者减少帧间叠加的样本点数目,或者通过复制或者删除一定的残差信号,实现基音周期平均值和音素时长平均值的转换。也有一些算法并不是直接修改语音的基音周期和音素时长,而是利用语音库中目标说话人的残差信号来确定转换语音的激励信号,H.Ye利用训练阶段保存目标说话人的残差信号,语音谱特征参数转换,寻找与其谱距离最小的目标语音,而该目标语音对应的残差信号就用来合成所需要的语音,Kain利用转换后的谱特征参数来预测激励信号,从而来合成语音。11.4语音分析模型和语音库的选择11.4.1语音分析模型STRAIGHT(speechtransformationandrepresentationandinterpolationusingweightedspectrogram)即自适应加权谱内插,是由Kawahara教授等人于九十年代末提出的,主要是针对对于语音参数的修改和恢复而提出的一种非常优秀的语音模型。以前的合成器(如共振峰合成器、倒谱合成器、LPC合成器等)虽然其原始语音参数分析合成后的语音效果还不错,但是对于调整后的参数,其合成语音的效果都比较差。因此,STRAIGHT模型的提出,在一定程度上弥补了这种不足。STRAIGHT是一种针对语音信号的分析合成算法,它的核心思想也是一种源—滤波器的思想,强调将频谱中的激励的影响完全去除,最终将语音分解为相互独立的频谱参数和一系列脉冲的卷积,优点是通过对语音短时谱时频域的自适应内插平滑来提取精确的谱包络,它利用提取的语音参数能够恢复出高质量的语音,并能对时长、基频和谱参数进行高灵活度的调整,主要由以下几个部分组成:1.去除周期影响的谱估计a)去除时间轴上的周期性:采用基音同步并叠加补偿窗的方法来计算频谱,并在时域上平滑。b)去除频率轴上的周期性:通过对线谱卷积三角窗,并进行频率轴上的平滑,得到最终的谱包络。STRAIGHT模型的核心内容就是去除时间轴和频率轴上的周期性,STRAIGHT采用二维三角窗的方法来去除二维空间上时域轴和频域轴的周期性。(11-9)(11-10)表示平滑后得到的谱包络,表示计算得到的短时谱,函数定义平滑时保留谱参数的何种特性。001(,)(1||)(1||)4()()thtt1122(,)[((,)(|(,)|)]swtghgFwtdd(,)swt(,)F()g2.平滑可靠的基频轨迹的提取使用小波分析方法提取语音信号中的基频,根据语音信号中的基频成分,计算出瞬时基频,通过在频谱上进行谐波分析,并进行频率轴上的平滑,得到最终的基频轨迹。3.合成器的实现合成语音时需要输入的数据是语音的基频曲线数值,经过时间轴和频率轴平滑后的语音的二维的谱包络。在合成时需要使用基音同步叠加和最小相位冲激响应的方法,在合成时可以实现对时长、基频和谱特征参数的调整。STRAIGHT分析合成模型如下图所示:提取STRAIGHT谱与基频韵律生成模块声源频谱调整模块基频、时长生成声源频谱调整基音同步叠加合成转换语音原始语音11.4.2语音库的设计语音库是指以语音波形文件和相应的参数文件组成的数据库。在设计语音库时我们主要从以下四个方面考虑:语音库的大小音素覆盖范围说话人数量时间对齐从经济性和质量效果方面考虑,在通常的实验室环境中录制
本文标题:70语音信号处理第11章
链接地址:https://www.777doc.com/doc-3189097 .html