您好,欢迎访问三七文档
13.1概述3.2语音信号的数字化和预处理3.3语音信号的时域分析3.4语音信号的频域分析3.5语音信号的倒谱分析3.6现代通信中的线性预测分析3.7基音周期估计3.8共振峰估计23.1概述语音信号分析语音信号处理的前提和基础,只有分析出可表示语音信号特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。贯穿于语音分析全过程的是“短时分析技术”语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变化的,所以它是一个非平衡态过程,不能用处理平衡信号的数字信号处理技术对其进行分析处理。但是在一个短时间范围内(一般认为在10-30ms的短时间内),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。33.1概述根据所分析出的参数的性质的不同可以分为:时域分析、频域分析、倒频域分析,线性预测分析等;分析方法的不同:模型分析方法和非模型分析方法不论是分析怎么样的参数以及采用什么分析方法,在按帧进行语音分析,提取语音参数之前,有一些经常使用的、共同的短时分析技术必须预先进行,如语音信号的数字化、语音信号的预加重、加窗和分帧等,这些也是不可忽视的语音信号分析的关键技术。3.2语音信号的数字化和预处理语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);预处理一般包括预加重、加窗和分帧等。带通滤波器自动增益控制(AGC)模/数转换(A/D)脉冲编码调制(PCM)语音信号存入计算机53.2.1语音信号的数字化一、预滤波抑制输入信号各频域分量中频率超出fs/2的所有分量(fs)为采样频率,以防止混叠干扰。抑制50Hz的电源工频干扰。这样,预滤波器必须是一个带通滤波器,设其上、下截止频率分别是fH和fL:绝大多数语音编译码器:fH=3400Hz,fL=60-100Hz,fS=8kHz6二、采样、量化和脉冲编码调制采样:时间离散;量化:幅值离散;编码:二进制码A/D变换器实现A/D变换中要对信号进行量化,量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差,又称为量化噪声。量化噪声特点:若信号波形的变化足够大,或量化间隔Δ足够小时,可以证明量化噪声符合具有下列特征的统计模型:①它是平稳的白噪声过程②量化噪声与输入信号不相关③量化噪声在量化间隔内均匀分布,即具有等概率密度分布3.2.1语音信号的数字化7若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B表示量化字长,σe2表示噪声序列的方差,可以证明量化信噪比SNR(信号与量化噪声的功率比)为:假设语音信号的幅度符合Laplacian分布,此时信号幅度超过4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则上式表明量化器中的每bit字长对SNR的贡献为6dB。⎟⎟⎠⎞⎜⎜⎝⎛−+=⎟⎟⎠⎞⎜⎜⎝⎛=xexXBdBSNRσσσmax22lg2077.402.6lg10)(2.702.6)(−=BdBSNR3.2.1语音信号的数字化8一、预加重由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,非平坦的,要在预处理中进行预加重(Pre-emphasis)处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于频谱分析或声道参数分析。预加重可以在数字化之前,也可之后;若在数字化之后,一般用一阶的数字滤波器3.2.2语音信号的预处理11)(−−=zZHμ9二、分帧处理加窗分帧处理。一般每秒的帧数约为33-100帧,视实际情况而定。分帧虽然可以采用连续分段的方法,但一般要采用的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0-1/2。3.2.2语音信号的预处理10分帧是用可移动的有限长度窗口进行加权的方法来实现的,即用一定的窗函数ω(n)来乘s(n),从而形成加窗语音信号sω(n)=s(n)*ω(n)。在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等,它们的表达式如下(其中N为帧长):1)矩形窗:2)汉明(Hamming)窗:⎩⎨⎧=−≤≤=elsenNnn,0)1(0,1)(ω⎩⎨⎧=−≤≤−−=elsenNnNnn,0)1(0)],1/(2cos[46.054.0)(πω3.2.2语音信号的预处理11窗口形状和长度的选择,对短时分析参数的影响很大。1)窗口的形状虽然,不同的短时分析方法(时域、频域、倒频域分析)以及求取不同的语音特征参数可能对窗函数的要求不尽一样,但一般来讲,一个好的窗函数的标准是:在时域因为是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截断效应;在频域要有较宽的3dB带宽以及较小的边带最大值。这里只以典型的矩形窗和汉明窗为例进行比较,其他窗口可参阅FIR数字滤波器或谱分析的有关书籍。3.2.2语音信号的预处理12矩形窗与汉明窗的比较窗类型旁瓣峰值主瓣宽度最小阻带衰减矩形窗-134π/N-21汉明窗-418π/N-53汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大一倍多。矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失;而汉明窗则相反,从这一方面来看,汉明窗比矩形窗更为合适。因此,对语音信号的短时分析来说,窗口的形状是至关重要的。例如,选用不同的窗口将使时域分析参数的短时平均能量的平均结果不同。3.2.2语音信号的预处理132)窗口的长度采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列关系:Δf=1/NTs可见,采样周期一定时,Δf随窗口宽度N的增加而减小,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。3.2.2语音信号的预处理14窗口长度的选择,更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含1~7个基音周期。然而不同人的基音周期变化很大,从女性和儿童的2ms到老年男子的14ms(即基音频率的变化范围为500~70Hz),所以N的选择比较困难。通常在10kHz取样频率下,N折中选择为100~200点为宜(即10~20ms持续时间)。经过上面介绍的处理过程,语音信号被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序列。3.2.2语音信号的预处理153.3语音信号的时域分析语音信号的时域分析就是分析和提取语音信号的时域参数。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等。特点:①表示语音信号比较直观、物理意义明确。②实现起来比较简单、运算量少。③可以得到语音的一些重要的参数。④可使用示波器等通用设备,使用较为简单等。16设语音波形时域信号为x(t)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式:xn(m)=ω(m)x(n+m)其中,n=0,1T,2T,…,T为帧移长度,N为帧长。设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式如下:⎩⎨⎧=−==其它值mNmm,0)1(~0,1)(ω∑−==102)(NmnnmxE3.3.1短时能量及短时平均幅度分析173.3.1短时能量及短时平均幅度分析18En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方)。为此,可采用另一个度量语音信号幅度值变化的函数,即短时平均幅度函数Mn,定义为:Mn也是一帧语音信号能量大小的表征,它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异。用途:1)区分浊音段和清音段;2)区分声母韵母分界,无声有声分界等;∑−==10)(NmnnmxM3.3.1短时能量及短时平均幅度分析19短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。定义语音信号xn(m)的短时过零率Zn为:式中,sgn[]是符号函数,即∑−=−−=10)]1(sgn[)](sgn[21NmnnnmxmxZ⎩⎨⎧−≥=)0(,1)0(,1]sgn[xxx3.3.2短时过零率分析20用途:1)从背景噪声中找出语音信号;2)可用于判断寂静无声段和有声段的起点和终点位置;3)语音分割:在孤立词的语音识别中,必须要在一连串连续的语音信号中进行适当分割,用以确定一个一个单词的语音信号,即找出每一个单词的开始和终止位置。3.3.2短时过零率分析21短时能量、短时平均幅度和短时过零率都是随机参数,对不同性质的语音具有不同的概律分布。S—无声U—清音V—浊音22相关分析是一种常用的时域波形分析方法,并有自相关和互相关之分。对确定性信号自相关函数具有一些性质,如它是偶函数;假设序列具有周期性,则其自相关函数也是同周期的周期函数等。在语音信号分析中,分析的是短时自相关函数。用途:对浊音语音可以用自相关函数求出语音波形序列的基音周期。在进行语信号的线性预测分析时,也要用到自相关函数。3.3.3短时相关分析∑∞−∞=+=mnkmxmxkR)()()(231.短时自相关函数定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下:K是最大的延迟点数。短时自相关函数性质:(1)如果xn(m)是周期的(设周期为Np),则自相关函数是同周期的周期函数,即Rn(k)=Rn(k+Np)。(2)Rn(k)是偶函数,即Rn(k)=Rn(-k)。(3)当k=0时,自相关函数具有最大值,即Rn(0)≥|Rn(k)|,并且Rn(0)等于确定性信号序列的能量或随机性序列的平均功率。KkkmxmxkRkNmnnn≤+=∑−−=0,)()()(103.3.3短时相关分析24例子:3个自相关函数,N=401K=250fs=8KHz浊音的周期清音自相关函数KkkmxmxkRkNmnnn≤+=∑−−=0,)()()(103.3.3短时相关分析252.修正的短时自相关函数存在的问题262.修正的短时自相关函数修正的短时自相关函数是用两个长度不同的窗口,截取两个不等长的序列进行乘积和,两个窗口的长度相差最大的延迟点数K。这样就能始终保持乘积和的项数不变,即始终为短窗的长度。修正的短时自相关函数定义为:其中,KkkmxmxkRNmnnn≤≤+=∑−=0,)(')()(10⎩⎨⎧=−==其它值mNmm,0)1(~0,1)(ω()()(),(01)nxmmxnmmNω=+≤≤−)10(),()(')('KNkmnxmmxn+−≤≤+=ω⎩⎨⎧=+−==其它值mKNmm,0)1(~0,1)('ω272.修正的短时自相关函数修正的短时自相关函数具有互相关函数的特征;在周期信号的倍数上有峰值。28短时自相关函数是语音信号时域分析的重要参量。但是,计算自相关函数的运算量很大,其原因是乘法运算所需要的时间较长。利用快速傅里叶变换(FFT)等简化计算方法都无法避免乘法运算。为了避免乘法,一个简单的方法就是利用差值。为此采用另一种与自相关函数有类似作用的参量,即短时平均幅度差函数(AMDF)。平均幅度差函数能够代替自相关函数进行语音分析,是基于这样一个事实:如果信号是完全的周期信号(设周期为Np),则相距为周期的整数倍的样点上的幅值是相等的,差值为零。3.3.4短时平均幅度差函数,...)2,,0(,0)()()(ppNNkknxnxnd±±==+−=29对于实际的语音信号,
本文标题:语音信号处理3
链接地址:https://www.777doc.com/doc-4536489 .html