您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 语音信号的时域及频域特征
第一章语音信号的时域及频域特征11.语音信号的主要特点1.1.语音信号带宽语音信号的带宽约为5KHz,主要能量集中在低频段。上图为一段语音信号语谱图。21.2.语音信号是典型的随机信号1)人的每次发音过程都是一个随机过程。很难得到两次完全相同的发音样本。2)在信号处理中,通常假设语音信号是短时平稳的。例如,可以认为在语音的浊音段部分,语音的二阶矩统计量是平稳的(在5~10mS内),即二阶矩平稳,或称为宽平稳。32.语音信号的时域波形图1.语音信号的波形(shi4)4图2.语音信号波形(shi4)的局部细节52.1.语音时域信号特征2.1.1.语音时域信号的特点1)清音段:能量低,过零率高,波形特点有点像随机的噪声。这部分信号常与语音的辅音段对应。2)浊音段:能量高,过零率低,波形具有周期性特点。所谓的短时平稳性质就是处于这个语音浊音(元音)段中。3)过渡段:一般是指从辅音段向元音段信号变化之间的部分。信号变化快,是语音信号处理中最复杂、困难的部分。62.1.2.语音的短时能量、短时平均幅度和短时过零率(1)短时能量:102)(NnnsE(1)(2)短时平均幅度:10)(NnnsM(2)(3)短时过零率:0101]sgn[)]1(sgn[)](sgn[1021xxnnsnsZNn其中(3)73.语音信号的短时谱特征3.1.短时傅立叶谱分析对于能量受限的时域信号)(tf,它的傅立叶变换可以写成dtetfftj)()(ˆ(4)以上这个傅立叶变换,在“宏观上”给出信号)(tf的频谱信息,但是却无法确定某个“局部”时间段频谱的确切信息。在语音信号中,信息是按照特定的时间序列方式出现的。如果谱分析不能确定这种时间序列的次序(即位置),那么这种信号分析的手段在应用上就会受到限制。同时我们也希望能够通过观测到的局部时域信号的频谱信息来了解(构造)整个)(tf的频谱信息。为此我们引入了所谓的短时傅立叶谱分析技术。有许多技术都可以用来完成信号的短时谱分析。最典型的就是小波变换和我们现在常采用的傅立叶短时谱分析技术。8傅立叶短时谱分析与窗的形状和位置有关(与时刻有关)。假设窗函数为)(tw,那么信号)(tf的短时傅立叶变换为dtettwtfftjtw)()(|)(ˆ00(5)例如,如果选择窗的形式为一个高斯函数ateatw4221)(,这个窗函数有如下性质:1)()(00dttwdtttw所以有)(ˆ)()()()(|)(ˆ000000fdtdtttwetfdtdtettwtfdtftjtjtw(6)这说明)(ˆf可以被加窗后的短时谱0|)(ˆtwf所精确地分解。这正是我们所希望的性9质。更一般地,若),(rX是语音序列][nx的在时刻r的短时傅利叶变换mmjemrwmxrX][][),((7)若满足条件1][][Srnrwrnh,Zn,S为短时谱取样时刻值的集合(8)则语音序列][nx可以由短时谱精确重构:derXrnhnxnjSr),(][21][(9)公式(8)中的),(][rXrnhSr项可以理解为利用插值滤波器][rh得到在n时刻的短时谱。10证明:mmnjSrmmnjSrnjmmjSrnjSrdemrwrnhmxdemrwrnhmxdeemrwmxrnhderXrnh)()(21][][][][][21][][][][21),(][21右边(10)由于nmnmdemnj,0,121)((11)][][][][nxnrwrnhnxr右边(12)当短时谱为使用DFT计算时,可以证明窗函数和插值函数需要满足一下条件:11rppNnrwrnh)()()((13)例如,我们可以特别地选择)(nW为窗长为N的三角窗,而][nh为矩形窗,0]1,0[1][其它Nnnhr取值为周期时刻采样分析短时谱,间隔为2NT。)(nh)(nwNN1][knkTw)()(nwnhNN)()(nTwTnh)2()2(nTwTnhTT)(nh)(nwN123.2.窗函数性质对于时域离散信号)(nx,短时傅立叶变换定义:mmjjnemnwmxeX)()()(这里)(nw为窗函数。例如,常用的窗函数有矩形窗:其它nNnnw0,101,)(汉明窗:其它nNn)πn/(N-.-.nw0,10,12cos460540)(汉宁窗(Hann):13)12cos(121)(Nnnw,10Nn巴特利特窗(Bartlett)(三角形窗):1-Nn21,12-2210,12)(NNnNnNnnw布莱克曼(Blackman)窗:)14cos(08.0)12cos(5.042.0)(NnNnnw10Nn14102030405000.10.20.30.40.50.60.70.80.91SamplesAmplitudeTimedomain00.20.40.60.8-140-120-100-80-60-40-2002040NormalizedFrequency(rad/sample)Magnitude(dB)FrequencydomainRectangleHammingHannBlackman图3各种窗函数时域频域特性比较153.3.语谱图:横轴表示时间,纵轴表示频率,用灰度表示对应频谱分量的信号强度。163.4.浊音谱特征3.4.1.浊音谱的谱线结构谱线结构是与浊音信号中的周期信号密切相关的。具有与基音及其谐波相对应的谱线。3.4.2.浊音谱的共振峰结构频谱包络中有几个凸起点,与声道的谐振频率相对应。这些凸起点称为共振峰(Formant)。其频率称为共振峰频率。按频率由低到高依次为第一共振峰、第二共振峰…。相应频率用F1、F2、F3…来表示。17图3.浊音信号的傅立叶分析谱183.4.3.元音三角形图所谓的元音三角形图就是指不同元音的F1、F2共振峰频率在平面图上的关系。193.5.清音谱特征清音的频谱无明显的规律,比较平坦。在语音识别中使用统计模型的方法加以解决。4.基音与四声4.1.基音周期与基音频率1)基音的周期就是声带振动的周期。基音周期的倒数就是基音频率。2)基音是与人的声带长度、质量等物理量有关。因此与人的年龄、性别、情绪等生理状态有关。[注意]:音高(Pitch)与基音的关系。音高是听觉量,基音是物理量。正如冷热与温度的关系一样。20图4.基音周期示意图214.2.基音的检测4.2.1.时域上的基音检测方法(1)AMDF法:定义平均幅度差函数10)()()(lNnwwnSlnSl在这里(n)Sw是加窗截取的一段语音信号。假设T为语音信号的基音周期,当Tnl,,,n21时,)(l函数接近局部极小值。AMDF算法特点:只用到简单的加减法运算,没有使用乘法运算。适合于早期普通的CPU,因为这种CPU的乘法操作要比加减法操作费时。22(2)自相关法定义语音的自相关函数为:10)()()(lNnwwnSlnSlR当Tnl,,,n21时,R(l)函数接近局部极大值。自相关法特点:在这个算法中使用了乘-累加操作。在数字信号处理器中有专门的硬件指令来快速完成(只要一个周期)这种乘-累加运算。因此这种算法在DSP中得到了普遍的应用。无论是使用AMDF法或是自关法求语音信号的基音周期,都要在基音周期T的范围内],[maxminTT搜索)(l或R(l)的极值点位置。一般取maxmin5150T.lT.,先计算所有的)(l或R(l)值,然后再搜索得到基音。23图5.语音(浊音)的自相关函数和AMDF曲线24(3)中心削波法在计算语音信号的自关函数时,为了提高效率,减少干扰,可以先对语音信号进行中心削波,然后再计算自相关函数。根据实验观察,自相关函数)(lR的局部峰值点位置与语音幅度的峰值点位置重合。根据这个特点,在自关法中只需要计算这些峰值点位置的自关函数)(lR,然后再搜索比较即可得到信号的基音周期。25264.2.2.频域上的基音检测方法在频域中,常常是用谐波分析法,即对浊音信号的谱线结构进行分析来计算得到基音周期。[注意]在频域上可能不存在与基频对应的谱线。4.3.基音的平滑由于在基音的提取过程中不可避免地要产生误差,主要是基音周期减半或加倍的现象(根据方法的不同,误差的现象会有所不同)。一般情况下90%左右的基音周期都会被准确提取,但是总有少部分的基音是提取不准确的。因此需要采取平滑的方法去掉这些奇异点。在语音编码和汉语四声识别中,基音平滑直接影响到系统的性能。27几种常用基音平滑方法:(1)非线性平滑例如:采用中值平滑。中值平滑点5中值平滑点3(2)线性平滑例如:采用FIR滤波器进行低通滤波平滑滤波平滑FIR(3)组合平滑例如:(1)和(2)方法的组合中值平滑线性平滑28中值平滑线性平滑延迟中值平滑线性平滑延迟4.4.汉语孤立字的基音调式汉语的声调起着辨字、辨义的作用。4.4.1.汉语孤立字的四声阴平-------一声阳平--------二声上声--------三声去声--------四声294.4.2.汉语四声与基音频率的关系对于孤立字音节的声调轨迹,一般可以分成三段:(1)弯头段:对应于音节发音开始时的过渡段。(2)调型段:对应于音节的饱满发音过程。(3)降尾段:对应于音节结束时的过渡段。调型段在汉语四声识别中起主要作用。30图6.汉语四声与基音轨迹示意图31[注]1)一声的平均基音频率要高于三声的平均基音频率,一般来说三声的平均基音频率是最小的。二声和四声较容易区分。2)在孤立字语音中,这种调式与基音的轨迹一一对应。但是,在连续语音中,基音与调式无明确固定的对应关系。容易因为受到协同发音的影响,调式变得更加复杂,需要进行特殊处理。3)基音的估计对谱分析,特别是对语音合成编码起着决定性的重要作用。4.5.语音信号的端点检测在实验室较为安静的环境下,利用短时能量和过零率特征可以得到较为满意的语音端点检测结果。更进一步地,通过判断在语音中是否存在合理的基频值,可以过滤掉绝大部分的非语音干扰。32335.作业与复习内容(1)复习语音信号在时域和频域上的特点(2)了解汉语四声与基音周期的关系。(3)编写语音端点检测算法程序。
本文标题:语音信号的时域及频域特征
链接地址:https://www.777doc.com/doc-5839517 .html