您好,欢迎访问三七文档
1研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。人的说话过程如图2-1所示,可以分为五个阶段:(1)想说阶段:(2)说出阶段:(3)传送阶段:(4)接收阶段:(5)理解阶段:3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?声道的数学模型有两种观点:1)声管模型将声道看为由多个不同截面积的管子串联而成的系统。在“短时”期间,声道可表示为形状稳定的管道。另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。(1)级联型声道模型这时认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联:N=10,M=5时的声道模型如下图所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下:通常,NR,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。如图2-21所示(M=5)。(3)混合型声道模型上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。2212112cos(2)()12cos(2)kkkkBTBTMkBTBTkkeFTeVzeFTzezNkkkRrrrzazbzV101)(MiiiizCzBAzV1211)(4、请写出完整的语音信号数学模型的表示式。什么叫做预加重处理?为什么要进行这些处理?完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。如图所示:它的传输函数)(zH可表示为:)()()()(zRzVzUAzH由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程(倍频程:若使每一频带的上限频率比下限频率高一倍,即频率之比为2,这样划分的每一频程称为1倍频程)跌落,所以求语音信号的频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分难求,要在预处理中进行预加重处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重一般在语音信号数字化后,参数分析之前用预加重数字滤波器来实现。基音频率F0振幅AV语音s(n)信号振幅AU冲激序列发生器声门脉冲模型G(Z)随机噪声发声器声道模型V(Z)辐射模型R(Z)十倍频程-频率按照10增加或按101x减小,从10Hz到100Hz为一个十倍频程;倍频程-频率按2增加或按21x减小,从10Hz到20Hz为一个倍频程。2倍频和10倍频是一回事对于滤波或运放放大倍数来讲使用dB来表示的,具体的公式是:001wjwAwA,0w是滤波器或运放的一个极点。采用dB表示时是wAlog20,wA要取模,即0001。对于n倍频(靠近0w的频率不准确,n0),0112,*(开方中的1可忽略)则有0022012*/*log*20log*20)*/*log(*20log*2000110)*/*log(*100022)*log(*10nn这样,对于两倍频,122ww,则此时下降是dB64log*10当12*10ww时,dB20100log*10预加重数字滤波器一般是一阶的数字滤波器11zZH,值接近于1。5、短时平均能量(短时平均幅值)和短时平均跨零数的定义。窗口函数的长度和形状对它们有什么影响?常用的有哪几种窗口?这两种时域参数的用途。设第n帧语音信号mxn的短时能量用nE表示,则其计算公式如下:mxENmnn102短时平均幅度函数nM,它定义为:10NmnnmxM分别采用矩形窗、汉明窗不同窗长得到的语音信号短时能量,可以得到如下结论:在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响;Hamming窗的效果比矩形窗略好;但是,窗的长短影响起决定性作用。窗口长度反映语音信号的幅度变化。窗过大(N很大),等效于很窄的低通滤波器,不能反映幅度En的变化;窗过小(N很小),短时能量随时间急剧变化,不能得到平滑的能量函数。在11.025kHz左右的采样频率下,N选为100~200比较合适。定义语音信号mxn的短时过零率nZ为:101sgnsgn21NmnnnmxmxZ式中,sgn是符号函数,即0101sgnxxx6、短时自相关函数和短时平均幅差函数的定义及其用途。在选择窗口函数时应考虑什么问题?语音信号的定义语音信号mxn的短时自相关函数kRn的计算公式如下:KkkmxmxkRnkNmnn0,10这里K是最大的延迟点数。浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期。清音接近于随机噪声,其短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时k的增大迅速减小。短时平均幅度差函数:kNmnnnkmxmxkF10计算kFn只需加、减法和取绝对值的运算,与自相关函数的加法与乘法相比,其运算量大大减小,尤其在用硬件实现语音信号分析时有很大好处。为此,AMDF已被用在许多实时语音处理系统中。短时谱的定义。它可以有哪两种解释?窗口函数的影响。jneX是帧号n和角频率的函数。可见,当n不变时,jneX是序列mxmnwm的标准傅里叶变换,此时jneX具有与标准傅里叶变换相同的性质。设语音信号序列和窗口序列的标准傅里叶变换均存在。当n取固定值时,mmjjemxeXmmjjemweWjnjmmjeWeemnw根据卷积定理有:jnjjjneWeeXeX因为上式右边两个卷积项均为关于角频率的以2为周期的连续函数,所以也可以将其写成如下的卷积积分形式:deXeeWeXjjnjjn21(*)结论:假设mx的DTFT是jeX,且mw的DTFT是jeW,那么jneX是jeX和jeW的周期卷积。由于jneX相当于信号谱jeX与窗函数谱的卷积,根据卷积积分公式(*)可知,为了使得jneX能够与jeX具有相同的性质,则要求jeW必须是一个冲激函数。因此应使窗函数的频率分辨率高,主瓣尖锐;同时还要使旁瓣衰减大。根据信号的时宽带宽积为一常数这一性质,可知jeW主瓣宽度与窗口宽度成反比,N越大,主瓣越窄,则jneX越接近于jeX。但窗长太大时,窗选信号已经不满足语音的短时平稳特性,此时,jneX已不能正确反映短时语音的频谱,为此,必须要折中选择窗长。另外,令角频率Nk2,则得到离散的短时傅里叶变换,它实际上是jneX在频域的取样,如下所示:10,2102NkemxkXeXNkjNmnnNkjn在语音信号数字处理中,都是采用mxn的离散傅里叶变换kXn代替jneX,并且可用高效的快速傅里叶变换(FFT)算法完成由mxn至kXn的转换。当然,这时窗长N必须是2的整次幂L2(L是整数)。根据傅里叶变换的性质,实数序列的傅里叶变换的频谱具有对称性,因此全部频谱信息包含在长度为12N个kXn里。另外,为了使kXn具有较高的频率分辨率,所取的DFT以及相应的FFT点数N1应该足够多,但有时mxn的长度N要受到采样率和短时性的限制。mxn转kXn流程:原信号频率就处在kHzL53.192~01之间,即kHzf5max,只要在0~5kHz内求其频谱。FFT的计算可以在通用计算机上由相应的算法软件完成,这种方式一般只能实现非实时运算,为了完成实时运算可以采用先进的数字信号处理芯片、阵列处理芯片或专用芯片。因而,如果将w看作一个滤波器的单位函数响应,则jneX就是该滤波器的输出,而滤波器的输入为miemx,如下图所示。简单分析一下不同的窗函数对语音信号短时谱的影响。上图给出了N=500(取样率为10kHz,窗持续时间50ms)时矩形窗和汉明窗下浊音语音的频谱。其中图(a)是汉明窗的窗选信号,图(b)是其对数幅度谱;图(c)是矩形窗下的窗选信号,图(d)是其对数幅度谱。从图(a)可以明显看出时间波形的周期性,此周期性同样在图(b)中表现出来。图中基频及其谐波在频谱中表现为等频率间隔的窄峰。图(b)中的频谱大约在300~400Hz附近有较强的第一共振峰,而在2000Hz附近有一个对应于第二、第三共振峰的宽峰。此外,还能在3800Hz附近看到第四共振峰。最后,由于声门脉冲谱的低通特性,频谱在高频部分表现为下降的趋势。将图(b)和图(d)比较可看出它们在基音谐波、共振峰结构以及频谱粗略形状上的相似性,同样也能看到其频谱之间的差别。最明显的是图(d)中基音谐波尖锐度增加,这主要是由于矩形窗频率分辨率较高。另一个差别是矩形窗较高的旁瓣产生了一个类似噪声的频谱。这是由于相邻谐波的旁瓣在谐波间隔内的相互作用(有时加强有时抵消),因而在谐波间产生了随机变化。这种相邻谐波间不希望有的“泄露”抵消了其主瓣较窄的优点,因此在语音频谱分析中极小采用矩形窗。下面给出了矩形窗和汉明窗加窗的清音波形及其短时频谱。由上图可以看出:从两个短时频谱图中都可以发现,由于清音的发音类似于随机噪声,因此频谱具有慢速变化的趋势,同时有着频繁的尖峰和谷。当然,汉明窗较之矩形窗具有平滑的短时频谱。下面给出了浊音和清音前50个样点加矩形窗和汉明窗的短时频谱,可以直观地看到窗长对短时谱的影响。由图可见:由于窗长很短,因而时间序列(图(a)和图(c))及信号频谱(图(b)和图(d))均不能反映信号的周期性。与上图相反,本图只大约在400、1400以及2200Hz频率上有少量较宽的峰值。它们与窗内语音段的前三个共振峰相对应。比较图(b)和图(d)的频谱后,再次表明矩形窗可以得到较高的频率分辨率。从以上对窗函数和短时频谱的讨论可以得到以下结论
本文标题:语音信号处理复习题
链接地址:https://www.777doc.com/doc-4294803 .html