您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 畜牧/养殖 > 语音信号处理-第3版-第2讲
2.1语音发音及感知系统2.2语音信号生成的数学模型2.3语音基本概念与参数2.4语音信号的数字化和预处理2.5语音信号的应用语音信号处理:研究用数字信号处理技术对语音信号进行处理的一门学科目的:(1)通过处理得到一些反映语音信号重要特征的语音参数,以便高效地传输或存储语音信号信息(2)通过处理的某种运算已达到某种用途的要求人们讲话时发出的话语叫语音,它是一种声音,具有称为声学特征的物理特性。语音(Speech)是声音(Acoustic)和语言(Language)的组合体。可以这样定义语音:语音是由一连串的音组成语言的声音。人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和口。喉的部分为声门。从声门到嘴唇的呼气通道叫做声道,声道形状的不断改变。发出不同的语音。语音是由肺至唇各种器官作用而发出的,其作用的方式有3种:(1)把肺部呼出的直气流变为音源(2)对音源起共振和反共振的作用,使之带有音色(3)从唇或鼻向空间辐射对发音影响最大的是声带,每开启和闭合一次的时间即声带的共振周期,就是音调周期或基音周期,其倒数为基音频率(其范围随发音人的性别、年龄而定)。E.g.老年男性偏低,小孩和青年女性偏高基音频率决定了声音频率的高低,频率快则音调高,频率慢则音调低。人的听觉系统是一个十分巧妙的音频信号处理器。主要完成声音的采集、频率分解、声能转换、声音加工和分析以及感觉声音的音色、音调、音强、判断方位等功能。听觉具有选择性:能被人耳听到的声音取决于声音的强度和频率范围。(一般人可以感觉到20Hz~20kHz,强度为-5dB~130dB的声音信号)听觉具有掩蔽效应:指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。2.2语音信号生成的数学模型理想的模型是线性的和时不变的。语音信号是非平稳随机过程,其特性是随着时间变化的,所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时,可以采用线性时不变模型。激励模型激励模型一般分成浊音激励和清音激励来讨论。浊音激励模型:由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲,它的数学表达式如下:式中,N1为斜三角波上升部分的时间,N2为其下降部分的时间。其他,0],2/)(cos[0)],/cos(1)[2/1()(2112111NNnNNNnNnNnng激励模型浊音激励:单个斜三角波的Z变换的全极模型的形式是:c是常数。上式表示斜三角波形可描述为一个二极点模型。斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。21)1(1)(zezGcT激励模型单位脉冲串及幅值因子则可表示成下面的z变换形式:所以,整个浊音激励模型可表示为:也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。11)(zAzEv211)1(11)()()(zezAzEzGzUcTv幅值因子激励模型清音激励模型:模拟成随机白噪声,实际中一般使用均值为0,方差为1,并在时间(幅值)上为白色分布的序列声道模型——声道部分的模型目前最常用的有2种建模方法。(1)是把声道视为由多个等长的不同截面积的管子串联而成的系统,即“声管模型”。(2)是把声道视为一个谐振腔,即“共振峰模型”。共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率,表达式:i=1,2,…表示共振峰序号,c为声速,L为声管长度214iicFL基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。声道模型级联型声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联:2212112cos(2)()12cos(2)kkkkBTBTMkBTBTkkeFTeVzeFTzez幅值因子级联型共振峰模型若10个极点,则可以表示为5个二阶极点的网络串联,即声道可以模拟成下图所示的模型声道模型并联型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下:上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。如图2-21所示(M=5)。NkkkRrrrzazbzV101)(MiiiizCzBAzV1211)(声道模型并联型图2-21并联型共振峰模型声道模型混合型上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。声道模型混合型共振峰模型为频谱特性比较平坦的音素而考虑辐射模型从声道模型输出的是速度波,而语音信号是声压波,二者之倒比称为辐射阻抗。它表征口唇的辐射效应,也包括圆形的头部的绕射效应等。如果认为口唇张开的面积远小于头部的表面积,则可近似地看成平板开槽辐射的情况。此时,可推导出辐射阻抗的公式如下:式中,是口唇张开时的开口半径,是声波传播速度。()Lun()LpnLZrrrrLLjRRLjz)(2128,9rRcaLr38ac辐射模型由辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型是一阶类高通滤波器。在实际信号分析时,常用所谓的“预加重技术”,即在取样之后,插入一个一阶的高通滤波器。这样,只剩下声道部分,便于声道参数的分析在语音合成时,再进行“去加重”处理,就可以恢复原来的语音1H(z)=1-z,1语音信号的数学模型综上所述,完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。如图所示:它的传输函数可以表示为:声道模型V(z)辐射模型R(z)随机噪声发生器声道参数浊音/清音开关uAvA输出语音基音频率0F周期脉冲发生器声门脉冲模型U(z)激励源声道模型辐射模型)()()()(zRzVzUAzH声压:定量描述声波的基本物理量,是由声扰动产生的逾量压强,是空间位置和时间的函数有效声压:通常讲的声压指的是有效声压,即在一定时间间隔内将瞬时声压对时间求方均根值所得,计算公式为:222111111NNNennnpxtxtxTNtN语音长度离散点数语音信号的采样点声压级(SoundpressureLevel,SPL):声音的有效声压与基准声音之比,取以10为底的对数,在乘以20,即为声压级,用表示,单位dB.在空气中参考声压一般取20lgeprefpLppL52010Pa声强:声音在单位时间内作用在与其传递方向垂直的单位面积上的能量声强级(IntensityLevel,IL)用声强的物理学单位表示声音强弱很不方便,当人耳听到两个强度不同的声音时,感觉的大小大致上与两个声强比值的对数成比例。用对数尺度来表示声音强度的等级,单位dB参考声强取值010lgIILI1220110WIm声压与声强的关系:对于球面波和平面波,声压和声强的关系表达为:空气中,空气密度与声速的乘积,称为空气对声波的特性阻抗,单位,瑞利2pIc408c响度:描述声音的响亮程度,表示人耳对声音的主观感受,单位宋,定义为声压级为40dB的1kHz纯音的响度为1宋频率与音高:以Hz为单位所测得的物理量——频率,对听者来说感知为心理量——音高,即用人的主观感觉来评价所听到的声音时高调还是低调。音高随频率的增加而提高。语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);预处理一般包括预加重、加窗和分帧等。在分析处理之前必须把要分析的语音信号部分从输入信号端点检测。带通滤波器自动增益控制(AGC)模/数转换(A/D)脉冲编码调制(PCM)语音信号存入计算机预滤波、采样、A/D变换预滤波的目的有两个:抑制输入信号各频域分量中频率超出fs/2的所有分量(fs)为采样频率,以防止混叠干扰。抑制50Hz的电源工频干扰。这样,预滤波器必须是一个带通滤波器,设其上、下截止频率分别是fH和fL:绝大多数语音编译码器:fH=3400Hz,fL=60-100Hz,fS=8kHz要求较高的场合fH=4500HzfL=60Hz采样率fS=10kHz预滤波、采样、A/D变换语音信号经过预滤波和采样后,由A/D变换器变换为二进制数字码。A/D变换中要对信号进行量化,量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差,又称为量化噪声。若信号波形的变化足够大,或量化间隔Δ足够小时,可以证明量化噪声符合具有下列特征的统计模型:①它是平稳的白噪声过程②量化噪声与输入信号不相关③量化噪声在量化间隔内均匀分布,即具有等概率密度分布预滤波、采样、A/D变换若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B表示量化字长,σe2表示噪声序列的方差,可以证明量化信噪比SNR(信号与量化噪声的功率比)为:假设语音信号的幅度符合Laplacian分布,此时信号幅度超过4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则上式表明量化器中的每bit字长对SNR的贡献为6dB。xexXBdBSNRmax22lg2077.402.6lg10)(2.702.6)(BdBSNR语音输入——输出过程:对重构的语音波形的高次谐波起平滑作用去掉高次谐波失真。反混叠滤波语音输入A/D变换分析处理传输或存储合成处理D/A变换平滑滤波语音输出预处理已数字化的语音信号序列将依次存入一个数据区,在语音信号处理中一般用循环队列的方式来存储这些数据,以便用一个有限容量的数据区来应付数量极大的语音数据,已处理完提取出了语音特征参数的一个时间段的语音数据可以依次抛弃,让出存储空间来存储新数据。调频收发技术中,通常采用预加重(发送端对输入信号高频分量的提升)和去加重(解调后对高频分量的压低)技术解决高频传输困难的问题。语音增强语音编码语音合成与转换语音隐藏语音识别声源定位情感识别……
本文标题:语音信号处理-第3版-第2讲
链接地址:https://www.777doc.com/doc-3699234 .html