您好,欢迎访问三七文档
12.1语音的发声机理2.2语音的听觉机理2.3语音信号的线性模型本章目录结构2.4语音信号的非线性模型第二章语音信号的数字模型“十二五”普通高等教育本科国家级规划教材22.1语音的发声机理“十二五”普通高等教育本科国家级规划教材第二章语音信号的数字模型3本章重点介绍语音信号产生的数字模型,对语音信号的特性和听觉特性做一般介绍。“十二五”普通高等教育本科国家级规划教材第二章语音信号的数字模型41.组成⑴肺和气管产生声源;⑵喉和声带组成声门;⑶由咽腔、口腔、鼻腔组成声道。图2.1发音器官机理模型2.1语音的发声机理“十二五”普通高等教育本科国家级规划教材2.1.1人的发声器官52.功能肺:产生压缩气体,通过气管传送到声音生成系统。喉:控制声带运动的复杂系统。主要包括:环状软骨、甲状软骨、杓状软骨、声带。2.1语音的发声机理“十二五”普通高等教育本科国家级规划教材6图2.2喉的平面解剖示意图前面甲状软骨声带环状软骨杓状软骨“十二五”普通高等教育本科国家级规划教材2.1语音的发声机理7声门:声带之间的间隙称为声门。主要功能:产生激励。声道:声道指声门至嘴唇的所有发音器官。声道指声门至嘴唇的所有发音器官。包括:咽喉、口腔和鼻腔。主要功能:传输调制声波。声道的形状变化由舌、软腭、唇、牙决定。“十二五”普通高等教育本科国家级规划教材2.1语音的发声机理8口腔包括:上下唇、上下齿、上下齿龈、上下腭、舌和小舌等部分。上腭又分为:硬腭和软腭两部分;舌又分为:舌尖、舌面和舌根三部分。鼻腔在口腔上面,靠软腭和小舌将其与口腔隔开。当小舌下垂时,鼻腔和口腔便耦合起来,当小舌上抬时,口腔与鼻腔是不相通的。口腔和鼻腔都是发音时的共鸣器。“十二五”普通高等教育本科国家级规划教材2.1语音的发声机理9图2.3声道纵剖面图“十二五”普通高等教育本科国家级规划教材2.1语音的发声机理10右图为语音生成其机理模型。空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。在声门(声带)以左,称为“声门子系统”,它负责产生激励振动;右边是“声道系统”和“辐射系统”。当发不同性质的语音时,激励和声道的情况是不同的,它们对应的模型也是不同的。“十二五”普通高等教育本科国家级规划教材2.1语音的发声机理11语音生成动作可分为两种功能:(1)激励(2)调制激励(声门)调制(声道)辐射语音(嘴唇)语音生成框图“十二五”普通高等教育本科国家级规划教材2.1语音的发声机理122.1.2语音生成空气流经过声带时,如果声带是崩紧的,则声带将产生张弛振动,即声带将周期性地启开和闭合。声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙期。因此,这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波,这便是浊音语音。这个准周期脉冲的周期即为基音周期。“十二五”普通高等教育本科国家级规划教材2.1语音的发声机理1、浊音13男性的基音频率一般为50~250Hz;女性基音频率为100~500Hz。基音频率是由声带张开闭合的周期所决定的:“十二五”普通高等教育本科国家级规划教材2.1语音的发声机理14“十二五”普通高等教育本科国家级规划教材2.1语音的发声机理152、清音空气流经过声带时,如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气流通过声门后,会遇到两种不同情况。一种情况是,如果声道的某个部位发生收缩形成了一个狭窄的通道,当空气流到达此处时被迫以高速冲过收缩区,并在附近产生出空气湍流,这种湍流空气通过声道后便形成所谓摩擦音或清音。“十二五”普通高等教育本科国家级规划教材2.1语音的发声机理16共振峰频率或共振峰声音产生后,便沿着声道进行传播。声道可以看成是一根具有非均匀截面的声管,在发音时起着共鸣器的作用。声音进入声道后,其频谱必定会受到声道的共振特性的影响,声道具有一组共振频率,称为共振峰频率或共振峰。声道的频谱特性便主要地反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。“十二五”普通高等教育本科国家级规划教材2.1语音的发声机理172.2语音的听觉机理“十二五”普通高等教育本科国家级规划教材第二章语音信号的数字模型182.2.1听觉器官人的听觉器官包括:外耳、中耳和内耳图2.4人耳结构示意图“十二五”普通高等教育本科国家级规划教材2.2语音的听觉机理191.外耳外耳由耳廓(耳翼)、外耳道和耳鼓(鼓膜)组成。2.中耳组成:包括三块听小骨:锤骨,砧骨和镫骨。作用:阻抗匹配和限幅外耳和中耳的综合作用相当于一个介于500Hz到6kHz之间的平滑的带通滤波器,可以用有限冲激响应(FIR---FiniteImpulseResponse)滤波器来模拟。“十二五”普通高等教育本科国家级规划教材2.2语音的听觉机理203.内耳内耳是一个充满液体的骨质结构,由前庭、圆形窗、卵形窗及耳蜗组成。“十二五”普通高等教育本科国家级规划教材图2.5耳蜗未展开时的内耳2.2语音的听觉机理21人耳听觉界限的频率范围大约为20Hz-20kHz。语音感知的强度范围是0-130dB声压级。响度这是频率和强度级的函数。人耳刚刚可以听到的声音强度,称为“听阈”。音高(音调)音高也叫基音。“十二五”普通高等教育本科国家级规划教材2.2语音的听觉机理2.2.2听觉掩蔽效应22掩蔽效应两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,一个声音的听觉感受性受同时存在的另外一个声音的影响,这个现象称为人耳的“掩蔽效应”。“十二五”普通高等教育本科国家级规划教材2.2语音的听觉机理232.2.3临界带宽与频率群临界频带也可定义为:一个给定的正弦纯音在基底膜上能够产生谐振反应的那一部分。一个频率群的划分相应于基底膜分成许多很小的部分,每一部分对应一个频率群。一个临界带的单位用巴克(Bark)表示。“十二五”普通高等教育本科国家级规划教材2.2语音的听觉机理242.2.4耳蜗的信号处理机制图2.6耳蜗内流体波的简单表示“十二五”普通高等教育本科国家级规划教材2.2语音的听觉机理25当声音经外耳传入中耳时,镫骨的运动引起耳蜗内流体压强的变化,从而引起行波沿基底膜的传播。图2.6是流体波的简单表示。在耳蜗的底部基底膜的硬度很高,流体波传播的很快。随着波的传播,膜的硬度变得越来越小,波的传播也逐渐变缓。不同频率的声音产生不同的行波,而峰值出现在基底膜的不同位置上。“十二五”普通高等教育本科国家级规划教材2.2语音的听觉机理26图2.7基底膜上六个不同点的频率响应1基底膜2内毛细胞3外毛细胞4听传导通路“十二五”普通高等教育本科国家级规划教材2.2语音的听觉机理272.2.5语音信号听觉模型“十二五”普通高等教育本科国家级规划教材2.2语音的听觉机理听觉系统的研究主要集中在三个方面:听觉系统的实验研究、听觉系统的建模和听觉模型的应用。耳蜗建模主要集中在基底膜的振动上,而耳蜗的听觉感受实际上是通过基底膜的振动和毛细胞的转换才能最后变成神经纤维的脉冲发放。然而,建立基底膜的振动模型是耳蜗建模的首要任务,它又被称为耳蜗的宏观力学模型。28“十二五”普通高等教育本科国家级规划教材2.2语音的听觉机理这里介绍一种计算模型,由三部分组成。第一部分是基底膜的振动模型;第二部分是毛细胞模型;第三部分是神经纤维模型。29“十二五”普通高等教育本科国家级规划教材2.2语音的听觉机理整个模型共有64个通道,系统的输出是一种类似于语谱图的信号。由此得到了听觉模型常用结构图,如图2.8所示。输入语音外耳中耳带通滤波器半波整流半波整流听神经发放听觉语谱图图2.8语音信号听觉模型的一般原理框图302.3语音信号的线性模型“十二五”普通高等教育本科国家级规划教材第二章语音信号的数字模型31有三部分作用施加在语音的声波上:语音信号的传递函数由这三个函数级联而成,即:H(z)=G(z)V(z)R(z)(2.1)声门产生的激励模型G(z);声道产生的调制函数V(z);嘴唇产生的辐射函数R(z)。“十二五”普通高等教育本科国家级规划教材2.3语音信号的线性模型322.3.1激励模型发浊音时,产生的脉冲类似于斜三角形的脉冲。激励波是一个以基音周期为周期的斜三角脉冲串。0510152025-0.4-0.200.20.40.60.811.2时间(ms)N1N1+N20200400600051015202530频率f/Hz频率/Hz时间/ms幅度幅度/dB图2.9三角波及其频谱图“十二五”普通高等教育本科国家级规划教材2.3语音信号的线性模型3310nN单个三角波的数学表达式为0π2cosπcos121)(211其它NNnNnng112NnNN其中:N1为斜三角波的上升时间N2为其下降时间“十二五”普通高等教育本科国家级规划教材(2.2)2.3语音信号的线性模型34单个斜三角波的频谱G(ejω)表现出一个低通滤波器的特性。其z变换的全极点形式为:21e11)(ZzGcT作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励单位斜三角波模型实现。这个单位脉冲串和幅值因子可以表示成下面的z变换形式11)(zAzEv“十二五”普通高等教育本科国家级规划教材(2.3)(2.4)2.3语音信号的线性模型35浊音激励模型可表示为清音可以模拟成随机白噪声。211111)()()(zeZAzGzEzUcTv“十二五”普通高等教育本科国家级规划教材(2.5)2.3语音信号的线性模型36典型的声道模型有两种:无损声管模型和共振峰模型。无损声管模型比较复杂,故本节只介绍共振峰模型。共振峰模型:当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,一般把它叫作共振峰。2.3.2声道模型“十二五”普通高等教育本科国家级规划教材2.3语音信号的线性模型3705001000150020002500300035004000-60-40-200清音信号频谱f/Hz对数幅度/dB05001000150020002500300035004000-60-40-200浊音信号频谱f/Hz对数幅度/dB频率/Hz频率/Hz对数幅度/dB对数幅度/dB“十二五”普通高等教育本科国家级规划教材图2.10语音信号的频谱2.3语音信号的线性模型38实践表明,用前三个共振峰代表一个元音足够了。多个Vi叠加可以得到声道的共振峰模型:211zczBAzViiiiMiNkkkiiiMiizaAZCZBAzVzV1121111一个二阶谐振器的传输函数可以写成:“十二五”普通高等教育本科国家级规划教材(2.6)(2.7)2.3语音信号的线性模型39时间/s频率/kHz00.511.522.533.544.5x10-300.511.522.533.54图2.11“我到北京去”的语谱图“十二五”普通高等教育本科国家级规划教材2.3语音信号的线性模型40)1()(10rzRzR从声道模型输出的是速度波ul(n),而语音信号是声压波Pl(n)。二者倒比称为辐射阻抗Zl,它表征口唇的辐射效应。如果认为口唇张开的面积远远小于头部的表面积,利用单板开槽辐射的处理方法,可以得到辐射阻抗,r近似为12.3.3辐射模型“十二五”普通高等教育本科国家级规划教材2.3语音信号的线性模型(2.8)式中,(2.9)2π9128rRcaLrπ3841语音信号数字模型的传递函数为:“十二五”普通高等教育本科国家级规划教材2.3.4语音信号数字模型NjjjMiiizazbzRzVzGzH00(2.10)一般情况下,极点个数取8~12个,零点个数取3~5个,在采样率为8kHz或10kHz时,H
本文标题:语音信号的数字模型
链接地址:https://www.777doc.com/doc-3952051 .html