语音信号处理_2_基础知识

1、第二章语音信号的声学基础及产生模型语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型语音学界定三个分支基础知识语音学界定语音学是研究人类说话声音的科学三个分支基础知识语音学界定三个分支（发音-传递-感知）发音语音学也称生理语音学，研究发音器官在发音阶段的生理特性，确定发音部位和发音方式声学语音学研究语音在传递阶段的声学特性，用声学和现代信号分析理论来解释各种语音现象感知语音学研究语音感知阶段的生理和心理特性，也就是研究耳朵是怎样听音的，大脑是怎样解释这些声音的，语言信息在大脑中的存储部位和形式基础知识语音学界定三个分支基础知识基本声学特征层级结构辅音元音音节结构基本声学特征音质响度音高音长音段特征，音质超音段特征，音高、响度、音长层级结构由下而上（bottom-to-top）音素(Phoneme)：最小的发音单位音节(Syllable)：最小的节奏单位语音词(ProsodicWord)：最小的韵律组合单位韵律短语(ProsodicPhrase)：非完整语调的短语语调短语(IntonationalPhr。

2、ase)：具备完整语调的可独立的短语例：一九九九年（BP1）十二月（BP1）三十一号（BP2）一九九九年十二月三十一号yi1jiu3jiu2jiu3nian2shi2er4yue4san1shi2yi1hao4辅音辅音的特点口腔内有阻塞或阻碍气流较强，特别是清辅音器官在遇阻部分是紧张的多数辅音为不带音的清辅音，少数辅音为声带颤动的浊辅音辅音辅音的分类按发音部位分类唇音：b，p，m，f舌尖前音：d，t，n，l，z，c，s舌尖后音：zh，ch，sh，r舌面前音：j，q，x，舌根音：g，k，h，ng（鼻韵尾）按发音方法分类塞音：b，d，g（不送气）p，t，k（送气）塞擦音：z，zh，j（不送气）c，ch，q（送气）擦音：f，s，sh，x，h（清擦）r（浊擦）边音：l鼻音：m，n，ng（鼻韵尾）半元音：如，i，u，ü起头的零声母音节的起始部元音元音的特点声带颤动，其波形呈准周期性变化器官均衡地保持紧张，口腔内无明显阻碍气流较弱元音元音的分类按舌位高低、前后分；按唇形圆展分；调音器官的变化来分单元音（10个）舌面元音：a,i,u,ü,o,e,ê。

3、舌尖元音：-i,-ii卷舌元音：er二合元音（9个）前响：ai,ao,ou,ei,üe后响：ia,ua,ie,uo三合元音（4个）iao,iou,uai,uei音节结构音节＝声母＋韵母＋声调tang1=t+ang1非轻声音节1268个（新华字典）声母声母（21个）－全部为辅音塞音：b，d，g（不送气）p，t，k（送气）塞擦音：z，zh，j（不送气）c，ch，q（送气）擦音：f，s，sh，x，h（清擦）r（浊擦）边音：l鼻音：m，n，ng（鼻韵尾）半元音：如，i，u，ü起头的零声母音节的起始部韵母韵母（39个）－大部分为元音，或元音加鼻韵尾单元音（10个）舌面元音：a,i,u,ü,o,e,ê舌尖元音：-i,-ii卷舌元音：er二合元音（9个）前响：ai,ao,ou,ei,üe后响：ia,ua,ie,uo三合元音（4个）iao,iou,uai,uei鼻韵尾（7个）an,en,in,ang,eng,ing,ong复合鼻韵尾（9个）ian,iang,iong,uan,uen,uang,ueng,üan,üen声调声调（5个）孤立音节中有四。

4、个声调，调型称之为阴平、阳平、上声、去声，简称1、2、3、4声连续语音中由音节弱化、致使原有调型丢失，形成轻声上声连读变调：上声变阳平主要由韵母音段的音高所负载第二章语音信号的声学基础及产生模型语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型语音产生过程发音过程语音生成模型语音产生过程声带-激励源声道-调节器唇-辐射语音产生过程激励源（体积速度）嗓音声源—脉动声门气流噪音声源—瞬态过程、摩擦、送气语音产生过程激励源（体积速度）嗓音声源—脉动声门气流线谱基频（pitch）、音高（F0）、声调（tone）-12dB/Oct.下倾source注：分频斜率（也称滤波器的衰减斜率）用来反映分频点以下频响曲线的下降斜率，用分贝/倍频程（dB/oct）来表示。它有一阶（6dB/oct）、二阶（12dB/oct）、三阶（18dB/oct）和四阶（24dB/oct）之分，阶数越高，分频点后的频率曲线斜率就越大。较常用的是二阶分频斜率。高阶分频器可增加斜率，但相移位大；低阶分频器能产生较平缓的斜率和很好的瞬态响应，但幅频特性较差。语音产生过程激励源（。

5、体积速度）调节器（声道截面积）元音声道长度舌的位置共振峰（formant）,F1,F2,F3,F4辅音方式:摩擦、送气、阻塞部位：唇、齿、舌面、舌根、鼻sourcefilterF1F2F3F4语音产生过程激励源（体积速度）调节器（声道截面积）辐射（差分函数）一阶差分+6dB/Oct.增益sourcefilterradiationF1F2F3F4speechF1F2F3F4语音产生模型源-滤波-辐射模型冲激序列发生器声门波模型声道模型信号辐射模型随机噪声发生器vA振幅NA振幅第二章语音信号的声学基础及产生模型语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型语音信号的特性分析时域波形（Time-DomainWaveform）频域特征（Frequency-DomainFeature）语谱图（Spectrogram）时域波形－samplesTime(s)01.54821-0.67080.86580Time(s)00.301313-0.67080.83170Time(s)00.0530186-0.62450.76630时域波形－sample。

6、sTime(s)01.54821-0.67080.86580Time(s)00.421013-0.65640.86580Time(s)00.129331-0.3720.20070时域波形－samplesTime(s)01.54821-0.67080.86580Time(s)00.31232-0.32070.15870Time(s)00.0440275-0.17590.15640时域波形直观的特征周期性摩擦停顿时长幅度波形解释－发音方式清／浊摩擦塞送气鼻时域波形直观的特征周期性摩擦停顿时长幅度波形解释－发音方式清／浊摩擦塞送气鼻显著程度频域特征－samplesTime(s)01.54821-0.67080.86580Frequency(Hz)01102502040Frequency(Hz)011025-20020Frequency(Hz)01102502040Frequency(Hz)01102502040频域特征直观的特征包络细节频域特征－发音部位周期性共振峰位置能量集中区能量语谱图需求：综合显示发音方式-时域发音部。

7、位-频域语谱图：语音频谱随时间变化的图形横轴：时间纵轴：频率灰度：能量大小语谱图-samplesTime(s)01.54821-0.67080.86580Time(s)01.548210104Time(s)01.548210104宽带-300Hz窄带-45Hz语谱图典型特征横杠冲直条乱纹最为经典的语音分析显示手段实现手段BellLab.in40’s,模拟滤波器组KayInc.in80’s，基于DSP的数字滤波器组Speechanalysistoolspraat,free,professionaltoolsSFS,free,professionaltoolsCooledit,populartools第二章语音信号的声学基础及产生模型语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型语音感知听觉器官(声学特征)感知效应语音感知听觉器官(声学特征)音质、音强、音高、音长感知效应感知效应听阈主观响度主观音高言语的选择性感知感知效应听阈频率范围20~20kHz声强0~120dB(0dBeq.20uPa)主观响度主观音。

8、高言语的选择性感知主观响度响度级（LoudnessLevel）,Phon数值上等于1kHz纯音的声强级响度（Loudness）,1Sone等于1kHz纯音t听阈之上40dB的响度P=33.33lgS+403~5kHz频段最为灵敏主观音高美（Mel）1kHz纯音定为1000Mel听感上为1000Mel的n倍，nx1000Mel临界带宽（CriticalBand）相同功率的噪声对纯音的屏蔽，噪声的频带宽度20~16kHz,划为24个BarkMel与频率的关系言语的选择性感知“鸡尾酒会效应”发音的改变选择性感知感知过程非线性处理过程自下而上（数据驱动）+从上而下（知识驱动）第二章语音信号的声学基础及产生模型语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型语音产生数学模型产生模型激励声道辐射语音产生模型源-滤波-辐射模型冲激序列发生器声门波模型声道模型信号辐射模型随机噪声发生器vA振幅NA振幅激励模型清音随机白噪声均值为0，方差为1的随机序列浊音右斜类三角波斜三角波模型Rosenberg声门波模型。

9、)(0)(/)()0(/)(0TtTTTTtTTtTTATtTtAtgnpnppnnppp)(0)(]2/)(cos[)0()]/cos(1[(5.0)(0TtTTTTtTTTtATtTtAtgnpnppnpppTpTnT0TpTnT0斜三角波Rosenberg声门波激励模型右斜类三角波的Z变换1,1)(82)()(),()()()()()1)(1(1)(11211默认基音周期为有问题）公式（则如果激励是变换为脉冲序列的zAzEzGzUnzGzEzUzzEzgzgzGvG(z)声道模型声管模型共振峰模型声管模型管子串联管子对应于四端网络反射系数与线性预测的参数相对应（Km对应于线性预测的反射系数）。声门唇1324)1,1(11mmmmmAAAAk12121AAAAk共振峰模型级联型并联型混合型级联型元音串联二阶谐振器全极点模型(Autoregressive)2112111)(2/)1,11)(zczbazHNMzczbaaGzaG。

10、zHkkkkMkkkkkNkkk整数是小于（为常数和其中dbHz1z1zabcx(n)y(n)H1H2HMcnybnyanxny*)2(*)1(*)()(并联型辅音和其它元音并联二阶谐振器零极点模型21121101)()(1)(1)(zczBAzHzczBARNzazbzHkkkkMkkkkNkkkRrrr分母无重根通常H1H2HM+混合型所有音素H1H2HMH1H2HM+辐射模型口唇的辐射效应：声道内是体速度，空气中是声压。后者是前者的微分（+6dB/Oct.）。)()()1)(1()1()1()()(1)0(/)1(,1)()()1)(1()1()()()()()1()(1211101112111010zHzHzgzgzRzzWzVRRzzWzHzgzgzRzRzHzUzVzRzR，清音很小：浊音预加重：本章小结语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型作业注明：学号、姓名提交：9月28日内容1.什么是语音，语音交际过程分为哪五。