您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 畜牧/养殖 > 语音信号处理_2_基础知识
第二章语音信号的声学基础及产生模型语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型语音学界定三个分支基础知识语音学界定语音学是研究人类说话声音的科学三个分支基础知识语音学界定三个分支(发音-传递-感知)发音语音学也称生理语音学,研究发音器官在发音阶段的生理特性,确定发音部位和发音方式声学语音学研究语音在传递阶段的声学特性,用声学和现代信号分析理论来解释各种语音现象感知语音学研究语音感知阶段的生理和心理特性,也就是研究耳朵是怎样听音的,大脑是怎样解释这些声音的,语言信息在大脑中的存储部位和形式基础知识语音学界定三个分支基础知识基本声学特征层级结构辅音元音音节结构基本声学特征音质响度音高音长音段特征,音质超音段特征,音高、响度、音长层级结构由下而上(bottom-to-top)音素(Phoneme):最小的发音单位音节(Syllable):最小的节奏单位语音词(ProsodicWord):最小的韵律组合单位韵律短语(ProsodicPhrase):非完整语调的短语语调短语(IntonationalPhrase):具备完整语调的可独立的短语例:一九九九年(BP1)十二月(BP1)三十一号(BP2)一九九九年十二月三十一号yi1jiu3jiu2jiu3nian2shi2er4yue4san1shi2yi1hao4辅音辅音的特点口腔内有阻塞或阻碍气流较强,特别是清辅音器官在遇阻部分是紧张的多数辅音为不带音的清辅音,少数辅音为声带颤动的浊辅音辅音辅音的分类按发音部位分类唇音:b,p,m,f舌尖前音:d,t,n,l,z,c,s舌尖后音:zh,ch,sh,r舌面前音:j,q,x,舌根音:g,k,h,ng(鼻韵尾)按发音方法分类塞音:b,d,g(不送气)p,t,k(送气)塞擦音:z,zh,j(不送气)c,ch,q(送气)擦音:f,s,sh,x,h(清擦)r(浊擦)边音:l鼻音:m,n,ng(鼻韵尾)半元音:如,i,u,ü起头的零声母音节的起始部元音元音的特点声带颤动,其波形呈准周期性变化器官均衡地保持紧张,口腔内无明显阻碍气流较弱元音元音的分类按舌位高低、前后分;按唇形圆展分;调音器官的变化来分单元音(10个)舌面元音:a,i,u,ü,o,e,ê舌尖元音:-i,-ii卷舌元音:er二合元音(9个)前响:ai,ao,ou,ei,üe后响:ia,ua,ie,uo三合元音(4个)iao,iou,uai,uei音节结构音节=声母+韵母+声调tang1=t+ang1非轻声音节1268个(新华字典)声母声母(21个)-全部为辅音塞音:b,d,g(不送气)p,t,k(送气)塞擦音:z,zh,j(不送气)c,ch,q(送气)擦音:f,s,sh,x,h(清擦)r(浊擦)边音:l鼻音:m,n,ng(鼻韵尾)半元音:如,i,u,ü起头的零声母音节的起始部韵母韵母(39个)-大部分为元音,或元音加鼻韵尾单元音(10个)舌面元音:a,i,u,ü,o,e,ê舌尖元音:-i,-ii卷舌元音:er二合元音(9个)前响:ai,ao,ou,ei,üe后响:ia,ua,ie,uo三合元音(4个)iao,iou,uai,uei鼻韵尾(7个)an,en,in,ang,eng,ing,ong复合鼻韵尾(9个)ian,iang,iong,uan,uen,uang,ueng,üan,üen声调声调(5个)孤立音节中有四个声调,调型称之为阴平、阳平、上声、去声,简称1、2、3、4声连续语音中由音节弱化、致使原有调型丢失,形成轻声上声连读变调:上声变阳平主要由韵母音段的音高所负载第二章语音信号的声学基础及产生模型语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型语音产生过程发音过程语音生成模型语音产生过程声带-激励源声道-调节器唇-辐射语音产生过程激励源(体积速度)嗓音声源—脉动声门气流噪音声源—瞬态过程、摩擦、送气语音产生过程激励源(体积速度)嗓音声源—脉动声门气流线谱基频(pitch)、音高(F0)、声调(tone)-12dB/Oct.下倾source注:分频斜率(也称滤波器的衰减斜率)用来反映分频点以下频响曲线的下降斜率,用分贝/倍频程(dB/oct)来表示。它有一阶(6dB/oct)、二阶(12dB/oct)、三阶(18dB/oct)和四阶(24dB/oct)之分,阶数越高,分频点后的频率曲线斜率就越大。较常用的是二阶分频斜率。高阶分频器可增加斜率,但相移位大;低阶分频器能产生较平缓的斜率和很好的瞬态响应,但幅频特性较差。语音产生过程激励源(体积速度)调节器(声道截面积)元音声道长度舌的位置共振峰(formant),F1,F2,F3,F4辅音方式:摩擦、送气、阻塞部位:唇、齿、舌面、舌根、鼻sourcefilterF1F2F3F4语音产生过程激励源(体积速度)调节器(声道截面积)辐射(差分函数)一阶差分+6dB/Oct.增益sourcefilterradiationF1F2F3F4speechF1F2F3F4语音产生模型源-滤波-辐射模型冲激序列发生器声门波模型声道模型信号辐射模型随机噪声发生器vA振幅NA振幅第二章语音信号的声学基础及产生模型语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型语音信号的特性分析时域波形(Time-DomainWaveform)频域特征(Frequency-DomainFeature)语谱图(Spectrogram)时域波形-samplesTime(s)01.54821-0.67080.86580Time(s)00.301313-0.67080.83170Time(s)00.0530186-0.62450.76630时域波形-samplesTime(s)01.54821-0.67080.86580Time(s)00.421013-0.65640.86580Time(s)00.129331-0.3720.20070时域波形-samplesTime(s)01.54821-0.67080.86580Time(s)00.31232-0.32070.15870Time(s)00.0440275-0.17590.15640时域波形直观的特征周期性摩擦停顿时长幅度波形解释-发音方式清/浊摩擦塞送气鼻时域波形直观的特征周期性摩擦停顿时长幅度波形解释-发音方式清/浊摩擦塞送气鼻显著程度频域特征-samplesTime(s)01.54821-0.67080.86580Frequency(Hz)01102502040Frequency(Hz)011025-20020Frequency(Hz)01102502040Frequency(Hz)01102502040频域特征直观的特征包络细节频域特征-发音部位周期性共振峰位置能量集中区能量语谱图需求:综合显示发音方式-时域发音部位-频域语谱图:语音频谱随时间变化的图形横轴:时间纵轴:频率灰度:能量大小语谱图-samplesTime(s)01.54821-0.67080.86580Time(s)01.548210104Time(s)01.548210104宽带-300Hz窄带-45Hz语谱图典型特征横杠冲直条乱纹最为经典的语音分析显示手段实现手段BellLab.in40’s,模拟滤波器组KayInc.in80’s,基于DSP的数字滤波器组Speechanalysistoolspraat,free,professionaltoolsSFS,free,professionaltoolsCooledit,populartools第二章语音信号的声学基础及产生模型语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型语音感知听觉器官(声学特征)感知效应语音感知听觉器官(声学特征)音质、音强、音高、音长感知效应感知效应听阈主观响度主观音高言语的选择性感知感知效应听阈频率范围20~20kHz声强0~120dB(0dBeq.20uPa)主观响度主观音高言语的选择性感知主观响度响度级(LoudnessLevel),Phon数值上等于1kHz纯音的声强级响度(Loudness),1Sone等于1kHz纯音t听阈之上40dB的响度P=33.33lgS+403~5kHz频段最为灵敏主观音高美(Mel)1kHz纯音定为1000Mel听感上为1000Mel的n倍,nx1000Mel临界带宽(CriticalBand)相同功率的噪声对纯音的屏蔽,噪声的频带宽度20~16kHz,划为24个BarkMel与频率的关系言语的选择性感知“鸡尾酒会效应”发音的改变选择性感知感知过程非线性处理过程自下而上(数据驱动)+从上而下(知识驱动)第二章语音信号的声学基础及产生模型语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型语音产生数学模型产生模型激励声道辐射语音产生模型源-滤波-辐射模型冲激序列发生器声门波模型声道模型信号辐射模型随机噪声发生器vA振幅NA振幅激励模型清音随机白噪声均值为0,方差为1的随机序列浊音右斜类三角波斜三角波模型Rosenberg声门波模型)(0)(/)()0(/)(0TtTTTTtTTtTTATtTtAtgnpnppnnppp)(0)(]2/)(cos[)0()]/cos(1[(5.0)(0TtTTTTtTTTtATtTtAtgnpnppnpppTpTnT0TpTnT0斜三角波Rosenberg声门波激励模型右斜类三角波的Z变换1,1)(82)()(),()()()()()1)(1(1)(11211默认基音周期为有问题)公式(则如果激励是变换为脉冲序列的zAzEzGzUnzGzEzUzzEzgzgzGvG(z)声道模型声管模型共振峰模型声管模型管子串联管子对应于四端网络反射系数与线性预测的参数相对应(Km对应于线性预测的反射系数)。声门唇1324)1,1(11mmmmmAAAAk12121AAAAk共振峰模型级联型并联型混合型级联型元音串联二阶谐振器全极点模型(Autoregressive)2112111)(2/)1,11)(zczbazHNMzczbaaGzaGzHkkkkMkkkkkNkkk整数是小于(为常数和其中dbHz1z1zabcx(n)y(n)H1H2HMcnybnyanxny*)2(*)1(*)()(并联型辅音和其它元音并联二阶谐振器零极点模型21121101)()(1)(1)(zczBAzHzczBARNzazbzHkkkkMkkkkNkkkRrrr分母无重根通常H1H2HM+混合型所有音素H1H2HMH1H2HM+辐射模型口唇的辐射效应:声道内是体速度,空气中是声压。后者是前者的微分(+6dB/Oct.)。)()()1)(1()1()1()()(1)0(/)1(,1)()()1)(1()1()()()()()1()(1211101112111010zHzHzgzgzRzzWzVRRzzWzHzgzgzRzRzHzUzVzRzR,清音很小:浊音预加重:本章小结语音学语音产生过程语音信号的特性分析语音感知语音产生数学模型作业注明:学号、姓名提交:9月28日内容1.什么是语音,语音交际过程分为哪五
本文标题:语音信号处理_2_基础知识
链接地址:https://www.777doc.com/doc-3821993 .html