您好,欢迎访问三七文档
2.1概述2.2语音和语言2.3汉语语音学2.4语音生成系统和语音感知系统2.5语音信号生成的数学模型2.6语音信号的特性分析2.1概述语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求,例如人工合成出语音、辨识出讲话者、识别出讲话的内容等等。因此,在研究各种语音信号数字处理技术应用之前,首先需要了解语音信号的一些重要特性的知识,在此基础上才可以建立既实用又便于分析的语音信号产生模型和语音信号感知模型等,它们是贯穿整个语音信号数字处理的基础。2.2语音和语言人们讲话时发出的话语叫语音,它是一种声音,具有称为声学特征的物理特性。语音(Speech)是声音(Acoustic)和语言(Language)的组合体。可以这样定义语音:语音是由一连串的音组成语言的声音。人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段2.2语音和语言人的说话的过程:2.2语音和语言语言是从人们的话语中概括总结出来的规律性的符号系统。包括构成语言的语素、词、短语和句子等的不同层次的单位,以及词法、句法、文脉等语法和语义内容等。语言学是语音信号处理的基础。语音学(Phonetics)是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类等问题。现代语音学发展成为三个主要分支:发音语音学、声学语音学、听觉语音学。2.2语音和语言语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。其中,音色也叫音质,是一种声音区别于另一种声音的基本特征。音调是指声音的高低,它取决于声波的频率。声音的强弱叫音强,它由声波的振动幅度决定。声音的长短叫音长,它取决于发音时间的长短。说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。2.2语音和语言说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。2.2语音和语言决定元音音色的主要因素是舌头的形状及其在口腔中的位置(简称舌位)、嘴唇的形状(简称口形)等。元音的另一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(FormantFrequency)的位置和频带宽度(FormantBandwidth)。一般地说,虽然就语音的基音频率而言是女声和童声高于男声,但是实验表明:区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。2.2语音和语言从上面的介绍可以总结出发音器官产生元音的条件,即①声道受到声带振动的激励引起共振;②在语音流的持续过程中,声道不发生极端的狭窄,并维持较稳定的形状;③和鼻腔不发生偶合,声音只从口腔辐射出去。这三个条件中,只要缺少其中之一,则该语音就是辅音。辅音没有明确的共振峰结构。辅音发音时的阻碍的位置叫调音点(PlaceofArticulation)、阻碍的方法叫调音方式(MannerofArticulation)。调音方式等的不同可以把辅音分成如下几类:塞音、摩擦音、塞擦音、鼻音、边音、颤音、通音。根据发辅音时声带有无振动,可以把辅音分类成浊辅音和清辅音。根据辅音除阻后是否紧跟着送出一股气来,可以把辅音分类成送气辅音和不送气辅音。2.3汉语语音学汉语语音的特点:音系简单。这是指音素少、音节少。音节的结构也比较简单。由于清辅音多,而且多是弱清音,而且开口呼的音节占全部音节的一半以上,所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉。有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。汉语的拼音方法汉语由音素构成声母或韵母。有时,将含有声调(汉语通常认为有五个声调)的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音,即音节字。由音节字构成词(其中主要是两音节字构成的两字词,约占74%),最后再由词构成句子。国际上,都是用音标来描述拼音过程的。汉语也不例外。汉语拼音的音标包括:声母表、韵母表和声调符号等。汉语音节的一般结构汉语音节一般由声母、韵母和声调三部分组成。汉语普通话中有6000多个常用字,每个汉字是一个音节,如将同音字合一处理,则汉语中共有1332个有调音节,其中可以单念的有1268个。汉语中一般有五个声调,即阴平、阳平、上声、去声以及轻声。如果不考虑声调,则汉语中无调音节共有407个。汉语音节的一般结构,由9个部分组成。其中1~4段属于声母(辅音),6~9段属于韵母(元音),第5段是二者的过渡段。一个音节可能只包含里面的某几段,但是第7段(主要元音段)是每个音节是具有的。汉语音节的一般结构汉语声母的结构普通话中的二十二声母可分为六大类:擦音、塞音、塞擦音、边音、鼻音、零声母。除零声母之外,其他所有的声母全部都是单辅音。汉语韵母的结构普通话的三十八个韵母大致可以分为三类:8个单韵母,如[a]、[i]、[u]等;14个复韵母,如[ai]、[ao]等;16个鼻韵母如[an]、[uang]等。在这三十八个韵母中有三个(-i、er、ê)是特殊韵母。应该注意,元音并不等于韵母。元音、辅音是按音素的发音特征分类的;而声母、韵母则是按音节结构分类的。这是两种不同的概念,尽管它们之间有一定的联系。声母和韵母的相互作用——音征互载在普通话里,声母和韵母的音征并不总是在各自的音段之内,而且又可能跨越两者的边界,即声母里可能会带有韵母的信息,韵母里也可能带有声母的信息,如辅音音渡。如果把韵母从元音起始就开始算起的话,那么音渡就是韵母中载带的辅音音征,对于某些辅音来说,如不送气塞音[b]、[d],元音里的音渡正是它们之间相互区别的主要音征。而韵母中的某些音征有声带载带的现象,最典型的就是介音的实现方式。汉语的声调汉语是一种声调语言,相同声母和韵母构成的音节随声调的不同而具有完全不同的意义,对应着不同的汉字。所以在汉语的相互交谈中,不但要凭借不同的元音、辅音来辨别这些字或词的意义,还需要从不同的声调来区别它,也就是说声调有辨意作用;另外,汉语中存在着多音字现象,同一个字在不同的语气或不同的词义下具有不同的声调,因而声调对于汉语语音的理解极为重要,承担着重要的构字辨意作用。汉语普通话的声调只有阴平、阳平、上声、去声以及“轻声”等五种声调。声调的变化就是浊音基音周期(或基音频率)的变化,各个韵母段中基音周期随时间的变化产生了声调,变化的轨迹称为声调曲线。汉语的声调汉语普通话四种声调的典型曲线:2.4语音生成系统和语音感知系统语音发音系统人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和口。这些器官共同形成一条形状复杂的管道。喉的部分称为声门。从声门到嘴唇的呼气通道叫做声道(VocalTract)。声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形状的不断改变,而发出不同的语音。语音听觉系统人耳由内耳、中耳和外耳三部分组成。外耳由耳翼、外耳道和鼓膜构成。外耳在对声音的感知中起着声源定位和声音放大的作用。中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成。中耳的作用是进行声阻抗的变换,即将中耳两端的声阻抗匹配起来,同时对内耳起着保护的作用。内耳的主要构成器官是耳蜗(Cochlea)。它是听觉的受纳器,把声音通过机械变换产生神经发放信号。语音听觉系统人的听觉系统语音听觉系统人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度。从这个意义上讲,耳蜗就象一个频谱分析仪,将复杂的信号分解成各种频率分量。并非所有的声音都能被人耳听到,这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指,在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。掩蔽效应分为同时掩蔽和短时掩蔽。2.5语音信号生成的数学模型所谓建立数学模型就是要寻求一种可以表达一定物理状态下量与量之间关系的数学表示。建立了语音信号的数字模型,才能够用计算机来定量地对语音信号进行模拟和处理。所以语音信号生成的数学模型是语音信号处理的基础。理想的模型是线性的和时不变的。语音信号是非平稳随机过程,其特性是随着时间变化的,所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时,可以采用线性时不变模型。激励模型激励模型一般分成浊音激励和清音激励来讨论。发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲,它的数学表达式如下:式中,N1为斜三角波上升部分的时间,N2为其下降部分的时间。单个斜三角波波形的频谱的图形如图2-18所示。由图可见,它是一个低通滤波器。它的变换的全极模型的形式是:其他,0],2/)(cos[0)],/cos(1)[2/1()(2112111NNnNNNnNnNnng21)1(1)(zezGcT激励模型这里,c是一个常数。显然,上式表示斜三角波形可描述为一个二极点的模型。因此,斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。而该单位脉冲串及幅值因子则可表示成下面的z变换形式:所以,整个浊音激励模型可表示为:也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。11)(zAzEv211)1(11)()()(zezAzEzGzUcTv声道模型关于声道部分的数学模型,有多种观点,目前最常用的有两种建模方法。一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。声道模型级联型这时认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联:2212112cos(2)()12cos(2)kkkkBTBTMkBTBTkkeFTeVzeFTzez声道模型级联型声道模型并联型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下:通常,NR,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型
本文标题:语音信号处理第2章
链接地址:https://www.777doc.com/doc-3822001 .html