您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 语言发声研究及相关领域1
语言发声研究及相关领域1孔江平中国社会科学院民族研究所摘要本文从语音学嗓音发声类型研究的角度,介绍了语言发声类型的一些基本概念,并在此基础上讨论了语言发声类型基础研究的各个方面和相关的领域.嗓音研究的信号有语音声学信号,声门阻抗信号和高速数字图像信号.研究的方法包括语音学研究,多维嗓音研究,声门阻抗信号研究,嗓音的小波变换研究,声门高速成像的研究和语音合成研究等.在学科上涉及语音学,言语声学,嗓音生理学和言语工程等.文章包括以下十一个方面:1)嗓音发声类型的语音学研究;2)多维嗓音分析;3)声门阻抗信号与声带振动;4)信号类型与基频提取;5)基于高速数字成像动态声门研究;6)基于高速数字成像的动态声门模型;7)基于高速数字成像的嗓音病理研究;8)基于小波变换的嗓音研究;9)嗓音的变换;10)语音合成研究;11)其它.这些基础研究对语音学,言语声学,嗓音医学,言语工程以及声纹鉴定和声乐等研究都具有十分重要的意义.1嗓音发声类型的语音学研究言语的产生大致可以分为两部分,一部分是声源,语音学称为发声,另一部分是共鸣,语音学称为调音.语言发声类型是指声带以不同的振动方式所产生的具有不同性质的声源.对于不同的学科嗓音发声类型的定义也不完全相同,语音学定义的原则是看其是否具有语言学意义,言语声学主要是根据声学特性的差异,而嗓音医学主要是根据感知的评价结果,但无论哪个学科大家都一致认为声学参数是最终量化语言嗓音发声类型的基本依据.常见的发声类型有:1)正常嗓音;2)高音调嗓音;3)低音调嗓音;4)假声;5)气泡音;6)气嗓音;7)吸气音;8)紧嗓音;9)双周期嗓音;10)耳语等.现有语音学理论对元音的定义基本上是从调音上来定义的,如舌位最高点的位置,开口度的大小和圆展唇等,并没有涉及到嗓音发声类型.然而,不同的发声类型在我国的许多民族语言中相当普遍,如果仅用现有元音的定义远远不能满足我国民族语言的现实,根据我们对嗓音发声类型的研究,元音有两种不同的音色(quality),一种是由调音产生的音色称为调音音色(articulationquality),另一种是由发声产生的音色称为发声音色(phonationquality).如,景颇语/ka31/和/ka31/两音节的共振峰没有本质的差别,从调音的角度看,其音色是相同的,但发声音色却不相同.在对我国不同民族语言发声类型的研究中,可以发现有三种不同的元音音色:1)调音音色不同发声音色相同.2)发声音色不同调音音色相同.3)调音音色和发声音色都不同.从我国不同语言嗓音的声学分析和研究可以看出,许多发声类型具有超音段的性质,具体地讲是音节性.目前对声调的定义仅限于音调的高低和音调不同的模式,音调的高低在生理上对应于声带振动的快慢,在声学上对应于基频的大小.因此,可以明确地看出,声调应该属于发声的研究范畴.如,景颇语/tom31/和/tom31/两音节中的声调,其基频曲线没有本质的差异,由于发声类型具有音节性,因此,我们也可以将其定义为调质的不同,从而引出调质(tonequality)的概念.根据调质的概念,可以进一步将声调分解成调时与调声,调时是指肌肉对声带振动快慢的调制,而调声是指肌肉对声带振动方式的调制.前者在声学上对应于嗓音发声类型的时域特征,而后者对应于嗓音发声类型的频率域特1限于版面,参考文献在文中引用不再标明.2征.对于调时大家都比较熟悉,也就是我们常说的基频的高低和由基频曲线组成的模式.对于调声一般人们不太了解,怎样用一个比较直观又准确的方法来表征声调调声的模式是很值得研究的课题.在以往的研究中,我们通常采用开商(openquotient)和速度商(speedquotient)来反映声调调质的变化情况.在言语声学和言语工程中,可以用其它的模型来表征调质的变化,如方特的LF-模型(Fant,1985)等.从嗓音发声类型研究的角度来看声调,我们不难发现现有声调的定义很不准确也很不完全.不同的民族在发音器官上没有太大的差别,但由于语言不同,他们使用发音器官的部位有很大的不同.在调音方面,每种语言的音位系统都不相同,发声也是如此,嗓音的使用也不尽相同.怎样表征不同语言的发声也是语言学和言语声学研究的一项基本内容.如,藏语和彝语的开商男女之间都有较大的差别,但蒙古语的开商男女之间完全没有差别.2多维嗓音分析多维嗓音分析是从语音信号,EGG信号或其它语言信号中提取多项参数,然后对这些参数进行综合分析.多维嗓音分析主要用于嗓音病变的研究.在语音学上,可以用来量化不同的发声类型,但样本要足够长的持续元音.在言语工程上,目前用的还不多,它可以用来量化不同人的嗓音,其中有些参数对建立模型十分有用.常用的多维嗓音分析参数有六类33项2.基音类:1)平均基频;2)平均音调周期;3)最高基频;4)最低基频;5)F0标准偏差;6)半调发声F0范围.频率抖动类:7)F0抖动频率;8)振帽抖动频率;9)分析样本时长;l0)绝对频率抖动;11)频率抖动百分比;12)相对平均扰动;13)音调扰动商;14)平滑音调扰动商;15)基频变化率.振幅抖动类:16)振幅抖动;17)振幅抖动百分比;18)振幅扰动商;19)平滑振幅扰动商;20)峰振幅变化率.嗓音指数类:21)清浊率;22)嗓音骚动;23)软发声指数;24)F0抖动强指数;25)振幅抖动强度指数.嗓音清化类:26)嗓音破裂级;27)次和谐级;28)清声级;29)嗓音破裂数;30)次和谐音段数;31)非浊音段数.基本类:32)计算音段数;33)总测定音调周期.在多维嗓音分析中,对得到的参数通常采用统计的分析方法,这是因为多维嗓音分析的参数主要是平均数据.利用多维嗓音分析不仅可以用来研究语言的嗓音特性,而且在许多工程技术和医学领域都有广泛的实用价值.从算法上看,多维嗓音分析对语音质量的要求很高.它包括两个方面:1)采样频率要达到50k/秒;2)信噪比要在70dB以上.满足了这两条才会有较好的结果.从国际上发表的论文看,多维嗓音分析主要用于病变嗓音的研究.从参数的定义可以看出,提取多维嗓音参数要用持续元音才能得到较稳定的参数,如果分析样本是自然语流,就需要很大的量才能得到稳定的参数.虽然多维嗓音分析在研究嗓音特性时有很大的难度,但通过一些具体的研究,我们认为还是可以用来研究正常的嗓音发声特性及其多维嗓音各参数之间的关系.例如,研究发现,随着基频的提高,频率抖动慢慢降低.另外,随着基频的提高,振幅抖动体现出较为复杂的情况.研究表明,多维嗓音参数之间,有的关系比较简单,而有的关系却很复杂,因此,多维嗓音分析还需要进行大量的样本分析和参数提取算法的研究.3声门阻抗信号与声带振动声门阻抗信号和声门面积函数是两种不同的信号,但都可以从不同的方面反映声带的发声方式,通过对这两种信号的对比,可以看出它们各自的特点.下面例举了正常嗓音,高音调嗓音和低音调嗓音三种情况来研究它们的不同.正常嗓音是语言使用的主要嗓音,它的发声方式主要体现为音调不是很高也不是很低,开商在50左右,声门的开合比较清楚.通过比较从高速数字图像得到的声门面积函数和通过喉头仪得到的声门阻抗信号可以看出,声门阻抗信号和声门面积函数都能较好地反映声带的开点和声带的关闭点.声门的关闭点可以用来标记语音声学信号的声门周期.另外,这两2见KAY公司的多维嗓音分析选件使用手册.3种信号一个可以反映开相声门面积的变化,另一个可以反映声带接触面积的变化.高音调嗓音也会出现在语言中,但往往在一些特殊的情况下,如惊呼,高声叫喊等.另外,在声乐中也常常用到高音调嗓音.女声的高音调嗓音的声带在振动过程中,从来没有完全关闭过,声门面积函数接近于正弦波.从声门阻抗信号看,其形状也象正弦波,只是位置与声门面积函数不同.从声带的接触点基本上可以标记语音声学信号的周期,但它们显然不能标记声门的关闭点和打开点,因为从来没有真正关闭过.低音调嗓音是语言交际中常用的发声类型,特别是在声调语言的低调部分.比较典型的低音调嗓音是气泡音,如成年男声在汉语普通话的上声中的最低部分,往往是气泡音.从声门阻抗信号算出的声带接触点和声带打开点,可以比较准确地反映声门的开合,也能比较准确地标记语音声学信号的周期.以上三个例子是嗓音发声类型中最普通的情况,在我们的研究和观测中发现声门阻抗信号在许多情况下不能完全准确地反映声门和语音声学信号的周期.4信号类型与基频提取基频是语言信号处理中经常涉及的一个重要声学参数,也有很多提取的方法,但大家知道基频仍然是一个很难准确提取的参数,这里讨论一下不同信号在反映声带振动周期时的不同情况.从声带振动的高速图像研究中,我们知道声门面积函数反映出来的声门脉冲有许多不同的类型,这些类型主要有:1)单脉冲;2)双脉冲;3)三脉冲等.反映在周期上也可以有不同的类型:1)单脉冲无关闭段周期;2)单脉冲周期;3)双脉冲周期;4)三脉冲周期等.由于声门面积脉冲类型的不同,同一段信号,计算的方法不同得出的基频会相差很大.具体地说基频是按每个脉冲来计算还是按脉冲类型的周期计算.由于声门面积函数能够比较精确地反映声带振动的情况,因此,声门面积函数的脉冲类型可以较好地反映出来.对比声门阻抗信号和语音声学信号可以看出,这三种信号在反映声带振动方面有一定的差距.总的来说,声门面积函数反映声带的周期最为准确,其次是声门阻抗信号,最后是语音声学信号.在不同的发声类型中,由于前后的影响,声带的一次开合,不一定能反映在语音声学信号上,因此,从信号类型上可以分为:1)声门面积函数的基频;2)声门阻抗信号的基频和3)语音声学信号的基频,对于同一个发音它们并不完全相同.由于不同发声类型声带振动的复杂性和不同信号在反映声带振动时的差异,计算基频时也应采用不同的算法和定义,这就是为什么采用一种算法很难满足所有语音信号基频的提取.在我们还没有完全认识各种嗓音发声类型的特性之前和在我们还没有给基频一个明确的定义之前,很难给出一种能适应所有语音基频提取的算法.5基于高速数字成像的动态声门研究由于技术的发展,利用高速数字成像已经可以拍下声带振动的全过程,这为我们研究声带的振动成为可能,目前一些发达国家已经开始了这方面的研究.利用高速数字成像研究发声,首先是拍下声带振动的过程,然后进行图像处理提取出参数,最后对参数进行研究或建立模型.本文涉及的高速数字图像的采样频率为4500帧/秒,256×256像素.提取的普通参数有24个,统计参数有10个.基本参数:1)最大声门面积位置;2)绝对声门长度;3)绝对声门宽度;4)最大声门面积中心行坐标;5)最大声门面积中心列坐标;6)声门形状比.声门面积参数:7)声门面积;8)左声门面积;9)右声门面积;10)前声门面积;11)后声门面积.声门长宽参数:12)声门面积长度;13)声门面积宽度;14)前声门面积长度;15)后声门面积长度;16)左声门面积可宽度;17)右声门面积宽度.声门面积函数参数:18)声门面积函数周期;19)声门面积函数基频;20)声门面积函数开相;21)声门面积函数闭相;22)声门面积函数开商;23)声门面积函数速度商;24)支流分量.统计参数:1)平均基频;2)平均开商;3)平均速度商;4)平均直流分量;5)平均声门形状比;6)动态声门对称指数;47)声门面积左右平衡指数;8)声门面积前后平衡指数;9)声门左右摆动指数;10)声门前后摆动指数.本节简单讨论以下不同嗓音的性质:1)正常嗓音是人们在进行语言交际是最常用的嗓音,其基频在人们的嗓音范围内居中,对于对于说普通话的人来说,其基频大约为228Hz,开商大约为55,速度商为244.随着音调的降低开商也降低,而速度商逐渐提高.随着音调的提高开商增大,而速度商降低.随着音调的提高还会出现漏气的情况.2)气嗓音最主要的特征就是声带在振动过程中,靠近勺状软骨地方声带无法完全闭合,出现漏气现象.在声学上声带漏气会造成很大的支流分量,声带的关闭段也会延长,在声源脉冲上,延长了从断点到关闭点的距离,这会使声源在频率域形成一个低通,从而加强了低频的分量,特别是第一谐波的能量.3)气泡音
本文标题:语言发声研究及相关领域1
链接地址:https://www.777doc.com/doc-4741910 .html