语音信号处理_考试参考题(修订版)

一、填空题：（每空1分，共60分）1、语音信号的频率范围为（300－3400kHz），一般情况下采样率为（8kHz）。书上22页2、语音的形成是空气由（肺部）排入（喉部），经过（声带）进入声道，最后由（）辐射出声波，这就形成了语音。书上11页。肺中的通过（稳定）的气流或声道中的气流激励（喉头至嘴唇的器官的各种作用）而产生。当肺中的气流通过声门时，声门由于其间气体压力的变化而开闭，使得气流时而通过，时而被阻断，从而形成一串周期性脉冲送入声道，由此产生的语音是（浊音）。如果声带不振动，声门完全封闭，而声道在某处收缩，迫使气流高速通过这一收缩部位而发音，由此产生的语音是（清音）。3、语音信号从总体上是非平稳信号。但是，在短时段（10~30）ms中语音信号又可以认为是平稳的，或缓变的。书上24页4、语音的四要素是音长，音强，音高和音质，它们可从时域波形上反映出来。其中音长特性：音长（长），说话速度必然慢；音长（短），说话速度必然快。音强的大小是由于声源的（震动幅度）大小来决定。5、声音的响度是一个和（振幅）有密切联系的物理量，但并不就是音强。6、人类发音过程有三类不同的激励方式，因而能产生三类不同的声音，即（浊音）、（清音）和（爆破音）。7、当气流通过声门时声带的张力刚好使声带发生较低频率的张弛振荡，形成准周期性的空气脉冲，这些空气脉冲激励声道便产生浊音如果声道中某处面积很小，气流高速冲过此处时而产生湍流，当气流速度与横截面积之比大于某个门限时（临界速度）便产生摩擦音，即（清音）。8、如果声道某处完全闭合建立起气压，然后突然释放而产生的声音就是（爆破音）。9、在大多数语音处理方案中，基本的假定为语音信号特性随时间的变化是（平稳随机）的。这个假定导出各种（线性时不变）处理方法，在这里语音信号被分隔为一些短段再加以处理。10、一个频率为F。的正弦形信号以Fs速率抽样，正弦波的一周内就有（Fs/F0）个抽样。每一周内有两次过零，所以过零的长时间平均率是（2Fs/F0）过零率／抽样。因此，平均过零率就是一个估计正弦波频率的适当方法。11、如果过零率（高），语音信号就是清音。如果过零率（低），语音信号就是浊音。语音流由（音位）结合而成的最小单位，同时也是（音节）的最小单位,其英语对应词是phoneme，一个音节由（元音）和（辅音）构成，其英语对应词是Vowel和Consonant。12、语音信号的最重要持征表现在它的“短时频谱”上。如果从语音流中利用加窗的方法取出其中的一个短段，再对其进行（傅立叶）变换，就可以得到该段语音的（短时）谱。13、人类听觉系统具有（掩蔽效应），大致是一个单音的声级越（高），对其周围频率声音的掩蔽作用越强。人耳对不同频段声音的敏感程度（不同）。人耳对语音信号的（低频率和高频率）变化不敏感。14、响度较（大）的频率成分的存在会影响响度较（小）的频率成分的感受，使其变得不容易察觉。15、浊音的声带振动基频称为（基音频率）。16、分析综合技术就是通过对信源分析，提取其中具有本质意义的参数，编码仅对这些参数进行。接受端借助一定的规则和模型，结合一定的算法将这些参数再综合成逼近（原语音）。17、高、低子带信号能量相互混叠的现象也称为（频谱混叠）。18、声音的掩蔽效应，说明一个声音的存在会影响人耳对另一个声音的听觉能力。掩蔽效应与两个声音的（频率和相对音量）有关。利用掩蔽效应可以用有用声音信号去掩蔽无用声音信号，即将不需要的声音在主观感觉上降低或消除。19、语音可以用一个（语音生成）系统的输出来表示，该系统具有随时间（变化）的性质。这把我们引向语音分析的一项基本原理，该原理指出，如果我们研究语音信号的每一短段，则以准周期脉冲串或随机噪声信号激励一个（）系统所产生的输出信号作为每一段的模型是有效的。20、语音分析的问题在于估计语音模型的参数并且测量它们随时间的变化。因为一个线性时不变系统的激励信号及其冲激响应是按（级联）方式结合起来的，语音分析问题可以看作是将（）的问题。这个问题通常称为（）。21、语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。对于非加性噪声，有些可以通过变换而转变为（）。22、语音的发声过程可以模型化为激励源作用于一个线性时变滤波器，激励源可以分（浊音激励）和（清音激励）两类，浊音由气流通过声带产生。时变滤波器则是（）的模型。通常认为声道模型是一个（全极点）滤波器，滤波器参数可以通过线性预测分析得到，但若考虑到鼻腔的共鸣作用，采用（）模型更为合适。23、CELP体制用保存在激励码本中的码矢量或自适应产生的矢量作为激励，以语音（）作为声道模型，产生语音信号。24、将（综合器）引入编码器，和语音分析器结合，在编码端产生与解码端一样的合成语音，与原始语音在感知加权域内相比较，选择适当的语音编码参数值，使得比较的误差最小。25、按发音方式，可分为（单个特定讲话人）、（多讲话人）发音识别系统及（与讲话人无关）三种识别系统。26、按识别对象，可分为（孤立词、连接词、连续语音识别系统）及（语音理解和会话系统）识别系统；27、按词汇表的大小，可分为小词汇表（1~20词）、中等词汇表（20—1000词）、大词汇表（1000词）以上和无限词汇表识别系统，理想的语音识别系统应该是非特定人无限词汇的连续语音识别系统。28、量化可以分为两类：标量量化和矢量量化。29、矢量量化器最佳设计的两个条件是：最佳划分和最佳码书。30、语音信号处理的三个主要分支为语音合成技术、语音编码技术和语音识别技术。31、一个完整的语音信号数字模型可以用激励模型、声道模型和辐射模型的级联来表示。二、问答题（每题5分，共20分）1、语音信号处理主要研究哪几方面的内容？语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科，语音信号处理的理论和研究包括紧密结合的两个方面：一方面，从语言的产生和感知来对其进行研究，这一研究与语言、语言学、认知科学、心理、生理等学科密不可分；另一方面，是将语音作为一种信号来进行处理，包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法和技术。2、语音识别的研究目标和计算机自动语音识别的任务是什么？语音识别技术，也被称为自动语音识别AutomaticSpeechRecognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。3、语音合成模型关键技术有哪些？语音合成是实现人机语音通信，建立一个有听和讲能力的口语系统所需的两项关键技术，该系统主要由三部分组成：文本分析模块、韵律生成模块和声学模块。1.如何取样以精确地抽取人类发信的主要特征，2.寻求什么样的网络特征以综合声道的频率响应，3.输出合成声音的质量如何保证。4、语音压缩技术有哪些国际标准？5、语音信息的交换大致上可以分为几类？书上1页三、列举工农业生产、人民生活中的5种语音信号处理应用技术或产品。简述其工作原理？（共20分）语音压缩,语音合成语音识别语音增强语音理解语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，它更符合人的日常习惯，也更自然、更高效;语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域：智能对话査询系统，根据客户的语音进行操作.为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票査询服务等等。我们把声音心理学也列为语音信号处理的关键技术之一。①声音心理学人的大脑处理听觉信息有一些特性，产生了一些客观存在的效应，如屏蔽效应。声的响度不仅取决于自身的强度和频率,而且也依同时出现的其它声音而定。各种声音可以互相掩蔽,一种声音的出现可能使得另一种声音难于听清。它分为听觉屏蔽、频谱屏蔽和瞬态屏蔽。频谱屏蔽是高电平音调使附近频率的低电平声音不能被人耳听到。声音的屏蔽特性可以用于声音特别是语音信号的压缩。一、填空题（每空2分，共15分）二、名词解释（每题3分，共15分）端点检测：就从包含语音的一段信号中，准确的确定语音的起始点和终止点，区分语音信号和非语音信号。共振峰：当准周期脉冲激励进入声道时会引起共振特性，产生一组共振频率，称为共振峰频率或简称共振峰。语谱图：是一种三维频谱，它是表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间，任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。码本设计：就是从大量信号样本中训练出好的码本，从实际效果出发寻找好的失真测度定义公示，用最少的搜素和计算失真的运算量。语音增强：语音质量的改善和提高，目的去掉语音信号中的噪声和干扰，改善它的质量三、简答题（每题6分，共30分）1、简述如何利用听觉掩蔽效应。一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值，或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明，3kHz—5kHz绝对闻阈值最小，即人耳对它的微弱声音最敏感；而在低频和高频区绝对闻阈值要大得多。在800Hz--1500Hz范围内闻阈随频率变化最不显著，即在这个范围内语言可储度最高。在掩蔽情况下，提高被掩蔽弱音的强度，使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限)，被掩蔽弱音必须提高的分贝值称为掩蔽量(或称阈移)。2、简述时间窗长与频率分辨率的关系。采样周期Ts=1/fs、窗口长度N和频率分辨率△f之间存在下列关系：△f=1/(N*Ts)可见，采样周期一定时，△f随窗口宽度N的增加而减少，即频率分辨率相应得到提高，但同时时间分辨率降低；如果窗口取短，频率分辨率下降，而时间分辨率提高，因而二者是矛盾的。3、简述时域分析的技术（最少三项）及其在基因检测中的应用。P（35-41）时域分析通常用于最基本的参数分析及应用，如语音的分割、预处理、大分类等。这种分析方法的特点是:①表示语音信号比较直观、物理意义明确。②实现起来比较简单、运算量少。③可以得到语音的一些重要的参数。④只使用示波器等通用设备，使用较为简单等。1．短时能量及短时平均幅度分析2短时过零率分析3短时相关分析4、简述语音信号的频谱和功率谱的作用。频谱是对动态信号在频率域内进行分析对动态信号在频率域内进行分析对动态信号在频率域内进行分析对动态信号在频率域内进行分析，分析的结果是以频率为横坐标的各种物理量的谱线和曲线，即各种幅值以频率为变量的频谱函数F(ω)。频谱分析中可求得幅值谱、相位谱、功率谱和各种谱密度等等。频谱分析过程较为复杂，它是以傅里叶级数和傅里叶积分为基础的。功率谱的概念是针对功率有限信号的(能量有限信号可用能量谱分析)，所表现的是单位频带内信号功率随频率的变换情况。保留频谱的幅度信息，但是丢掉了相位信息，所以频谱不同的信号其功率谱是可能相同的。5、简述同态信号处理在共振峰估计中的作用。同态信号处理就是将非线性问题转化为线性问题的处理方法，利用同态信号处理可以使得共振峰在线性工作，使其产生的虚假峰值减少。四、论述题（每题8分，共40分）1、常用的基音周期检测的方法有哪些？它们的基本原理是什么？（P66）自相关函数(ACF)法、峰值提取箅法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT、谱图法、小波法等等。自相关：2、论述线性预测系数如何用于共振峰的估计。基于线性预测系数的共振峰提取方法。一种有效的频谱包络估计方法是从线性预测分析角度推导出声道滤波器,根据这个声道滤波器找出共振峰。虽然线性预测法也有一定的缺点,如其频谱林灵敏度于人耳不想匹配。但对于许多应用来说,它仍然是一种行之有效的方法。线性预测共振峰通常有两种途径可供选择,一种途径是利用一

语音信号处理_考试参考题(修订版)

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

宝田地产业主联谊活爱加丽都摩登音乐夜策划方案

浅谈易燃气体泄漏事故处置中人体静电的防护(doc4)(2)

机械制图看零件图

建筑施工项目安全管理实务

CeF3和YF3对LiBH4储氢性能影响的研究;无机非金属材料工程

水利基本建设财务管理讲义

金融学doc-金华职业技术学院365学习中心

模块四现代汽车自动变速器技术

抽样

创新思维培训

相关文档

相关搜索