您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 畜牧/养殖 > 语音信号处理 第一章绪论
语音信号处理郑能恒人-人、人-机通讯中的语音信息流程语音信号处理的目标就是实现人-人以及人-机间的无障碍信息流通Youcandoit!(人)意图语音形成发音收听认识、理解传输系统(编码、译码)空间传输文本解析声音合成声音、话音识别声音、话音理解计算机处理(机器)文本输入行动合成音自然语音控制信息控制信息(说话方)(收听方)语言形成(计算机说)(计算机听)课程目标了解语音信号产生的基本机理,掌握语音信号分析的基本原理、语音编码、语音识别、说话人识别、语音合成的原理及其实现过程。能够利用所学知识进行简单的信号分析与处理,能够根据提供的开发工具开发一个简单的语音识别系统。课程内容语音信号的产生模型与基本特点、语音信号的分析与处理方法、实际的语音信号处理系统三个部分。介绍几种实际的语音信号处理系统(语音编码,语音识别,语音增强)的原理结构与算法。课程内容:1、绪论:语音信号处理的基本概念、内容、与历史发展2、语音发声与感知,语音信号的产生模型3、语音信号的特征分析(1)语音信号的短时分析的概念(2)语音信号的时域特征(3)语音信号的频域特征(4)同态解卷处理与倒谱分析4、线性预测分析(1)线性预测原理(2)线性预测模型与算法(3)线性预测分析的应用与局限性课程内容:5、语音编码(1)语音信号的波形编码(2)语音信号的参数编码与混合编码(3)语音评价的标准与常用方法(4)语音编码的历史与国际标准6、语音合成(1)语音合成基本原理(2)参数合成(3)波形拼接技术7、语音识别(1)语音识别原理与应用(2)语音识别基本算法(3)语音识别的发展现状、面临的技术困难与解决办法(4)语音识别相关技术的应用:说话人识别、语种识别、情感识别考核方式:学期总成绩包括平时成绩和期末作业成绩两部分组成。平时成绩(包括平时记录的出勤情况、2-3次项目作业)占40%,期末作业成绩占60%。辅助分析软件工具:MATLABWaveSurfer://语音识别系统开发工具绪论:语音信号处理的一些基本概念什么是语音信号处理?语音信号处理简称语音处理,是以语音学和数字信号处理为基础而形成的一门综合性学科,处理的目的是要得到一些语音参数以便高效的传输或存储,或者通过处理的某种运算以达到某种用途的要求,例如人工合成出语音,辨识出说话者,识别讲话的内容等。语音的定义语音是人类发音器官发出的、具有一定意义的、能起社会交际作用的声音。能够代表一定的意义,这是语言的声音(语音)同自然界其他一切声音的本质区别。语言的声音同它所代表的意义是相互依存的统一体,一方面,发音器官发出的声音必须同意义紧密结合、成为一定意义的代表,才能成为语音;另一方面,意义必须借助声音才能成为可被人感知、被人接受的东西,没有声音,意义便无法表达出来。语音是一种具有多重属性的声音。首先,它同自然界其他声音一样,是由物体振动产生声波而形成的一种自然现象,所以它具有物理的属性方面的自然属性。语言又是人类的生理现象,发音是人体器官的动作。因此,它同时具有生理属性。作为语言这一特殊社会现象的物质基础,语音又具有社会属性,这是语音的本质属性。我们在分析语音现象的时候,这三种属性都会涉及到。语音学语音学是研究语音过程的科学,包括发音语音学、声学语音学和听觉语音学三大分支。发音语音学研究发音器官在发音过程中的运动和语音的音位特征;声学语音学研究语音的物理属性,如语音声波的频率、振幅以及频谱特性等;听觉语音学研究听觉和语音感知。语音的属性—物理(声学)属性物体由于某种外力的作用发生振动,并引起周围空气或其他媒介物质的振动,产生了振动波─声波,声波作用于耳鼓膜,使之产生同样的振动,刺激听觉神经,人就感觉到了声音。语音也是这样产生、传递与接收的。物理声学认为声波具有音高、音强、音长、音色四种要素,语音同样是这四种要素的统一体。例:音高、音强、音长声波频率声压变化可以是周期性的和非周期性频率概念循环(cycle)-压缩/稀薄过程频率(frequency):每秒cycle数,单位hertz(Hz)周期–cycle的持续时间(1/frequency)声音信号一般由许多频率不同的信号组成,称为复合信号;而单一频率的信号称为纯音信号频率范围频率小于20Hz一般称为次声波(subsonic)人的听觉器官能感知的声音频率范围约为20Hz~20kHz的信号称为音频(Audio)信号一般认为,语音信号中对于听音辨义最有用的频率成分在60-4000Hz之间,一般电话语音的频带在300-3400Hz之间。高于20kHz的信号称为超声波(ultrasonic)超声波及次声波一般不能引起人听觉器官的感觉,但可借助一些仪器设备进行观察和测量语音的物理属性—音高音高指声音的高低,它取决于发音体振动的快慢。发音体振动越快,发出的声音越高,反之声音则低。物体每秒钟振动的次数叫频率,声学把频率作为测定物体振动快慢与声音高低的标准。说声音的频率高就是说发音体在单位时间里振动次数多,它振动得快,发出的声音高,而频率低也就表示声音低。频率的高低是由物体自身的质量、松紧度、长短等项因素决定的,大而沉、粗而厚、长而松的物体振动慢,音低;小而轻、细而薄、短而紧的物体振动快,音高。语音的高低则与声带的长短、厚薄、松紧有关。通常,儿童和一般妇女的声带比成年男子的声带短而薄,所以声音高;而声音低的人声带相对说长而厚,如成年男子,女中、低音声乐演员,老人等。同一个人发出的声音有高低变化,则是靠控制声带的松紧来调节的。跟音高对应的物理量是频率(基频)语音的物理属性—音强音强是指声音的强弱,它取决于发音体振动幅度的大小。物体振动的幅度叫振幅,振幅大,发出的声音强度就大,振幅小,声音就弱。振幅的大小是由引起物体振动的外力的大小决定的。语音的强弱同发音时呼出气流量的大小和说话人用力的大小有关。发音时用力大,冲击声带或其他发音部位的气流强,语音就强。跟音强对应的物理量是能量语音的物理属性—音长音长指声音的长短,也就是声波延续的时间长度,它取决于发音体振动持续的时间。在语音中,再长的音实际上也很短,音长一般决定于发音动作持续的时间。在四要素中,音高、音强、音色总是随着声波在时间上的延续表现出来的,音长的变化往往会影响到音质音高和音强,语音中就常会出现这种情况,如普通话的轻声。读轻声的字,声韵母的音质、声调的音高、音节的强度都可能与读它的本调时不同,但造成轻声的决定性因素是音长缩短,轻声字音节的长度只有重读音节长度的一半左右,这使得声韵调原有的音高音强音质来不及完全表现,因而出现变化。语音的物理属性—音质(音色)音质又叫音色,是一个声音能区别于其他声音的本质特点。声波的振动方式与共鸣器的共振作用,都决定着音质的差别。世界上的声音很少是只有一种单纯频率的纯音,绝大多数声音都是由许多个频率和振幅不同的声波组成的复合音。复合音的各成分声波之间频率和振幅相互影响,形成了特定的波形,产生出特定的音质。从波形上看,音质可分为两类──噪音与乐音。噪音是由许多无规则的音波合成的,它们的音高和强度随时在变化,相互之间没有一定的关系,合成的波形杂乱而无规律。这种声音听起来刺耳、嘈杂,如刹车声,电锯锯木声,马路上车驰笛鸣的喧闹声等等。语音中也有不少噪音成分,如辅声中的塞音、擦音、塞擦音等等。乐音则由若干规则的纯音组成,形成的复合音波有周期性,很有规律,这样的声音听起来和谐、悦耳,歌声、乐声和语音中的元音,都是这样的声音。语音的物理属性—音质从语音的产生上看,造成不同音质的发音条件有三种:发音体不一样,口琴和笛子的音质不同,因为口琴的发音体是金属簧片,笛子的发音体是竹膜。发音方法不一样,拍手掌发出的是“啪啪”声,两手掌来回搓发出的是“擦擦”声。在语音中,用阻碍气流的方法发出的是辅音,用不阻碍气流的方法发出是就是元音。共鸣器形状不同。共鸣器有自己的振动频率,它会同跟自己频率相同或相近的音波产生共振,把它加强,其它频率的音波就会被抑制或消耗。不同形状的共鸣器频率不一样,产生的共振结果也不一样。对于语音来说,口鼻腔就是共鸣器,一个人不断改变口形就会发出不同的音。共鸣器形状对语音音质的区分还有另一方面的意义。倘若男女老少四人来发一个a音,他们的声带长短厚薄及韧性等各有差异,产生的音波肯定是不同形式的,但我们除了听出是四个人的声音外,总还是听到了同一个韵母的音质。语音信号处理的基本内容语音信号的传输、编码、降噪语音识别语音合成说话人识别(声纹识别)语种识别语音的发音器官
本文标题:语音信号处理 第一章绪论
链接地址:https://www.777doc.com/doc-4536484 .html