您好,欢迎访问三七文档
语音识别◆语音识别技术简介◆特征提取算法◆RBF识别网络◆语音识别系统语音识别最基本的定义是“电脑能听懂人类说话的语句或命令,而做出相应的工作”。也就是说,如果电脑配置有“语音识别”的程序组,那么当你的声音通过一个转换装置输入电脑内部、并以数位方式存储后,语音识别程序便开始以你的声音样本与事先存储好的声音样本进行对比工作.声音对比工作完成后,电脑就会输出一个它认为最“象”的声音样本序号,由此可以知道你刚才念的声音是什么意义,进而执行命令。计算机自动语音识别的任务就是研究如何利用计算机从人的声学语音信号中提取有用信息,并从中确定语音信号的语言含义。其应用背景及学科基础如图所示。其最终目标是实现人与机器进行自然语言通信。电话拨号听写机查询系统特殊人群用品家电遥控语音识别信号处理语音、语言学人工智能信息论模式识别语音识别具有广阔的应用前景,随着信息产业和互联网的快速发展,对语音识别的需求也更加迫切。比如在声讯服务中,要实时查询股票交易、航班动态、车站票务动态等,用传统的声讯技术已难以胜任,而用语音技术则能解决这些海量信息的动态查询。还有,人们希望在嵌入式系统中做成无处不在的信息家电,希望把因特网上的信息用电话送到千家万户,还有一个更美好的愿望,就是在不久的将来,能够把语音、图像、动画与互联网技术相结合,造就虚拟现实的新一代多妈体,语音技术大大降低了人们迈进信息时代的门槛,并开辟了许多新的信息服务及应月领域,它现在形成一个新兴的产业。正因为如此,世界各国不仅把语音技术列入了高技术研究计划,而且作为21世纪信息产业的重要竞争市场。•国内外发展动态语音识别的研究工作大约开始于五十年代,当时AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统—Audry系统。六十一年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),而后者较好地解决了语音信号模型的问题,对语音识别的发展产生了深远影响。七十年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间规整技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统.进入九十年代,随着多媒体时代的来临迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM,Apple,AT&T,NTT等著名公司都为语音识别系统的实用化开发投以巨资.我国语音识别研究工作起步于五十年代,但近年来发展很快,研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其中,具有代表性的研究单位是清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。语音识别技术两个发展方向•大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的;•小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门的硬件系统实现。现在的语音识别系统•1.多为中、小词汇量的语音识别系统,即只能够识别10~100词条。2.一般仅限于特定人语音识别的实现,即需要让使用者对所识别的词条先进行学习或训练,这一类识别功能对语种、方言和词条没有限制。3.由此芯片组成一个完整的语音识别系统。因此,除了语音识别功能以外,为了有一个好的人机界面和识别正确与否的验证,该系统还必须具备语音提示(语音合成)及语音回放(语音编解码记录)功能。4.多为实时系统,即当用户说完待识别的词条后,系统立即完成识别功能并有所回应,这就对电路的运算速度有较高的要求。5.除了要求有尽可能好的识别性能外,还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。语音识别在3G中的应用•使3G手机上植入更精确更复杂的自动语音识别(ASR)功能成为可能。目前,基本ASR应用可以分成三大类:1.语音-文本转换(语音输入);2.讲者识别;3.语音命令控制(语音控制)。•这三类功能包含了3G所需的众多ASR性能。语音-文本转换的典型实例是语音拨号和电子邮件听写。讲者识别功能可以通过语音识别安全地读出存储器中的个人数据,从而满足信用卡定购和银行服务等保密性高的应用需要。语音命令控制功能包括连接语音扩展标记语言(VXML)网站内容的语音接口,它支持财经服务与目录助理等业务。目前VXML被用于规范网站内容的语音标签。TI的OMAP平台OMAP(OpenMultimediaApplicationsPlatform开放式多媒体应用平台)是TI公司针对移动通讯以及多媒体嵌入应用系统开发的一套应用处理器架构体系。内核软件技术1.为加速信号处理的速度,OMAP平台的内核软件组件允许应用程序利用数字信号处理器(DSP),从而提高终端应用性能。2.OMAP平台可使应用程序开发人员无须深入了解DSP基础硬件架构或算法即可利用这些高级功能。高级应用程序接口(API)方便地获得DSP加速算法,兼容主流的几乎所有的操作系统,Linux、PalmOS、SymbianOS、WindowsMobile。OMAP优点•解决了实时信号处理任务与高中断数据处理任务之间的内在冲突。•解决了向基本的RISC添加DSP难以为循环缓冲、位反转、并行移动以及硬件回路等提供面向DSP寻址等缺陷•DSP桥接器提供了ARM与DSP之间的链接,而无需涉及太多的细节,DSP桥接器基本上能够导出一系列API到运行于ARM上的多媒体引擎,以便访问DSP资源。•低功耗•小体积OMAP5910内部框图基于OMAP的抗噪语音识别系统•低硬件要求:程序加模型所需存储空间100kB~300kB,在手机、PDA上能够实时识别;•能够识别国标二级6763汉语单字、几百条常用词汇、短信用语;(可以更换字符集和字库),保证任何汉字的输入;•高精度汉语语音识别技术,十选覆盖率98%(其它两个参考指标:首选识别率为75%,三选覆盖率为92%);•高准确度音调识别技术,准确率高于95%;•采用国际领先的基于统计模型HMM的非特定人语音识别技术,无需学习,适用于各个年龄使用者,对方言也有一定的适应能力;•在线累计式说话人自适应技术,使设备在使用中不知不觉的被喂熟,自学习功能使输入的准确率随着使用时间直线上升;•词汇随时自定义,每增加100条词汇仅占用1至2K存储空间;基于OMAP的抗噪语音识别系统•自动调整功能包含词频动态调整和低频自动屏蔽,在使用中可以动态调整侯选词词序而提高输入速度;•采用单字和词组混合模式的输入速度为每分钟20到50个汉字,已接近或超过用户在PC机上的汉字输入速度;•大大降低了手指的疲劳程度,在多数情况下,首选识别结果准确时,用户无需手动干预;•对于词组的动态学习功能,解决了用户精神疲劳程度高的问题;•组词功能自然衍生高精度语音人名拨号(Name_dialing)功能,而且容量比现有手机中的人名识别技术高一个数量级(从10-20到100-200),成十倍地提高用户查找电话本的时间;•便捷友好的交互界面,与现有系统兼容,充分考虑用户习惯;•采用人耳仿生学原理设计的语音识别特征提取算法,大大提高了系统的抗噪声能力;◆语音识别系统的分类方式及依据•根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。•根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。•根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。◆不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如图1所示。图1语音识别的实现预处理特征提取参考模式模式匹配判决规则语音信号识别结果训练识别待识别的语音经过话筒变换成电信号后加在识别系统的输入端,首先要经过预处理,预处理预处理包括反混叠失真滤波、预加重和端点检测。等。经过预处理后,按照一定的特征提取方法产生语音特征参数,这些特征参数的时间序列便构成了待识别语音的模式,将其与已经存储在计算机内的参考模式逐一进行比较(模式匹配),最佳匹配(由判决规则确定)的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的,为此,要输入一系列已知语音信号,提取它们的特征作为参考模式,这一过程称为训练过程。语音识别所遇到的难题是搜索最佳识别结果和参数训练。目前,语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。由于人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力等都使它极适宜于解决类似于语音识别这一类课题,它既适用于底层又适用于顶层。人工神经网络是在模拟人脑神经组织的基础上发展起来的全新的计算系统,它是由大量计算单元通过丰富联结构成的复杂的网络。在一定程度上反映了人脑功能的若干基本特性,是一种更接近于人的认知过程的计算模型。贯穿于语音分析全过程的是“短时分析技术”。因为语音信号从整体来看,其特性及表征其本质特性的参数均是随时间而变化的,所以它时一个非平稳态过程。不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是从另一方面看,在一个短时间范围内(一般认为在10-30ms的短时间内)。其特性基本保持不变,即相对稳定,因而可以将其看作是一个准稳态过程。即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”,将语音信号分为一段一段来分析其特征参数,其中每一段称为“一帧”,帧长一般取为10-30ms。这样,对整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。特征提取一般要解决两个问题,一个是从语音信号中提取(或测量)有代表性的合适的特征参数(即选取有用的信号表示)另一个是进行适当的数据压缩。目前。语音识别技术中应用最流行的特征参数是基于人的声道模型和听觉机理的LPCC,LPCMCC,MFCC和ZCPA(语音的上升过零率和非线性幅度)方法提取语音的特征参数。语音特征参数是分帧提取的,每帧特征参数一般构成一个矢量,因此语音特征量是一个矢量序列。语音信号中提取出来的矢量序列经过数据压缩后便成为语音的模板。显然,特征的选取对识别效果至关重要,选择的标准应尽量满足以下两个要求:(1)能有效的代表语音特征,包括声道特征和听觉特征,具有很好的区分性。(2)特征参数要计算方便,在保持高识别率的情况下,最好有高效的计算方法,以减小存储要求并保证语音识别的实时实现。特征提取方法(1)线性预测系数(LPC)(2)LPC倒谱系数(LPCC)(3)Mel频率倒谱系数(MFCC)(4)LPC美尔倒谱系数(LPCMCC)(4)zcpa特征(过零率与峰值幅度特征:Zero-crossingswithPeak-amplitudes)线性预测的基本原理和语音信号数字模型密切相关。线性预测分析的基本思想在于:语音信号相邻的采样点之间有很强的相关性,因此,每语音信号的采样值,可以用它前面的若千个采样值的加权和(线性组合)来近似表示;预测一误差定义为真实采样值与预测值之差,根据预测误差均方值最小准则,可以唯一确定一组预测系数(预测系数即为线性组合的加权值)。LPCMCC(LPC美尔倒谱系数)图LPCMCC算法流程预处理LPCLPCCLPCMCC语音信号参数输出下面结合流程图,将LPCMCC具体求解的具体实现介绍一下。◆信号的预处理这个环节主要是对一段语音信号进行预加重、分帧加窗的处理。预加重的
本文标题:语音识别方法简介
链接地址:https://www.777doc.com/doc-3297219 .html