您好,欢迎访问三七文档
•语音文档检索是针对以声音形式存在的文档的信息检索。其基本定义为:是给定一个检索以及一定数量的语音文档,返回与检索需求关系最为接近的文档集合。从狭义上说,检索需求指的是一些检索词或短语,而相关性指的是语音内容与检索需求的关系。从广义上说,检索需求还包括说话人,说话风格等高层次的信息。•自然语言处理(NaturalLanguageProcessing简称NLP)是人工智能和语言学领域的分支学科。在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。•自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。•语音合成是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上,则称为语音合成器,而语音合成器可以用软/硬件所实现。文字转语音(text-to-speech,TTS)系统则是将一般语言的文字转换为语音,其他的系统可以描绘语言符号的表示方式,就像音标转换至语音一样。语音识别技术梁玉营提出及发展•语音识别最早是在1952年由贝尔研究所工作人员提出,他们研究了世界上第一个能够识别10个英文数字发音的试验系统,正式大规模的研究语音识别是在进入70年代后,在一些词汇上取得了实质性的进展,到了九十年代以后,语音识别技术在应用及产品化方面有的很大的进展。我国语音识别的研究较晚,起步于20世纪50年代,但是由于科技的不断创新以及国家对科学技术的重视,近些年来我国语音识别技术发展的相对较快,研究水平也从实验走向人们的生活。我国在1973年开始进行计算机语音识别,但由于环境所限制,当时的发展仍然很缓慢,进入80年代后,随着计算机等技术的普及,我国一些单位具备了研究语音技术的基本条件,恰好此时国际上对语音识别技术的研究重视并迅速发展,使得我国很多企业纷纷投入到语音识别的这项工作中去。1987年我国启动863计划,即高科技发展计划,语音识别也因此作为智能计算机研究的重要组成部分。随着863计划的进行,我国开始有规划的对语音识别技术进行研究,并每两年召开一次语音识别的专题会议,从此我国语音识别技术进入一个新的发展阶段。中科院、清华大学、北京大学、上海交通大学等都对语音识别进行研究,其中最具代表性的为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。一、概述•语音识别(VoiceRecognition简称“VR”)也称说话人识别,就是根据人的声音特征,识别出某段语音是谁说的。其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。•严格地讲,声纹识别有两方面,说话人辨认和说话人确认。前者要判断出某段语音是若干人中的哪一个所说的;后者则确认某段语音是否是指定的某个人所说的。二、系统原理语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。语音识别优势•与其他生物识别技术,诸如指纹识别、掌形识别、虹膜识别等相比较,声纹识别除具有不会遗失和忘记、不需记忆、使用方便等优点外,还具有哪些特性呢?总结如下:1.用户接受程度高,由于不涉及隐私问题,用户无任何心理障碍;2.语音识别与说话语言无关,与方言腔调无关,适应人群范围很广;3.语音采集装置造价低廉,只需电话/手机或麦克风即可,无需特殊额外的设备;4.可广泛应用于安全验证、控制等各方面,特别是基于电信网络的身份识别。海景语音识别系统性能指标一个完整的语音识别系统可大致分为三部分:1.语音特征提取2.声学模型与模式匹配(识别算法)3.语义理解:计算机对识别结果进行语法、语义分析。语音识别应用的特点1.语音识别系统必须覆盖的功能包括:语音识别系统要对用户有益(希望它是能检测到的)。例如提高生产率,容易使用,更好的人机界面,或更自然的信息交流模式。语音识别系统要对用户“友好”。这种“友好”的含义是:用户在和系统进行语音对话时感到舒适;系统的语音提示既有帮助,又很亲近。语音识别系统必须有足够的精度语音识别系统要有实时处理能力;例如系统对用户询问的响应时间要很短。语音识别应用的特点2.语音识别错误的处理方法一:错误弱化法方法二:错误自检纠正法方法三:拒绝/转向人工座席语音识别技术在邮件分拣中的应用•现代化分拣设备在邮政上的应用大大提高了邮件处理的效率。但是,并不是所有的邮件都能上分拣机处理,那些需要人工处理的邮件成了邮政企业实现自动化的瓶颈。邮政使用人工标码技术以及先进的计算机软件系统来处理不能上机的邮件,仍需要大量的劳动力。由MailCode公司开发并准备申请专利的Spell-ItTM软件技术通过提高系统数据库能力的方式对语音识别自动化设备进行了革命性的变革。这种技术提供了无限的数据库能力,并且保证分拣速度不会因数据库的增大而减小。由各大语音引擎公司开发的系统还支持世界上的各种主要语言,这样,语音技术就成为世界性的产品。以英语语音识别系统为例,系统建立了36个可识别字符26个字母加上0~9的10个数字,同时还建立了一套关键词。Spell-It软件使用这些字符来识别成千上万的口语词汇和无数的词语组合。对于大公司的邮件收发中心来说,使用MailCode公司的Spell-It软件技术,分拣员实际上只需发出几个字符的音来找到和数据库中相对应的词。例如:碰到了寄给JosephSchneider的邮件,操作员只需发出“J”、“S”、“C”和“H”几个音就可以得到准确的分拣信息。姓名JenniferSchroederJosephSchneiderJoshSchriver部门软件工程部技术部技术部邮局要把邮件按投递路线分发,分拣员必须熟悉长长的投递段列表以及各种各样的国际邮件投递信息。Spell-It技术把地址、投递路线等信息都存入了系统,这样就大大方便了分拣工作。例如,有一件寄往Stonehollow路2036号的邮件。使用语音识别技术,分拣员仅仅需要发出“2”、“0”、“S”、“T”和“O”几个音,数据库就会给出所有可能和这几个音相对应的地址及相应的投递路线的。在这个例子中,有三个投递地址符合这一语音标准,分拣员知道哪一个是正确的地址,于是就可以把邮件分给相应投递段的投递员了。Spell-It技术可以识别字母、数字、关键词以及无数的组合,对大公司的邮件收发中心和邮局的手工邮件分拣来说都是一次彻底的变革。这种进步使得邮件中心可以使用快捷、精密、配套的邮件自动化处理设备来提高邮件处理全过程的工作效率。Spell-It技术还可以适用于世界上的多种语言。语音识别技术的发展趋势•语音识别技术经过全球半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。在这样的水平基础上,语音识别技术开始尝试从实验室演示系统走向实用化商品。但是语音识别技术要进入成熟的商业运用还有一段艰难的路程,还必须在很多方面取得突破性进展。突破性进展表现为:1.提高可靠性2.增加词汇量3.应用拓展4.降低成本减小体积目前,全球语音技术市场规模超过30亿美元,近年来年增长率保持在25%以上,未来语音识别市场被看好,其中电信行业(VoIP等),移动应用领域(手机、学习机、平板电脑、车载系统等移动设备),都会呈现出爆发式增长。下面列举几个电信及移动应用领域成功的语音产品/软件。1、电信行业:电话银行系统2、移动应用领域:Siri3、生活领域:手机“导游”21世纪是信息和网络的时代,Internet、宽带IP网、公用电话网、移动电话网把全球各地连接起来,巨大的信息资源能够通过网络在短暂时间内迅速扩散到全球范围,几乎所有人与机器进行信息交互相关的需求和服务,例如自然口语对话、信息索取、电子商务、数字图书馆、远程教育、语音翻译等,都可能会在网络上实现。语音识别技术研究和应用的重要发展趋势是,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,更加方便地享受到更多的社会信息资源和现代化服务。人类将越来越多地体验到语音识别技术可能的便捷优点。
本文标题:语音识别技术
链接地址:https://www.777doc.com/doc-3328804 .html