您好,欢迎访问三七文档
语音识别设计特定人语音识别设计的研究……………………………………………1摘要………………………………………………………………………2Abstract…………………………………………………………………...3目录……………………………………………………………………...4第一章绪论……………………………………………………………..51.1语音识别技术的历史………………………………………61.2语音识别技术的现状……………………………………...71.3语音识别技术的发展趋向…………………………………8第二章特定语音识别芯片介绍……………………………..92.1凌阳SPCE061A芯片……………………………………102.2RSC系列芯片……………..……………………………..112.3芯片WS—100系列………………………………………12第三章特定人语音识别产品开发……………………………………133.1特定人语音识别技术的开发流程………………………..143.2特定人语音识别技术中的难点…………………………..15第四章结论及展望……………………………………………………16参考文献………………………………………………………………..17致谢…………………………………………………………………….18摘要摘要:回顾语音识别技术的发展历史,调查数家语音识别芯片的产品,了解语音识别的开发流程,并对语音识别技术面临的问题和发展前景进行了讨论。关键词:语音识别;语音芯片;开发流程;技术难点;AbstractAbstract:Reviewthehistoryofvoicerecognitiontechnology,theinvestigationofseveralspeechrecognitionchipproducts,tounderstandthedevelopmentprocessforspeechrecognition,andvoicerecognitiontechnologyproblemsanddevelopmentprospectswerediscussed.Keywords:speechrecognition;voicechip;developmentprocess;technicaldifficulties第一章绪论1.1语音识别技术的历史(1)国内研究历史我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。(1)国外研究历史语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台,Microsoft的Whisper,Sun的VoiceTone等。其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice'98。它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。1.2语音识别技术的现状在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。第二章特定语音识别芯片介绍RSC-4x系列RSC-4x是SensoryINC.第4代的语音识别产品,它具有所有RSC-300/364的所有特性之外,还增加了不少功能。RSC-4x支持SensorySpeech™7技术,改进的算法使识别准确率得到提高。新增的T2SI技术使得制作SI模版节省了时间和资金投入。在语音合成算法上也作了改进,“SX™”压缩技术使得语音的压缩率可以达到3K-8Kbps(bits-per-second),是原来的1/10-1/4,大大减少了存储空间,节约了成本。RSC-4x有三种型号,RSC-4000不含程序存储空间,RSC-4128内部含128K程序存储空间,RSC-4256内部含256K程序存储空间,供用户灵活选用。SC-4X系列是新一代嵌入式语音识别处理器集成电路,它具有集成度高、外围电路简单、功耗低、不怕掉电、使用方便等特点。一个完整的语音识别系统仅由RSC-4X系列芯片及少量外部元器件(扬声器、麦克风、音频输入/输出电路、存储器和电池或整流稳压电源)等组成。RSC-4X系列芯片适用美国SENSORY公司的7.0语音识别技术。SENSORY7.0语音识别技术充分利用RSC-4X系列芯片新增的硬件电路,它包括一个带有双向直接存储器的向量处理器、16位A/D转换器、10位D/A转换器、主晶振锁相环、带自动增益控制的麦克风前置放大器、低电池干扰的PWM扬声器驱动电路、两个独立的计时器加单独的看门狗电路、4个比较器输入及24个I/O口。RSC-4X系列芯片语音识别微处理器内嵌入一套先进精确的识别算术运算法,支持第七语音,能运用在复杂的神经网络技术中,增强了识别率的正确度,对于单独语音识别的SI识别率超过97%以上,对于多路语音识别的SD识别率也超过99%以上。RSC-4X系列芯片可允许同时连续接收5个SI或者10个SD命令。RSC-4X系列芯片具有精确和高质量的语音识别能力,外部存储器总线为20位地址和8位数据线,无须通过ROM存放功能实现代码安全,语音识别速度加快,高抗噪性能及低电磁干扰设计,低数据率语音合成以及更多智能化控制特征。RSC系列:Sensory的RSC-4X和RSC-3X系列是一高度集成语音识别及语音合成处理器,针对的是消费类、手持类及车载类产品。该芯片拥有多种功能,包括非特定人(SI)/特定人(SD)的语音识别、语音确认、语音和音乐的合成、录音和回放。我们可以提供演示板、编译器和开发工具,同时提供给您全方位的技术支持。SC系列:SC-6XX系列是SENSORY公司推出的语音合成芯片。该系列IC内含一片16bit的处理器,可以进行高质量低数据率的语音压缩和MIDI音乐合
本文标题:语音识别设计
链接地址:https://www.777doc.com/doc-4257192 .html