您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 基于神经网络的数字语音信号识别
11绪论1.1研究本课题的意义神经网络是一门新兴交叉学科,始于20世纪40年代,是人类智能研究的重要组成部分,已成为脑科学、神经科学、认知科学、心理学、计算机科学、数学和物理学等共同关注的焦点[1]。神经网络就是指模仿人脑神经网络的结构和某些工作机制建立一种计算模型的处理方法。神经网络作为一种新技术之所以引起人们巨大的兴趣,并越来越多地用于控制领域,是因为与传统的控制技术相比,它具有以下重要的特征和性质:①非线性。神经网络在解决非线性控制问题方面很有希望。这来源于神经网络在理论上可以趋近任何非线性映射,人工神经网络比其他方法建模更经济。②平行分布处理。神经网络具有高度平行的结构,这使它本身可平行实现。由于分布和平行实现,因而比常规方法有更大程度的容错能力。神经网络的基本单元结构简单并行连结会有很快的处理速度。③硬件实现。这与分布平行处理的特征密切机关,也就是说它不仅可以平行实现,而且许多制造厂家已经用专用VLSI硬件来制作神经网络。这样,速度进一步提高,而且网络能实现的规模也明显增大。④学习和自适应性。利用系统过去的数据记录,可对神经网络进行训练。受适当训练的网络有能力泛化,也即当输入出现训练中未提供的数据时,网络也有能力进行辨识。神经网络也可以在线训练。⑤数据融合。神经网络可以同时对定性和定量数据进行操作在这方面,神经网络正好是传统工程系统(定量数据)和人工智能领域(符号数据)信息处理技术之间的桥梁[2]。随着计算机技术的飞速发展,人们已不再满足于让计算机做一些简单的科学计算,而是向它提出了更高的要求,即要求计算机向智能化方向发展,于是人们开始了第五代计算机(即智能计算机)的研究。计算机人工智能(AI)的研究内容有很多方面,诸如计算机视觉、计算机语音、知识处理、专家系统等。其中人机自然语言的接口是一个非常重要的部分。它要求计算机能说会听,应此要求出现了语音合成和语音识别两门学科。所谓语音识别(SpeechRecognition),就是利用计算机,对人们的语音信号进行时域或频域处理,识别出所说的是什么,通俗地讲,就是让计算机能够模拟人类的听觉功能。国际上,对计算机语音识别的研究也有近四十年的历史,经过数辈科学家和科学工作者的艰辛努力,语音识别的研究方面取得了很大的成果。尤其是近一、二十年,提出了许多2有效的语音处理和识别的方法和策略,使得语音识别这门学科的研究日趋兴旺,许多的语音识别系统也正逐步实用化。人们所期望赋予计算机能说会听的梦想正步步走向现实。预计在未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域(如门禁系统,手机语音自动拨号系统)[3]。语音识别系统依照语音识别的单元、语音识别系统是否依赖人可以分成:特定人、孤立词语音识别系统;非特定人、孤立词语音识别系统;特定人、连续语音识别系统和非特定人、连续语音识别系统四类。在这四类中,按语音识别系统的词汇量大小又分成大字表,中字表和小字表语音识别系统[4]。一般地讲,几十个的词汇称为小字表,几百个的词汇称为中字表,而几千、几万个词汇的语音识别系统称为大字表语音识别系统。本课题要求是实现第二类系统。语音识别是一门综合性科学,其发展与声学、脑科学、生理学、人工智能、模式识别、数字信号处理、计算机科学等学科的发展有着密切的关系。一般常用的语音识别方法有模板匹配法,随机模型法和概率语法分析法三种识别方法[5]。目前的主流方法是随机模型法,而基于神经网络的识别方法也在被积极地研究和探讨中。1.2课题国内外研究情况和发展趋势神经网络早期的研究工作应追溯至本世纪40年代。1943年,心理学家W.Mcculloch和数理逻辑学家W.Pitts在分析、总结神经元基本特性的基础上首先提出神经元的数学模型。此模型沿用至今,并且直接影响着这一领域研究的进展。因而,他们两人可称为人工神经网络研究的先驱。1945年冯·诺依曼领导的设计小组试制成功存储程序式电子计算机,标志着电子计算机时代的开始。1948年,他在研究工作中比较了人脑结构与存储程序式计算机的根本区别,提出了以简单神经元构成的再生自动机网络结构。但是,由于指令存储式计算机技术的发展非常迅速,迫使他放弃了神经网络研究的新途径,继续投身于指令存储式计算机技术的研究,并在此领域作出了巨大贡献。虽然,冯·诺依曼的名字是与普通计算机联系在一起的,但他也是人工神经网络研究的先驱之一[6]。上世纪50年代末,F·Rosenblatt设计制作了“感知机”,它是一种多层的神经网络。这项工作首次把人工神经网络的研究从理论探讨付诸工程实践。当时,世界上许多实验室仿效制作感知机,分别应用于文字识别、声音识别、声纳信号识别以及学习记忆问题的研究。然而,这次人工神经网络的研究高潮未能持续很久,许多人陆续放弃了这方面的3研究工作,这是因为当时数字计算机的发展处于全盛时期,许多人误以为数字计算机可以解决人工智能、模式识别、专家系统等方面的一切问题,使感知机的工作得不到重视;其次,当时的电子技术工艺水平比较落后,主要的元件是电子管或晶体管,利用它们制作的神经网络体积庞大,价格昂贵,要制作在规模上与真实的神经网络相似是完全不可能的;另外,在1968年一本名为《感知机》的著作中指出线性感知机功能是有限的,它不能解决如异感这样的基本问题,而且多层网络还不能找到有效的计算方法,这些论点促使大批研究人员对于人工神经网络的前景失去信心,人工神经网络的研究进入了低潮。上世纪60年代初期,Widrow提出了自适应线性元件网络,这是一种连续取值的线性加权求和阈值网络。后来,在此基础上发展了非线性多层自适应网络。当时,这些工作虽未标出神经网络的名称,而实际上就是一种人工神经网络模型[7]。随着人们对感知机兴趣的衰退,神经网络的研究沉寂了相当长的时间[4]。上世纪80年代初期,模拟与数字混合的超大规模集成电路制作技术提高到新的水平,完全付诸实用化,此外,数字计算机的发展在若干应用领域遇到困难。这一背景预示,向人工神经网络寻求出路的时机已经成熟。美国的物理学家Hopfield于1982年和1984年在美国科学院院刊上发表了两篇关于人工神经网络研究的论文,引起了巨大的反响。人们重新认识到神经网络的威力以及付诸应用的现实性。随即,一大批学者和研究人员围绕着Hopfield提出的方法展开了进一步的工作,形成了自上世界80年代中期以来人工神经网络的研究热潮[8]。我国语音识别研究工作起步于上世纪50年代,但近年来发展很快,研究水平也从实验室逐步走向实用。国家863[11]智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平己经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其中,具有代表性的研究单位是清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品—PattekASR,彻底结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。语音识别中的汉语数字语音识别,具有更为重要的意义,在众多场合的实用化都会给人们带来极大的便利。数字语音识别的任务是识别“0”到“9”等十个非特定人汉语4数字语音。信用卡号码、电话语音拨号、个人身份证号码、电子密码等都具有数字化特征,因此,数字语音识别成为语音识别中极其重要的一项任务。与英语数字相比,汉语数字音节偏少,语音之间相似程度比较大,从而造成汉语数字语音的混淆度比较高,特别当一些元音成为连续语音时这个问题更加突出。而语音混淆程度能在很大程度上决定语音识别的困难程度,并且直接影响识别的结果[12]。由于不同的汉语数字孤立词[13],或不同人说相同的汉语数字时,发音长短、清浊音比例等都是变化的(即输入汉语数字信号的帧数不同),而大多数神经网络分类器的输入结构是固定的,利用神经网络进行汉语数字语音识别时,存在着时间规整这一难题,这就意味着必须设法从可变长度的输入语音信号中提取相同帧数的特征矢量序列[14],才能满足分类器的使用要求。52语音识别的介绍及原理2.1语音识别的简介近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等[16]。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面[17]。图2.1语音识别的实现2.2语音识别的发展历史1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研究成功了第一个计算机语音识别系统。大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路。进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,识别结果特征提取模式匹配模型库语音输入6在语音识别技术的应用及产品化方面出现了很大的进展。DARPA(DefenseAdvancedResearchProjectsAgency)是在70年代由美国国防部远景研究计划局资助的一项10年计划,其旨在支持语言理解系统的研究开发工作。到了80年代,美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划,其中包括噪声下的语音识别和会话(口语)识别系统,识别任务设定为“(1000单词)连续语音数据库管理”。到了90年代,这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标,虽然没能实现预期目标,但是有关语音识别技术的研究有了大幅度的加强和进展。1987年起,日本又拟出新的国家项目---高级人机口语接口和自动电话翻译系统[18]。我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制,我国的语音识别研究工作一直处于缓慢发展的阶段。进入80年代以后,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点,发展迅速。就在这种形式下,国内许多单位纷纷投入到这项研究工作中去。1986年3月我国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下,我国开始了有组织的语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。从此我国的语音识别技术进入了一个前所未有的发展阶段[19]。2.3语音识别的任务分类2.3.1根据识别的对象不同语音识别任务大体可分为4类,即孤立字(词)识别、连续语音识别、会话语音识别和连接词识别。其中,孤立词识别的任务是识别事先已知的孤立的词;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测
本文标题:基于神经网络的数字语音信号识别
链接地址:https://www.777doc.com/doc-4224434 .html