您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 语音识别发展现状与展望
语音识别发展现状与展望中科院自动化研究所徐波2011年12月4日中国中文信息学会第七次全国会员代表大会暨学会成立30周年学术会议报告提纲•语音识别技术现状及态势•语音识别技术的行业应用•语音识别技术研究方向•结论与展望2010年始语音识别重新成为产业热点•移动互联网的兴起成为ASR最重要的应用环境。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向–Android系统内嵌语音识别技术,Google语音翻译等;–iPhone4S上的Siri软件;–百度、腾讯、盛大、华为等都进军语音识别领域;–我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯–已有的QQ2011版语音输入等等成熟度分析-技术成熟度曲线•美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告:成熟度分析-新兴技术优先矩阵•Gartner评出了2011年具有变革作用的技术,包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用,而语音识别有望在2-5年内获得大幅利用;三十年语音识别技术发展---特征提取与知识方面•MFCC,PLP,CMS,RASTA,VTLN;•HLDA,fMPE,neuralnet-basedfeatures•前端优化–融入更多特征信息(MLP、TrapNN、BottleNeckFeatures等)•特征很大特点有些是跟模型的训练算法相匹配•大规模FSN图表示,把各种知识源集中在一起–bigramvs.4-gram,withinworddependenciesvs.cross-word三十年语音识别技术发展---模型与算法•统计模型HMM–EM、MAP/MLLR自适应–MMIE、MPE、fMPE训练(2005)–boostedMMIE(bMMIE)训练(2008)–基于最大边距(Largemargin)分类的区分度训练(2004-2008)•优化模型精度–声学上下文建模•Quinphone(五音子)、Septaphone(七音子)–方差建模(SPAM、EMLLT、全方差建模等)–SubspaceGMM(SGMM)建模(2009)•提出了更好的声学数据共享机制三十年语音识别技术发展---搜索•A*搜索•Viterbi搜索•多遍(Multi-pass)识别•多系统融合(ROVER)技术三十年语音识别技术发展---ASR开放源码工具•HTK为基础的声学模型建模技术–剑桥大学的HTK(v3.4.1)•LM模型建模技术–从传统的SRI的SRILM(v1.5)–到能够处理更大规模语料的•微软的MSRLM(v0.1)•以及意大利IRST实验室的IRSTLM(v5.6)•FSN以及解码技术–MIT的LibFST(v1.4.0)–Google的OpenFST(v1.2.7)大词汇量连续语音识别技术发展概况---在电话、会议等复杂环境中目前英语识别率准确率在80%左右,离人类2%-4%的错误率还有很大距离Moore定理及应用服务驱动计算能力和方式的改变•云计算主要特征–低成本:一堆廉价的机器,但数量庞大;–虚拟化技术:使用者感觉只面对一台机器;–并行计算结构:程序必须支持并行计算•云计算类型–公有云:对外提供计算和存储服务等,utility;–私有云:对外提供应用服务,但满足低成本、虚拟化以及并行化等特点;•云计算vs.集群:–虚拟化技术+并行计算;–在云之上的应用服务开发更加规范和形式化;语音模式识别的云服务优势•在用户层面上,云端向终端提供了革命性的计算和存储能力;•对于运营商而言,云服务运营还非常易于获得海量有标签的训练样本,从而帮助研究人员持续改进识别性能。•云语音更将挑战“发音习惯,用词习惯”等传统技术难以解决的技术难点,为用户带来全新的,极简的沟通体验。传统语音识别研究关心的问题•语音识别特征,是否足够鲁棒?•语音识别模型,是否足够鲁棒并具有可区分性;•语言模型,是否具有足够的覆盖度以及可回退性?•语音识别搜索,是否能尽量较少搜索误差并提高搜索效率?•………云计算减少了语音识别计算约束•应用场景产生很大变化–移动互联网环境下的应用---语音、语言自适应和个性化模型变得非常关键;•语音识别(包括中文信息处理)技术新出发点:三个近乎Unlimited–计算量可以是unlimited---穷举式搜索;–存储量可以是unlimited---无损失存储;–数据量可以使unlimited---海量用户数据;云计算环境下ASR研究目标•云计算环境下具有强大个性化用户自适应能力的识别计算架构–自适应算法(尤其是语言自适应)•云计算环境下大群体用户的智慧集成–超级语音数据中心和模型中心–需要Semi-supervised标注能力•核心是如何利用好云中心的数据并迅速转化为模型的自适应。云计算环境下的语音识别展望•技术研究和产品开发已经混为一体;•面向大众服务的语音交互以及语音STT,离实用的2%-4%的错误率还有相当距离,但随着应用的深入和数据的积累,其识别能力将继续大幅提升;•技术是否成熟从来不假设这个技术还有什么问题,而是说已经能解决什么问题;未来2-5年语音识别技术将成为移动互联网的Enable技术,与诸多应用相结合。报告提纲•语音识别技术现状及态势•语音识别技术的行业应用•语音识别技术研究方向•结论与展望近十年NARPA--HLT研发布局(1/3)•从上世纪六十年代起一直受到美国国防部先进技术研究计划署(DARPA)重点关注:–“9-11”事件以后,TIA项目试图通过HLT技术从截取的海量语言信号、电子邮件、互联网等数据源高效率地获取具有战略和战术意义的情报;–2002年首先启动了EARS项目和TIDES项目;由于EARS项目过于敏感,EARS和TIDES两个项目合并为“全球自主语言开发”(GlobalAutonomousLanguageExploitation,GALE)(2002-至今)。GALE目标是应用计算机软件技术对海量规模的多语言语音和文本进行获取、转化、分析和翻译;•从2011年起先后启动两个项目RATS(RobustAutomaticTranscriptionofSpeech)和BOLT(BoundlessOperationalLanguageTranslation),为HLT技术持续发展提供动力。近十年NARPA--HLT研发布局(2/3)•RATS和BOLT项目更加注重新技术能力的获取和创新,而把具体的应用系统留给市场开发:–RATS(2011年-):重点解决噪声环境下的语音识别、说话人识别和语种识别问题。它面向口语环境,计划将背景噪音降至最低,能够实现99%的背景噪音辨析率;–BOLT(2012年-):要求从各种媒体准确地将汉语普通话和多种阿拉伯方言翻译成英语,特别是非正式对话语音、电子邮件和短消息等具有挑战性的任务。BOLT可以让用户在多种语言类型的资源中进行英语检索,获取针对性的信息资料。此外,BOLT提供一种自然翻译能力,可以与人进行互动,对易产生歧义的具体语句作出澄清。近十年NARPA--HLT研发布局(3/3)•两个实战型的技术项目:–战术口语交际与翻译系统(TheSpokenLanguageCommunicationandTranslationSystemforTacticalUse,TRANSTAC)(2004-至今):为美国作战人员在海外提供可靠、自发的战术口语交流,特别针对翻译人员奇缺的语言和方言;–多语言文件自动分类、分析与翻译(MultilingualAutomaticDocumentClassificationAnalysisandTranslation,MADCAT)(2005-至今):目标是创建一个可随身携带的原型系统,为军事指挥人员快速准确提取相关可操作的信息。它将外国语言、文字、图像(如道路标志、传单、照片)以及手写笔记,自动转换成英文信息。近几年说话人/语种技术进展•采用静态分类器对说话人/语种进行刻画和描述–统计分布框架:GMM,GMM-UBM–区分框架:SVM等•通道处理:致力于解决/降低Inter-session(会话间变化,通道噪声)和Intra-speaker(声纹漂移)对识别性能的影响–特征层面:FeatureWarp/FeatureMap:特征弯折/特征映射、FDIC(Feature-domainIntersessionCompensation):特征域通道补偿等……–模型层面:NAP(NuisanceAttributeProjection):干扰属性映射、WCCN(WithClassCovarianceNormalization):类间协方差归一化、FA/JFA(JointFactorAnalysis):联合因子分析等…..–分数层面:ScoreNormalization:各种分数归一化方法说话人/语种开放源码•Focal/Focal-Multi:Niko.Brummer个人开发的两类/多类识别分数的评价、校准、融合工具–•JFAMatlab:BUT(BrnoUniversityofTechnology)开发的联合因子分析Matlab程序–•LNKnet:MIT开发的神经网络算法、统计和机器学习算法、特征选择算法–•Alize/Mistral:法国FrenchNationalResearchAgency(ANR)资助研发的说话人分割、说话人检测工具包等–、语音教育评估--社会背景(1/3)•中国融入国际社会的语言需求–语言作为人类基本能力,在全球化中起着至关重要的作用。在以英语为主导的世界框架下,“语言不平等造成机会不平等”的现象比比皆是。全球范围内各国纷纷把英语作为第二语言学习。–在中国,从小学乃至幼儿园开始,英语学习是一门基本的课程。目前至少有2亿中国人在不同阶段学习英语。2、语音教育评估-社会背景(2/3)•传播中国文化的语言需求–进入21世纪以后,随着中国经济实力的增长,汉语成为继英语之后全世界语言学习的第二热门语言。•包括中国少数民族地区在内,作为第二语言学习汉语的全球人数达到4000万。•我国近邻韩国、日本、新加坡等国家也掀起了学习汉语的新的热潮。国家还专门成立汉办和孔子学院,在海外推广汉语的教学。2、语音教育评估---语言评估的重要性•语言评估和语言教学密不可分,是语言教学的重要工具。•语言评估不仅可以督促学生学习、检查教学效果,而且还会对教学产生影响。–帮助教师发现教学中存在的问题,诊断学生在哪些方面容易犯错误;–对改进教学、调整教学计划以及对学生进行个别指导具有重要意义。自动阅卷系统技术结构阅卷特征提取-完整性特征朗读型题目,能否顺利读完全文,以及顺利读完的比例;话题简述型题目,能否完整表达题目的语意,清楚表达的语意比例;完整性特征是评分的起评基本特征;阅卷特征提取-准确性特征•发音分的评价是以标准发音模型为依据,根据本地发音及测试要求适当放宽和收紧门限(幅度)完成。主要包括单词发音的元音、辅音、重音准确性英语语音处理采用39维数字化特征,汉语语音处理由于考虑声调因素,增加到42维数字化特征将语音参数化处理(在频率空间提取仿人耳听觉特性的39维数字化特征)一句话可以理解为空间中一条随时间变化曲线阅卷特征提取-流利性特征–有效语速:每分钟念的词数,不包括插入(重复、修正)的词,中国中学生正常语速范围在110-140词/分钟.–插入错误:朗读过程中通常会出现犹豫、修正、重复等现象,就会有插入错误,反应考生对朗读内容
本文标题:语音识别发展现状与展望
链接地址:https://www.777doc.com/doc-548064 .html