您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 深度学习相关研究综述
第35卷第7期计算机应用研究Vol.35No.7优先出版ApplicationResearchofComputersOnlinePublication——————————基金项目:国家自然科学基金资助项目(61572025);国家重点研发计划资助项目(2016YFB0200401)作者简介:张军阳(1987-),男,河南平顶山人,博士研究生,主要研究方向为机器学习、算法优化、硬件加速、并行计算等(zhangjunyang11@nudt.edu.cn);王慧丽(1986-),博士研究生,主要研究方向为深度学习、硬件加速器设计;郭阳(1971-),男,研究员,博士,博导,主要研究方向为计算机体系结构、微处理器设计与验证;扈啸(1972-),男,副研究员,博士,主要研究方向为嵌入式系统.深度学习相关研究综述*张军阳,王慧丽,郭阳,扈啸(国防科学技术大学计算机学院,长沙410073)摘要:随着大数据时代的到来,深度学习技术已经成为当前人工智能领域的一个研究热点,其已在图像识别、语音识别、自然语言处理、搜索推荐等领域展现出了巨大的优势,并且仍在继续发展变化。为了能够及时跟踪深度学习技术的最新研究进展,把握深度学习技术当前的研究热点和方向,本文针对深度学习技术的相关研究内容进行综述。首先介绍了深度学习技术的应用背景、应用领域,指出研究深度学习技术的重要性;其次介绍了当前重要的几种神经网络模型及两种常用大规模模型训练并行方案,其目的在于从本质上理解深度学习的模型架构和及其优化技巧;接着对比分析了当下主流的深度学习软件工具和相关的工业界研究平台,旨在为神经网络模型的实际使用提供借鉴;最后详细介绍了当下几种主流的深度学习硬件加速技术和最新研究现状,并对未来研究方向进行了展望。关键词:深度学习;神经网络;算法模型;软件工具;硬件加速中图分类号:TP181ReviewofdeeplearningZhangJunyang,WangHuili,GuoYang,HuXiao(CollegeofComputer,NationalUniversityofDefenseTechnology,Changsha410073,China)Abstract:Withtheeraofbigdatacoming,deeplearningtechnologyhasbecomeahotspotresearchinthefieldofartificialintelligence.Ithasshowngreatadvantagesinimagerecognition,speechrecognition,naturallanguageprocessing,searchrecommendationandsoon,whilestillcontinuestoevolve.Inordertokeeptrackofthelatestresearchprogressofdeeplearningtechnologyandgraspthecurrentresearchhotspotanddirectionofdeeplearning,thispaperreviewstherelatedresearchcontentsofdeeplearningtechnology.Firstly,itintroducestheapplicationbackgroundandapplicationfieldofdeeplearningtechnologyandpointsouttheimportanceofstudyingondeeplearningtechnology;Secondly,itintroducesseveralimportantneuralnetworkmodelsandtwokindsofcommonlyusedlarge-scalemodeltrainingparallelscheme,whichaimstounderstandthedeeplearningmodelstructureanditsoptimizationskills;Thenitanalyzesthecurrentmainstreamlearningtoolsandrelatedindustrialresearchplatform,whichaimstoprovidereferenceforthepracticaluseofneuralnetworkmodel;Attheendofthispaper,thehardwareaccelerationtechnologyandthelatestresearchstatusofseveralkindsofdeeplearninghardwareaccelerationareintroducedindetail,andthefutureresearchdirectionsarealsodiscussed.KeyWords:deeplearning;neuralnetwork;algorithmmodel;softwaretools;hardwareacceleration0引言随着传感器技术、存储技术、计算机技术和网络技术的迅猛发展以及人类管理与知识水平的提高,使得数据的膨胀趋势日益加剧,信息技术发展的瓶颈已不仅仅存在于数据的获取、存储与传输,而更受限于数据的加工、分析和利用。采用有效的人工智能技术从大数据中获取抽象信息并将其转换为有用的知识,是当前大数据分析所面临的核心问题之一。大数据时代,如何对纷繁复杂的数据进行有效分析,让其价值得以体现和合理的利用,是当前迫切需要思考和解决的问题。而近期兴起的深度学习方法正是开启这扇大门的一把钥匙。深度学习是新兴的机器学习研究领域,旨在研究如何从数据中自动地提取多层特征表示,其核心思想是通过数据驱动的方式,采用一系列的非线性变换,从原始数据中提取由低层到高层、由具体到抽象、由一般到特定语义的特征。深度学习不仅改变着传统的机器学习方法,也影响着本文对人类感知的理解,迄今已在语音识别、图像理解、自然语言处理、视频推荐等应用领域引发了突破性的变革。优先出版张军阳,等:深度学习相关研究综述第35卷第7期鉴于深度学习技术的发展日新月异,国内基于深度学习的相关研究仍处于起步阶段,缺少系统的针对深度学习各方面的介绍,与当前基于深度学习的综述性文章相比,本文系统的从研究背景、应用领域、算法模型、优化方法、软件工具、硬件加速和总结展望等若干层次对当前深度学习的相关研究进行综述,为进一步深入研究深度学习理论和拓展其应用范围奠定了基础。1深度学习相关应用领域1.1图像识别物体检测和图像分类是图像识别的两个核心问题,前者主要定位图像中特定物体出现的区域并判定其类别,后者则对图像整体的语义内容进行类别判定。Yang等人[1]是传统图像识别算法中的代表,他们在2009年提出的采用稀疏编码来表征图像,通过大规模数据来训练支持向量机(supportvectormachine,SVM)进行图像分类,该方法在2010年和2011年的ImageNet[2]图像分类竞赛中取得了最好成绩。图像识别是深度学习最早尝试的应用领域,早在1989年,LeCun和他的同事就发表了关于卷积神经网络的相关工作[3],在手写数字识别任务上取得了当时世界上最好的结果,并广泛应用于各大银行支票的手写数字识别任务中。百度在2012年将深度学习技术成功应用于自然图像OCR识别和人脸识别等问题上,并推出相应的移动搜索产品和桌面应用。从2012年的ImageNet竞赛开始,深度学习在图像识别领域发挥出巨大威力,在通用图像分类、图像检测、光学字符识别(opticalcharacterrecognition,OCR)、人脸识别等领域,最好的系统都是基于深度学习的。图1为从2010到2016年ImageNet竞赛的识别错误率变化及人的识别错误率。2012年是深度学习技术第一次被应用到ImageNet竞赛中,可以看出相对于2011年传统最好的识别错误率大幅降低了41.1%,且2015年基于深度学习技术的图像识别率错误率已经超过了人类,2016年最新的ImageNet识别错误率已经达到2.991%。图12010至2016年ImageNet竞赛的识别错误率变化及人的识别错误率1.2语音识别长久以来,人与机器交谈一直是人机交互领域内的一个梦想,而语音识别是其基本技术。语音识别(automaticspeechrecognition,ASR)是指能够让计算机自动地识别语音中所携带信息的技术。语音是人类实现信息交互最直接、最便捷、最自然的方式之一。自人工智能(artificialintelligence,AI)的概念出现以来,让计算机甚至机器人像自然人一样实现利用语音进行交互就一直是AI领域研究者的梦想。最近几年,深度学习(deeplearning,DL)理论在语音识别和图像识别领域取得了令人振奋的性能提升,迅速成为了当下学术界和产业界的研究热点,为处在瓶颈期的语音等模式识别领域提供了一个强有力的工具。在语音识别领域,深度神经网络(deepneuralnetwork,DNN)模型给处在瓶颈阶段的传统的GMM-HMM模型带来了巨大的革新,使得语音识别的准确率又上了一个新的台阶。目前国内外知名互联网企业(谷歌、科大讯飞及百度等)的语音识别算法都采用的是DNN方法。2012年11月,微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅,其后台支撑的关键技术就是深度学习。近期,百度将DeepCNN应用于语音识别研究,使用了VGGNet,以及包含Residual连接的深层卷积神经网络(convolutionalneuralnetwork,CNN)等结构,并将长短期记忆网络(longshort-termmemory,LSTM)和CTC的端到端语音识别技术相结合,使得识别错误率相对下降了10%以上。2016年9月,微软的研究者在产业标准Switchboard语音识别任务上,取得了产业中最低的6.3%的词错率。以及国内科大讯飞提出的前馈型序列记忆网络(feed-forwardsequentialmemorynetwork,FSMN)的语音识别系统,该系统使用大量的卷积层直接对整句语音信号进行建模,更好的表达了语音的长时相关性,其效果比学术界和工业界最好的双向RNN(recurrentneuralnetwork,RNN)语音识别系统识别率提升了15%以上。由此可见,深度学习技术对语言识别率的提高有着不可忽略的贡献。1.3自然语言处理自然语言处理(naturallanguageprocessing,NLP)也是深度学习的一个重要应用领域,经过几十年多的发展,基于统计的模型已经成为NLP的主流,同时人工神经网络在NLP领域也受到了理论界的足够重视。加拿大蒙特利尔大学教授Bengio等在2003年提出用embedding的方法将词映射到一个矢量表示空间,然后用非线性神经网络来表示N-Gram模型[4]。世界上最早的深度学习用于NLP的研究工作诞生于NECLabsAmerican,其研究员Collobert和Weston[5]从2008年开始采用embedding和多层一维卷积的结构,用于词性标注、分块、命名实体识别、语义角色标注等4个典型NLP问题。值得注意的是,他们将同一个模型用于不同的任务,都取得了与现有技术水平相当的准确率。Mikolov等通过对Bengio等提出的神经网络语言模型的进一步研究发现,通过添加隐藏层的多次递归,可以提高语言模型的性能[6],语音识别任务中,在提高后续词预测准确率及总优先出版张军阳,等:深度学习相关研究综述第35卷第7期体识别错误率方面都超越了当时最好的基准系统,Schwenk等将类似的模型用在统计机器翻译任务中[7],采用BLEU(bilingualevaluationunderstudy,BLEU)评
本文标题:深度学习相关研究综述
链接地址:https://www.777doc.com/doc-5929921 .html