您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 深度学习PPT幻灯片
深度学习及其硬件加速1报告提纲深度学习概念及其算法1深度学习硬件加速方式2典型神经网络芯片介绍32人工智能——为机器赋予人的智能人工智能、机器学习与深度学习人工智能机器学习深度学习1950's1960's1970's1980's1990's2000's2010's模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术科学;让机器象人一样思考应用:国际跳棋程序人工智能的分支,研究机器模拟或实现人类的学习行为,以获取新的知识技能,并改善自身性能应用:垃圾邮件过滤一种机器学习方法,模拟人脑机制解释数据,通过组合低层特征形成更加抽象的高层属性类别或特征应用:谷歌视频寻猫3训练阶段:输入大量带标注动物图片,训练网络学会辨别推理阶段:输入未标注图片提取图片内容的低层特征,如轮廓分析提取高层的结构特征,如四肢分析获得顶层的抽象概念,如动物类型基于前期训练结果,预测图片内容深度学习的流程4深度学习典型算法为卷积神经网络,以2层卷积为例,算法为:输入图像与滤波器、偏置进行卷积,产生卷积层的特征映射图卷积层特征映射图经求和,加权值,偏置,函数处理得到采样层采样层重复上述流程处理后产生新的采样层全连接层提取归类获得足够好的高层特征表达信息深度学习的算法5一层卷积学到的特征是局部的,层数越高,特征就越全局化。卷积和采样具体过程为:卷积过程:滤波器fx卷积输入图像后,加偏置项bx,得卷积层Cx采样过程:每邻域4个像素求和得一个像素,通过标量Wx+1加权,加偏置项bx+1,通过sigmoid激活函数产生缩小4倍的特征图Sx+1深度学习的算法6深度学习开源框架层出不穷,用来实现深度学习算法避免重复工作,降低算法门槛Google、Microsoft、Facebook等均发布深度学习框架谷歌TensorFlow占绝对优势强大的人工智能研发水平、快速的迭代更新深度学习的开源框架7谷歌2015年底发布开源深度学习框架TensorFlowTensor(张量):多维数组在高维空间的数学运算Flow(流):基于数据流图的计算TensorFlow关键特性代码简洁多语言支持分布式算法执行效率高移值灵活伸缩性好支持多种神经网络算法深度学习的开源框架8报告提纲深度学习概念及其算法1深度学习硬件加速方式2典型神经网络芯片介绍39深度学习硬件加速方式当前深度学习硬件加速方式主要有CPU、GPU、FPGA、DSP、ASIC10深度学习硬件加速方式——CPU通用级加速方式,高度灵活性和易用性架构上有先天弱势运算能力较弱访存带宽受限代表:IntelXeonPhi系列芯片、高通骁龙820案例:GoogleBrain项目用16000个CPUCore的并行计算平台保证训练算法速度,通过观看YouTube的视频,识别出猫11SIMD方式,计算能力强,并行度支持好通用性,并非针对深度学习运行效率受影响能耗仍较大代表:NVIDIATeslaP100GPU案例:基于GPU深度学习加速受到谷歌、微软、IBM以及百度等企业青睐;在汽车和先进驾驶辅助系统(ADAS)方面与众多车企进行合作深度学习硬件加速方式——GPU12能效较高且硬件配置灵活顶级GPU性能的1/5,能效相当相比CPU,性能提升1个数量级,能效提升2个数量级增长的门资源和内存带宽带来更大的设计空间省去ASIC方案所需流片过程代表:DeephiTech(深鉴科技)、Xilinx、Altera案例:微软用AlteraFPGA实现基于卷积神经网络的数据中心加速,效能优异。算法用于图像分类、图像识别及自然语言处理深度学习硬件加速方式——FPGA13用传统SIMD/DSP架构来适配运算逻辑作修改,以适用卷积神经网络对深度学习全面计算能力支持不足核心数量较少,并行性支持较差代表:Cadence的TensilicaVisionP5处理器、Synopsys的EV处理器、中星微视频处理芯片星光智能一号案例:星光智能一号广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域深度学习硬件加速方式——DSP14阻碍深度学习发展的瓶颈仍是算法速度传统处理器需要多条指令才能完成一个神经元的处理ASIC根据深度学习算法定制:处理效率、能效均最高代表:Cambricon(寒武纪科技)DianNao芯片、谷歌的TPU芯片、HorizonRobotics(地平线机器人)BPU芯片案例:基于TPU的AlphaGo与围棋冠军李世石人机大战,总比分4:1获胜深度学习硬件加速方式——ASIC15深度学习硬件加速方式比较加速方式优点缺点CPU通用结构、可独立工作通用性导致效率和能效比低GPU强大的并行计算能力通用性导致效率受影响、能耗大FPGA灵活性好、设计空间大、省去流片过程效能与功耗上不能更紧密适配算法、成本高DSP改动小、计算能力较高缺乏深度学习全面计算能力、核心数量较少,并行性支持较差ASIC能效比最好灵活性差、缺乏通用潜力、成本较高16上述均为基于深度学习的加速芯片。作为人工神经网络芯片,还有另外一支,是从类似或模拟生物神经系统来实现的神经形态网络芯片(类脑芯片)代表:IBMTrueNorth(真北)、Brainchip等其他人工神经网络芯片17报告提纲深度学习概念及其算法1深度学习硬件加速方式2典型神经网络芯片介绍318IBM,2014年发布能模拟人类大脑的超大规模神经突触芯片TrueNorth基于类似人脑、非冯·诺依曼的计算架构含有100万神经元,通过2.56亿个突触彼此通信4096个神经突触,每秒可执行46千兆突触运算三星28nm工艺,54亿晶体管,功耗仅为70mW典型神经网络芯片——IBMTrueNorth19TrueNorth芯片结构、功能、物理形态图典型神经网络芯片——IBMTrueNorth20人脑分成三个层次——神经突触、脑功能区和脑皮层每个突触由诸多神经元组成,每个脑功能区由诸多突触组成,一个能完整执行任务的皮层由诸多个功能区组成TrueNorth芯片架构对应分为三个层次突触对应硬件—neurosynapticcore,有256个输出与输入及对应的存储,并集成神经信号的路由器芯片有4096个core,组成脑功能区芯片与芯片间互联,实现完整的脑皮层功能TrueNorth基于脉冲神经网络设计,采用1KHz帧时钟模拟生物上的脉冲,因而没有全局时钟控制的信号传递;数据和数据之间采用异步方式通讯,实现低功耗。典型神经网络芯片——IBMTrueNorth21IBM用48块TrueNorth芯片构建一个电子的啮齿类动物大脑,每一块芯片都可以模拟大脑的一个基本功能区。系统可模拟4800万个神经细胞,与小型啮齿动物大脑的神经细胞数齐平基于该模拟大脑编写的程序可识别照片和语音,并理解一些自然语言典型神经网络芯片——IBMTrueNorth222016年12月,IBM公布了TrueNorth芯片的最新成果美国陆军研究实验室利用TrueNorth芯片的低功耗和实时模式识别特性,帮助在部署数据收集时,减少延迟、降低数据复杂性、减少传输宽带需求,同时解决分布式系统终端的数据存储需求美国空军研究实验室利用TrueNorth横向扩展系统来执行并行数据的文本提取和识别任务。图像文本被分割成单独的字符后被TrueNorth系统进行并行字符识别。归类之后的结果将会被传送到基于推理的自然语言模型中来重建单词和句子劳伦斯·利弗莫尔国家实验室训练一个16块TrueNorth芯片组成的网络追踪激光熔化机的焊点质量,可以识别7种等级。实时焊点质量监控使得闭环工艺改进和立即排除缺陷部件成为可能典型神经网络芯片——IBMTrueNorth23对TrueNorth的评价不同于冯诺依曼架构,将处理、存储、通信集成在一起尝试在硅片中模仿人脑以大规模平行方式处理信息向社会步入认知计算机时代迈出重要一步短期看,TrueNorth情况不乐观生态系统差编程困难缺乏高效的训练算法不具备调整的灵活性典型神经网络芯片——IBMTrueNorth242016年中科院计算所正式发布神经网络处理器寒武纪针对深度学习领域的专用芯片性能、功耗和面积上,比CPU/GPU有百倍优势寒武纪系列已包含四种原型处理器:寒武纪1号(英文名DianNao,面向神经网络的原型处理器结构)寒武纪2号(英文名DaDianNao,面向大规模神经网络)寒武纪3号(英文名PuDianNao,面向多种机器学习算法)寒武纪4号(英文名ShiDianNao,面向视频处理特定领域)配套首个深度学习指令集Cambricon(DianNaoYu)直接面对大规模神经元和突触的处理一条指令即可完成一组神经元的处理对神经元和突触数据传输提供一系列支持典型神经网络芯片——寒武纪DianNao25片上存储:芯片内含三块片上存储,用于存储input的NBin、output的NBout和神经网络模型权重参数的SB;片上存储与片外通过DMA通信运算逻辑:核心计算部件为由三级流水线组成NFUNFU和片上存储的时分复用:运行时,网络模型参数依次被加载到SB,每层神经layer的输入数据被依次加载到NBin,layer计算结果写入到NBoutNFU里基础计算不会与具体的神经元或权重参数绑定灵活性和尺寸相较于全硬件方案有明显改进典型神经网络芯片——寒武纪DianNao26DianNao是寒武纪系列的第一个原型处理器结构单核,主频0.98GHz,峰值性能每秒4520亿次神经网络基本运算65nm工艺,面积3.02mm2,功耗0.485W,性能超主流CPU核100倍,面积和功耗仅为1/10性能与主流GPU相当,面积和功耗仅为1/100典型神经网络芯片——寒武纪DianNao27DaDianNao在DianNao的基础上进一步扩大处理器的规模16个处理器核和更大的片上存储多芯片间直接高速互连,避免内存访问开销28nm工艺,主频606MHz,面积67.7mm2,功耗16W性能超过主流GPU21倍,能耗仅为主流GPU的1/330典型神经网络芯片——寒武纪DianNao28多用途机器学习处理器PuDianNao支持k-最近邻、支持向量机、神经网络等近十种代表性机器学习算法主频为1GHz,峰值性能每秒10560亿次基本操作65nm工艺,面积3.51mm2,功耗0.596W性能与主流GPU相当,面积和功耗仅为主流GPGPU百分之一量级典型神经网络芯片——寒武纪DianNao292016年成果ShiDianNao传感器可直接对图像进行流式识别处理,消除对图像的读写操作用比较小的卷积神经网络在芯片上处理,消除对模型的读写操作65nm工艺,面积4.86mm2,功耗0.32W性能与CPU/GPU/专用加速器比,有50/30/2倍的提升典型神经网络芯片——寒武纪DianNao30应用案例:ShiDianNao在系统中进行深度学习的模式识别,经训练后具有类似人脑的识别能力,可从图像中识别出猫正在进行商业化推广,将寒武纪IP盒子或芯片嵌入到传统手机或个人电脑主板,极大提高处理速度典型神经网络芯片——寒武纪DianNao31寒武纪系列芯片的技术突破:突破了内存带宽的主要性能瓶颈,通过EDRAM技术及多芯片互联,保证神经网络模型完整放于片上,完全无需访问内存突破了片上通讯导致的延迟和功耗,分成的每块内部包含运算部件、神经元数据、突触数据,可以减少90%以上片上通讯时间突破了机器学习算法、变种众多的困难,采用可编程VLIM处理其结构以及灵活的运算部件,支持几乎所有现有的主流机器学习算法典型神经网络芯片——寒武纪DianNao322016年谷歌透露其机器学习专用芯片张量处理器TPU,并于2017年4月官方详细介绍TPU专为深度学习框架TensorFlow进行的ASIC设计脉动阵列处理结构:数据向运算阵列传递和处理有严格流程规定处
本文标题:深度学习PPT幻灯片
链接地址:https://www.777doc.com/doc-7887834 .html