您好,欢迎访问三七文档
AI芯片分类:功能:1.Training(训练)2.Inference(推理)两个环节;应用场景:1.Cloud/DataCenter(云端)2.Device/Embedded(设备端)技术架构发展类型:1、通用类芯片,代表如GPU、FPGA;2、基于FPGA的半定制化芯片,代表如深鉴科技DPU、百度XPU等;3、全定制化ASIC芯片,代表如谷歌TPU、寒武纪Cambricon-1A等;4、类脑计算芯片,代表如IBMTrueNorth、westwell、高通Zeroth等。类型比对一、GPU优点:具有数以千计的计算核心可实现10-100倍应用吞吐量支持对深度学习至关重要的并行计算能力比传统处理器更加快速加快了训练过程目前最普遍采用的深度学习运算单元之一。局限性:1.应用过程中无法充分发挥并行计算优势。深度学习包含训练和应用两个计算环节,GPU在深度学习算法训练上非常高效,但在应用时一次性只能对于一张输入图像进行处理,并行度的优势不能完全发挥2.硬件结构固定不具备可编程性。深度学习算法还未完全稳定,若深度学习算法发生大的变化,GPU无法灵活的配置硬件结构。能耗虽然GPU要好于CPU,但其能耗仍旧很大二、FPGAFPGA,即现场可编辑门阵列,是一种新型的可编程逻辑器件,由于其具有静态可重复编程和动态在系统重构的特性,使得硬件的功能可以像软件一样通过编程来修改。FPGA作为人工智能深度学习方面的计算工具,主要原因就在于其本身特性:可编程专用性,高性能,低功耗。北京大学与加州大学的一个关于FPGA加速深度学习算法的合作研究。展示了FPGA与CPU在执行深度学习算法时的耗时对比。在运行一次迭代时,使用CPU耗时375毫秒,而使用FPGA只耗时21毫秒,取得了18倍左右的加速比。根据瑞士苏黎世联邦理工学院(ETHZurich)研究发现,基于FPGA的应用加速比CPU/GPU方案,单位功耗性能可提升25倍,而时延则缩短了50到75倍,与此同时还能实现出色的I/O集成。而微软的研究也表明,FPGA的单位功耗性能是GPU的10倍以上,由多个FPGA组成的集群能达到GPU的图像处理能力并保持低功耗的特点。根据英特尔预计,到2020年,将有1/3的云数据中心节点采用FPGA技术。三、不可估量的ASICASIC(ApplicationSpecificIntegratedCircuits,专用集成电路),是指应特定用户要求或特定电子系统的需要而设计、制造的集成电路。ASIC用于专门的任务,比如去除噪声的电路,播放视频的电路,但是ASIC明显的短板是不可更改任务。但与通用集成电路相比,具有以下几个方面的优越性:体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低。从算力上来说,ASIC产品的计算能力是GK210的2.5倍。功耗上,ASIC功耗做到了GK210(NVIDIA)的1/15。当然ASIC是能效最高的,但目前,都在早期阶段,算法变化各异。想搞一款通用的ASIC适配多种场景,还是有很多路需要走的。但从比特币挖矿机经历的从CPU、GPU、FPGA到最后ASIC的四个阶段来推论,ASIC将是人工智能发展的重要趋势之一。另外,在通信领域,FPGA曾经也是风靡一时,但是随着ASIC的不断发展和蚕食,FPGA的份额和市场空间已经岌岌可危。四、NPU:为深度学习而生的专业芯片从技术角度看,深度学习实际上是一类多层大规模人工神经网络。它模仿生物神经网络而构建,由若干人工神经元结点互联而成。神经元之间通过突触两两连接,突触记录了神经元间联系的权值强弱。每个神经元可抽象为一个激励函数,该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定。为了表达特定的知识,使用者通常需要(通过某些特定的算法)调整人工神经网络中突触的取值、网络的拓扑结构等。该过程称为“学习”。在学习之后,人工神经网络可通过习得的知识来解决特定的问题。由于深度学习的基本操作是神经元和突触的处理,而传统的处理器指令集(包括x86和ARM等)是为了进行通用计算发展起来的,其基本操作为算术操作(加减乘除)和逻辑操作(与或非),往往需要数百甚至上千条指令才能完成一个神经元的处理,深度学习的处理效率不高。因此谷歌甚至需要使用上万个x86CPU核运行7天来训练一个识别猫脸的深度学习神经网络。因此,传统的处理器(包括x86和ARM芯片等)用于深度学习的处理效率不高,这时就必须另辟蹊径——突破经典的冯·诺伊曼结构。以中国的寒武纪为例,DianNaoYu指令直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。另外,神经网络中存储和处理是一体化的,都是通过突触权重来体现。而冯·诺伊曼结构中,存储和处理是分离的,分别由存储器和运算器来实现,二者之间存在巨大的差异。当用现有的基于冯·诺伊曼结构的经典计算机(如X86处理器和英伟达GPU)来跑神经网络应用时,就不可避免地受到存储和处理分离式结构的制约,因而影响效率。这也就是专门针对人工智能的专业芯片能够对传统芯片有一定先天优势的原因之一。用数字来说话,CPU、GPU与NPU相比,会有百倍以上的性能或能耗比差距——以寒武纪团队过去和Inria联合发表的DianNao论文为例——DianNao为单核处理器,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02平方毫米mm。在若干代表性神经网络上的实验结果表明——DianNao的平均性能超过主流CPU核的100倍,但是面积和功耗仅为1/10,效能提升可达三个数量级;DianNao的平均性能与主流GPU相当,但面积和功耗仅为主流GPU百分之一量级。AI芯片产业生态:全球AI芯公司:国内AI芯片公司已成熟、权威的芯片厂商(一)英伟达JetsonTX1芯片方案(GPU)2015年相继为Parrot及其竞争对手大疆提供芯片,针对无人机市场,英伟达开发了JetsonTX1芯片方案,可以胜任各类图像图形识别和高级人工智能任务,使用它的无人机可以在空中停留更长时间。(二)英特尔处理器英特尔把无人机作为其处理器产品的一大新兴应用加以推广,而且更愿意看到其这两年主打的RealSense实感技术即3D摄像头的无人机应用有所突破。采用英特尔实感技术的YuneecTyphoonH,具有防撞功能,具有方便起飞、配备4K摄像头和360度万向接头,以及遥控器内置显示屏等特点,内置了高达6个英特尔的“RealSense”3D摄像头,采用了四核的英特尔凌动(Atom)处理器的PCI-express定制卡,来处理距离远近与传感器的实时信息,以及如何避免近距离的障碍物。在无人机视觉方面。英特尔最大的优势在于其RealSense技术采用的红外激光,相较起高通的双目视觉技术,规避了计算机视觉识别物体的大量计算,并有效提高了精度。(三)三星Artik5芯片三星Artik芯片有三个型号,其中应用于无人机的主要是Artik5,Artik5尺寸为29x25mm,搭载1GHzARM双核处理器(Mali400MP2GPU),搭配的是512MBLPDDR3内存以及4GBeMMc闪存。支持Wi-Fi、低功耗蓝牙,支持802.11b/g/n。此外,该芯片还能对解码H.264等格式720p30fps的视频进行解码,并提供了TrustZone。(四)高通骁龙Flight平台骁龙Flight是一块高度优化的58x40mm开发板,专门针对消费级无人机和机器人应用而设计。骁龙Flight包含一颗骁龙801SoC(由四颗主频为2.26GHz的核心组成),支持GPS、4K视频拍摄、强劲的连接性以及先进的无人机软件和开发工具,双通道Wi-Fi和蓝牙模块,支持实时飞行控制系统,拥有全球导航卫星系统(GNSS)接收器,支持4K视频处理,支持快速充电技术。腾讯的Ying、零零无限的小型无人机产品hovercamera及零度智控的自拍无人机dobby的样机都用的是snapdragonflight。无人机设计平台SnapdragonFlight无人机芯片具有和智能手机相同的处理器对比目前主要的无人机芯片解决方案,高通snapdragonflight的CPU尺寸最小、主频最高。目前已应用于国内厂商零零无限的小型无人机产品hovercamera及零度智控的自拍无人机dobby的样机。(五)Ambarella(安霸公司)位于加利福尼亚的视频压缩和图像处理芯片厂商,在今年的CES上发布了三款全新的芯片,计划将新一代影像带到汽车、无人机、VR以及运动相机中去。安霸公司高性能的压缩处理器芯片获得了全球厂商的高度认可。很多世界知名的公司都采用了该公司的方案,包括GoPro运动摄影机、大疆无人机、Google最新二四镜头VR相机。(六)大疆Manifold(GPU)价格4699Manifold妙算专为飞行平台设计的嵌入式机载电脑,拥有PC独立显卡级别的绘图能力,支持DirectX11、OpenGL4.4,可让机器人实时进行复杂的图像处理。Manifold还支持NVIDIACUDA,用于开发最前沿的GPU加速应用,可将程序性能提升数倍。Manifold能广泛应用于计算机视觉、深度学习等人工智能领域,让你的设备具备环境感知、物体辨识和实时反应能力。便捷的开发环境强大的移动计算机Manifold采用NVIDIATegraK1处理器,内含4+1四核ARM-CortexA15核心和192个GPUCUDA核心,最高主频达2.2GHz。NVIDIA4-Plus-1(4-Plus-1™)四核ARM®Cortex-A15低功耗NVIDIAKepler™Geforce®图像处理器GPU核心不仅能实现强大的图像处理能力,而且能高效地处理并行任务,浮点运算能力达326GFLOPS。Manifold能让你发挥创意,设计更智能的程序,把机器人应用在更广阔的领域。Manifold妙算为开发者设计,它搭载了Ubuntu操作系统*,可便捷安装运行Linux软件,支持CUDA、OpenCV及ROS等,非常适合用在专业应用的研究和开发中。Manifold全面支持DJIOnboardSDK,可轻松获取飞行数据,并进行控制和数据分析,把你的创意和DJI飞行平台优秀的性能轻松结合。低功耗Manifold妙算采用低功耗设计方案,可为你的机器人提供长久续航。其峰值功耗约15W,仅为普通笔记本电脑的四分之一,配备的TegraK1CPU共有4个A15核心,可从容应对复杂的计算任务,1个附属核心负责简单任务的处理。其中,4个A15核心中的每一个核心均可根据工作负荷的繁重程度,独立而自动地启用和关闭,从而降低整体功耗。耗电量MAX≈15W新型芯片厂商(七)寒武纪(国产ASIC)寒武纪是全球第一个成功流片并拥有成熟产品的AI芯片公司,拥有终端AI处理器IP和云端高性能AI芯片两条产品线。2016年发布的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、无人机、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器。智能处理器IP(今年五月)MLU100采用寒武纪最新的MLUv01架构和TSMC16nm的先进工艺,可工作在平衡模式(1GHz主频)和高性能模式(1.3GHz主频)下,平衡模式下的等效理论峰值速度达每秒128万亿次定点运算,高性能模式下的等效理论峰值速度更可达每秒166.4万亿次定点运算,但典型板级功耗仅为80瓦,峰值功耗不超过110瓦。与寒武纪系列终端处理器一样,MLU100云端芯片仍然延续了寒武纪产品一贯出色的通用性,可支持各类深度学习和经典机器学习算法,充分满足视觉、语音、自然语言处理、经典数据挖掘等领域复杂场景下(如大数据量、多任务、多模态、低延时、高通量)的云端智能处理需求。(八)华为海思于2016年7月推出了华为海思无人机平台,即联手深圳本土初创公司宙心科技,在华为海思芯片的基础上推出了一系列无人机解决方案。SOC基
本文标题:深度学习芯片
链接地址:https://www.777doc.com/doc-4289582 .html