您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 电子设计/PCB > 中金公司AI芯片谁与争锋
请仔细阅读在本报告尾部的重要法律声明证券研究报告2017年5月26日热门美股AI芯片,谁与争锋?海外观察人工智能革命将引起芯片业格局重新调整我们在《寻找AI+淘金热中的卖水人》报告中已经指出,人工智能革命将引起芯片业格局重新调整。近期,谷歌推出第二代TPU,英伟达推出V100,AMD推出VegaFrontierEdition,我们对AI芯片市场进行再次审视。就市场规模而言,目前数据中心服务器中只有7%用于人工智能(其中3%使用GPGPU,95%使用CPU),但英特尔估计,到2020年,人工智能计算量将增加12倍,运行人工智能工作负载的服务器将超过其他所有服务器。英伟达估计数据中心人工智能相关芯片的市场空间到2020年有260亿美元,包含训练110亿和推理150亿,AMD估计50亿美元,只含训练。短期内,GPU仍将主导训练,FPGA争夺推理市场GPU强大的并行计算能力在深度学习训练环节的优势已是市场共识。英伟达经过多年努力形成的生态系统(Cuda已到第9代,开发者51.1万,支持TensorFlow/Caffe2/MXNet等多个主流框架,扶持创业企业1300家,开源XavierDLA)已形成了较好的先发优势。谷歌TPU暂时还难以撼动英伟达GPU的市场地位(专门适用于TensorFlow,单片TPU45teraflops,低于单片英伟达V100的120teraflops)。而在推理环节,目前主要由CPU兼任,但需要低延迟的实时推理,或者需要低功耗的场景,将逐渐由FPGA替代(平均每瓦特的性能在图片CNN算法推理、语音LSTM算法推理上,比CPU分别提高30/81倍)。英特尔和赛灵思的FPGA已分别被微软Azure和AWS采用。长期来看,训练和推理、云和终端都将更多采用ASIC然而,CPU、GPU和FPGA都属于通用芯片,并非专门为人工智能开发。我们相信,随着市场需求的扩大,各类专用芯片将最终占据主流地位,不论是在训练还是推理环节,不论是云数据中心还是移动终端。除了谷歌这样的云服务商外,英特尔(LakeCrest)、英伟达(Xavier)、高通等芯片商,以及Groq(原TPU开发者离职创立)、WaveComputing、Graphcore等创业公司(参见图表13-16)都在积极研发AI专用芯片。当前面临的主要困难(特别是对创业公司)是芯片研发的高成本和市场培育。股票标的:英伟达、博通、赛灵思当前我们依然看好英伟达,来自TPU和AMD的竞争,不影响我们对英伟达数据中心收入未来3年年均增长90%的假设。博通是谷歌TPU的ODM伙伴,不仅合作设计,也通过分包商帮忙谷歌完成芯片的制造、测试和封装。此外,公司还与另外至少2家客户定制人工智能方面的芯片。就公司整体而言,我们还看好其在高端射频方面的增长前景,以及利润率和红利现金回报的提高(参见报告《5G黎明》)。就赛灵思而言,虽然管理层谨慎有加,未能就数据中心业务给出更高的收入指引,使股价催化剂延迟,但因其估值与其他高质量半导体公司相当,公司市场份额持续提高,股价下行风险也相对有限。分析员何玫,CFASAC执证编号:S0080512090005SFCCERef:AVJ148mei.he@ciccus.com相关研究报告•赛灵思未能提高长期指引,等待催化剂(2017.05.24)•谁能赢得自动驾驶共享出行市场?(2017.05.23)•人工智能的世界有多大?(2017.05.20)•谷歌I/O大会:践行AI优先战略,估值可再扩张(2017.05.18)•英伟达助力AI革命,数据中心和汽车业务尚有广阔增长空间(2017.05.11)•赛灵思季报超预期,5G、自动驾驶和AI三重利好将逐一显现(2017.04.28)•寻找AI+淘金热中的卖水人(2016.12.04)中金公司研究部:2017年5月26日请仔细阅读在本报告尾部的重要法律声明2图表1:人工智能革命将引起芯片行业格局重新调整资料来源:英特尔公司披露,谷歌I/O大会2017图表2:数据中心AI芯片市场空间到2020年可达260亿美元中金公司研究部:2017年5月26日请仔细阅读在本报告尾部的重要法律声明3资料来源:英伟达投资者日、AMD投资者日图表3:CPU、GPU、FPGA和ASIC将各司其职,异构计算重要性提高资料来源:微软Build大会,谷歌I/O大会图表4:训练环节目前已大量使用GPU用Caffe2来训练CNN,8个V100只需不到10小时(8个P100需要20小时);用MicrosoftCognitiveToolkit来训练NCCL2.0,8个V100只需7小时,64个V100只需几小时(8个P100需要20小时);用MXNET训练LTSM,V100也只需几个小时资料来源:英伟达GTC大会CloudTPUCloudTPU中金公司研究部:2017年5月26日请仔细阅读在本报告尾部的重要法律声明4图表5:推理环节目前以CPU为主,但将过渡到FPGA,特别是需要低延迟的实时推理…微软Azure最早采用FPGAs加速云数据中心运行某个API,1个CPU延迟442ms,9个CPU延迟56ms,9个FPGAs延迟15ms资料来源:微软Build大会中金公司研究部:2017年5月26日请仔细阅读在本报告尾部的重要法律声明5图表6:…或者需要低功耗的场景FPGAs平均每瓦特的性能在SQL查询、视频转码、图片CNN(卷积神经网络)算法推理、语音LSTM(长短期记忆网络)算法推理上,比CPU分别提高33/18/30/81倍。而相比GPU,还能进行存储和联网。资料来源:赛灵思投资者日图表7:但长远来看,训练和推理都可由类似谷歌TPU的ASIC取代第二代TPU可进行训练和推理,4片TPU单机可进行180teraflops浮点运算(单个英伟达V100可对TensorFlow进行120teraflops浮点运算)。64个TPU组成的TPUPod可进行11.5petaflops浮点运算资料来源:谷歌I/O大会2017中金公司研究部:2017年5月26日请仔细阅读在本报告尾部的重要法律声明6图表8:英伟达V100是目前最先进的数据中心GPU,相比Pascal,训练速度提高12倍,推理速度提高6倍资料来源:英伟达公司博客图表9:公司还想借V100进入推理环节V100在推理环节的通量达5000张图片每秒,延迟7ms,速度比英特尔Skylake(300张图片每秒/延迟10ms)提高15-25倍。而为得到同样通量,成本可节约90%(实现每秒5万次推理,需要230万美元、12racks的CPU,却只需24万美元、1rack的GPU)资料来源:英伟达GTC大会,英伟达投资者日TeslaProductTeslaK40TeslaM40TeslaP100TeslaV100GPUGK110(Kepler)GM200(Maxwell)GP100(Pascal)GV100(Volta)SMs15245680TPCs15242840FP32Cores/SM1921286464FP32Cores/GPU2880307235845120FP64Cores/SM6443232FP64Cores/GPU9609617922560TensorCores/SMNANANA8TensorCores/GPUNANANA640GPUBoostClock810/875MHz1114MHz1480MHz1455MHzPeakFP32TFLOP/s*5.046.810.615PeakFP64TFLOP/s*1.682.15.37.5PeakTensorCoreTFLOP/s*NANANA120TextureUnits240192224320MemoryInterface384-bitGDDR5384-bitGDDR54096-bitHBM24096-bitHBM2MemorySizeUpto12GBUpto24GB16GB16GBL2CacheSize1536KB3072KB4096KB6144KBSharedMemorySize/SM16KB/32KB/48KB96KB64KBConfigurableupto96KBRegisterFileSize/SM256KB256KB256KB256KBRegisterFileSize/GPU3840KB6144KB14336KB20480KBTDP235Watts250Watts300Watts300WattsTransistors7.1billion8billion15.3billion21.1billionGPUDieSize551mm²601mm²610mm²815mm²ManufacturingProcess28nm28nm16nmFinFET+12nmFFN中金公司研究部:2017年5月26日请仔细阅读在本报告尾部的重要法律声明7图表10:英特尔即将推出可并行计算的CPU(KnightsMill)、FPGA与CPU整合(Skylake+Arria10)和ASIC(LakeCrest)资料来源:英特尔公司披露图表11:AMD计划6月推出Radeon™VegaFrontierEdition,尝试进入深度学习训练领域,并希望实现CPU(Naples/EPYC)与GPU的交叉销售资料来源:AMD投资者日中金公司研究部:2017年5月26日请仔细阅读在本报告尾部的重要法律声明8图表12:赛灵思部署于AWS的F1实例,今年4月开始公众开放,目前累计被调用2000次资料来源:赛灵思投资者日图表13:正在研发ASIC的创业公司包括WaveComputing…WaveComputing于2010年12月成立于加州,今年4月刚获得D轮融资。公司正在研制专门用于深度学习训练和推理的芯片DPU(DataflowProcessingUnit),达到高度并行计算,高存储带宽和低计算精度。单片峰值处理能力达2.9PetaOPS/秒,且无需CPU来管理工作流。公司计划未来几个月内向其早期客户发货。资料来源:WaveComputing公司网站,Crunchbase中金公司研究部:2017年5月26日请仔细阅读在本报告尾部的重要法律声明9图表14:…Graphcore…Graphcore成立于2016年,总部位于英国,其团队成员来自Altera(被英特尔收购)和Icera(被英伟达收购)。公司的产品主要是IPU(IntelligentProcessingUnit)处理器,该处理器经过优化,可以高效的处理机器学习领域中极其复杂的高维模型。IPU强调大规模并行运算和低精度浮点运算,与其他解决方案相比,IPU拥有更高的计算密度以及超过100倍的内存带宽,可以完全在内部处理机器学习模型,拥有更低的能耗与性能。IPU产品包括IPU设备与IPU加速器,前者旨在为云和企业数据中心服务,帮助加速AI应用并降低成本,并将训练和推理环节提速10x和100x;后者是一个PCle卡,能够插入服务器中以加速机器学习应用。公司还为主流机器学习框架例如TensorFlow和MXNet提供无缝界面。为了支持该界面,Graphcore推出了灵活的开源图形编程软件框架Poplar,其中包含工具、驱动及应用库,使用C++或Python界面,允许开发人员修改和扩展库,从而更快更方便的使用IPU系统。公司表示,其产品可以让客户在同一芯片上进行训练和推理,例如白天进行推理(算法执行),夜间利用当日获得的新数据对算法进行再训练。公司计划今年之内向早期客户发货。截至目前仅在成立时进行了一笔A轮融资,融资额3200万美元,RobertBoschVentureCapital和SamsungStrategyandInnovationCenter领投。资料来源:Graphcore公司网站,Crunchbase图表15:…CerebrasSystems…资料来源:Graphcore公司网站,CrunchbaseCerebrasSystems成立于2016年,总部位于加州LosAltos,目前正在研制下一代用于深度学习训练的芯片。Cer
本文标题:中金公司AI芯片谁与争锋
链接地址:https://www.777doc.com/doc-6811587 .html