您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > CNCC大数据报告(CCF网站用)37
大数据对计算机系统的挑战李国杰中国科学院计算技术研究所2013年10月,长沙CNCC大数据论坛针对大数据应用,计算机系统结构需要革命性的重构计算机系统结构需要革命性的重构历史上设计计算机系统的主要目标是充分发挥CPU的计算性能,较少关心如何满足持续的数据存取要求。存储墙问题尚未解决,又遇上大数据应用,计算机系统的负载发生了本质性变化,计算机系统结构需要革命性的重构。信息系统需要从数据围着处理器转改变为处理能力围着数据转,关注的重点不是数据加工,而是数据的搬运;系统结构设计的出发点要从重视单任务的完成时间转变到提高系统吞吐率和并行处理能力,并发执行的规模要提高到10亿级以上。构建以数据为中心的计算系统的基本思路是从根本上消除不必要的数据流动,必要的数据搬运也应由“大象搬木头”转变为“蚂蚁搬大米”。4应用负载特征任务的并行度性能成本要求可靠性要求性能目标高通量计算系统(数据中心)网络服务海量规模:EB级数据,亿级并发任务多样:负载频繁变化,单个任务计算量不大局部性差:服务实例内部相关性高,不同服务实例之间相关性低固有充足的线程级并行性成本决定服务提供者的生存和收益单个部件失效对应用影响不大。不同性质数据有不同的可靠性要求:如可再生数据和用户数据可靠性的差异高通量:提高单位时间内处理的并发任务数目高性能计算系统(应用)科学和工程计算任务单一:负载变化不频繁,单个任务计算量大局部性好:计算集中于若干核心任务,局部性有利于加速核心计算速度和提高数据带宽、需要用适当的方法挖掘出可利用的并行性优先追求性能,再兼顾成本单个部件失效可能导致整个应用计算停顿,需要用检查点技术来保存中间计算结果以恢复计算过程。高速度:缩短单个并行计算任务的运行时间数据中心计算机与高性能计算机的区别从高性能计算机到高通量计算机大数据处理不同于科学计算的超级计算机,不是追求尽量缩短单个任务的计算时间,而是在允许的时间范围内处理尽可能多的任务(数据或线程),体系结构需要根本性的变革。下一代数据中心的服务器–基于数据中心,提供高并发数据处理服务的高扩展、低成本的大型计算机软硬件系统特征–尽量提高并发线程数–尽量提高每瓦线程数–适当控制每线程的功率“Little’sLaw”:=L/WNewobservations:=L(E/W)(1/E)Throughput=VolumeWattsperthreadThreadsperJoule5高通量计算机的特点传统的高性能计算机主要是“算得快”;旨在更快地解决更大的问题高通量计算机是“算得多”,即并发处理的数据多、请求多,典型负载如无线通信控制系统、网上视频服务系统;高通量计算机不能通过简单地堆积处理单元获得,也不同于GoogleWSC把Internet上许多分布的互联网计算中心的资源通过分布式软件联合在一起,提供一种服务。6云计算系统与高通量系统高通量意在提高单应用的性能;云计算意在提高很多用户、很多应用、很多任务、很多样负载下的效能;云计算系统追求多种资源与多种负载的动态匹配,要解决突发高负载的问题,追求所需资源的即要即得,追求资源的并发使用;高通量计算系统是云计算数据中心的一种核心设备;云计算系统通过优化设计也能提高通量;7计算机体系结构要做什么变革?上世纪60年代,IBM在研制360计算机时提出计算机体系结构的概念,当时一个重要的技术发明是区分了定点与浮点计算,超级计算机的贡献主要体现对浮点计算的加速,现在需要重新考虑这个问题,有没有类似的技术突破?计算机体系结构的研究必须从分析负载(workload)做起,一定先要有符合应用实际的benchmark,才能找到修改体系结构的正确方向。CPU是计算机的核心,大数据需要什么样的CPU必须做出回答。片内众核如何连接必须仔细选择,硬件实时调度也是新的设计需求。多级缓存(Cache)是计算机体系结构研究的核心问题,很长一段时间,ISCA会议几乎成了Cache会议,现在需要重新考虑Cache的作用和实现机制。大数据应用Benchmarks没有适合大数据的性能测试基准SPECCPUSPECWebHPCCPARSECTPCCGridmixYCSBDCBench数据中心基准测试程序集2013年7月发布大数据基准测试程序集2013年6月发布(前端、后端)DCBenchBigDataBenchDCBench:数据中心benchmarks典型数据中心负载–整型操作和数据移动操作主导的计算–负载类型涵盖分析,服务,虚拟化负载–覆盖数据中心主要领域应用意图–评测数据中心服务器系统–体系结构研究–中小规模的系统研究13/推荐聚类分类数据仓库操作流媒体图计算排序统计索引分词DCBench:数据中心负载体系结构特性Scale-outService(CloudSuite刻画,ASPLOSbestpaper)和传统服务类负载差别不大分析类负载和传统桌面、服务负载,HPC负载差别明显与服务类负载相比,分析类负载–大量应用层指令–较好的局部性–较低的分支错判率14指令执行层次分支错判率CharacterizingDataAnalysisWorkloadsinDataCenters.(IISWC-2013bestpaper)分析类服务类BigDataBench:大数据benchmarks大数据3个基本方面–负载•涵盖典型Internet应用场景•State-of-art算法–软件栈•分布式计算框架•NoSQL数据库•SQL数据库/仓库–数据•多样性•真实性•扩展性15/场景操作/算法类型社交网络搜索引擎电子商务19个负载离线分析交互分析在线服务计算框架NoSQL数据库SQL数据库/仓库HadoopSparkMPIHbaseCasandraMongoDBImpalaSharkMySQLHive多样性扩展性真实性结构半结构非结构6个真实数据集文本生成器图生成器表生成器负载软件栈数据BigDatabench:浮点计算密度低BigDataBench和HPC、PARSEC、SPECFP负载相比浮点计算密度低2-3个数量级–与IntelXeonE5645理论浮点计算密度差3个数量级,低效大数据处理!–计算方法:总浮点操作指令数/总访存字节数16BigDataBench:aBigDataBenchmarkSuitefromInternetServices,LeiWangetc.ICTTechnicalReport大数据对基于仿真的体系结构的挑战指令执行–Grep负载的MIPS指标在处理32GB和1TB数据时差距为2.9倍Cache行为–Kmeans负载的L3Cachemiss指标在处理32GB和1TB数据时差距为2.5倍17BigDataBench:aBigDataBenchmarkSuitefromWebSearchEngines,WanlingGaoetc.ASBD2013inconjunctionwithThe40thISCA创建国际大数据Benchmark论坛,推动国际标准.–daytutorial:UCSD创建的workshoponbigdatabenchmarking发布3个月以来的用户使用情况•OhioStateUniversity:大数据处理通信优化•UniversityofScienceandTechnologyofChina:不同硬件平台大数据处理性能比较•ShanghaiJiaoTongUniversity:大数据虚拟化评测•Xi‘anjiaotonguniversity:大数据性能诊断•UniversityofChineseAcademyofSciences:大数据调度算法评测•NationalComputernetworkEmergencyResponseTechnicalTeamCoordinationCenterofChina:大数据应用功耗评测•HuaweiCo.Ltd.:高通量计算机评测19支持万级并发请求的高通量处理器设计大数据应用与传统CPU设计方法有冲突应用特征分析发现,CPU的应用需求和现有设计方法有明显冲突:(1)数据格式与处理器数据结构不匹配;(2)数据流动与处理器数据通路不匹配;(3)数据专用处理需求与处理器结构通用性不匹配;(4)数据实时处理需求与处理器结构预测性不匹配。当前主流的数据中心系统(以Google为代表)采用基于廉价服务器(主流的体系结构,追求高指令级并行)构造的集群系统,功耗大,运行成本高,可靠程度低,更新周期短,数据处理能力远远低于不断增长的并发负载的需求。Google当前的系统离实时地处理互联网信息还有很远距离,更无法追溯信息或者知识的相互关系,无法主动地向大众提供其关注的信息和知识。整形计算与浮点计算比率大数据应用具有更多的整数计算原因:1)计算类型的多样性;2)数据移动导致的整形计算,许多大数据应用不是数据加工,而是数据的搬运。22-1-0.500.511.522.53log(Integer/Float)23面向大数据的高通量众核处理器ICT-DPU设计目标高吞吐弱化单线程性能要求,提高执行部件利用效率提高访存带宽的整体利用效率低延迟为高优先级的数据提供快速通路减少片上数据传输延迟影响易扩展易于进行同构/异构组件的扩展加速器件的多层扩展组合与3D工艺扩展强实时微结构可预测片上网络和微结构可满足优先级调度要求Godson-D架构设计24构建了单片千线程Godson-D架构双层环网络:降低数据传输冲突,提高数据通路带宽,保证高吞吐;锥形网络:直达访存接口的快速通道,降低访存延迟,保证实时性;+设计特色一:线程核组利用高通量数据SPMD特性和数据重用性低的特性;线程核组内共享一级ICache,隔离各逻辑核的DCache;核组中包括多个逻辑核,逻辑核之间共享功能部件,以提高计算效率;多个线程共享SPM,用于与消息式内存控制器交换可变粒度的访问;252013/10/29ThreadCoreGroupSharedI$SharedFUAGUSharedD$schedulerDispatcherDispatcherDispatcherDispatcherDispatcherDispatcherDispatcherDispatcherDispatcherDispatcherDispatcherDispatcherDispatcherDispatcherDispatcherDispatcherD$D$D$D$D$D$D$D$D$D$D$D$D$D$D$D$ThreadSharedSPMAGUAGUAGUALUALUALUALUNcycleNcycleNcycleNcycleNcycleOldest消息式内存硬件访存请求收集表(MACT)高通量处理的问题在于带宽利用率低,而不是带宽低;单位时间处理高通量访存请求越多越好,而不是越快越好;收集离散访存请求,组成消息包的形式与消息式内存交互,提高访存带宽利用率;设计特色二:高吞吐访存硬件实时性调度设计依据各线程结束时间参差不齐,在单片千线程情况下由于对片上共享资源的竞争问题更加严重,必须通过硬件支持来保证实时性。02,000,0004,000,0006,000,0008,000,00010,
本文标题:CNCC大数据报告(CCF网站用)37
链接地址:https://www.777doc.com/doc-24187 .html