您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据系统引擎技术简介33
大数据系统引擎技术简介高光荣ACMFellow、IEEEFellow中国计算机学会(CCF)海外杰出贡献奖获得者特拉华大学终身教授CAPSL实验室主任ETInternational公司创始人CCF-大数据-12-13-20141Outline•Motivation:–大数据HypeCycle的最新预测–Symbiotictrendbetweenbigdataandbigcompute•Background:大数据系统面临的严重挑战•大数据系统核心技术简介•数据流与大数据引擎的创新•大数据系统发展在中国的机遇与挑战•总结CCF-大数据-12-13-20142CCF-大数据-12-13-20143GartnerReportHypeCycleandBigData•ThisHypeCyclesitsmainlyonthePeakofInflatedExpectations.Andbig-datahasjustpassedthepeak.•Weencouragedepartment-levelexperimentationwithoutenterprisecommitmentoverthenextthreetofiveyears.CCF-大数据-12-13-20144ChallengesandOpportunitiesSymbioticofBigdataandBigcompute•SymbioticHPCcomputinganddata-Intensiveprocessing•Heterogeneity:includingsensors,controllers,mobiledevices,etc.•Massiveopportunityofconcurrency•Vastdynamicanddistributedenvironment•Asynchronousstreamprocessing•Realtimecontinuousinteractionwithenvironment•Energyefficiency,resiliencyandsecuritychallenges[Supercomputing2014特邀论坛,Gao,11/19/2014]5Outline•Motivation:–大数据HypeCycle的最新预测–Symbiotictrendbetweenbigdataandbigcompute•大数据系统引擎面临挑战•大数据系统核心技术简介•数据流与大数据引擎的创新•大数据系统发展在中国的机遇与挑战•总结CCF-大数据-12-13-20146基础需求•能从大数据中挖掘出有价值的信息性能需求•不仅关注要如何挖掘数据,更关注这个过程有多快功能需求•对实时数据的复杂分析正成为最普遍的需求成本需求•大数据技术需要的大量的处理资源对成本造成压力进一步提高性能,降低成本,让“大象”飞起来新的需求需要新的技术CCF-大数据-12-13-20147让大象飞起来的关键8适合飞行的引擎新的模型:从地面动力学模型到空气动力学模型新的结构:从腿到翅膀、热气球、滑翔伞?CCF-大数据-12-13-2014Outline•Motivation:–大数据HypeCycle的最新预测–Symbiotictrendbetweenbigdataandbigcompute•Background:大数据系统面临的严重挑战•大数据系统核心技术简介•数据流与大数据引擎的创新•大数据系统发展在中国的机遇与挑战•总结CCF-大数据-12-13-20149大数据引擎的核心技术大数据引擎大数据引擎执行模型和结构技术大数据引擎系统软件技术大数据引擎编程模型和优化技术CCF-大数据-12-13-201410CCF-大数据-12-13-201411TerminologyClarification•ParallelModelofComputation–ParallelModelsforAlgorithmDesigners–ParallelModelsforSystemDesigners•ParallelProgrammingModels•ParallelExecutionModels•ParallelArchitectureModelsExecutionModelAPIAbstractMachineModelsProgrammingEnvironmentPlatformsUsersUsersExecutionModelProgrammingModels12CCF-大数据-12-13-2014ExecutionModelAPIAbstractMachineModelsProgrammingEnvironmentPlatformsUsersUsersExecutionModelProgrammingModelsHigh-LevelProgrammingAPI(MPI,OpenMP,CnC,Xio,Chapel,etc.)SoftwarepackagesProgramlibrariesUtilityapplicationsCompilersTools/SDKHardwareArchitectureMachineRuntimeSystemLanguageRuntime13CCF-大数据-12-13-2014引擎执行模型API抽象引擎模型ProgrammingEnvironmentPlatformsUsersUsersExecutionModelProgrammingModelsHigh-LevelProgrammingAPI(MPI,OpenMP,CnC,Xio,Chapel,etc.)SoftwarepackagesProgramlibrariesUtilityapplicationsCompilersTools/SDK引擎硬件结构引擎运行时系统LanguageRuntime14CCF-大数据-12-13-2014并行执行模型及结构技术—挑战可扩展能效弹性兼容性可编程显著减少那些影响编程效率的障碍使应用能很好的扩展到超大规模并行平台最大化利用动态节能机会,平衡能效、弹性和性能对软件栈的全部组件提供良好的管理、故障检测和恢复去除或显著减少移植到未来平台的约束要求挑战CCF-大数据-12-13-201415系统软件—多核时代的挑战17多核、众核系统引发的挑战多核、众核处理器芯片(CPU)使得传统的操作系统面临空前的根本性挑战大规模片上细粒度并行打破了传统OS控制的一统天下对于系统软件,如何充分利用大规模并行实现高性能、高扩展性、低能耗、弹性、可编程性和效率?Intel8核处理器AMD12核处理器英伟达448核众核处理器由多核众核处理器组成的多核、众核系统CCF-大数据-12-13-2014系统软件—美国和西方技术走势18执行模型及结构技术的创新:运行时系统软件独立技术和学科的兴起和迅速发展。系统软件在美国和西方的最新技术走势对于并行多核系统软件构思,必须打破操作系统一统天下的栺局!动态细粒度执行模型、结构的运行时系统技术的研发。面向应用在实用案例中摸索前进。以实用性为前提,全面考虑高性能、高扩展性、低能耗、弹性、可编程性和效率的需求。避免研发误区。CCF-大数据-12-13-2014并行编程模型和优化技术—概述当前优化技术集中在静态优化方法目标机器动态调度能耗自感知和弹性控制自适应并发和资源管理BSP执行模型计算机系统结构CCF-大数据-12-13-201419并行编程模型和优化技术—挑战20多核时代为并行编程模型和优化技术带来巨大挑战并行编程模型和优化技术如何动态利用这样的机会?静态的并行编程模型和优化技术不能适应多核时代大规模并发资源的编程和管理多核芯片对于片上并发和其它资源管理是空前的机会CCF-大数据-12-13-2014并行编程模型和优化技术—最近走势细粒度并行编程模型编程模型和优化技术主要针对动态细粒度执行模型及结构避免研发误区避免盲目跟进,以实际应用为导向,避免研发误区综合考虑多方面的性能需求以实用性为前提考虑高性能、高扩展性、低能耗、弹性、可编程性和效率的需求与系统软件技术交叉前进并行编程模型和优化技术的创新,正在与运行时系统软件技术密切交叉前进解决重大实际应用问题的能力面向应用在实用案例中摸索前进CCF-大数据-12-13-201421我们的有关工作举例22我们的工作一、核心技术基地建成数据流为背景动态细粒度多线程引擎核心技术的基地(1996-2010)二、巨型计算机承担全套以细粒度多线程系统软件总体设计和工程实现-成功用于世界领先采用众核芯片技术的巨型计算机(ETI获投资总额超过3千万USD,2004-2011)。三、研发超并行执行模型承担超大型以数据流为背景的引擎执行模型(codelets)的重大研发课题(2010-2015)四、研发超并行引擎承担以数据流为基础的runtime系统软件重大研发课题:(DART/Dynax/SWARM,2013-2015)CCF-大数据-12-13-2014Outline•Motivation:–大数据HypeCycle的最新预测–Symbiotictrendbetweenbigdataandbigcompute•Background:大数据系统面临的严重挑战•大数据系统核心技术简介•数据流与大数据引擎的创新•大数据系统发展在中国的机遇与挑战•总结CCF-大数据-12-13-201424Inspiration:JackDennisCCF-大数据-12-13-2014GeneralpurposeparallelmachinesbasedonadataflowgraphmodelofcomputationInspiredallthemajorplayersindataflowduringseventiesandeighties,includingKimGostelowandI@UCIrvine[ByArvind:ISCA2006Keynote]252526EvolutionofMultithreadedExecutionandArchitectureModelsNon-dataflowbasedCDC66001964MASAHalstead1986HEPB.Smith1978CosmicCubeSeiltz1985J-MachineDally1988-93M-MachineDally1994-98DataflowmodelinspiredMITTTDAArvind1980ManchesterGurd&Watson1982*T/Start-NGMIT/Motorola1991-SIGMA-IShimada1988MonsoonPapadopoulos&Culler1988P-RISCNikhil&Arvind1989EM-5/4/XRWC-11992-97Iannuci’s1988-92Others:Multiscalar(1994),SMT(1995),etc.Flynn’sProcessor1969CHoPP’77CHoPP’87TAMCuller1990TeraB.Smith1990-AlwifeAgarwal1989-96CilkLeisersonLAUSyre1976EldoradoCASCADEStaticDataflowDennis1972MITArg-FetchingDataflowDennisGao1987-88MDFAGao1989-93EARTHCAREPACT95’,ISCA96,Theobald99Marquez04HTVM/TNT-XGaoet.al.12/18/2014CCF-大数据-12-13-2014CCF-大数据-12-13-201427CPUMemoryFine-Grainnon-preemptivethread-The“hotel”modelThreadUnitExecutorLocusCoarse-Grainvs.Fine-GrainMultithreadingAPoolThreadC
本文标题:大数据系统引擎技术简介33
链接地址:https://www.777doc.com/doc-28532 .html