您好,欢迎访问三七文档
博士研究生开题报告大规模集群系统的计算资源与作业管理王韬wangtao@pku.edu.cn北京大学信息科学技术学院·网络研究所并行与分布式计算组·网络研究所提纲第一部分:面临着的挑战第二部分:解决问题的若干思路第三部分:研究重点的确立第四部分:博士论文工作计划信息科学技术学院·网络研究所第一部分:面临着的挑战第一部分:面临着的挑战大规模集群中的计算资源与作业管理问题着手前的一些零散思考第二部分:解决问题的若干思路第三部分:研究重点的确立第四部分:博士论文工作计划信息科学技术学院·网络研究所集群系统,计算资源与作业管理集群系统-日益重要的高性能计算环境集群系统:网络技术连接起来的计算机组合,协同工作人们对计算资源的需求远远超过单处理器的发展具有最高性价比的高性能计算环境重要的领域-计算资源与作业管理人们可以制造峰值计算能力每秒几十万亿次的集群系统人们不知道应当如何充分利用这些计算能力不仅仅单个并行程序无法有效利用集群系统,多个程序(作业)同时运行时也很难充分利用集群系统资源性能-搭建集群系统的首要目的:使我们关注“计算资源与作业管理”领域的研究信息科学技术学院·网络研究所本研究的对象:大规模集群面向环境大规模集群系统可能的扩展:网格计算面临着的问题大规模环境,节点数目众多,连接复杂组成系统的各个节点计算能力可能不同可能有物理上的多层次拓扑系统需求:功能与性能最终要能够充分地利用系统的计算能力第一部分:面临挑战信息科学技术学院·网络研究所问题着手前的一些零散思考[1]集中式管理设立一个管理节点,对所有节点进行集中式管理管理节点具有全部系统信息,易于进行调度整个系统实现起来最简单可采用多管理节点相互备份功能,提高效率问题一:大规模系统中的单节点瓶颈所有资源管理工作由单一节点完成,这个节点负担大,且其它节点需等待此节点的处理结果所有信息集中在单一节点,当此节点失效时,系统重新产生管理节点的代价大问题二:大规模系统中的信息滞后通过网络通信,无法及时获取所有节点的资源信息资源管理信息产生后,很难及时通知到所有相关节点第一部分:面临挑战信息科学技术学院·网络研究所问题着手前的一些零散思考[2]完全分布式管理每个节点都含有其它节点的信息减轻了大规模系统中的单节点瓶颈问题注意,在信息获取后,每节点对所有节点信息的整合工作所需工作量与集中式相同,但每节点只需产生自己的调度信息,且不必将此信息传递给其它节点未解决大规模系统中的信息滞后问题引发新的问题网络中消息数目过多获取信息时,集中式算法中只需要N-1条(对)消息,而完全分布式算法需要N*(N-1)条消息,或者N-1条广播当系统规模变大时,由于所得其它节点的信息可能滞后,各节点进行分布式资源管理所需协调工作更加复杂第一部分:面临挑战信息科学技术学院·网络研究所问题着手前的一些零散思考[3]跨网络管理大规模集群系统中的一部分可能处于一个内部子网外界只能访问子网内连接到外部网络的节点解决方法将子网内连接到外部网络的节点作为“代理”,系统管理“代理”,“代理”管理内网于是,如何有效地将这种“代理”纳入到整体模型中就成为一个与性能相关的问题第一部分:面临挑战信息科学技术学院·网络研究所问题着手前的一些零散思考[4]信息的获取与处理系统需要什么样的信息,才能够有效地进行下一步的资源与作业管理工作信息越丰富,越有助于资源管理的精确性信息越丰富,各节点负担越大、通过网络传输的数据量越大、资源管理的所需算法越复杂各节点的存在信息与资源信息定时检测:心跳处理器、内存、网络……物理资源信息和可用资源信息处理节点的动态加入与退出第一部分:面临挑战信息科学技术学院·网络研究所第二部分:解决问题的若干思路第一部分:面临着的挑战第二部分:解决问题的若干思路直观想法:分层次进行资源管理理论方面的三大问题综合考虑:猜想中的信息团模型第三部分:研究重点的确立第四部分:博士论文工作计划信息科学技术学院·网络研究所直观想法:分层次进行资源管理思想根源一台计算机的资源管理,应该对离它越近的计算机影响越大,因此可以将相隔近的计算机组成小系统,小系统之间再管理在不同网络的两个计算机系统之间的影响应当较小试图解决在大规模集群系统中的若干问题单节点瓶颈管理消息过多、管理复杂信息滞后、跨网络管理第二部分:若干思路信息科学技术学院·网络研究所对于资源的分层次管理思想系统的层次化分解与组合根据性能及网络情况,将系统分为若干子系统每个子系统内部进行管理,再将子系统作为整体进行管理可以根据需要,进行子系统分解与组合对层次化管理思想的分析它只是一个指导思想:“层次化的管理原则”人类的经验表明,层次化的管理原则是正确的关键在于,如何将这个思想原则,对应成实际的模型与系统第二部分:若干思路信息科学技术学院·网络研究所层次化管理思想的两个方面理论与实现理论方面:这种分层次进行资源管理相关的资源、作业模型是什么、如何交互(管理模型)实现方面:如何在大规模的实际集群系统上高效实现分层次进行资源管理实现方面需要理论方面进行指导理论方面需要实现方面作为表现极大的挑战性世界上尚未出现令人信服的模型世界上更未出现完全高效的系统这正是我们的机遇,同时也是严峻的挑战本报告中主要讨论理论方面最后部分将简单介绍实现方面的一些考虑第二部分:若干思路信息科学技术学院·网络研究所理论方面的三大问题大规模集群系统的机器模型是什么哪些计算资源是重要的;如何描述;性能参数是什么这些计算资源在大规模系统中的逻辑拓扑是什么能有效利用这些计算资源的任务模型是什么如何描述任务的需求如何动态预知任务对资源的需求情况层次化管理的逻辑模型和性能模型是什么如何根据给定的机器描述与作业/任务描述,得到最适合的管理方式,并指导下一步的调度策略及算法如何根据逻辑模型得到的结论,给出性能参数以及对性能的预测与评价只要解决了这三个问题,就解决了理论方面的问题第二部分:若干思路信息科学技术学院·网络研究所对理论方面的分析一:机器模型机器模型计算资源逻辑拓扑任务模型管理模型第二部分:若干思路信息科学技术学院·网络研究所机器模型之计算资源重要的计算资源处理器、内存、网络,……重要的信息资源静态信息:各计算机计算资源的固有性质资源动态信息:各计算机的计算资源的当前可用情况信息表述多元组表示:C,M,N统一数值表示尚需更加深入的认识需要确定信息表述的方法需要给出性能参数与性能公式第二部分:若干思路信息科学技术学院·网络研究所机器模型之逻辑拓扑层次化树状结构-系统节点树树中的每个节点,代表一个子系统父节点代表其全部子节点每个父节点只需对其子节点进行资源管理全部叶子节点是系统的实际物理节点引入概念:信息点与信息负责点信息点:在子系统内,代表一个子节点的计算机信息负责点:在子系统内含有整个子系统信息的计算机、对外代表整个子系统可以适应大规模集群系统子系统的构造参考实际网络结构对于N个节点的系统,层数为O(logN)动态可扩展性可将不同网络的系统组织成更大系统、甚至可扩展到Grid系统需要考虑节点的动态加入与退出机制第二部分:若干思路信息科学技术学院·网络研究所关于系统层次划分的思考需要一个指导方法,使系统可能达到最大服务能力适应层次化管理思想参考实际网络结构,在各种实际系统中指导如何划分层次决定每一层次需要什么样的计算资源信息(以及负载信息)几点在大规模集群系统中的具体目标避免单节点瓶颈产生较少的管理消息使管理尽量简单化,尽量不影响计算机本身计算避免信息滞后问题实现跨网络管理处理节点的动态加入与退出两点猜想各层所需信息不同:似乎是显然的最底层应小规模且对等第二部分:若干思路信息科学技术学院·网络研究所猜想:最底层应小规模且对等相对集中式管理的优势每台计算机都有子系统全部信息利于避免单节点失效资源管理时能够更有效地统筹全局进行资源管理时无需等待主节点处理结果可以随意选择一台计算机作为信息负责点,如最轻负载可避免传统分布式处理方法的不足各计算机一定在同一子网中,可利用高效组播获取信息当计算机数目少的时候,信息滞后问题可忽略,可认为所有信息都即时准确,故可采用相对简单的算法实现分布式资源管理猜想小结最底层计算机数目应较少(例如10个),形成信息团第二部分:若干思路信息科学技术学院·网络研究所机器模型逻辑拓扑小结基本描述层次化树状结构可以适应大规模集群系统动态可扩展性两点猜想:各层所需信息不同、最底层应小规模且对等尚需工作上述描述仅仅是理论的前身,需要证明与细化非最底层应当如何组织尚未清楚图示:一种可能的系统逻辑图第二部分:若干思路信息科学技术学院·网络研究所学界对机器模型的相关研究关于计算资源的表示从传统的只考虑处理器信息,到考虑内存、网络、IPC资源等信息越来越注重实际系统:开始考虑多层次、异构结构等实际问题一个面向层次化结构的研究F.D.Sacerdoti,…,D.E.Culler,“WideAreaClusterMonitoringwithGanglia”,ProcIEEECluster2003Conference偶然发现此文章关于机器模型方面与我们的猜想很相象,除了“最底层小规模且对等”;间接坚定了我们的信心没有解决每个层次应该提供什么样的信息,只是同样阐述“更高层提供更综合的信息”的原则没有提及每个层次的系统应当如何组织的问题另一个相关研究:从网格信息提供的角度考虑问题第二部分:若干思路信息科学技术学院·网络研究所对理论方面的分析二:任务模型机器模型任务模型任务描述需求预知管理模型第二部分:若干思路信息科学技术学院·网络研究所考察学界现有的任务模型[1]最直观的任务描述方法任务所需要的处理器个数任务在某个处理器上的执行时间任务之间的执行序关系目前任务描述方法的不足多数研究假定每个任务在每个处理器上的执行时间已知、任务之间的通信时间也已知有些研究假定任务工作量相等,有些假定任务间无关系顶尖的期刊中也有很多这样的情况(如IEEETPDS,2004.4.,SchedulingStrategiesforMaster-SlaveTaskingonHeterogeneousProcessorPlatforms)第二部分:若干思路信息科学技术学院·网络研究所考察学界现有的任务模型[2]近年来开始考虑切合实际的任务模型着眼点转向任务对资源的需求最初只考虑对处理器时间的需求,后来开始考虑内存、I/O等需求GlobusToolkit3中使用RSL2语言(ResourceSpecificationLanguage)来沟通任务对资源的需求:一种XML进一步思考:要求任务提供对资源的需求是否合理?任务能否提供准确的资源需求任务在运行时的资源需求是否是不变量最近开始出现如何动态对任务需求进行预知的研究不要求任务在运行前提供准确的资源需求运行时动态处理第二部分:若干思路信息科学技术学院·网络研究所任务模型之任务描述对资源需求的描述对不同资源分别处理:将对各种资源的需求描述为一个N元组,按照顺序进行配对,如处理器数目、处理器时间,内存,I/O,IPC;N元组的顺序也是一个考虑因素统一参数:将对不同资源的需求通过某些算法统一归结为一个参数;如统一成处理器利用率等精确度与简单性的权衡任务之间关系的描述已有经验:LilyTask并行模型中的任务关系待研究问题提供什么样的资源参数供任务进行描述第二部分:若干思路信息科学技术学院·网络研究所任务模型之动态需求预知感知任务运行时对资源的需求利用系统调用,可以得知任务对CPU、内存等计算资源的使用情况使用资源预
本文标题:信息科学技术学院
链接地址:https://www.777doc.com/doc-46091 .html