您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > Paramon&Paratune应用运行特征分析器介绍2014版
Paramon&Paratune软件简介北京并行科技有限公司Paramon广泛应用于高性能计算、云计算领域等大型数据中心,一秒一刷新显示收集机群处理器、内存、网络、存储、能耗、License、作业等数据,生成.para应用运行特征文件,为大规模机群应用分析、设计、优化提供大数据支撑;同时,提供全过程机群及应用运行状态的实时监控、管理和性能异常报警。Paramon和Paratune概述Paratune用于分析由Paramon生成的.para应用运行特征文件,精准显示应用运行过程中的特征,为各类大规模机群应用建立大数据支撑平台,提供多样性(Variety)、体量化(Volume)、速度化(Velocity)、有价值(Value)的应用运行特征数据库,帮助用户完成应用机群构建、机群应用运行过程重构、应用程序优化等工作。性能数据模块机群管理模块扩展模块Paramon软件架构性能数据文件(.para文件)ClientClientClientClientServer系统级性能数据微架构级性能数据远程登录管理远程操作管理并行命令管理报警事件管理显示节点软硬件信息统计报表网络模块文件系统模块IO统计模块GPU管理模块MIC管理模块能耗管理模块进程管理模块作业管理模块数据存储数据显示前台系统后台系统支持Linux和WindowsParamon采集数据性能数据模块系统级性能数据CPUUSED%利用率CPUSYS%利用率Memory%利用率SWAP%利用率EthernetSend速率EthernetRecv速率DiskRead速率DiskWrite速率微架构级性能数据Gflops浮点计算性能MemoryBandWidth速率CPI,代码执行效率VEC%,向量化比例AVX%,AVX指令比例GIPS,每秒执行指令总数LLCM%,LastLevelCacheMISS百分比机群管理模块远程登录管理远程操作管理批量节点远程关机/重启批量节点清除SWAP自定义节点操作并行命令管理报警事件管理默认报警事件(智能识别低效进程,CPU系统时间报警,节点失效报警,CPU核数缺失报警,内存总量缺失报警,磁盘总量使用情况的报警,网络状态的报警,….)自定义报警事件显示节点软硬件信息统计报表作业统计节点/集群统计扩展模块网络模块InfiniBand网络收发速率文件系统模块NFS读写速率IO统计模块tps,await,util%GPU管理模块NVIDIAGPU%MIC管理模块能耗管理模块节点POWER%利用率进程管理模块作业管理模块SLURMLSFSGETORQUE独立于硬件平台,支持上千节点混合机群Paramon监控单服务器CPUGPUEthernetInfiniBandSwapMemoryDiskNFSParamon功能特点每秒刷新负载极低与SLURM作业调度系统集成监控用户进程集成四项基本测试提高集群系统运维效率快速识别应用性能瓶颈在计算结点上Paramon程序负载非常小计算结点上的Paramon程序每秒刷新负载极低设计目标为服务器CPU资源占用率低于0.1%与SLURM作业调度系统集成单独显示作业所在的节点Paramon监控用户进程显示每个CPU核心运行的进程ID和用户ID,格式:进程ID@用户ID节点主机名集成四项基本测试Linpack、Stream、IOzone、IMB测试硬件性能,找出系统瓶颈同一屏幕内机群及应用状态实时报告提高集群系统运维效率6套机群1350节点实时监控低效运行节点CPU报警节点离线报警节点未启动网络报警内存报警正常工作节点一目了然横轴:时间坐标纵轴:相对数值坐标Paratune单服务器应用性能分析快速识别应用性能瓶颈两组节点上作业应用性能应该相同作业在节点组1上遇到性能瓶颈节点组2节点组1快速识别应用性能瓶颈放大使用到SWAP交换分区ParaPortalParaPortal是基于Paramon开发的,建立在B/S模式上的集群和应用运行性能展现工具,有如下功能:数据中心运行历史信息进行统计数据中心资产管理支持调度系统作业统计支持许可证使用历史信息进行统计资产管理节点监控应用许可管理作业管理作业管理:显示所有历史作业信息节点历史状态统计节点统计:以节点为单位,根据时间点(半小时、一小时、今天、本周、本月、三个月、半年、一年)进行统计分析,并生成报表集群历史状态统计集群统计:以集群为单位,根据时间点(半小时、一小时、今天、本周、本月、三个月、半年、一年)进行统计分析,并生成报表单机版V0.1.0V1.0.0V1.2.3V2.0.0V2.3.0V3.0.0V4.0.0里程碑里程碑内容阶段单机版时代2008.02V0.1.0时代2008.05V1.0.0时代2009.04V2.0.0时代2011.09V4.0.0时代2013.10V3.0.0时代2012.09单机版基本数据采集和分析机群版基本数据采集和分析支持IB网络支持网络文件系统机群远程命令管理Parasoft软件发展历程机群故障报警优化软件性能支持Gflops等微架构数据支持GPU数据机群并行命令优化软件性能提供应用进程分析IO扩展包集成作业调度系统后台数据采集简化软件安装优化GPU数据采集北京并行科技有限公司
本文标题:Paramon&Paratune应用运行特征分析器介绍2014版
链接地址:https://www.777doc.com/doc-7872197 .html