您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 招标投标 > 数据中心在线运维方案
7*24小时数据中心在线运维和运营大数据分析北京并行科技有限公司•陈健现任北京并行科技有限公司CEO。并行科技()是专业高性能计算数据中心服务商。•2005-2010年在英特尔中国历任高性能计算架构师、资深性能优化工程师,负责中国大型HPC及前沿HPC项目系统架构设计、HPC系统的优化及高性能计算技术推广,研究方向为高性能计算机系统架构、并行计算、应用软件及系统调优。在2008年参与完成了中科院超算中心100万亿次超级计算机的设计,并最终实现实测性能超过100万亿次,全球排第19名、中国Top100第二名。于2007年完成胜利油田高性能计算机的性能优化设计,实现实测性能18.6万亿次,2007年中国排名第一。•2002-2005年在联想集团高性能服务器事业部工作,作为方案负责人参与了联想深腾万亿次、四万亿次超级计算机的研制。•2002年毕业于清华大学工程力学系,获流体力学博士学位,期间在荷兰TUDelft大学做访问学者一年,参与了荷兰国家计算中心SGI万亿次超级计算机的研制和测试ParaPlus全方位HPC服务增值服务使用培训系统交接系统架构设计应用运行特征分析软硬件产品选型应用测试系统平台测试验收系统平台实施搭建在线运维售前售中售后7*24小时数据中心在线运维介绍传统运维服务现状:中国存在大量的中小数据中心,缺少专业的运维团队,缺少专业数据中心管理软件,面对越来越复杂的系统,急待解决日益复杂的管理问题现有解决方案:购买运维软件、雇佣高级管理员、购买驻场、巡检、上门运维服务等创新7*24小时在线运维将现场运维服务转变为通过互联网的数据中心在线运维减少购买运维软件减少专业管理员的压力减少购买上门运维服务某信息中心服务器状态并行科技在线运维监控中心上线OITS在线运维让超算中心运营更高效,让研究人员更专注用户端用户自助全自动部署后台数据采集模块,CPU消耗低于0.1%,4KB/s数据流量,防火墙打开数据传输端口,只对并行科技IP开放特定端口云端1-Paramon数据中心实时可视化,程序自动分析值守2-ParaAlarm手机App对管理员,系统维护实现无人值守,只需要处理报警事件,由管理员、厂商或者并行科技远程主动修复故障,让用户体验稳定、可靠、好用的超算环境对用户,实时报告作业运行情况,作业异常推送报警事件,作业结束推送消息(开发中)3-ParaPortal历史数据分析4-ParaReport自动周报、月报、年报5-ParaDashboard数据中心运营看板,可自定义,从底层数据直接生成,提供准确数据供领导决策6-Paratune基于秒级历史数据的故障和性能分析,快速发现并定位系统运行故障和瓶颈7-IntelSoftware系统级、代码级优化,高效利用Intel软件提升系统软硬件整体运行效率Paramon软件目前采集的数据基本性能数据模块系统级性能数据CPUUSED%利用率CPUSYS%利用率Memory%利用率SWAP%利用率EthernetSend速率EthernetRecv速率DiskRead速率DiskWrite速率微架构级性能数据Gflops浮点计算性能MemoryBandWidth速率CPI,代码执行效率VEC%,向量化比例GIPS,每秒执行指令总数LLCM%,LastLevelCacheMISS百分比机群管理模块远程登录管理远程操作管理批量节点远程关机/重启批量节点清除SWAP自定义节点操作进程管理并行命令管理机器数据系统硬件配置数据系统软件配置数据系统日志用户信息数据作业数据License数据扩展模块网络模块InfiniBand网络收发速率文件系统模块NFS读写速率IO统计模块tps,await,util%GPU管理模块NVIDIAGPU%MIC数据IntelXeonPhiMIC%CPI/VPU能耗数据节点POWER%利用率进程数据独立于硬件平台,支持上千节点混合机群在线运维手机版专业的运维报告(周报、月报、年报)丰富灵活的报表提供ParaPortal网站服务,通过独有用户名及登录密码,自主查询机群运行的历史数据信息,生成精美的统计分析报告,为科学决策提供依据机群体检定期或在运行大作业前为机群进行健康体检,筛除问题节点,避免问题节点成为瓶颈影响机群的整体运行效率应用程序优化针对用户应用程序,利用Paratune提供详细分析建议,辅助用户提高程序性能及解决系统性能瓶颈用户收益通过并行科技的7*24小时监控中心实时查看大量数据中心的运行情况,补充用户晚上和周末监控人员的不足,为用户实现全天候的保驾护航变被动响应为远程主动发现问题,并有实时历史数据可以查看、分析,在得到用户授权的情况下可以主动修复故障,将服务响应时间极大幅度的减少长时间的在线运维监控可以自动生成周报、月报、年报等统计分析报表,满足用户对数据中心的宏观把控提供最终用户关心的业务运行和资源使用统计报告提供领导关心的HPC数据中心运营看板数据中心海量应用特征库运营大数据分析、挖掘、可视化7*24小时数据中心在线运维DEMO
本文标题:数据中心在线运维方案
链接地址:https://www.777doc.com/doc-7610050 .html