您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 数据中心建设与管理资料
PPT讲解:马欢PPT制作:何海洋材料收集:苏德军探讨一:数据中心建设与管理中存在的问题CPU热量100W高密度的服务器安装更高的存储容量需要更多的电能需要灵活的配电和供电方案更大的热负荷(需要更大制冷量)TCO拥有总成本(总体更经济的方案)7x24业务运行需求业务咨询数据中心用户/管理者UPSmoduleUPSmoduleUPSmoduleUPSmoduleUPSmoduleUPSmoduleUPSmoduleUPSmoduleUPSmoduleIIpiętroIpiętro数据中心机房的设计,缺乏灵活性:一旦配电系统开始运行后,就没有任何变动的可能。这意味着如果要扩容,需要付出巨大的努力。同时,在维护维修时影响系统可用性;还投入了非常高的初期投资!问题1:供电系统的灵活性问题问题2:布线随意,缺乏规范有序管理。强弱电线缆管理问题:1、通常缺少规划,强弱电线缆交差。2、走线随意,乱拉乱接。3、忽视安全问题。4、标签信息不明确、不准确。问题3:数据中心的散热!目前设备散热问题已经日益成为数据中心设计的最主要限制因素。气流难以像电流一样被约束。冷热空气的混合、对流、短路等,均会造成气流组织偏离设计值,从而使部分机柜得不到足够的风量,而同时又有一部分冷风没有被利用。这种情况将降低空调机的工作效率,浪费电能。由于未解决的制冷和供电问题意味着,有时候很多机柜只安装一半设备。这种小型化安装的方案,给数据中心带来了更高的固定运行成本(场地,机柜,电能)。这样的数据中心将需要安装更多的服务器机柜,更高的计算性能将带来同比例更高固定成本。问题4:数据中心空间需求问题!您会将这些服务器装在一个机柜中吗?12kW(37台1UPC服务器)18kW(5台7U刀片服务器)是否会是以下的方案?3.6kW/机柜4kW/机柜80%机柜空间空置?扩大数据中心?浪费的空间如何处理?问题5:安全管理问题!目前各种安全有关的领域,比如空调、电源、机柜安全,通常是分开考虑的。安全管理若集成在一个远程管理系统中统一监管,这样将减少拥有总成本。电源、空调、机柜安全必须考虑在一个主动的安全系统中。安装基础设施占%/机房的容量服务年限缺乏模块化,集约化的IT基础设施投资方案带来超规模的投资。结果带来更高的初期投资资,更高的电能和租金的固定成本。模块化结构,集约化提供了根据实际需求的初期投投资和运行成本!超规模的投资安装满足实际需求的IT基础设施!目前基础设施投资和满足实际需求的基础设施投资的比较问题6:超规模投资,浪费成本!探讨二:新一代数据中心的设计理念一、数据中心整体布局方面1)性能面积比•运算量/面积•服务器台数/面积•随着IT设备的小型化,机房面积将越来越小•高密度、虚拟化数据中心一、数据中心整体布局方面2)性能能耗比•高效率UPS供电•围护结构的绝热处理•“冷库式”机房与“冰箱式”机房,让能源充分有效的利用一、数据中心整体布局方面3)“机柜就是机房”的思路•“IT微环境”或“模块化机柜”设计•“选址-布局-设备摆放-机柜摆放”的设计逻辑将被完全逆转•机柜内部的设计将被更加重视一、数据中心整体布局方面4)“一体化机房”或“整体机房”的概念•系统化设计、预生产、组件式的机房构建模式•灵活性、扩展性•质量控制:工厂与现场二、数据中心供配电方面1)由备用供电系统向不停电供电系统发展•柴油发电机将起到更重要的作用•机房供配电系统将在UPS基础上进一步提升•UPS供配电系统的标准化、模块化将被普遍采用二、数据中心供配电方面2)机柜级供配电的管理将受到重视•目前供配电系统中“端-端”路径中最薄弱的一环•机柜PDU的监测管理•机柜能耗管理二、数据中心供配电方面3)直流供电系统有可能提出并行研究•IT设备抗干扰能力在下降•交流供电系统中的谐波问题、地线噪声•直流供电系统可能成为一种被迫的选择三、温湿度控制方面1)冷媒的变化•目前从冷源到IT设备普遍采用的冷媒是空气,但是空气的能量传输率非常低•机房内大量空间被用作气流组织的通道,而且难以控制•势必将采用冷冻水或其他新型冷媒三、温湿度控制方面2)冷却系统布局的变化•由整个机房作为制冷系统的模式向机柜作为制冷系统的模式变化•“冰箱式”机房是机柜或者机柜群模式的表现•甚至会朝“机柜U”级和“服务器”级制冷系统的方向发展三、温湿度控制方面3)节能环保型技术将得到开发和应用•在冬季,利用室外空气作为冷源的热交换设备•与楼宇空调系统共用的制冷设备,提高利用率•热回收系统四、机房安全监控管理方面1)IT设备的操控向集中化发展•KVM•基于IP、跨平台、远程集中管理模式•基于身份认证、分组管理四、机房安全监控管理方面2)机房基础设备的监控管理将向网络化、标准化发展•各机房基础设备厂商使用各自通信协议和监管平台的局面将被彻底改变,串口将被网口取代,所有设备通过IP网络进行实时监控与管理四、机房安全监控管理方面3)机房基础设备的监控管理与IT设备管理的一体化•实现数据中心业务应用、数据存储、服务器、网络、基础设施的集中管控•机房设备的控制功能将进一步加强,如根据服务器的数量或负载情况,自动调节机柜组的制冷系统风量;视频或照明的移动监测四、机房安全监控管理方面4)管理终端的变化•机房设备的管理的终端,将由本地操作,到通过IP网络电脑终端操作,发展为移动PDA,实现无时无地不在监管机房设备与环境。探讨三:数据中心的日常运维管理一、数据中心的作用与特点1、数据中心的作用—基础资源整合:•高标准的数据机房、畅通的网络是保证应用稳定运行的基础。统一建立一个机房,避免机房建设的重复投资。•设备集中管理,统一调配,能够充分发挥各个设备的作用。•运行维护人员的人力资源整合一、数据中心的作用与特点2、数据中心的作用—系统稳定运行的保障:保证系统能够安全、稳定、高效地运行。•建立一个全面的、动态的安全防范,综合利用各种安全技术,制定相应的管理制度和管理规范以保证数据中心的安全,保证关键数据、关键应用的安全以及关键业务部门的安全,实现业务网络及其应用系统的安全高效运行•搭建合理的服务器运行体系架构,调整应用的布局•对各应用及应用软件的优化,提高系统运行的效率一、数据中心的作用与特点3、数据中心的作用—数据与信息安全的保障:•设置合理的数据库模式,便于管理,同时易于各系统之间的数据共享和交换。•要保证数据的安全,使数据不会因意外的灾难而损毁,要做好数据备份与恢复工作。•进行安全审计,能够对用户的行为进行记录,并能够进行事后分析。一、数据中心的作用与特点4、数据中心的建设与管理的内容1)、机房基础实施2)、网络线路实施3)、服务器体系结构4)、数据存储与备份5)、安全防护与加固6)、队伍建设与制度规范机房基础实施建设•防尘、防静电的环境•可靠的电力保证•适宜的温度和湿度•消防系统•门禁与监控•布线•参考的标准:接下页机房基础实施建设(续)参考的标准:《电子计算机机房设计规范》(GB50174-93)《计算站场地技术要求》(GB2887-89)《计算站场地安全技术》(GB9361-88)《计算机机房用活动地板的技术要求》(GB6650-86)《电子计算机机房施工及验收规范》(SJ/T30003)《电气装置安装工程接地装置施工及验收规范》(GB50169-92);中国工程建设标准化协会标准-建筑与建筑群综合布线系统工程设计规范CECS72:95网络线路实施建设•冗余的网络设计,保证网络的畅通无阻•加强网络监控,及时发现问题•关键部门设置专线,保证数据传输的完整性服务器体系架构建设数据中心的服务器系统必须从整体上规划,根据应用的需求合理布局,切忌一个应用系统一套服务器系统,这样很不利于资源的优化配置,既不好管理,又不能实现资源的共享。服务器架构尽量采用目前比较流行的体系架构。服务器系统高可用性,根据应用的需求而定。服务器系统的扩展性要考虑应用的发展需求。开发、测试、正式运行三条线要分开,不要在运行环境开发、测试程序。数据存储与备份建设备份系统与要求的恢复时间紧密相关,无论多么先进的备份系统,一定要有针对各种情况的恢复步骤,已备不时之需设备的备份热备份、冷备份数据的备份文件数据数据库数据容灾系统安全防护与加固建设网络安全:防攻击、防窃密、防监听合理架设防火墙、入侵检测等设备主机安全:物理安全、防入侵要定期清理用户、修改密码、安装补丁程序、停止不必要的服务等应用安全:防伪造、防攻击、防篡改数据安全:防止数据丢失、破坏数据备份、容灾应急终端安全:防病毒、安全知识培训安全审计:事后追查的有效手段入侵监测成立紧急问题相应小组队伍与制度建设无论多么先进的设备和技术,如果没有人进行管理,都是不能很好的发挥作用的。因此数据中心在建设初期就必须考虑队伍建设问题。在队伍建设中,要注意建立整个团队的服务意识。只有优良的服务,才能使所有的应用更好的发挥作用。服务不仅仅是态度,更重要的是要有雄厚的技术做后盾。因此应建立一支有层次的队伍。其次,还要有规范的制度来约束和规范日常的运维管理行为。二、数据中心的运维管理概述1、数据中心运维管理的意义•提高可靠性:降低故障率•提高可用性:减少宕机时间•提高安全性:减少灾害发生•提高经济性:增长设备寿命二、数据中心的运维管理概述2、数据中心运维管理的本质•人员技能的提高:技术培训、经验交流•制度的建立、执行:运维制度建立、运维制度执行、管理机制机房管理制度机房出入登记制度机房值班巡视制度机房系统设备运维制度安全保密制度二、数据中心的运维管理概述3、数据中心运维管理的手段•环境监控•设备监控•网络监控•应用监控三、数据中心的运维管理-危机管理1、危机管理的定义•史蒂文.芬克的《危机管理》:组织对所有危机发生因素的预测、分析、化解、防范等而采取的行动•罗伯特.希斯的《危机管理》:管理者考虑如何减少危机情境的发生、如何做好危机管理的准备、如何规划以及如何培训员工应对危机局面、如何从危机中快速恢复三、数据中心的运维管理-危机管理2、危机管理的PPRR模式•Prevention(预防):观念、意识、流程•Preparation(准备):人力、物力资源•Response(响应):应急预案,消除危机的短期影响•Recovery(恢复):总结经验,消除危机带来的中长期影响三、数据中心的运维管理-危机管理3、应急预案•对机房各类设备的功能、指标、结构心中有数•事前“马后炮”:针对机房供配电、消防、空调、漏水、网络、安全等分别制定应急预案。“一旦发生XX事故,值班管理人员应该在XX分钟内采取以下措施:一、XX;二、XX”三、数据中心的运维管理-危机管理3、应急预案•第一步、列出机房存在的危机或风险火灾、空调故障、漏水、供配电、温湿度•第二步、分析排除不存在的风险•第三步、将各种可能风险列举在应急预案中•第四步、横向分类与纵向分级横向分类:灾难风险(火灾)、中断风险(停电、宕机)、安全隐患风险(温度过高、接地不良)。纵向分级:按各类风险(事件)危害程度排序,建立风险管理优秀级和报警。三、数据中心的运维管理-危机管理3、应急预案•第五步、针对各类风险事件,制定应急处理措施准备工具、备品备件制定事件预警、报告流程四、数据中心的运维管理-制度管理实现目标:•保证机房电力系统、UPS系统、空调新风、消防系统、防雷接地系统等相关设备稳定运行•保证机房内各类设备和通信线路正常、稳定、高效运行•保证机房各类运行故障问题及时规范得到解决管理手段:•建立完善的规章制度,落实执行•划分合理的角色,明确职责•建立通畅的反馈机制,形成良性循环四、数据中心的运维管理-制度管理重点内容:•管理机构:岗位设置、人员配置、授权与审批、沟通与合作、审核与检查•管理制度:制定与发布、评审与修订•人员管理:人员录用、技能培训、绩效考核、外来人员的管理•建设管理:需求分析、方案设计、产品采购、项目实施、工程验收•运维管理:环境管理、资产管理、设备管理、介质管理、监控管理、密码安全管理、安全事件管理、应急预案管理四、数据中心的运维管理-制度管理1、管理机构•岗位设置:设立专门的管理
本文标题:数据中心建设与管理资料
链接地址:https://www.777doc.com/doc-3601676 .html