您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 51CTO下载-HACMP_for_AIX_原理及实现
HACMPforAIX原理、设计及实现联想集成系统有限公司联想集成系统有限公司2目录前言__________________________________________________________________3第一章HACMP的概念和原理______________________________________________4§1.1HACMP简介_____________________________________________________________5§1.2HACMP中术语的定义_____________________________________________________6§1.3HACMP群集的硬件组成___________________________________________________7§1.4AIX与HACMP___________________________________________________________9§1.5HACMP群集的软件结构___________________________________________________11§1.6HACMP群集资源________________________________________________________12§1.7建立高可用系统――避免单点故障__________________________________________14第二章HACMP群集的设计_______________________________________________21§2.1高可用性设计要点________________________________________________________21§2.2存储系统设计____________________________________________________________21§2.3LVM组件设计____________________________________________________________30§2.4HACMPforAIX的网络设计________________________________________________31§2.5群集结构的设计__________________________________________________________36§2.6应用的设计______________________________________________________________42第三章HACMP群集的实现_______________________________________________43§3.1准备AIX________________________________________________________________44§3.2安装HACMP____________________________________________________________51§3.3配置HACMP____________________________________________________________52第四章HACMP群集的管理_______________________________________________57§4.1群集的启动______________________________________________________________57§4.2群集的停止______________________________________________________________58§4.3群集的监视______________________________________________________________59§4.4群集的测试______________________________________________________________60附录AHACMP和数据库_________________________________________________61附录BHACMP与同类产品的比较_________________________________________64联想集成系统有限公司3前言传统概念里,关键性任务的计算一直是大型主机的专有领域。主机能够提供关键性任务所必须的很高的交易速度、非常好的系统可用性和鲁棒的系统管理功能。随着UNIX系统的发展和普及,关键性任务对主机的依赖程度也在逐渐减弱,越来越多的企业将他们的关键性任务应用从专有的主机系统迁移至基于UNIX平台上来。这种转变主要基于以下一些因素:Client/Server模式的高效率和扩展性、开放标准的出现、UNIX平台上交易处理能力的增强和基于RISC技术的处理器的性能/价格比的提高。IBM公司的HACMPforAIX软件是业界领先的,建立UNIX平台上关键性任务计算环境的工具软件。HACMPforAIX软件能够保证关键性资源的高可用性。本文主要讨论HACMPforAIX的原理、规划、配置、管理和其它一些相关内容,并根据自己的实践提出了在规划和配置HACMP时的一些经验和建议,希望能够对大家有所帮助。本文的第一章主要介绍HACMP的基本概念和工作原理,第二章主要介绍HACMP高可用群集的设计,第三章介绍HACMP群集的配置和实现,第四章主要介绍HACMP群集的管理。本文的附录A介绍了HACMP和主要数据库产品配合时的各种配置。附录B介绍UNIX平台主流高可用产品的比较。文中用到的命令用加黑的斜体字表示,如:fsck文中用到的SMIT路径用黑体字表示,如:smitdevices带下划线的正文文字代表应引起注意的事项。因本人水平所限,文中难免会有错误或介绍不详之处,希望大家批评指正,并多提宝贵意见。联想集成系统有限公司4第一章HACMP的概念和原理在今天竞争激烈的全球市场中,从金融、电信、医疗到零售、运输、制造的各个企业都必须保证关键性业务的信息和数据的可用性,而且通常是一天24小时,一年365天。各个企业必须始终如一地、正确地根据用户的要求提供银行往来金额、投资资金、医疗记录、测试结果和其它许多关键服务,而成功提供这些服务的关键是依靠信息技术的可用性。由ContingencyPlanningResearch提供的昀新研究结果表明,平均每小时的宕机时间会导致上百万美元的损失。更重要的是,当因为意料之外的系统故障而丢失他们的数据之后,50%的公司没有再重新开门,90%的公司则歇业两年。因此,要保证业务的连续性,就必须尽可能减少会导致信息和应用不可用的系统宕机时间,从而减小对用户服务的影响。关键业务的连续性可以通过以下三个层次的方法实现磁带备份磁带备份是实现基本的业务连续的通用方法。信息先备份到磁带上,然后送到另外的地点保存。这种方法的问题在于磁带备份往往需要较长的时间来记录数据。另外,在数据备份过程中或者做数据备份前的系统或环境故障很可能造成数据丢失。而且,从备份磁带上恢复数据也需要很长的时间,数据存储得越多,恢复的时间越长。高可用系统高可用系统一般是在一个地点,通过高可用软件将一组服务器连接在一起,组成一个群集。IBM的HACMPforAIX和HP的MC/ServiceGuard就是这样的群集产品,通过快速地将用户、应用和数据从发生硬件或软件故障的机器切换至其它机器来提供高可用计算环境。容错系统容错系统依赖于冗余的硬件设备和软件来实现关键业务的连续性。虽然容错系统是避免宕机和数据丢失的有效方法,但是购买、操作和维护容错系统都是非常昂贵的。另外,系统的升级也需要很大的代价。联想集成系统有限公司5用户可以根据自己的应用情况选择适合自己的方法实现关键业务的连续性。§1.1HACMP简介IBM公司的HACMPforAIX软件是基于AIX平台的,在高可用系统层次实现关键性任务计算环境的工具软件。HACMP应用于RS/6000系列的单处理器机型、对称多处理器机型或SP的节点,可以检测系统故障并快速恢复服务,使昀终用户只感受到很小的中断时间。HACMP(HighAvailabilityClusterMulti-Processing)有两个主要的组成部分:高可用技术(HA)和群集多处理技术(CMP)。高可用技术在HA产品出现之前,在UNIX领域实现高可用性的昀有效途径是通过容错技术。容错技术依靠专门的硬件设备检测到硬件的故障,然后立即切换至冗余的硬件设备上,不管故障设备是处理器、内存板、电源、I/O子系统还是存储子系统。尽管这种切换能够无缝地提供不间断的服务,但却在硬件费用和性能上付出了很高的代价,因为冗余的设备不能处理事务。更重要的是,容错系统不能处理软件故障,而这却是宕机的昀常见的原因。高可用技术并不是通过将可用性当作一系列重复的物理设备来实现高可用性,它将高可用性看作是一个全系统范围的、共享的资源的集合,这些资源相互协作来保证关键的服务。高可用技术将软件和工业标准的硬件结合起来,在系统、设备或应用发生故障时通过快速恢复关键服务来使宕机时间减至昀小。尽管不能立即切换,恢复服务也是很快的,通常在1分钟之内。容错技术和高可用技术的区别在于服务中断的时间。当硬件发生故障时,容错环境没有宕机时间,而高可用环境有很小的宕机时间。但是,在容错环境中,由于软件故障无法被检测,有可能造成系统的严重破坏。而在高可用环境中,软件故障只会造成很小的宕机时间。现在,大多数的公司都愿意忍受一小段的宕机时间,采用高可用技术,而不愿意花费高得多的代价采用只能检测硬件故障的容错技术。另外,在高可用配置中,备份机还可承担其他应用。群集多处理技术联想集成系统有限公司6群集多处理技术是指一组松散耦合的机器,通过网络连接在一起,共享磁盘资源。在群集中,多个服务器协同工作,为用户提供一组服务或资源。将两个或多个服务器组成群集来备份关键应用是一个划算的高可用性解决方案。用户可以使用更多的技术能力,同时确保关键应用在硬件或软件故障后能够快速恢复正常工作。群集多处理技术还为客户提供了灵活的扩展途径。客户可以很容易地在群集中增加处理器以分担不断增加的工作量,还可以对群集中的处理器进行升级。而在容错环境中,则必须同时增加两个处理器,其中一个作为冗余备份,在正常工作时不进行任何处理。§1.2HACMP中术语的定义群集(Cluster):多个服务器节点一起工作,使用TCP/IP进行通讯,每个节点上运行ClusterManager进程。节点(Node):群集中的每个运行ClusterManager进程的独立的机器。节点是HACMP的核心部分,节点上运行AIX操作系统和HACMPforAIX软件。在HACMP群集中,每个节点有一个唯一的节点名。一个节点可能拥有一组资源――磁盘、卷组、文件系统、网络、网络地址和应用。节点上一般运行着访问共享磁盘上数据的“后台”应用。资源(Resources):由一个节点控制的实体,当节点发生故障时能够被其它节点接管。可以被当作资源的实体有:★磁盘、卷组、文件系统★NFS输出的文件系统★IP地址★应用程序关键应用(CriticalApplication):由HACMP控制其启动和停止的应用程序,例如数据库的后台进程。事件(Event):群集中发生的一些事情,即群集状态的改变,包括节点up/down,网络up/down,网卡故障等等。行为(Behavior):事件发生时群集的响应动作。事件是由shell脚本控制的。重聚(Reintegration):将故障节点、网络、网卡重新带回群集的过程。联想集成系统有限公司7下图是HACMP群集的一个例子。在实际的群集中,由于节点数目、网络拓扑、磁盘类型等具体配置的区别,群集的
本文标题:51CTO下载-HACMP_for_AIX_原理及实现
链接地址:https://www.777doc.com/doc-5273124 .html