HACMP 解决方案
IBM小型机解决方案

第1章IBM服务器解决方案介绍2.1 基于PowerVM 的服务器虚拟化方案介绍IBM提供的服务器虚拟化解决方案基于PowerVM技术,极大地提高IT集成的效率,大幅度简化了IT管理的复杂性,提高了整体系统的可用性。
同时还明显的减少了投资成本,具有很好的技术领先性和性价比。
服务器虚拟化允许将一个物理服务器分成多个安全的虚拟服务器,从而为合并物理服务器创造了机会,可帮助降低硬件购买成本和管理成本。
IBM 的服务器虚拟化历史可追溯到40 年前的主机时代。
我们现在为UNIX® 及Linux® 集成提供大量解决方案。
1.1.1.1PowerVM介绍PowerVM是在基于IBM Power处理器的硬件平台上提供的具有行业领先水平的虚拟化技术家族。
它是IBM Power System虚拟化技术全新和统一的品牌(逻辑分区,微分区,Hypervisor,虚拟I/O服务器,APV,PowerVM Lx86,Live Partition Mobility)。
PowerVM是专为支持客户更好地管理其IT成本、最大化能源效率及提高资源利用率而设计的平台。
PowerVM提供的虚拟化解决方案可运行在业界最为广泛的操作系统上,包括AIX、Linux和System i客户使用的i5/OS系统。
PowerVM主要功能1)Micro-partition(微分区):芯片级虚拟化技术,实现1/10个CPU为单位划分CPU资源,以1/100单位调整资源。
IBMPOWER5、POWER5+支持完全意义上的虚拟化技术,并引入了微分区技术。
由于动态逻辑分区的资源调整功能让系统管理员可以自由添加、删除或在分区之间移动系统资源,例如CPU、内存、I/O适配器的分配,而不需要像原来修改之后重新启动分区。
这样,微分区技术的引入,更使得动态逻辑分区的资源调整功能不但可以移动物理资源,还可移动、增减虚拟资源,具有广阔的应用场景。
这样系统管理员就可以根据分区系统负荷和分区业务运行特点,随时将资源动态分配到需要的地方,从而大大提供资源的利用效率和灵活性。
PowerHA完全手册

PowerHA完全手册(一)前言自2008 年4 月02 日笔者在IBM DevelopWork网站首次发表《HACMP 5.X 完全手册》以来,加上各网站的转载,应该已过了10万的阅读量,在此非常感谢大家的认可和支持。
转眼已经5年过去了,期间非常感谢不少同仁指出了该文的各种不足,并且HACMP已经改名为HACMP了,由于软件版本的更新和本人当时的技术水准有限,同时也存储不少同仁的希望,在原文基础上进行了补充和修订完善,也就有了本文。
正是由于AIX专家俱乐部的兴起,对AIX和HACMP的技术感兴趣的技术人员又更多了。
因此选择本杂志作为原创发表,就是希望能对更多的同仁日常工作有所帮助。
此外,虽然本文号称“完全手册”,一是为了吸引眼球,二也只是相对于其他只谈安装配置的文档而言。
由于HACMP现在已相当复杂,本文范围也主要关注于最常用的双节点,还望大家谅解。
即便如此,本文篇幅可能仍然较长,虽然也建议大家先通读一下,但实际使用使用时可根据具体目的按章节直接查阅操作。
这是因为一方面本文所述操作笔者都加以验证过;一方面也是全中文,省得大家去查一大堆原版资料。
希望能帮助大家在集成和运维HACMP的过程中节省精力、降低实施风险,这也是本文编写的初衷。
同时还望那些被部分摘抄文章的同仁也能理解,你们都是笔者的老师,这里也一一谢过。
虽笔者端正态度,尽力认真编写,但由于能力有限,恐仍有错漏之处,还望众多同仁多多指正海涵,在此先行谢过。
1. 为什么需要PowerHA/HACMP随着业务需求日益增加,IT的系统架构中核心应用必须一直可用,系统必须对故障必须有容忍能力,已经是现代IT高可用系统架构的基本要求。
10 年前各厂商现有的UNIX服务器就已拥有很高的可靠性,在这一点上IBM的Power系列服务器表现尤为突出。
但所有UNIX服务器均无法达到如原来IBM大型主机S/390那样的可靠性级别,这是开放平台服务器的体系结构和应用环境所决定的,这一点,即使科技发展到云计算的今天仍然如此。
HACMP______

一、功能原理1.HACMP的概念HACMP(High Availability Cluster Multi-Processing)是IBM基于Unix平台开发的一套高可用性集群软件,这个软件是为了确保关键资源或应用可以获得处理。
在hacmp集群环境中,应用必须在hacmp的管理之下,这样才可以确保应用的高可用性,当集群中的一个节点或组件出现问题,集群会将这个节点或组件所需的资源转移至其他节点上。
建立集群的目的✓减少计划或非计划的宕机时间✓避免单点故障✓快速故障恢复,但不能实现容错2.节点,网络,心跳2.1节点节点是安装并运行AIX操作系统和hacmp软件的一台独立系统,节点之间可以共享一系列资源:磁盘,卷组,文件系统,网络,网络IP地址和应用程序。
2.2网络集群各个节点之间通过网络进行相互通讯,当一个节点的某个网卡出现故障后,网络连接会自动切换到这个节点的其他网卡上,如果这个节点的所有网络连接都不可用的时候,集群会把应用极其所使用资源切换到其他节点上,并进行IP 地址接管操作IPAT(IP Address Takeover)。
集群的网络IP接管方式有2种:IP别名和IP替换IP别名:当集群把资源组以及IP地址从主节点切换目标节点时,在目标节点上并不会用主节点的服务地址去替代目标节点的网卡地址,而是在目标节点的网卡上建立IP别名(IP Alias),这样允许一个网卡绑定多个服务地址,因此同一节点可以装载更多的资源组。
IP替换:当集群把资源组以及IP地址从主节点切换目标节点时,目标节点的初始化启动IP将被主节点的服务IP所替换,这样只有使用同一服务地址的资源组可以装载到目标节点。
如果使用IP替换的接管方式还可以配置网络硬件地址HWAT(Hardware Address Takeover)即MAC地址切换,以确保ARP cache对网络地址的影响。
注:在HACMP4.5版本以前网络接管方式只能配置为IP替换方式。
的三种异地容灾备份方案

在数据容灾中最常采用,也是最有效的方案是异地容灾。
这种容灾方案最有保障,因为它是把数据备份保存在另一地方,甚至另一个国家,这样数据就会更安全。
试想一下在伊拉克这样连成战争不断的国家,即使把数据保存在了本国其它地方也是不安全的,所以有许多数据存储厂商提出了全球容灾的方案。
从本篇起要向大家介绍几个典型的数据存储厂商的异地容灾方案,本篇所介绍的是全球最为著名的数据存储厂商--IBM的几种异地容灾方案。
针对不同的用户需求,IBM公司的异地容灾方案产品线非常丰富,各种数据备份技术和应用方案层出不穷,处于全球领先地位。
它的这些容灾方案不可能全在本文中介绍清楚,所以只选三个常见的方案类型向大家介绍。
一、数据级灾备--PPRCIBM的PPRC(Peer to Peer Remote Copy,点对占点远程复制)复制技术是基于ESS企业级数据存储服务器,通过ESCON(Enterprise Systems Connection,企业管理系统连接,是一种光纤通道)通道建立配对的逻辑卷容灾技术。
这是IBM的最高级别容灾方案,主要适用于大、中型和电信企业选用。
它的网络结构(如图1所示)。
在图中数据中心A和数据中心B可以是两相隔上百公里的网络系统,既可以单独把某个数据中心的数据备份到另一个远程数据中心中,也可以实现相互远程备份。
在标准的实时备份方案中,服务器主机通过SAN与IBM企业存储服务器ESS相连接,两台ESS之间通过ESCON通道实现同步远程拷贝。
受ESCON传输距离的限制,当主、备机房的距离超过2公里时,需要加光纤延伸器。
光纤延伸器可以从多个不同的厂商购得,比如IBM 2029 Fibre Saver、INRANGE的9801等。
在光纤延伸器的帮助下,PPRC数据备份可达到100公里以上。
在这种容灾方案中,核心设备就是IBM的ESS的企业级存储服务器,目前最新的型号主要有IBM TotalStorage Enterprise Storage Server (ESS) Model 750/800这两种,(如图2所示)。
Hacmp_介绍

第一章介绍本章内容包括对IBM针对AIX产品线的高可用性集群多处理系统的介绍以及IBM高可用产品的概念本章将讨论以下主题:●什么是HACMP?●历史与发展●高可用性的概念●高可用性Vs容错1.1.什么是HACMP?在我们解释什么是HACMP以前,我们先来定义一下高可用性的概念。
High availability在当今复杂的环境下,成功实现IT应用的一个关键要素就是提供不间断的应用服务。
HA就是这样一个可以通过消除计划内/计划外宕机事件从而向客户应用提供不间断服务的部件,它能达到消除从硬件到软件的单点故障(SPOFs)。
一个高可用性解决方案可以保证方案中任何组件的失效(包括硬件、软件或系统管理)都不会造成客户无法访问应用和应用数据。
高可用性解决方案可以通过恰当的设计、计划、硬件选择、软件配置以及细心控制改变管理方法来消除单点故障。
Downtime停机时间是指应用程序不能为客户端提供服务的时间。
停机时间分为:➢计划内:-硬件升级-维修-软件更新/升级-备份(离线备份)-测试(对群集确认必须进行周期性测试)-发展➢计划外:-管理员过失-应用失效-硬件失效-其他不可抗力(天灾)IBM针对AIX的高可用性解决方案——HACMP给予饱经考验的IBM群集技术,它包括以下两个组件:➢高可用性:该进程保证应用在用户复制和/或共享资源时是可用的。
➢群集多处理:该进程提供在同一节点上多个应用共享或并发访问数据。
基于HACMP的高可用性解决方案提供自动失效检测、诊断、应用恢复和节点重新控制。
在恰当的应用中,HACMP还可以在并行应用处理中提供对数据的并发访问,从而提供更高的可扩展性。
标准的HACMP环境如图1-1。
1.1.1.历史与发展IBMHACMP最早可追溯至90年代。
HACMP在1990年开始为RS/6000机器上的应用提供高可用性解决方案。
我们不会提供关于更早版本的信息,原因在于这些版本要么已经不被支持或者已经不再使用,我们只提供近期一些版本的相关信息。
HACMP双机环境存储扩容操作流程

本操作流程文档,针对客户的主服务器z***2主机的/u03的 JFS2文件系统扩容;涉及前期的存储划分映射,在此文省略;如有其他相关纰漏,请指出。
1、客户现场环境:了一个120GB的LUN,并映射至上述的主备服务器。
映射工作完成后,请一次在主备服务器上执行 cfgmgr –v 指令,做系统硬件设备的扫描。
服务器将识别到共享的LUN ,并分派标示符,如下: z***1: z***2:注:由于服务器原来环境的设备标示不同,所以是识别的EMC 路径盘符也不尽一致。
执行HACMP 集群节点发现指令smitty hacmpExtended ConfigurationDiscover HACMP-related Information from Configured Nodes执行HACMP 集群LVM 指令smitty hacmpHACMP Logical Volume ManagementShared Volume GroupsSet Characteristics of a Shared Volume GroupAdd a Volume to a Shared Volume Group选择需要操作的共享卷组,本案为new1vg检查两个节点的卷组状态:主服务器z***2:hdisk14 none Nonehdisk13 none Nonehdiskpower4得以加入,但考虑new1vg中有其他较小的卷组,担心影响卷组的稳定性,遂没有采用。
解决方法2,修改lun的大小为120G,恰好接近卷组属性值。
2、/u03文件系统对应逻辑卷u031_lv的最大lps值限制,以至于文件系统不能扩容,使用chlv指令将为u031_lv的MAX lps值修改为2048。
PowerHA与HACMP Linux区别是什么PowerHA软件包中PowerHAXD(Extended Distance) 与Smart Assist功能是什么

PowerHA软件与HACMP for Linux的区别是什么?PowerHA软件包中的PowerHA/XD(Extended Distance) 与Smart Assist的功能是什么?1) PowerHA(以前的HACMP)是Power服务器上的双机软件。
在e-config工具中,PowerHA是针对Aix 操作系统的双机软件。
针对Linux的双机软件是HACMP for Linux。
HACMP for Linux只支持在AIX 上可用的一部分特性。
目前HACMP on Linux不支持以下特性:WPARGLVMMulti-Node Disk heartbeat (MNDHB)Shared storage (must use GPFS or NFS)Tape DevicesVirtual Ethernet (translation is no VIO support)IPAT via replacement (IPAT via Aliasing only)DLPAR /CoDWorkload ManagerHACMP/XDGeographical Logical Volume manager (GLVM)Dynamic Node Priority (DNP)Event EmulationSmart AssistAuto Cluster DiscoveryConfiguration AssistantsError NotificationASCII SMIT (WEBSMIT only)Online Planning WorksheetsConcurrent Resource GroupsNetwork types (limitation is Ethernet and RS232 only)ATMfddihpsibtoken ringdiskhbtmscsitmssa2) PowerHA/XD(Extended Distance)和Smart Assist是PowerHA for AIX 的两个可选特性。
HACMP日常操作手册【范本模板】

HACMP操作手册强制方式停掉HACMP:HACMP 的停止分为3 种,graceful(正常),takeover(手工切换),force(强制)。
下面的维护工作,很多时候需要强制停掉HACMP 来进行,此时资源组不会释放,这样做的好处是,由于IP 地址、文件系统等等没有任何影响,只是停掉HACMP 本身,所以应用服务可以继续提供,实现了在线检查和变更HACMP 的目的。
一般所有节点都要进行这样操作。
强制停掉后的HACMP 启动:在修改HACMP 的配置后,大多数情况下需要重新申请资源启动,这样才能使HACMP 的配置重新生效.日常检查及处理为了更好地维护HACMP,平时的检查和处理是必不可少的.下面提供的检查和处理方法除非特别说明,均是不用停机,而只需停止应用即可进行,不影响用户使用。
不过具体实施前需要仔细检查状态,再予以实施。
clverify 检查这个检查可以对包括LVM 的绝大多数HACMP 的配置同步状态,是HACMP 检查是否同步的主要方式。
smitty clverify—〉Verify HACMP Configuration回车即可经过检查,结果应是OK。
如果发现不一致,需要区别对待。
对于非LVM 的报错,大多数情况下不用停止应用,可以用以下步骤解决:1.先利用强制方式停止HACMP 服务。
同样停止host2 的HACMP 服务.1.只检查出的问题进行修正和同步:smitty hacmp —〉Extended Configuration—>Extended Verification and Synchronization这时由于已停止HACMP 服务,可以包括"自动修正和强制同步“。
对于LVM 的报错,一般是由于未使用HACMP 的C-SPOC 功能,单边修改文件系统、lv、VG 造成的,会造成VG 的timestamp 不一致.这种情况即使手工在另一边修正(通常由于应用在使用,也不能这样做),如何选取自动修正的同步,也仍然会报failed。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
HACMP 解决方案
为什么需要HACMP
各厂商现有的UNIX 服务器一般都拥有很高的可靠性,在这一点上IBM 的P 系列服务器表现尤为突出。
但所有UNIX 服务器均无法达到如IBM 大型主机S/390 那样的可靠性级别,这是开放平台服务器的体系结构和应用环境所决定的。
使用IBM 高可用性集群软件-- HACMP ,可以更好的保护关键业务应用不受故障影响。
HACMP 工作原理
HACMP 是High Availability Cluster Multi-Processing 的缩写。
HACMP 是IBM 公司在P 系列AIX 操作系统上的高可靠集群软件,配置冗余,消除单点故障,保证整个系统连续可用性和安全可靠性。
HACMP是利用网络来侦测主机及网卡的状况,搭配AIX所提供的硬盘镜像等功能,在主机、网卡、硬盘控制卡、硬盘或网络发生故障时,自动切换到另一套备用元件上重新工作; 若是主机故障还切换至备份机上继续应用系统的运行。
作为双机系统的两台服务器同时运行HACMP 软件;
两台服务器的备份方式有三种:
1. 一台服务器运行应用,另外一台服务器做为备份
2. 两台服务器除正常运行本机的应用外,同时又作为对方的备份主机;
3. 两台服务器同时运行相同的应用,需要数据库的支持。
两台主机系统在整个运行过程中,通过“心跳线”相互监测对方的运行情况(包括系统的软硬件运行、网络通讯和应用运行情况等);
一旦发现对方主机的运行不正常(出故障)时,故障机上的应用就会立即停止运行,本机(故障机的备份机)就会立即在自己的机器上启动故障机上的应用,把故障机的应用及其资源(包括用到的IP地址和磁盘空间等)接管过来,使故障机上的应用在本机继续运
行;
应用和资源的接管过程由HACMP 软件自动完成,无需人工干预;
当两台主机正常工作时,也可以根据需要将其中一台机上的应用人为切换到另一台机(备份机)上运行。
p5 520 HACMP 全冗余建议方案:
采用 2 台IBM p5 520 服务器运行应用,分别运行HACMP 软件,保证系统的高可靠性。
采用2 台2005-H08 光纤交换机建立存储局域网环境,分别连接两台p5 520 服务器和磁盘阵列。
2 台光纤交换机可以避免单点故障。
采用IBM DS4300 保证数据存储的可靠性和读取效率。
2 台p5 520 分别通过2 根光纤连接到2 台存储光纤交换机,DS4300 通过4 根光纤连接到 2 台存储光纤交换机,如此连接即保证了可靠性,又提高了数据访问的效率。
建议配置:
结构示意图:
服务器:IBM p5 520 2 台
2 颗1.5GHz/1.65GHz 的power5 处理器,4GB 内存
2 块73GB 内置硬盘: 用于安装操作系统
2 块以太网卡
典型的,一个服务器应至少提供两块网卡( 一个服务网卡和一个备份网卡) 。
服务网卡是服务器和网络之间的主连接。
备份网卡用于备份服务网卡,当本地的服务网卡失效时,HACMP 软件将就备份用网络地址和服务用网络地址进行交换。
如果另一个服务器失效时,备份用网卡将恢复失效节点的服务网络适配器的IP 地址。
2 块光纤卡
分别与两台光纤交换机相连,提高可靠性,避免单点故障。
1 块
2 口异步卡
提供串口,连接心跳线。
提供在两个节点间的点到点的连接,用于在TCP/IP 子网失效事件发生时控制信息和心跳信息的传递。
HACMP 软件
AIX 操作系统
光纤交换机IBM Total Storage SAN Switch 2005-H08
2 台8 口光纤交换机,用于连接服务器和磁盘阵列。
2 台光纤交换机提高整个系统的可靠性,避免单点故障。
磁盘阵列IBM Total Storage DS4300
用于存储用户数据。
磁盘阵列分别与两台光纤交换机相连,提高可靠性和访问效率
p5 520 HACMP 经济型建议方案:
采用 2 台IBM p5 520 服务器运行应用,分别运行HACMP 软件,保证系统的高可靠性。
采用1 台2005-H08 ,用于连接两台p5 520 服务器和磁盘阵列。
采用IBM DS4300 保证数据存储的可靠性和读取效率。
2 台p5 520 分别通过光纤连接到存储光纤交换机,DS4300 通过2 根光纤连接到存储光纤交换机。
结构示意图:
建议配置:
服务器: IBM p5 520
2 颗1.5GHz/1.65GHz 的power5 处理器,4GB 内存
2 块73GB 内置硬盘: 用于安装操作系统
1 块以太网卡
典型的,一个服务器应至少提供两块网卡,(一个服务网卡和一个备份网卡)。
配置一块以太网卡。
另外一块网卡利用内置的以太网卡。
1 块光纤卡
与光纤交换机相连。
1 块
2 口异步卡
提供串口,连接心跳线。
提供在两个节点间的点到点的连接,用于在TCP/IP 子网失效事件发生时控制信息和心跳信息的传递。
HACMP 软件
AIX 操作系统
光纤交换机IBM Total Storage SAN Switch 2005-H08: 8 口光纤交换机,用于连接服务器和磁盘阵列。
磁盘阵列IBM Total Storage DS4300: 用于存储用户数据
IBM eServer p5-520 服务器
创新的、功能强大的和适应性极强的UNIX 和Linux POWER5 系统
动态逻辑分区和微分区功能(选件) 有助于高效地利用资源
秉承主机技术的可靠性、可用性和可维护性(RAS) 能力
IBM eServer p5 520 系统是AIX 5L™(IBM 企业级的UNIX ®),或Linux ® 新一代入门级服务器,适用于中小型企业和大型企业的分布式系统。
它不仅运行快速且价格合理,而且还融入了许多可从IBM 最复杂的系统中找到的特性和功能。
eServer p5 520 很适合于充当新一代应用程序的低成本开发和部署平台。
它的多功能性、出众的性能和易管理性,使得p5 520 可以作为各种规模企业的分支机构服务器、小型数据库服务器或电子商务平台。
p5 520 可以处理任务关键型电子商务应用程序、安全的Web 事务和用于商业智能的小型数据集市。
它也可以集群到强大的高性能计算(HPC )集群中。
和较大型的eServer p5 型号一样,eServer p5 520 系统的特点在于它秉承了许多主机的可靠性、可用性和可维护性功能,这有助于使系统能昼夜不停地运行。
p5 520 将p 系列的世界一流RAS 传统特性扩展到入门级系统中--这些特性包括并发固件更新,对于大多数操作来说,可以在进行IBM 系统固件升级的同时,保持应用的运行、热拔插I/O 扩展抽屉,可以在正在运行的应用不中断运行的情况下添加I/O 容量、更为细致的L2 高速缓存分解、增强的L3 高速缓存列删除和能够提供更好自恢复功能的ECC 高速缓存。
eServer p5 520 服务器可作为具有1.65GHz POWER5™ 处理器的2 路对称多处理(SMP )系统使用。
对客户来说,该服务器具有巨大的扩展潜力,如果选择机柜式或桌面式安装,最多可达到32GB 内存、多达 4 个可选的I/O 扩展抽屉(最多可达8.2TB 的磁盘存储器)以及最多34 个热插拔PCI-X 插槽。
p5 p520 提供73.4GB 、146.6GB 、300GB 三种内置硬盘。
另外,在单个HPC 集群中可以包含多达64 个p5 520 系统。
为了使IBM 服务器的可用性达到极致,可以使用旨在提供近乎不间断可用性的HACMP™ 软件将p5 520 群集化。