HACMP日常操作手册
HACMP配置文档

1 HA&冷备安装配置和验证1.1 HACMP配置1.1.1 HACMP安装1.检查每台机器上是否都找到了所有硬盘(包括内置硬盘)。
lspvlsdev –Cc disk如果某台机器没有找到共享硬盘,可用cfgmgr命令。
cfgmgr2.给系统添加TTY。
如果安装了8port卡,一共应该有sa0 ~ sa4共5个tty,依次(0 ~ 4)安装。
Æ Add a TTY Æ rs232 Æ saX Æ Port Number: 0ttysmitty3.检测连8port卡的TTY。
在两台机器上同时运行:</dev/ttyXsttyX应该为4(使用8port卡时)或3(使用串口4时),这时应该有信息显示。
4.安装HACMP/ES软件5.4.1,及补丁放入HACMP/ES光盘:安装HA文件集。
安装文件包括:除了cluster.haview、cluster.hativoli和所有msg语言文件集外,其他文件集都要安装。
安装5.4.1的补丁SP06/eserver/support/fixes/fixcentral/psearch?searchstring=latest+ha+R54+fi xes&searchtype=apar&release=53中选择IZ57986下载并安装,安装后重启系统验证补丁安装lslpp -l |grep cluster 看文件版本号是否已经升上去1.1.2 HACMP配置1.配置IP以下是一个范例。
A机(生产机)IP IP_label1.1.1.1 A_svc1.1.1.2 A_boot1.1.2.1 A_stdby1.1.1.3 B_svc1.1.1.4 B_boot1.1.2.2 B_stdbyB机(备份机)IP IP_label1.1.1.1 A_svc1.1.1.2 A_boot1.1.2.1 A_stdby1.1.1.3 B_svc1.1.1.4 B_boot1.1.2.2 B_stdby开机未启HA时,boot和standby地址生效;启动HA后,service地址覆盖boot生效,service地址对应网卡失效后,由standby所在网卡接管。
HACMP(高可用集群软件)的安装和使用

高可用集群软件(HACMP)的安装和使用HACMP软件的安装:命令:smit屏幕显示系统管理菜单:System ManagementSoftware Installation and MaintenanceSoftware License ManagementDevicesSystem Storage Management (Physical & Logical Storage) Security & UsersCommunications Applications and ServicesPrint SpoolingProblem DeterminationPerformance & Resource SchedulingSystem EnvironmentsProcesses & SubsystemsRemote Customer Support and ServicesApplicationsUsing SMIT (information only)选择:Software Installation and Maintenance屏幕显示软件安装和维护菜单:选择:Install and Update Software屏幕显示软件安装和更新菜单:选择:Install and Update from LASEST Available Software屏幕显示软件安装和更新(从最后有效软件中)菜单:Install and Update from LASEST Available SoftwareType or select a value for the entry fieldpress Enter AFTER making all desired changes.[Entry Fields]* INPUT device / directory for software [/dev/cd0]显示软件安装和更新(从最后有效软件中)参数屏幕:Install and Update from LASEST Available SoftwareType or select a value for the entry fieldpress Enter AFTER making all desired changes.[Entry Fields]* INPUT device / directory for software /dev/cd0* SOFTWARE to install [_all_latest]PREVIEW only noCOMMIT software updates? yesSAVE replaced files noAUTOMATION install requisite software? yesEXPEND file systems if space needed ? yesOVERWRITE same or newer versions? noVERIFY install and check file sizes? noInclude corresponding LANGUAGE filesets? yesDELETE output? no按ENTER键,即可安装HACMP软件光盘上的全部软件。
HACMP配置与维护手册

POWER HA5.5配置与维护手册2010年9月2日目录第一章一体化系统HACMP配置 (3)§1.1系统结构图 (3)§1.2拓扑规划 (3)§1.3磁盘资源规划 (4)§1.4应用规划 (5)§1.5操作系统要求 (6)第二章HACMP日常维护 (8)§2.1HACMP服务正常启停 (8)§2.1.1HACMP启动 (8)§2.1.2停止HA (9)§2.2查看HACMP集群服务状态 (10)§2.2.1查看HACMP服务状态 (10)§2.2.2查看资源组的状态 (10)§2.2.3查看HACMP集群状态 (11)第三章系统切换方案 (12)§3.1rlw1机器应用出现故障,HACMP资源切换 (12)§3.1.1切换rlw1_apprg资源组 (12)§3.1.2恢复rlw1_apprg资源组 (13)§3.2hg2机器应用出现故障,HACMP资源切换 (15)§3.2.1切换rlw2_orarg资源组 (15)§3.2.2恢复rlw2_orarg资源组 (17)第四章HACMP切换测试 (19)§4.1网卡故障模拟测试 (19)§4.2rlw1 系统单机故障模拟测试 (20)§4.3rlw2 系统单机故障模拟测试 (22)§4.4rlw1系统HA 手工切换测试 (24)§4.5rlw2系统HA 手工切换测试 (26)第一章一体化系统HACMP 配置§1.1 系统结构图§1.2 拓扑规划P780(1)主机(LPAR rlw1)共享磁盘阵列(HDS USPV 存储系统)心跳线(tty0)ent2ent0 P780(2) 主机(LPAR rlw2)ent2ent0Service NetworkPersistent Networkrlw1机器boot1地址配置在第一块外置网卡上(en0),将boot2地址配置在第二块外置网卡(en2),persistent ip地址绑在第二块外置网卡上(en2);rlw2机器boot1地址配置在第一块外置网卡上(en0),将boo2地址配置在第二块外置网卡(en2),persistent ip地址绑在第二块外置网卡上(en2)。
HACMP 5.2 的安装、配置、测试完全手册

HACMP 5.2 的安装、配置、测试完全手册摘要:IBM HACMP 自从出了5.2 版本后,到了5.205比较稳定,并已经过充分的测试(见测试篇)和实践证明(已有多个系统成功自动切换)。
这里我整理了一下,以比较复杂的双机互备情况为例,其他类似设置可适当简化。
样例为AIX5304+HACMP5205.第一章规划篇第二章安装篇1、安装前提1) 操作系统版本要求:AIX5.203以上2) 环境要求用户确认HA要求所有切换需要用到的用户必须一一对应,userid完全相同。
如tlg1d0上oracle用户为orarun,tlg1a0上的orarun必须为切换保留,sid均为209平时用的oracle用户就改为oraclt[tlg1a0][root][/]lsuser -a id ALLroot id=0daemon id=1bin id=2sys id=3adm id=4uucp id=5nobody id=-2lpd id=9lp id=11invscout id=6snapp id=200ipsec id=201nuucp id=7radiusd id=202ldap id=203oradev id=204tuxrun id=205oraclt id=208orarun id=209sshd id=211bsx1 id=210[tlg1d0][root][/]>lsuser -a id ALLroot id=0daemon id=1bin id=2sys id=3adm id=4uucp id=5nobody id=-2lpd id=9lp id=11invscout id=6snapp id=200ipsec id=201nuucp id=7radiusd id=202ldap id=203oradev id=204orarun id=209tuxrun id=205oraclt id=208bsx1 id=210Ø 文件系统确认HA要求切换相关的文件系统不能重名,如tlg1d0上oracle软件目录为/ora10msrun,tlg1a0上的/ora10msrun必须为切换保留,改为/ora10msclt[tlg1d0][root][/]>df -kFilesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 524288 487820 7% 3276 3% //dev/hd2 7077888 1868516 74% 91290 18% /usr/dev/hd9var 524288 458364 13% 991 1% /var/dev/hd3 917504 826700 10% 120 1% /tmp/dev/hd1 655360 524856 20% 291 1% /home/proc - - - - - /proc/dev/hd10opt 1179648 589072 51% 11370 8% /opt/dev/lv00 131072 126912 4% 18 1% /var/adm/csd/dev/fslv01 131072 130724 1% 4 1% /tftpboot/dev/fslv00 6684672 3719036 45% 6 1% /export/eznim/dev/ora10msrunlvbak 8912896 5165508 43% 24814 3% /ora10msrunbak /dev/msrundatalvbak 13107200 2895980 78% 32 1% /msrundatabak/dev/msrunloglvbak 5242880 3094480 41% 8185 2% /msrunlogbak/dev/mksysblv 13107200 6238868 53% 5 1% /mksysb/dev/tlg1d0_baklv 26214400 17495848 34% 1111 1% /tlg1d0_bak/dev/msrundatalv 13107200 2896000 78% 31 1% /msrundata/dev/msrunloglv 5242880 3112216 41% 7996 2% /msrunlog/dev/ora10msrunlv 8912896 5173252 42% 23406 2% /ora10msrun[tlg1a0][root][/]>df -kFilesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 655360 93968 86% 3450 14% //dev/hd2 8650752 3779000 57% 90347 10% /usr/dev/hd9var 1179648 1001248 16% 1164 1% /var/dev/hd3 1179648 1136192 4% 143 1% /tmp/dev/hd1 655360 587592 11% 489 1% /home/proc - - - - - /proc/dev/hd10opt 1835008 1244528 33% 11374 4% /opt/dev/lv00 131072 126912 4% 18 1% /var/adm/csd/dev/fslv01 131072 118800 10% 7 1% /tftpboot/dev/fslv00 7733248 960696 88% 27298 12% /export/eznim/dev/fslv02 15335424 1143804 93% 4525 2% /soft_ins/dev/tlg1a0_baklv 26214400 20751500 21% 16 1% /tlg1a0_bak/dev/ora10mscltlvbak 13107200 9386904 29% 16852 1% /ora10mscltbak /dev/tux81msrunlvbak 655360 407932 38% 2685 3% /tux81msrunbak /dev/meslvbak 8912896 4815640 46% 6349 1% /BSMesWare/BSX1bak /dev/xcomlvbak 5242880 5186260 2% 4178 1% /xcombak/dev/ora10mscltlv 13107200 9386748 29% 16852 1% /ora10msclt/dev/tux81msrunlv 786432 538952 32% 2685 3% /tux81msrun/dev/meslv 14155776 10057876 29% 6343 1% /BSMesWare/BSX1/dev/xcomlv 5242880 5186280 2% 4178 1% /xcom3) 安装包要求:RSCT 2.3.6.0 或更高版本。
HACMP简单配置手册

H A C M P High Availability Cluster Multi – Processing一、Cluster 系统规划1:资源规划HACMP 给客户端提供高可用性的资源环境,当HACMP集群中的节点失效或按正常程序退出群集时,群集管理器将重新在剩余的节点中分配资源。
在HACMP中定义了以下资源类型:z卷组z磁盘z文件系统z要”Mount”到“网络文件系统”上的文件系统z要”Export”到“网络文件系统”上的文件系统z Service IP地址z应用程序(1)资源组群集中的每个资源被定义为资源组的一部分,这样做可以将有关联的资源聚集在一起,以提供特殊服务;同时,资源组还包括能够获得资源及提供这些资源到客户端的节点列表。
有三种类型的资源组:z Cascadingz Rotatingz Concurrent每种类型的资源组描述了节点在群集中的不同关系类型,及节点进入或离开群集的不同表现。
Cascading资源组中的节点设置优先等级,优先级最高的节点是活动节点,控制着整个资源组。
当优先级最高的节点失效时,次高优先级的节点控制资源组;当优先级最高的节点重新加入群集时,它将重新获得对资源组的控制权。
Rotating资源组涉及的不是某一个特定的节点,而是多个节点都有能力采用的共享的IP地址相联系,当定义了共享适配卡的第一个节点加入群集时,它将获得和共享IP地址相关联的Rotating资源组。
当控制Rotating资源组的节点离开群集时,下一个存在的节点获得该Rotating资源组;当该节点重新加入群集时,它将处于待机状态,而不重新获得该Rotating资源组的控制权。
Concurrent资源组能被多个节点同时共享,当一个节点失效时,没有任何接管工作发生;当失效节点重新加入群集时,它将和其它节点同时访问Concurrent资源组。
对于上述三种资源组分别可用一句话来进行概述:Cascading --- 活动节点使用最高优先l,…lk:,级控制资源组。
HACMP日常维护和配置

HACMP日常系统管理1:日常日志:日常日志主要是记录平时事件的启动,从中可以了解HACMP的动作,例如主机standby网卡故障,有fail_standby事件发生,系统管理员可从日志中得知何时出的故障,及有没有解决。
主要日志文件有:/tmp/hacmp.out:记录HACMP启动或有动作时执行的各事件。
此文件一天刷新一次,保留七天,文件保存为/tmp/hacmp.out.1-7;/usr/adm/cluster.log:记录HACMP的错误信息及各事件,另记录事件发生的时间;/tmp/cm.log:保存HACMP中clstrmgr进程产生信息的时间;/usr/sbin/cluster/history/cluster.mmdd:HACMP的历史记录文件。
2:启动和关闭HACMP:每次机器启动后,由系统管理员手工启动HACMP,机器shutdown前,手工关闭HACMP。
启动命令:# smit clstart 选项按缺省,启动顺序为先启主机,待主机的/tmp/hacmp.out文件中node_up_local_complete执行完后,再启动备机的HACMP;关闭命令:# smit clstop shutdown mode选项要确认为graceful。
当出现以下情况时须按指定步骤操作:主、备机在关电后,再次启动时,备机正常,主机不能启动。
指定步骤:在备机上执行# smit hacmp 选择cluster configuration进入,选择Cluster Resources进入,选择Chage/show Resources for a Resource Group进入,将Inactive Takeover Activated 改为true执行。
退出到命令行,启动HACMP,这时备机接管主机的资源。
3:查看HACMP状态:在HACMP中,它启动一个进程来监控各节点。
用# ps –ef|grep clinfo 命令查看clinfo 进程是否启动。
HACMP操作及注意事项

HACMP操作及注意事项
一.启动HACMP:
主机启动后先在一台主机,如S85上执行smitty clstart ,启动完后再在另一台机,如M80上执行smitty clstart ,HACMP启动db2也自动启动。
二.关闭及切换HACMP:
由于安装的HACMP为cascading方式,S85为主节点,M80为次节点。
在S85主机上上执行smitty clstop,有三个选项graceful、takeover、forced,如选graceful,S85上的HACMP正常停止,S85上的资源如datavg、s85_svc、datavg上的文件系统、应用系统不切换给M80;如选takeover,S85上S85上的HACMP 正常停止,S85上的资源如datavg、s85_svc、datavg上的文件系统、应用系统切换给M80;如选forced S85上的HACMP强行停止,S85上的资源如datavg、s85_svc、datavg上的文件系统、应用系统不切换给M80;
若S85出现故障而宕机或用takove切换,S85重新正常启动HACMP后,S85上的资源如datavg、s85_svc、datavg上的文件系统、应用系统又切换回S85。
三.HACMP注意事项:
在一台主机如S85上增加文件系统、改变文件系统大小、增
加逻辑卷时,需在另一台主机如M80上进行exportvg 和importvg操作。
HACMP常用命令

Journaled file systems
Add a journaled file system
Add a standard journaled file system
选择共享VG
指定FS的大小,Mount point
2)、# smitty clstop
停止HACMP的运行
– /usr/es/sbin/cluster/events/utils/cl_scdiskreset /dev/hdisk1
LV的更改最好在集群启动后进行,系统会自动在节点间同步
检查心跳线是否已经配置好:
1、在两台上分别输入如下命令:
S85_1# cat /etc/hosts >/dev/tty0
键入Snapshot文件名(Cluster Snapshot Name)
恢复cluster的配置:
# smitty hacmp
选择:Cluster Configuration→Cluster Snapshots→Apply a Cluster Snapshot
键入Snapshot文件名(Cluster Snapshot Name)
now:手工启动HACMP
restart、both:在系统启动时自动启动HACMP
3、停止HACMP:
# smitty clstop
注:有三种停止方式:
graceful:只停止本节点上HACMP的运行,并释放由本节点管理的资源,但
允许其它节点接管。
graceful with takeover:停止本节点上HACMP的运行,释放资源,让其他节
Start s cript
Stop s cript
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
HACMP日常操作手
册
HACMP操作手册
强制方式停掉 HACMP:
HACMP 的停止分为 3 种,graceful(正常),takeover(手工切换),force(强制)。
下面的维护工作,很多时候需要强制停掉 HACMP 来进行,此时资源组不会释放,这样做的好处是,由于 IP 地址、文件系统等等没有任何影响,只是停掉 HACMP 本身,因此应用服务能够继续提供,实现了在线检查和变更 HACMP 的目的。
一般所有节点都要进行这样操作。
强制停掉后的 HACMP 启动 :
在修改 HACMP 的配置后,大多数情况下需要重新申请资源启动,这样才能使 HACMP 的配置重新生效。
日常检查及处理
为了更好地维护 HACMP,平时的检查和处理是必不可少的。
下面提供的检查和处理方法除非特别说明,均是不用停机,而只需停止应用即可进行,不影响用户使用。
不过具体实施前需要仔细检查状态,再予以实施。
clverify 检查
这个检查能够对包括 LVM 的绝大多数 HACMP 的配置同步状态,是 HACMP 检查是否同步的主要方式。
smitty clverify->Verify HACMP Configuration
回车即可
经过检查,结果应是 OK。
如果发现不一致,需要区别对待。
对于非 LVM 的报错,大多数情况下不用停止应用,能够用以下步骤解决:
1.先利用强制方式停止 HACMP 服务。
同样停止 host2 的 HACMP 服务。
1.只检查出的问题进行修正和同步:
smitty hacmp ->Extended Configuration->Extended Verification and Synchronization
这时由于已停止 HACMP 服务,能够包括”自动修正和强制同步“。
对于 LVM 的报错,一般是由于未使用 HACMP 的 C-SPOC 功能,单边修改文件系统、lv、VG 造成的,会造成 VG 的 timestamp 不一致。
这种情况即使手工在另一边修正(一般由于应用在使用,也不能这样做),如何选取自动修正的同步,也依然会报 failed。
此时只能停掉应用,经过整理 VG 来解决。
cldump 检查:
cldump 的监测为将当前 HACMP 的状态快照,确认显示为 UP,STABLE。
Node Name: host1 State: UP
Network Name: net_ether_01 State: UP
Address: 10.2.100.1 Label: host1_l1_svc1 State: UP
Address: 10.2.101.1 Label: host1_l1_svc2 State: UP
Address: 10.2.1.1 Label: host1_l1_boot1 State: UP
Address: 10.2.11.1 Label: host1_l1_boot2 State: UP
Network Name: net_ether_02 State: UP
Address: 10.2.200.1 Label: host1_l2_svc State: UP
Address: 10.2.2.1 Label: host1_l2_boot1 State: UP
Address: 10.2.12.1 Label: host1_l2_boot2 State: UP
Node Name: host2 State: UP
Network Name: net_ether_01 State: UP
Address: 10.2.100.2 Label: host2_l1_svc1 State: UP
Address: 10.2.101.2 Label: host2_l1_svc2 State: UP
Address: 10.2.1.2 Label: host2_l1_boot1 State: UP
Address: 10.2.11.2 Label: host2_l1_boot2 State: UP
Network Name: net_ether_02 State: UP
Address: 10.2.200.2 Label: host2_l2_svc State: UP
Address: 10.2.2.2 Label: host2_l2_boot1 State: UP
Address: 10.2.12.2 Label: host2_l2_boot2 State: UP
Cluster Name: test_cluster
Resource Group Name: host1_RG
Startup Policy: Online On Home Node Only
Fallover Policy: Fallover To Next Priority Node In The List
Fallback Policy: Fallback To Higher Priority Node In The List
Site Policy: ignore
Node State
--------------- ---------------
host1 ONLINE
host2 OFFLINE
Resource Group Name: host2_RG
Startup Policy: Online On Home Node Only
Fallover Policy: Fallover To Next Priority Node In The List
Fallback Policy: Fallback To Higher Priority Node In The List
Site Policy: ignore
Node State
--------------- ---------------
host2 ONLINE
host1 OFFLINE
clstat 检查
clstat 能够实时监控 HACMP 的状态,及时确认显示为 UP,STABLE。