高可用HA集群

合集下载

HA高可用集群中脑裂问题解决-运维总结

HA⾼可⽤集群中脑裂问题解决-运维总结------ 什么是脑裂（split-brain）在"双机热备"⾼可⽤（HA）系统中，当联系两个节点的"⼼跳线"断开时(即两个节点断开联系时)，本来为⼀个整体、动作协调的HA系统，就分裂成为两个独⽴的节点(即两个独⽴的个体)。

由于相互失去了联系，都以为是对⽅出了故障，两个节点上的HA软件像"裂脑⼈"⼀样，"本能"地争抢"共享资源"、争起"应⽤服务"。

就会发⽣严重后果：1）或者共享资源被⽠分、两边"服务"都起不来了；2）或者两边"服务"都起来了，但同时读写"共享存储"，导致数据损坏（常见如数据库轮询着的联机⽇志出错）。

两个节点相互争抢共享资源，结果会导致系统混乱，数据损坏。

对于⽆状态服务的HA，⽆所谓脑裂不脑裂，但对有状态服务(⽐如MySQL)的HA，必须要严格防⽌脑裂[但有些⽣产环境下的系统按照⽆状态服务HA的那⼀套去配置有状态服务，结果就可想⽽知]。

------ 集群脑裂产⽣的原因⼀般来说，裂脑的发⽣，有以下⼏种原因：1. ⾼可⽤服务器各节点之间⼼跳线链路发⽣故障，导致⽆法正常通信。

2. 因⼼跳线坏了（包括断了，⽼化）。

3. 因⽹卡及相关驱动坏了，ip配置及冲突问题（⽹卡直连）。

4. 因⼼跳线间连接的设备故障（⽹卡及交换机）。

5. 因仲裁的机器出问题（采⽤仲裁的⽅案）。

6. ⾼可⽤服务器上开启了iptables防⽕墙阻挡了⼼跳消息传输。

7. ⾼可⽤服务器上⼼跳⽹卡地址等信息配置不正确，导致发送⼼跳失败。

8. 其他服务配置不当等原因，如⼼跳⽅式不同，⼼跳⼴插冲突、软件Bug等。

提⽰：Keepalived配置⾥同⼀VRRP实例如果virtual_router_id两端参数配置不⼀致也会导致裂脑问题发⽣。

VMware vCenter 高可用性 HA 详解

VMware vCenter 高可用性 HA 详解时间: 2011-07-01 分类: VMware标签: DRS, HA, vCenter, VM, vMotion / 1,455 次浏览0 评论VM ware HA简介HA的全称是High Availability(高可用性)。

VM ware HA群集一般具有一个包括两个或者两个以上ESX 主机的逻辑队列。

在一个HA群集中，每一台VM ware ESX服务器配有一个HA代理，持续不断地检测群集中其他主的心跳信号。

假如某台ESX主机在连续三个时间间隔后都还没有发出心跳信号，那么该主机就被默认为发生了故障或者与网络的连接出现了问题。

在这种情况下，原本在该主机上运行的虚拟机就会自动被转移到群集中的其他主机上。

反之，如果一台主机无法接收到来自群集的其他主机的心跳信号，那么该主机便会启动一个内部进程来检测自己跟群集中其他主机的连接是否出现了问题。

如果真的出现了问题，那么就会中断在这台主机上所有正在运行的虚拟机，并启动预先设定好的备用主机。

此外，VMware HA的另一个显著的特点是能够对一个群集中的多台ESX服务器(多达四台)上进行故障转移。

对于一次VMware HA故障转移，客户端操作系统认为只是一次因硬件的崩溃而进行的重启，并不会觉察到是一次有序的关机。

因此，这样的修复并不会改变操作系统的状态。

此外，虚拟机中任何正在进行的业务也不会丢失。

即使备用ESX服务器主机的硬件设备跟原ESX服务器主机的硬件设备有所不同，客户端操作系统也不会检测到这种不同。

所以，VMware HA的故障转移对于客户来说可以算是完全透明的，几乎不会出现任何停机的危险。

1. VMware HA 提供快速中断恢复VMware HA 利用配置为群集的多台 ESX/ESXi 主机，为虚拟机中运行的应用程序提供快速中断恢复和具有成本效益的高可用性。

VMware HA 通过以下两种方式保护应用程序可用性：∙通过在群集内的其他主机上自动重新启动虚拟机，防止服务器故障。

ha集群中的虚拟ip原理

ha集群中的虚拟ip原理
HA（高可用性）集群中的虚拟IP（Virtual IP）原理是通过将多个物理服务器组合在一个逻辑组中，为该组分配一个共享的虚拟IP地址。

虚拟IP的工作原理如下：
1. 在HA集群中的每个服务器上，通过网络设备配置一个虚拟网络接口（Virtual Network Interface，VIF），该接口与物理网卡绑定，并分配一个私有IP地址。

2. HA软件在集群中的每个服务器上运行，通过监控服务器的健康状态，确定哪台服务器成为主服务器。

3. 一旦主服务器故障或不可用，HA软件会自动将虚拟IP从主服务器切换到另一台正常运行的备份服务器。

4. 当虚拟IP切换到备份服务器时，备份服务器会将虚拟网络接口（VIF）绑定到自己的物理网卡上，并将该虚拟IP地址设置为网卡的IP地址。

5. 当主服务器恢复正常时，HA软件会将虚拟IP重新切换回主服务器，同样通过将虚拟网络接口绑定到主服务器的物理网卡上来实现。

通过这种方式，虚拟IP隐藏了底层服务器的真实IP地址，并在主备切换时自动调整到正常运行的服务器上，从而提供了高可用性和冗余性。

虚拟IP对外部客户端来说，代表了整个HA集群的服务地址，客户端无需关心具体是哪台服务器提供服务。

Vmwareesxi5.0高可用介绍之一HA

出差半月了，终于项目要测试上线了，心里无比激动。

在项目中遇到了不少困难，当然学到了不少东西。

经历了一个项目，很多幸酸和痛苦，当然也有一定的成就感。

Vmware esxi 5.0集群高可用不得不说的2个高可用功能ha和drs。

这两个功能确保了vmware虚拟机的正常运行，而不至于一台主机down机而业务中断。

而且资源能够动态平衡，功耗节约方面做的很好。

vmware成为当今虚拟化老大还是有一定的技术含量的，不是轻而易举能够被取代的。

我们在安装集群的时候选择ha和drs两个选项，如图：一、HA功能介绍在我看来ha功能就是减少中断业务，和停机时间。

在发生故障时他能够快速的迁移到其他主机，这个功能不得不说对于业务的重要性。

当然我们在之前要考虑很多东西，比如单点故障，pdu冗余，交换机冗余，网卡绑定冗余，存储光端机冗余等等。

只有严谨的架构设计才能保证真正的高可用。

当然官方有官方的说法，差不多一样。

下面是官方的说法，与传统的故障切换解决方案相比，vSphere HA 具有多个优势：最小化设置设置 vSphere HA 群集之后，群集内的所有虚拟机无需额外配置即可获得故障切换支持。

减少了硬件成本和设置虚拟机可充当应用程序的移动容器，可在主机之间移动。

管理员会避免在多台计算机上进行重复配置。

使用 vSphere HA 时，必须拥有足够的资源来对要通过vSphere HA 保护的主机数进行故障切换。

但是，vCenter Server 系统会自动管理资源并配置群集。

提高了应用程序的可用性虚拟机内运行的任何应用程序的可用性变得更高。

虚拟机可以从硬件故障中恢复，提高了在引导周期内启动的所有应用程序的可用性，而且没有额外的计算需求，即使该应用程序本身不是群集应用程序也一样。

通过监控和响应VMwareTools 检测信号并重新启动未响应的虚拟机，可防止客户机操作系统崩溃。

DRS 和 vMotion 集成如果主机发生了故障，并且在其他主机上重新启动了虚拟机，则DRS 会提出迁移建议或迁移虚拟机以平衡资源分配。

vmware 高可用性(集群HA)

VMware高可用性（集群HA）1 应用层高可用性：如实现mysql、oracle数据库应用程序的储群集，主要是判断mysql、oracle 应用程序是否停止运行。

2 操作系统高可用性：如windows的故障转移群集（windows failover clustering WFC）。

3 虚拟化层的高可用性：如vsphere high availability(HA)和vsphere fault tolerance(FT)。

4 物理层的高可用性：如：多网络适配器、SAN等。

vSphere HA 和 Fault Tolerance（FT）功能分别通过提供中断快速恢复和连续可用性来最小化或消除非计划停机时间。

使用 vSphere，企业可以轻松提高为所有应用程序提供的基准级别，并且以更低成本和更简单的操作来实现更高级别的可用性。

使用vSphere，你可以：a 独立于硬件、操作系统和应用程序提供更高可用性。

b 减少常见维护操作的计划停机时间。

c 在出现故障时提供自动恢复。

一、vSphere HA 提供快速中断恢复vSphere HA 利用配置为群集的多台 ESXi 主机，为虚拟机中运行的应用程序提供快速中断恢复和具有成本效益的高可用性。

vSphere HA 通过以下方式保护应用程序可用性：1 通过在群集内的其他主机上重新启动虚拟机，防止服务器故障。

2 通过持续监控虚拟机(通过vmware tools实现主机向虚拟机发送检测信号）并在检测到故障时对其进行重新设置，防止应用程序故障。

与其他群集解决方案不同，vSphere HA 提供基础架构并使用该基础架构保护所有工作负载：a 无需在应用程序或虚拟机内安装特殊软件。

所有工作负载均受 vSphere HA 保护。

配置 vSphere HA 之后，不需要执行操作即可保护新虚拟机。

它们会自动受到保护。

（需在开机状态下才受保护）b 可以将 vSphere HA 与 vSphere Distributed Resource Scheduler (DRS即负载均衡) 结合使用以防止出现故障，以及在群集内的主机之间提供负载平衡。

HA集群基本概念详解

HA集群基本概念详解⼀、⾼可⽤集群的定义⼆、⾼可⽤集群的衡量标准三、⾼可⽤集群的层次结构四、⾼可⽤集群的分类五、⾼可⽤集群常⽤软件六、共享存储七、集群⽂件系统与集群LVM⼋、⾼可⽤集群的⼯作原理⼀、⾼可⽤集群的定义⾼可⽤集群，英⽂原⽂为High Availability Cluster，简称HACluster，简单的说，集群（cluster）就是⼀组计算机，它们作为⼀个整体向⽤户提供⼀组⽹络资源。

这些单个的计算机系统就是集群的节点（node）。

⾼可⽤集群的出现是为了使集群的整体服务尽可能可⽤，从⽽减少由计算机硬件和软件易错性所带来的损失。

如果某个节点失效，它的备援节点将在⼏秒钟的时间内接管它的职责。

因此，对于⽤户⽽⾔，集群永远不会停机。

⾼可⽤集群软件的主要作⽤就是实现故障检查和业务切换的⾃动化。

只有两个节点的⾼可⽤集群⼜称为双机热备，即使⽤两台服务器互相备份。

当⼀台服务器出现故障时，可由另⼀台服务器承担服务任务，从⽽在不需要⼈⼯⼲预的情况下，⾃动保证系统能持续对外提供服务。

双机热备只是⾼可⽤集群的⼀种，⾼可⽤集群系统更可以⽀持两个以上的节点，提供⽐双机热备更多、更⾼级的功能，更能满⾜⽤户不断出现的需求变化。

⼆、⾼可⽤集群的衡量标准HA(High Available), ⾼可⽤性群集是通过系统的可靠性(reliability)和可维护性(maintainability)来度量的。

⼯程上，通常⽤平均⽆故障时间(MTTF)来度量系统的可靠性,⽤平均维修时间（MTTR）来度量系统的可维护性。

于是可⽤性被定义为：HA=MTTF/(MTTF+MTTR)*100%具体HA衡量标准:99% ⼀年宕机时间不超过4天99.9% ⼀年宕机时间不超过10⼩时99.99% ⼀年宕机时间不超过1⼩时99.999% ⼀年宕机时间不超过6分钟三、⾼可⽤集群的层次结构说明：⾼可⽤集群可分为三个层次结构，分别由红⾊部分的Messaging与Membership层，蓝⾊部分的Cluster Resource Manager（CRM）层，绿⾊部分的Local Resource Manager（LRM）与Resource Agent（RA）组成，下⾯我们就来具体说明（如上图），1.位于最底层的是信息和成员关系层（Messaging and Membership），Messaging主要⽤于节点之间传递⼼跳信息，也称为⼼跳层。

ha集群解决方案

ha集群解决方案
《ha集群解决方案》
随着互联网的不断发展，对于网站和应用程序的高可用性和可靠性要求越来越高。

因此，高可用（HA）集群解决方案成为
了企业和组织在搭建服务器和数据库系统时关注的重点之一。

HA集群解决方案是一种通过集群技术来实现高可用性和负载
均衡的系统架构。

它通过将多个服务器或节点连接在一起，实现资源共享和任务分配，从而提高系统的稳定性和性能，防止因单点故障而导致的服务中断。

在实际应用中，HA集群解决方案通常包括硬件和软件两个方面。

在硬件层面，可以通过使用具有冗余功能的服务器和网络设备来防止硬件故障对系统的影响。

而在软件层面，可以利用负载均衡器、故障转移和数据同步技术来实现高可用性。

对于企业来说，选择合适的HA集群解决方案需要考虑诸多因素，如成本、性能、可扩展性和易用性等。

常见的HA集群解决方案包括Linux-HA、Pacemaker、Keepalived等。

这些解决
方案不仅能够提供故障转移和负载均衡功能，还能够实现互备、冗余存储和数据同步，从而进一步提高系统的可用性和稳定性。

总的来说，HA集群解决方案在今天的互联网时代发挥着重要
作用，它不仅能够帮助企业提高网站和应用程序的可用性和可靠性，还能够降低因故障而造成的损失。

因此，企业和组织在
搭建服务器和数据库系统时，不妨考虑采用适合自身需求的HA集群解决方案，以提升系统的稳定性和性能。

VMware HA介绍

VMware vCenter 高可用性 HA 详解VMware HA 简介HA的全称是High Availability(高可用性)。

VMware HA群集一般具有一个包括两个或者两个以上ESX主机的逻辑队列。

在一个HA群集中，每一台VMware ESX 服务器配有一个HA代理，持续不断地检测群集中其他主的心跳信号。

假如某台ESX主机在连续三个时间间隔后都还没有发出心跳信号，那么该主机就被默认为发生了故障或者与网络的连接出现了问题。

在这种情况下，原本在该主机上运行的虚拟机就会自动被转移到群集中的其他主机上。

如果真的出现了问题，那么就会中断在这台主机上所有正在运行的虚拟机，并启动预先设定好的备用主机。

此外，VMware HA的另一个显著的特点是能够对一个群集中的多台ESX服务器(多达四台)上进行故障转移。

对于一次VMware HA故障转移，客户端操作系统认为只是一次因硬件的崩溃而进行的重启，并不会觉察到是一次有序的关机。

因此，这样的修复并不会改变操作系统的状态。

此外，虚拟机中任何正在进行的业务也不会丢失。

即使备用ESX服务器主机的硬件设备跟原ESX服务器主机的硬件设备有所不同，客户端操作系统也不会检测到这种不同。

所以，VMware HA的故障转移对于客户来说可以算是完全透明的，几乎不会出现任何停机的危险。

1. VMware HA 提供快速中断恢复VMware HA 利用配置为群集的多台 ESX/ESXi 主机，为虚拟机中运行的应用程序提供快速中断恢复和具有成本效益的高可用性。

VMware HA 通过以下两种方式保护应用程序可用性：•通过在群集内的其他主机上自动重新启动虚拟机，防止服务器故障。

•通过持续监控虚拟机并在检测到故障时对其进行重新设置，防止应用程序故障。

与其他群集解决方案不同，VMware HA 提供基础架构并使用该基础架构保护所有工作负载：•不需要在应用程序或虚拟机内安装任何特殊软件。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Net(直连心跳) Net(外网链路心跳) COM(串口心跳) Disk(磁盘心跳)
agent
服务进程浮动IP 磁盘网卡网关IP 自身进程
监控
操作系统RedFlag DC5.0
红旗HA Cluster心跳红旗心跳
源服务器上所有服务的状态要求远程服务器更改其切换模式或服务状态的请求要求已运行的远程服务器上的监控服务终止的请求(failback) 的请求递增的报文序列号
红旗HA trektool 红旗
设置java权限权限设置
cp /opt/redflag/hatrek/etc/.java.policy ~ 设置浏览器的java支持 konqueror firefox(1.5) mozilla(1.4) IE6.0
红旗HA trektool 红旗
Konqueror
agent
监控
操作系统RedFlag DC5.0
Software Components
MON EXEC 脚本 EXEC 共享磁盘浮动ip HA daemon
agent
监控
操作系统RedFlag DC5.0
Net(直连心跳) Net(外网链路心跳) COM(串口心跳) Disk(磁盘心跳)
Software Components
HA5.0命令部分命令部分
操作命令 clpcl
Usage: clpcl -s [-a] [-h <hostname>] : 启动启动HA资源资源 clpcl -t [-a] [-h <hostname>] [-w <timeout>] : 停止停止HA资源资源 clpcl -r [-a] [-h <hostname>] [-w <timeout>] : 重启重启HA资源资源 clpcl --suspend [--force] [-w <timeout>] clpcl —resume : 暂停暂停HA集群集群
挂载盘阵磁盘
mount /dev/sdb1 /httpdata
启动服务
service httpd start
HA监控监控
判断是否失效尝试重试切换次数切换失败后的操作超时 ……
HA进程方式进程方式
判断进程是否存在判断端口是否存在模拟使用服务所提供功能 ……
HA5.0命令部分命令部分
Daemon (Service)
RedFlag HA Daemon (Service) Operation System
Executable script files which used by RedFlag HA to start/stop service
System availability monitoring process RedFlag HA is running on Linux, Windows NT 4.0 and Windows 2000,Windows , 2003 Built-in agents Agent heartbeats Agent API and template
HA Cluster
集群分类
High Availability Cluster 高可用性集群 Load Balance Cluster 负载均衡集群 High Performance Computing 科学计算集群
HA Cluster
HA集群的构成集群的构成
单方向Standby 不同业务双方向Standby 同一业务双方向Standby N+N构成
/usr/lib/firefox/plugins/libjavaplugin_oji.so -> /usr/java/jre1.6.0_07/plugin/i386/ns7/libjavaplugin_oji.so
IE6
安装JRE环境即可
红旗HA Cluster的安装红旗的安装
生成HA的配置文件用treking tool生成的配置文件生成分发HA集群配置文件
HA5.0命令部分命令部分
clpstat --cl [--detail] [-h <hostname>] : 集群信息 clpstat --sv [<srvname>] [-h <hostname>] : HA和服务器版本信息和服务器版本信息 clpstat --hb [<hbname>] [--detail] [-h <hostname>] : 心跳信息 clpstat --np [<npname>] [--detail] [-h <hostname>] : np clpstat --grp [<grpname>] [--detail] [-h <hostname>] : 组设置信息 clpstat --rsc [<rscname>] [--detail] [-h <hostname>] : 组资源信息 clpstat --mon [<monname>] [--detail] [-h <hostname>] : 监控资源信息 --detail 加上该选项,可以显示更加详细的信息. 加上该选项,可以显示更加详细的信息. srvname 服务器名 hbname 心跳资源名 npname 'network partition resource name'. grpname 资源组名 rscname 组资源名组资源名. monname 监控资源名
Administration Tool RedFlag HA Monitor
Service guarded by RedFlag HA fip disk proc momproc
Service (Resource) Agent Scripts

Two core mutualguarded fail-save daemons (services)
MON EXEC 脚本 EXEC 共享磁盘浮动ip HA daemon
Net(直连心跳) Net(外网链路心跳) COM(串口心跳) Disk(磁盘心跳)
agent
监控
操作系统RedFlag DC5.0
Software Components
MON EXEC 脚本 EXEC 共享磁盘浮动ip HA daemon
Red Flag HA Agent Web Manager Trekking Tool
Software Components
User friendly administration tool Support dynamic configuration and real-time synchronization
clpcfctrl --push -l -x 配置文件路径
注册License
clplcnsc -i -p SE50
重启系统, 重启系统,用WebManager 访问管理
Web Manager
Web Manager
通过Web Manager对集群操作通过对集群操作
服务启动步骤
挂载浮动IP
ifconfig eth0:0 172.16.81.214 netmask 255.255.255.0 up
状态显示命令 clpstat
Usage: clpstat -s [-h <hostname>] clpstat -g [-h <hostname>] clpstat -m [-h <hostname>] clpstat -n [-h <hostname>] clpstat -i [—detail] [-h <hostname>] clpstat -p [-h <hostname>] (HA6 Only) ) : 集群状态 : 集群组状态 : 监视资源状态 : 心跳状态 :集群整体详细配置信息集群整体详细配置信息 : np status
安装HA Cluster trek 包(配置工具)
rpm -ivh rfhaclustertrek-5.0-1.i386.rpm
安装JAVA环境环境安装
HA4.1--->jdk1.4.2 HA5.0--->jre1.5,jdk1.5 or higher
红旗HA Cluster主服务红旗主服务
1.
红旗HA trektool 红旗
mozilla(1.4.2)
/usr/lib/mozilla-1.4.2/plugins/libjavaplugin_oji.so -> /usr/java/j2sdk1.4.2_12/jre/plugin/i386/ns4/libjavaplugin.so
firefox(1.0.6)
HA集群的构成集群的构成
Hardware Components
Client LAN Public Net
Active Server
Private Net
Backup Server
Share Disks
数据共享磁盘
红旗HA产品构成红旗产品构成
Red Flag HA Cluster
SE,LE,SX,EA ...
Software Components
MON EXEC 脚本 EXEC 共享磁盘浮动ip HA daemon
Net(直连心跳) Net(外网链路心跳) COM(串口心跳) Disk(磁盘心跳)
agent
监控
操作系统RedFlag DC5.0
Software Components
MON EXEC 脚本 EXEC 共享磁盘浮动ip HA daemon
hacluster_evt 日志 hacluster_trn 序列号,配置信息序列号, hacluster 主程序 hacluster_webmgr webmanager hacluster_alertsync 集群同步 hacluster_md 镜像磁盘