高可靠集群系统方案白皮书

合集下载

华为OceanStor T系列技术白皮书

资料编码OceanStor T 系列技术白皮书文档版本V3.1 发布日期201307目录1执行摘要/Executive Summary (4)2简介/Introduction (5)3解决方案/Solution (6)4推广/Experience (21)5结论/Conclution (27)6缩略语表/Acronyms and Abbreviations (28)第3 页, 共28 页1 执行摘要/Executive Summary本文从存储技术的发展趋势为切入点，结合用户需求，从融合统一、高性能、高可靠、高扩展及绿色节能等方面详细介绍了华为公司OceanStor T 系列统一存储产品的功能及亮点，旨在突出T 系列产品独有的功能点以及为客户带来的价值。

2 简介/Introduction随着IT 技术的发展，IT 系统的数据量也随之日益增大，而异构多样的网络、割裂林立的部门和庞大冗杂的业务系统，造成了IT 总体架构的复杂性，设备管理和维护也面临着巨大的挑战。

权威机构调查表明，当前IT 运维日益复杂，IT 预算中运维成本占到了IT 总投资的72%，而仅有28%的投资用于基础架构的投资。

复杂的网络环境，单台存储系统遭遇的性能瓶颈，成本与性能需求的平衡以及客户对于混合型存储的强烈需求等等问题被抛出，如何解决这些问题成为IT 业界关注的重中之重。

华为技术有限公司全力打造的OceanStor T系列存储产品正是以统一存储为主打，高性能、高可靠、可扩展以及绿色节能为其设计理念，充分满足用户需求，保护用户投资，最大化提升用户价值。

3解决方案/Solution随着信息产业的发展，存储逐渐从计算机中独立出来，成为IT 产业中的一个大类。

在计算技术迅速发展的今天，技术的进步必然引起相关产业的发展，存储也不例外。

技术发展首先会产生新概念、新标准，这些都会直接影响相关产业的发展趋向，据业内专家分析，存储行业正在朝以下几方面发展：统一存储成为趋势随着信息化进程的加快，数据急速增长，非结构化数据的增长速度更是远超预期。

FusionSphere虚拟化套件可靠性技术白皮书

华为FusionSphere虚拟化套件可靠性技术白皮书目录1系统架构说明 (1)1.1华为FusionSphere解决方案总览 (1)2系统可靠性 (2)2.1网络路径全冗余 (2)2.2网络分平面通信 (2)2.3管理节点HA (3)2.4进程僵死保护 (4)2.5流量控制 (5)2.6故障检测 (5)2.7数据一致性审计 (5)2.8管理数据备份与恢复 (6)2.9全局时间同步 (6)3 FusionCompute可靠性 (7)3.1虚拟机热迁移 (7)3.2存储冷热迁移 (8)3.3虚拟机HA (9)3.4虚拟机故障隔离 (10)3.5虚拟机OS故障检测 (11)3.6黑匣子 (12)3.7管理节点虚拟化部署 (12)3.8主机故障恢复 (12)4 FusionStorage可靠性 (13)4.1数据存储冗余设计 (13)4.2多故障域设计 (14)4.3数据安全级设计 (14)4.4数据强一致性 (16)4.5元数据高可靠性 (16)5网络可靠性 (17)5.1存储多路径访问 (19)5.2虚拟化网络流量控制 (20)5.3网卡负荷分担 (20)5.4交换机堆叠 (20)5.5交换机互连冗余 (21)5.6虚拟路由冗余保护 (21)6硬件可靠性 (23)6.1内存可靠性 (23)6.2硬盘可靠性 (23)6.3支持磁盘在线定时故障检测和预警 (24)6.4电源可靠性 (24)6.5系统检测 (25)6.6板载软件可靠性 (25)1 系统架构说明1.1 华为FusionSphere解决方案总览图1-1华为FusionSphere解决方案总览华为FusionSphere解决方案对业务系统的多个应用整合后，提高了服务器利用率和系统可靠性，降低采购成本，提高维护效率。

通过弹性主机基本服务提供方便快捷按需使用的优质弹性服务；自助申请调度资源、查询，无需人工服务；成本低，体验好：低于传统业务模式，自动服务显著提高响应速度。

OceanstorN集群NAS存储系统产品技术白皮书V

保留一切权利。

非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。

商标声明和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标，由各自的所有人拥有。

注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束，本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。

除非合同另有约定，华为公司对本文档内容不做任何明示或默示的声明或保证。

由于产品版本升级或其他原因，本文档内容会不定期进行更新。

除非另有约定，本文档仅作为使用指导，本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

华为技术有限公司为客户提供全方位的技术支持，用户可与就近的华为办事处联系，也可直接与公司总部联系。

华为技术有限公司地址：深圳市龙岗区坂田华为总部办公楼邮编：518129网址：客户服务电0 18话：客户服务传1真：客户服务邮箱：目录图目录图 1 产品逻辑结构图 ............................... 错误!未定义书签。

图 2 FileStore 软件及应用架构示意图 ............... 错误!未定义书签。

图 3 N8500集群NAS存储系统关系图.................. 错误!未定义书签。

图 4 SAN、NAS一体化典型组网....................... 错误!未定义书签。

图 5 使用NBU客户端备份方式组网 ................... 错误!未定义书签。

图 6 使用NDMP备份组网 ............................ 错误!未定义书签。

图 7 数据通道全互联技术 ........................... 错误!未定义书签。

高性能集群方案

高性能集群方案摘要：随着科技的不断发展，越来越多的企业和组织面临处理大规模数据和处理复杂计算任务的需求。

为了应对这些需求，高性能集群方案被广泛采用。

本文将介绍高性能集群方案的基本概念和原理，并探讨如何设计和部署一个高效的集群系统。

一、引言随着云计算、大数据和人工智能等技术的快速发展，许多领域的数据和计算需求呈现指数级增长。

传统的单机计算模型已经无法满足这些需求，因此高性能集群方案变得越来越重要。

二、高性能集群的定义高性能集群是一种将多个计算资源联合起来形成一个统一计算实体的解决方案。

这些计算资源可以是物理服务器、虚拟机、容器等。

高性能集群的目标是通过并行计算和分布式存储来实现高性能和高可靠性。

三、高性能集群的优势1. 高性能：高性能集群可以并行处理大规模数据和复杂计算任务，大大提高计算速度。

2. 高可扩展性：集群系统可以根据实际需求扩展计算资源，满足不断增长的计算需求。

3. 高可靠性：高性能集群通常采用冗余备份和自动故障转移机制，保证系统的高可靠性。

4. 节省成本：通过合理的资源利用和自动化管理，高性能集群可以降低企业的IT运维成本。

四、高性能集群的关键技术1. 分布式存储：高性能集群通常采用分布式文件系统，将数据分散在多个节点上进行存储，提高数据访问效率和可靠性。

2. 分布式计算：高性能集群通过任务划分和并行计算的方式，将复杂计算任务分发到多个计算节点上进行处理，提高计算速度和效率。

3. 负载均衡：为了保证集群中各个节点的负载均衡，高性能集群通常采用负载均衡算法来分发任务，并根据节点的实际负载情况进行动态调整。

4. 容错机制：高性能集群通过冗余备份和自动故障转移机制，提高系统的可靠性和容错性。

五、高性能集群的设计和部署1. 硬件选型：根据实际需求选择适合的计算节点和存储设备，保证集群系统的性能和容量。

2. 网络架构：设计合理的网络架构，保证节点之间的高速通信和低延迟。

3. 软件配置：安装和配置适合集群的操作系统和软件，进行节点的管理和监控。

中标麒麟高可用集群软件（龙芯版）V7.0 产品白皮书说明书

中标麒麟高可用集群软件（龙芯版）V7.0 产品白皮书
中标软件有限公司
目录
目录
目录 ...................................................................................................................................................i 前言 ..................................................................................................................................................v 内容指南 ........................................................................................................................................vii 中标麒麟高可用集群产品介绍....................................................................................................... 9 1 概述 ............................................................................................................................................ 11
第 i 页 / 共 54 页

软件开发知识：利用集群技术构建高可用性的系统

软件开发知识：利用集群技术构建高可用性的系统随着互联网技术的不断发展，越来越多的企业和组织都在构建自己的高可用性系统，以保证业务的稳定性和数据的安全性。

其中的关键技术之一就是集群技术，通过多台服务器的联合工作，实现高可用性的系统构建。

本文将从以下四个方面深入阐述集群技术构建高可用性系统的要点和步骤。

首先，介绍集群技术的基本概念和原理。

其次，探讨如何利用集群实现系统的负载均衡和故障转移，同时介绍相关的软件和工具。

第三，详细解释如何选用适合的硬件设备和网络结构来搭建集群系统。

最后，对常见的集群系统故障进行分析，提出应对方法。

一、集群技术概述集群技术是一种将多台计算机联合起来构成一个高性能、高可用性、高扩展性的计算机系统的技术。

集群系统通常由多个相互独立的服务器节点组成，节点之间通过特定的网络通信协议进行数据的交换和共享。

在集群系统中，任何一个计算机节点都可以以工作节点的身份进入到整个集群体系中，从而实现任务的分配和执行。

而整个集群系统也可以通过编程、配置等方式实现负载均衡和故障转移，从而提高系统的可用性和稳定性。

二、集群技术实现高可用性系统的原理和步骤2.1负载均衡负载均衡是集群技术中最基本的概念之一。

在一个系统或服务中，用户的请求往往是随机分布的，不同请求的负载也会有所差异。

而通过负载均衡技术，可以将不同请求分配到不同计算机节点中进行处理，从而实现系统的负载均衡。

负载均衡可以分为硬件负载均衡和软件负载均衡两种类型。

硬件负载均衡一般采用专用网络交换机或路由器来实现，比如F5、NetScaler等；而软件负载均衡通常采用虚拟网络设备或软件来实现，比如Nginx、HAProxy等。

2.2故障转移故障转移指在集群系统中，如果某个节点出现了故障，如何及时将请求转发到其他节点，以保证系统的可用性和稳定性。

故障转移也可以分为硬件故障转移和软件故障转移两种类型。

硬件故障转移一般采用专用的硬件设备或热插拔设备来实现，比如磁盘阵列设备或高可用性存储系统。

智能无人集群系统发展白皮书

智能无人集群系统发展白皮书智能无人集群系统发展白皮书一、引言近年来，随着人们对智能化技术的不断追求，智能无人集群系统逐渐成为了一个备受关注的热门话题。

智能无人集群系统是利用人工智能技术、无线通信技术等多种技术手段，对无人集群进行智能化管理和控制的系统。

与传统的无人集群技术相比，智能无人集群技术体现了更高的智能化水平和更优异的性能指标，具有广阔的应用前景和巨大的市场潜力。

本白皮书旨在对智能无人集群系统的发展现状、技术特点、应用场景与前景进行全面介绍和分析，为相关从业人员和企业提供参考。

二、智能无人集群系统的发展现状随着人工智能、无人机、物联网等新兴技术的不断发展，智能无人集群系统也得到了快速发展。

目前，智能无人集群系统涉及的技术领域主要包括人工智能、通信技术、控制算法、传感器技术等多个方面。

在人工智能方面，深度学习、强化学习等技术的应用为智能无人集群系统的发展提供了强有力的技术支撑和理论基础。

在通信技术方面，5G技术的广泛应用将极大地提高无人集群的通信效率和数据传输速度。

同时，现代控制算法的优化和传感器技术的进步，也为智能无人集群系统的实现提供了可靠的技术保障。

目前，智能无人集群系统的应用领域已经逐渐扩展到了农业、交通、物流等多个领域。

在农业领域，智能无人集群系统可以通过地图测绘技术、传感器采集技术、无人机高清成像技术等手段，为种植、肥料施用、病虫害防治等提供智能化的解决方案。

在交通领域，智能无人集群系统可以通过分布式控制和信息安全保障等技术手段，实现车辆自动驾驶、路况预测等智能化应用。

在物流领域，智能无人集群系统可以通过自主避障、自主导航等技术手段，提高物流配送的效率和质量。

三、智能无人集群系统的技术特点智能无人集群系统具有如下技术特点：1.智能化管理与控制。

智能无人集群系统采用人工智能技术实现群体智能化管理和控制，支持智能路径规划、智能避障、智能充电等功能。

2.高可靠性和稳定性。

智能无人集群系统采用分布式控制算法，具备高可靠性和稳定性，支持多任务协作和多节点管理。

H3Cloud高可靠性和高可用性技术白皮书

非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。

本文档中的信息可能变动，恕不另行通知。

目录1 技术应用背景 (1)2 H3Cloud实现的技术特色 (2)2.1 H3Cloud云计算软件简介 (4)2.2 相关技术基础简介 (2)2.2.1 共享存储 (2)2.2.2 H3Cloud vMigration (3)2.3 H3Cloud高可靠性（HA）技术 (5)2.3.1 相关术语 (5)2.3.2 物理服务器主机HA工作原理 (6)2.3.3 虚拟机HA工作原理 (6)2.3.4 技术特色总结 (7)2.4 H3Cloud高可用性技术 (8)2.4.1 动态资源调整 (8)2.4.2 虚拟机资源限额 (10)2.5 应用限制 (12)3 典型组网案例 (12)3.1 组网拓扑 (12)3.2 注意事项 (13)3.2.1 对服务器硬件的要求 (13)3.2.2 整合比（单台服务器上虚拟机数量）的决定因素 (14)4 参考文献 (14)i1 技术应用背景随着虚拟化和云计算浪潮在全球IT行业的兴起，越来越多的企业、行业和运营商纷纷将自身的IT 架构切换到虚拟化环境中。

虚拟化技术对数据中心内未被充分利用的服务器进行整合，极大地降低了客户的一次性投入成本，精简了数据中心物理服务器的数量，同时，减少了供电、制冷、场地和运维人员方面的运营成本。

但是，虚拟化也为IT应用带来了单点故障问题，在未实施虚拟化技术之前，IT管理员往往遵循“根据最坏情况下的工作负载来确定所有服务器的配置”这一策略，即一台高性能物理服务器仅安装一个应用程序。

在这种情况下，即使该物理服务器出现了断电或操作系统崩溃等异常状况，最多只会影响到一个应用的运行，而在虚拟化环境下，每台物理服务器往往运行多个虚拟的应用服务器，因此，虚拟化技术的实施将使IT环境面临的灾难破坏性更严重，尤其对于一些重要的业务入口或接入点（如企业的生产服务器和金融行业的数据库服务器等），即使出现秒级的业务中断，也将遭受灾难性的后果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

高可靠集群系统方案白皮书1 前言随着中国加入WTO的深入和广度，计算机技术被广泛地使用在企事业单位的各个业务环节，越来越多的依赖于计算机技术的应用系统成为我们日常工作的得力伙伴。

在给我们带来方便和效率的同时，也使得各行各业对于计算机技术的依赖程度越来越高。

尽管随着计算机技术以日新月异的速度发展，单台计算机的性能和可靠性越来越好，但还是有许多现实的要求是单台计算机难以满足的。

比如以下例子：✧某企业需要一台服务器存储ERP数据。

企业运作没有休息的日子，当然也要求支持企业运作的服务器不能有任何理由停机，保证任何时候各个运营点都能访问；✧某企业业务前景看好，但经营者不想马上投入数千万元一台的数据库服务器，而是希望随着业务的扩展，采取逐步增加数据库服务器的方式，逐步升级到具有200GHz计算能力（相当于100颗2GHZ的奔腾4处理器）的数据库服务器来运行数据库管理运算。

✧某电子商务公司在市场策动下突然涌入大量的用户，经营者需要有一种简单方法能够迅速扩充其应用服务器系统，不需要的时候再把扩充的设备去掉。

在这些情况下，往往需要将多台计算机组织起来进行协同工作，模拟一台功能更强大的计算机来解决问题，这种技术称为集群技术（Cluster）。

目前应用最为广泛的集群计算技术可以分为三大类：高可靠性集群技术、高性能并行数据库集群技术和高可扩展性集群技术，这三种技术在实际应用中有可能会存在同一个应用中。

2 高可靠性集群技术介绍2.1 技术概念高可靠性集群：英文原文为High Availability Cluster, 简称HA Cluster 或者HA 高可靠性集群，是指以减少服务中断（宕机）时间为目标的服务器集群技术。

高可靠集群主要使用在数据库系统（Oracle、Sybase、SQL Server）以及关键应用系统（Notes、Exchange）中。

随着全球经济的增长，世界各地各种各样的组织对IT系统的依赖都在不断增加，电子化贸易使得商务一周七天24小时不间断的进行成为了可能。

电子商务、电子政务成为一种趋势，人们在任何地方、任何时候都可能进行交易和信息查询。

不断发展的应用程序使得商业和社会机构对日常操作的计算机化要求达到了空前的依赖程度，如此非常明显的趋势，我们无时无刻不依赖于稳定的计算机系统。

宕机会给企事业造成什么样的麻烦？直接责任人除了会受到公司严厉的行政处罚，最重要的是关键IT系统的故障可能很快造成整个商务运作的瘫痪，损害企事业的直接利益，每一分钟的宕机都意味着收入、生产和利润的损失，甚至于市场地位的削弱，以及影响长时间积累的良好的市场信誉。

表1 企业每分钟的销售收入统计可用性是指一个系统保持在线并且可供访问。

造成系统宕机的因素很多，包括为了维护而有计划的宕机以及意外故障等，高可靠性方案的目标就是使宕机时间以及故障恢复时间最小化，可以容忍的宕机时间明确的说明方案的全面性、复杂性和成本。

表2 国际通用的可用性指标为了提高整个系统的可用性，除了提高计算机各个部件的可靠性(冗余技术)以外，一般情况下都会采用整机集群的方案。

2.2 工作原理2.2.1 基本理论2.2.1.1 高可靠集群的设备组成所谓集群，就是共同为客户机提供网络资源的一组计算机系统。

而其中的每一台提供服务的计算机，我们称之为节点(Node)。

当一个节点不可用或者不能处理客户的请求时，该请求将会转到另外的可用节点来处理，而这些对于客户端来说，它根本不必关心这些要使用的资源的具体位置，集群系统会自动完成。

HA高可靠集群在存储方面有两种方式：1.共享磁盘，即带存储阵列柜，俗称带柜子它通过共享盘柜实现集群中各节点的数据共享，从而实现集群的功能。

图1 基于共享磁盘的高可靠集群系统拓扑2.磁盘镜像，即不带存储阵列柜，俗称不带柜子它将集群中的两台服务器的本地硬盘通过数据镜像技术，实现集群中各节点之间的数据同步，从而实现集群的功能。

图2 基于磁盘镜像的高可靠集群系统拓扑不同的HA软件支持不同的存储方式。

基于共享磁盘的高可靠集群系统中，包含主服务器、从服务器、存储阵列三个主要的设备，以及设备间的心跳连接线。

基于磁盘镜像的高可靠集群系统中，包含主服务器、从服务器两个主要的设备，以及设备间的心跳连接线。

实际应用中，将节点1配置成“主服务器”，节点2配置成“从服务器”，主从服务器有各自的IP地址，通过HA集群软件的控制，主从服务器有一个共同的虚拟IP(Virtual IP)地址，其为统一对外提供服务的IP地址，客户端仅需使用这个虚拟IP，而不需要分别使用主从的IP地址，这种措施是高可靠集群的首要技术保证，该技术确保集群服务的切换不会影响客户IP层的访问。

公网（Public Network）是应用系统实际提供服务的网络，私网（Private Network）是集群系统内部通过心跳线连接成的网络。

心跳线是高可靠集群系统中主从节点通讯的物理通道，通过HA集群软件的控制，确保服务数据和状态同步。

不同HA集群软件对于心跳线的处理有各自的技巧，有的采用专用板卡和专用的连接线，有的采用串并口或USB口处理，有的采用TCP/IP网络处理，其可靠性和成本都有所不同。

近几年，基于TCP/IP技术的心跳线因其成本低、性能优异而被广泛采用，如果HA高可靠集群系统采用该技术实现心跳功能，若仅有主从两台可以采用直连的方式，而无需通过交换机。

采用基于TCP/IP技术心跳的主从服务器上至少需要配置两块网卡（基于Veritas Cluster Service HA技术的至少需要配置三块网卡）。

2.2.1.2 HA 集群软件体系结构HA集群软件是架构在操作系统之上的程序，其主要由守护进程、应用程序代理、管理工具、开发脚本等四部分构成，应用服务系统是为客户服务的应用系统程序，比如，MS SQL Server，Oracle，Sybase，DB2 UDB，Exchange，Lotus Notes 等应用系统软件。

图3 HA软件内部层次结构不是每一个应用程序都能够实现HA集群管理，也不是每一个HA集群软件可以管理所有的应用程序，这是因为其代理模块(Agent)有不同的功能。

HA软件的代理模块一般支持使用频度最高的软件，如上述所列举的数据库系统和邮件系统，但为了能够支持更多应用实现HA集群，有的HA软件开放二次开发接口。

所以，实际实施的HA集群系统，要确保系统有效，要先确认所选择的HA软件的代理模块是否支持目标应用系统。

图4 HA软件内部工作关系当主系统修复完毕后，HA集群系统应该能够手工或者自动把从节点处的应用服务切换到原先的主节点上运行。

2.2.1.3 主从服务器的内存和处理器HA高可靠集群软件的本质是当主服务器出现故障时，从服务器及时接管主服务器的资源，这些资源包括处理器、内存进程和磁盘数据。

接管进程即接管该服务进程的内存数据列表，采用共享磁盘技术方式的集群无需做存储数据接管，采用磁盘镜像技术方式的集群则使用本机的存储数据。

主从服务器的资源（处理器、内存、磁盘）的配置具有科学性和技巧性。

我们把节点比作两个成水的杯子，杯子的容量看成内存的容量，杯子里面水的容量可以当成服务进程的内存数据列表的大小。

情况一，每个杯子可以装4升水， A杯子有4升水，B杯子没有水，如果从A杯子向B杯子倒水，不会出现任何问题。

图5 主从节点资源配置相同时故障切换后节点状况情况二，A杯子可以装4升水，B杯子可以装5升水，A杯子有4升水，B杯子没有水，如果从A杯子向B杯子倒水，不会出现任何问题。

图6从节点资源配置高于主节点时故障切换后节点状况情况三，A杯子可以装4升水，B杯子可以装3升水，A杯子有4升水，B杯子没有水，如果从A杯子向B杯子倒水，就会出现水溢出问题，也就是说可能会导致故障转移失败。

图7从节点资源配置低于主节点时故障切换后节点状况系统物理内存过低，会使系统频繁使用效率低下的“虚拟内存”，导致系统反应迟钝，也使得客户端响应缓慢，甚至出现“系统服务超时（Timeout）”形态的系统报错，没有达到高可靠的目的。

所以，高可靠集群系统要求从服务器（故障切换节点）的内存容量应不小于主服务器的内存容量，其内存配置应该至少为应用系统的对内存的基本需求。

从节点服务器需要多少CPU才能满足需求呢，首先以不间断客户服务为目的。

假如，我们对SQL Server 2000做HA群集服务，主节点采用4颗Intel 奔4 CPU，通过系统监视器发现，系统CPU使用率为80％，而此时主节点故障，系统切换到2颗Intel 奔4 CPU，其TPMC值仅有主节点的50％，那么因主机处理能力下降导致系统反应迟钝，也使得客户端响应缓慢，甚至出现“系统服务超时（Timeout）”形态的系统报错，没有达到高可靠的目的。

因此，高可靠集群系统要求从服务器（故障切换节点）的CPU处理能力应不小于主服务器的CPU处理能力，若板卡、CPU等型号相同，从服务器的CPU个数应不少于主服务器的CPU 个数。

采取磁盘镜像的从服务器存储空间应不小于主服务器存储空间。

所以，从节点资源的各项指标应该不低于主节点资源的各项指标，若系统采用多个主节点向一个从节点容灾时（N+1模式），从节点资源的配置策略需要依据系统管理员对整个系统的容灾的安全级别，假如主节点的个数为M，从节点的个数为1，系统管理员安全定义为允许同时容忍N（N<=M）个主节点宕机，那么从节点的资源配置为最大前N个主节点资源的各项指标之和。

2.2.2 单元集群模式2.2.2.1 主/主“主/主”模式英文名称“Active/Active”，这是最常用的集群模型，它提供了高可靠性，并且在只有一个节点在线时提供可以接受的性能，该模型允许最大程度的利用硬件资源。

每个节点都通过网络对客户机提供资源，每个节点的容量被定义好，使得性能达到最优，并且每个节点都可以在故障转移时临时接管另一个节点的工作。

所有的服务在故障转移后仍保持可用，但是性能通常都会下降。

2.2.2.2 主/从“主/从”模式英文名称“Active/Standby”，或者“Active/Passive”，为了提供最大的可用性，以及对性能最小的影响，“主/从”模型需要一个在正常工作时处于备用状态，主节点处理客户机的请求，而备用节点处于空闲状态，当主节点出现故障时，备用节点会接管主节点的工作，继续为客户机提供服务，并且不会有任何性能上影响。

2.2.2.3 混合型(Hybrid)混合是上面两种模型的结合，只针对关键应用进行故障转移，这样可以对这些应用实现可用性的同时让非关键的应用在正常运作时也可以在服务器上运行。

当出现故障时，出现故障的服务器上的不太关键的应用就不可用了，但是那些关键应用会转移到另一个可用的节点上，从而达到性能和容错两方面的平衡。