MicrosoftSQLServerAlwaysOn高可用性和灾害复原方案指南

合集下载

sqlserver allwayson 原理

sqlserver allwayson 原理

sqlserver allwayson 原理SQL Server Always On是一种高可用性和灾难恢复解决方案,是SQL Server在企业级环境中的一项关键技术。

它通过使用数据库镜像、故障转移和自动故障恢复功能来确保数据库的持续运行,提供了数据库级别的冗余和容错能力。

接下来,我们将详细介绍SQL Server Always On的原理。

SQL Server Always On的原理主要包括以下几个方面:高可用性组、自动故障检测、数据复制和故障转移。

1.高可用性组:高可用性组是SQL Server Always On的核心概念,它由一个主数据库和一个或多个辅助数据库组成。

主数据库是应用程序的主要访问点,而辅助数据库负责实时复制主数据库的数据,并在主数据库发生故障时接管访问请求。

每个数据库都位于不同的SQL Server实例上,这些实例可以部署在不同的物理服务器上,实现数据库级别的冗余和容错。

2.自动故障检测:SQL Server Always On使用心跳检测来检测数据库实例的故障。

每个数据库实例都会定期向其他实例发送心跳信号,以确保它们的可用性。

如果某个实例不再发送心跳信号或心跳信号超时,其他实例将会检测到该实例的故障,并触发自动故障转移过程。

3.数据复制:SQL Server Always On使用了一种称为“Always On复制”的技术来实现数据的实时复制。

Always On复制使用了SQL Server日志传送服务(Log Shipping)和数据库镜像(Database Mirroring)的功能。

主数据库会将其写入的事务日志传送到辅助数据库,辅助数据库会实时应用这些事务日志以保持与主数据库的数据同步。

这种数据复制机制确保了数据库的冗余性和一致性。

4.故障转移:在主数据库发生故障时,SQL Server Always On会自动进行故障转移。

故障转移的过程包括以下几个步骤:首先,自动故障检测会检测到主数据库的故障,并将主数据库标记为不可用;然后,系统会启动一个辅助数据库来接管访问请求;最后,其他辅助数据库会重新选举一个新的主数据库,并继续提供服务。

SQL2012 AlwaysON配置说明

SQL2012 AlwaysON配置说明

SQL 2012 AlwaysON 配置说明AlwaysON 功能是SQL SERVER 2012引入的新功能,是对原有的数据镜像功能的增强,是针对高可用性和灾难恢复的新解决方案。

使用AlwaysON可以为主库配置一个或多个辅助副本以支持对辅助数据库进行只读访问,并且可以将任何辅助副本配置为允许对辅助数据库进行备份,从而提高硬件利用率。

AlwaysON功能是通过SQL 2012的 Availability Groups (可用性组,以下简称AG)来实现的。

AG针对一组离散的用户数据库(称为“可用性数据库”,它们共同实现故障转移)支持故障转移环境。

一个可用性组支持一组主数据库以及一至四组对应的辅助数据库。

可用性组在可用性副本级别进行故障转移。

故障转移不是由诸如因数据文件丢失或事务日志损坏而使数据库成为可疑数据库等数据库问题导致的。

每组可用性数据库都由一个“可用性副本”承载。

有两种类型的可用性副本:一个“主副本”和一到四个“辅助副本”。

前者用于承载主数据库,后者则承载一组辅助数据库并作为可用性组的潜在故障转移目标。

主副本使主数据库可用于客户端的读写连接。

此外,它在称为“数据同步”的过程中使用,在数据库级别进行同步。

主副本将每个主数据库的事务日志记录发送到每个辅助数据库。

每个辅助副本缓存事务日志记录(“硬化”日志),然后将它们应用到相应的辅助数据库。

主数据库与每个连接的辅助数据库独立进行数据同步。

因此,一个辅助数据库可以挂起或失败而不会影响其他辅助数据库,一个主数据库可以挂起或失败而不会影响其他主数据库。

AlwaysON是基于WINDOWS SERVER的故障转移功能(WSFC)的,但是AG功能并不需要共享存储,配置AlwasON之前,需要先配置好WSFC。

第一部分 系统环境准备(硬件及软件环境)A、准备WSFC环境1、宿主物理服务器 DELL R710配置信息:2颗4核 Xeon E5405处理器,16G内存windows server 2012 datacenter(x64)系统,Hyper-V 3.0虚拟机管理2、客户端虚拟服务器 域控sql2012a,2颗逻辑C PU,4G内存,windows 2008 r2 sp1(x64)系统I P地址10.1.15.85,子网掩码255.255.255.0,默认网关10.1.15.1,DNS为10.1.15.85 主节点sql2012b:4颗逻辑C PU,4G内存,windows 2008 r2 sp1(x64)系统I P地址10.1.15.86,子网掩码255.255.255.0,默认网关10.1.15.1,DNS为10.1.15.85 辅助节点sql2012c:4颗逻辑C PU,4G内存,windows 2008 r2 sp1(x64)系统I P地址10.1.15.87,子网掩码255.255.255.0,默认网关10.1.15.1,DNS为10.1.15.85B、准备域环境 sql2012a上安装配置sql2012.co m域,并将sql2012b、sql2012c加入sql2012.co m 域。

SQLServer2016AlwaysOn架构方案v0

SQLServer2016AlwaysOn架构方案v0

SQL Server 2016 AlwaysOn 架构方案1.AlwaysOn 的介绍SQL Server AlwaysOn是“全面的高可用性和灾难恢复解决方案”,SQL Server 2016所支持的AlwaysOn技术集中了故障转移群集、数据库镜像和日志传送。

故障转移群集的单位是SQL 实例,数据库镜像和日志传送的单位是单个用户数据库,而AlwaysOn支持的单位是可用性组,每个组中可以包括一个或者是多个用户数据库。

一旦发生切换,则可用性组中的所有数据组会作为一个整体进行切换。

AlwaysOn底层采用Windows故障转移群集的机制进行监测和转移,因此也需要先建立Windows故障转移群集,只不过可用性组中的数据库不一定非要再存放在共享存储上了。

可以是存储在本地磁盘上。

AlwaysOn的关键特性:1.和故障转移群集一样,也需要一个虚拟网络名称(虚拟IP)用于客户端的统一连接。

2.辅助服务器可以独立执行备份和常用维护命令。

通过配置,可以实现客户端的只读请求可以被自动定向到辅助服务器。

3.主服务器和辅助服务器之间的数据会被加密和压缩,以提高安全性和网络传输效率。

4.支持自动、手动和强制三种故障转移方式。

5.有仪表盘用于监控Alwayson运行状态监测。

1.1AlwaysOn的基本架构在Windows故障转移群集的基础上部署AlwaysOn高可用组,可以在群集节点上安装SQL Server单机实例,也可以安装SQL Server群集实例,AlwaysOn仅要求所有SQL Server实例都运行在同一个集群中,但SQL Server实例本身是不需要群集模式的,这与以往版本的群集的实例完全不同。

在此建议使用单机模式的SQL Serve-好处是:可用性副本是个单机实例,那么数据库副本就存放在该运行该实例节点的本地磁盘上;如果可用性副本是个群集实例,那么数据库副本就存放在共享磁盘上,存在共享安全和磁盘读取性能问题。

SQLserver高可用方案

SQLserver高可用方案

SQLserver⾼可⽤⽅案SQL server⾼可⽤⽅案⼀、⾼可⽤的类型●Always On ⾼可⽤性解决⽅案,需要sql server 版本在2012以上SQL Server Always On 即“全⾯的⾼可⽤性和灾难恢复解决⽅案”。

客户通过使⽤Always On 技术,可以提⾼应⽤程序可⽤性,并且通过简化⾼可⽤性的部署和管理⽅⾯的⼯作。

SQL Server Always On 在以下2个级别提供了可⽤性。

*数据库级可⽤性是⼀种“热备份”技术。

在同步提交模式下,主副本的数据被同步更新到其他辅助副本,主副本与辅助副本之间可以保持实时同步。

当系统监测到主副本发⽣故障时,辅助副本可以⽴即成为新的主副本。

*实例级可⽤性Always On 故障转移群集实例(Failover Cluster Instance,简称FCI)可以在多个16个节点之间实现故障转移(Failover)。

企业版最多⽀持16个节点,标准版只⽀持2个节点。

当主节点发⽣故障时,辅助节点提升为主节点并获取共享存储中的数据,然后才在这个新的主节点服务器中启动SQL Server 服务。

FCI 是⼀种“冷备份”技术。

辅助节点并不从主节点同步数据,唯⼀的⼀份数据被保存在共享存储(群集共享磁盘)中。

●⽇志传送⽇志传送依赖于传统的Windows ⽂件复制技术与SQL Server 代理。

主数据库所做出的任何数据变化都会被⽣成事务⽇志,这些事务⽇志将定期备份。

然后备份⽂件被辅助数据库所属的实例复制到它的本地⽂件夹,最后事务⽇志备份在辅助数据库中进⾏恢复,从⾯实现在两个数据库之间异步更新数据。

当主数据库发⽣故障时,可以使辅助数据库变成联机状态。

可以把每⼀个辅助数据库都当作“冷备⽤”数据库●其它辅助技术对数据库进⾏备份,当出现故障时,⼿动将数据还原到服务器,使得数据库重新联机,这也可以算作实现⾼可⽤性的⼀种技术⼿段。

复制(Replication)并不算是⼀个⾼可⽤性解决⽅案,只是它的功能可以实现⾼可⽤性。

Sqlserver2012Alwayson高可用性方案

Sqlserver2012Alwayson高可用性方案

Sqlserver2012Alwayson高可用性方案Sqlserver2012Alwayson高可用性方案变更记录*修订类型分为A - ADDED M - MODIFIED D– DELETED注:对该文件内容增加、删除或修改均需填写此记录,详细记载变更信息,以保证其可追溯性目录1 需求分析1.1 背景说明 (3)1.2 系统目标与系统边界 (4)2 AlwaysOn高可用性配置2.1环境........................................................................................................................... ...... .5 2.2操作系统安装及配置 ..................................................................................................... .5 2.32008故障转移群集部署 ............................................................................................ .(6)2.4 AlwaysOn部署 (7)3数据库备份3.1AlwaysOn在主服务器上面进行数据库完全备份和差异备份................................. .10 3.2查看主服务器备份文件 ............................................................................................... .10 4模拟故障转移切换节点4.1在主节点实施故障转移策略 (11)4.2将节点sql03部署在异地机房,选择异步提交,允许>10ms 延时 (12)4.3读写分离的故障转移模式 (12)5灾备系统测试5.1模拟上海数据中心的客户数据库发生故障 (12)5.2模拟上海数据中心的硬件发生故障 (12)5.3模拟上海数据中心的数据丢失 (12)5.4模拟上海数据中心存储设备有故障 (13)5.5灾备检测工具DBCC (13)1 1 需求分析1.1背景说明AlwaysOn利用了Windows故障转移群集的健康监测和自动故障转移的特性,因此它必须建立在Windows故障转移群集之上。

AlwaysOn体系结构指南使用AlwaysOn可用性组构建高可用性和灾难恢复解决方案

AlwaysOn体系结构指南使用AlwaysOn可用性组构建高可用性和灾难恢复解决方案

AlwaysOn 体系结构指南:使用 AlwaysOn 可用性组构建高可用性和灾难恢复解决方案SQL Server 技术文章作者:Joseph Sack ()、Sanjay Mishra (Microsoft)技术审校:Lindsey Allen (MS)、Juergen Thomas (MS)、Mike Weiner (MS)、Prem Mehra (MS)、Yorihito Tada (MS)、Curt Matthews (MS)、Amitabh Tamhane (MS)、Aditya Samant (MS)、Daniel Janik (MS)、Jimmy May (MS)、David P Smith (ServiceU)、Richard Waymire (SolidQ)、Brent Ozar (Brent Ozar PLF)、Wolfgang Kutschera ()、Paul S. Randal ()、Gianluca Hotz (SolidQ)、Ayad Shammout (Caregroup)内容项目经理:Glenn Minch (Microsoft)发布时间:2012 年 6 月适用范围:SQL Server2012摘要:SQL Server 2012 AlwaysOn 可用性组提供了一种统一的高可用性和灾难恢复 (HADR) 解决方案,将以前需要通过不同功能才能实现的机制融合起来并加以改进。

在 SQL Server 2012 之前,一些客户使用数据库镜像在数据中心内提供本地高可用性,并且使用日志传送与远程数据中心建立灾难恢复机制。

对于 SQL Server2012 而言,可以使用一种全新的体系结构来替代这种常见的设计模式:这种全新的体系结构使用可用性组来实现高可用性和灾难恢复。

本白皮书详细介绍这种特定设计模式的关键拓扑要求,包括仲裁配置注意事项、构建环境所需的步骤,以及展现如何在新拓扑中处理灾难恢复事件的工作流。

SQLserver高可用方案

SQLserver高可用方案

SQL server高可用方案—、高可用的类型•AlwaysOn高可用牲解决方案,需要sqlserver版本在2012以上SQL Server Always On即“全面的髙可用性和灾难恢复解决方案”。

客户iiil使用Always On技术,可以提髙应用用11的部署和管理方面的工作。

SQL Server Always On在以下2个级别提旅了可用性。

*数据库级可用性是一种“热备份”技术。

在同步提交模式下,主副本的数掘被同步更新到其他籀助副本,主制本与箱助副本之IP到主副本发生故障时,辅助剧本可以立即威为新的主副本。

"实傍圾可用性Always On故障转務雅集实M (Failover Cluster Instance,简称FCI)可以在多个16个节直之同实现故障转移(Faile 点,标准版只支持2f节自。

当主节点发生故常附,舖助节点提开为主节点并获取共享存嵋中的Uffi,然后才在这个新的主节点服务器中启3)FCI是一种“冷爸卅”技术。

籀助节自并不从主节自同步数据,唯一的一卅数据被保存在共享存储(稲集其享砒舌•日志传送日志传送依賴于传鋭的Windows文件复科技术与SQL Server代理。

主数据库所做岀的任何数据变化那会被生成事务日志,这些事务日志将定期备份。

然后笛份文件ffiSM数据库所b最后事务日志备悅在稱助数松库中aiitift,从面实现在两个数据库之间异步更新数据。

当主数掘库发生故障时,可以使舖助数掘库变成朋机状态。

可以把每一彳、帝助数据库都当作“冷爸用”数松库•其它稱助技术刘数据库进行备份,当出现故障时,手动将数据还原到JR务器,使得数据库重新联机,这也可以算作实现高可用 fi « (Replication )并不算是一个高可用性解决方案,只是它的功能可以实现高可用性。

复制通过“发布JT阅” ♦发布数掘,使这些服务器间实现可fflttoSQL server fi 制定义及应用:数据库间口制和分发数据和数据库对象,然后在数松库间进行同; 可以通il局域网和广域网、按号连接、无线连接和Internet将数据分配到不同sql server ft制什成三类:事务夏對通常用于需耍髙吞吐量的服务器到服务器方案(色括:提髙可伸编性成多个站点的数据、集威异类数据以及减轻批处理的负荷)。

sqlserver2019 alwayson方案

sqlserver2019 alwayson方案

sqlserver2019 alwayson方案SQL Server 2019 Always On方案简介•SQL Server 2019 Always On是一种高可用性和灾备解决方案,可确保数据库始终可用并具备故障恢复能力。

•本方案将介绍SQL Server 2019 Always On的一些关键概念和步骤,以及如何实施和管理这一方案。

概念1.Always On可用性组–由一个主数据库和多个辅助数据库组成的集合,用于提供故障转移和自动故障恢复。

2.同步复制–主数据库的改变会立即传输到辅助数据库,确保数据的一致性。

3.异步复制–主数据库的改变会按一定的延迟传输到辅助数据库,适用于需要高可用性但能够容忍一定数据丢失的场景。

4.可读辅助–辅助数据库允许读取操作,提高系统的性能和可扩展性。

5.自动故障转移–当主数据库不可用时,Always On自动将辅助数据库提升为主数据库,以保证系统的连续可用性。

实施步骤1.确保满足系统要求–确保服务器硬件要求、操作系统、SQL Server版本和数据库设置符合SQL Server 2019 Always On的要求。

2.配置Windows故障转移群集–在服务器中启用和配置Windows故障转移群集,以便在主从切换时提供服务的连续性。

3.创建可用性组–在SQL Server Management Studio中创建可用性组,并选择主数据库和辅助数据库。

4.配置数据库复制–配置可用性组中的数据库复制设置,选择同步或异步复制模式,并配置辅助数据库的可读性。

5.测试故障转移–在故障维护期间测试自动故障转移功能,确保主从切换时系统能够按预期工作。

6.监控和管理–使用SQL Server Management Studio或其他监控工具来定期监控和管理可用性组的状态和性能。

注意事项•SQL Server 2019 Always On部署需要额外的硬件和资源,确保服务器足够强大以支持复制和故障转移操作。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高可用性和災害復原方案指南作者: , . ()。

參與者: ()、 ()、 ()、 ()、 ()。

校稿者: ()、 ()、 ()、 ()、 ()、 . ()、 ()、 ()、 . ()、 ( )。

發行日期:年月適用於:摘要:這份技術白皮書討論如何使用高可用性和災害復原方案,來縮短已規劃及未規劃的停機時間、盡可能地提高應用程式可用性,以及提供資料保護。

本文的主要目標是為了鋪陳共通的完整脈絡,促進企業專案關係人、技術決策者、系統架構設計師、基礎結構工程師與資料庫管理員彼此討論。

本內容分為兩個主要部分:高可用性和災害復原概念。

簡要討論規劃、管理及衡量高度可用之資料庫環境商務目標的驅策因素和挑戰。

本討論後將有和方案之高可用性和災害復原功能的簡要概觀。

保護層級。

深入討論方案所提供之保護層級的主要功能、基本原理及相依性。

說明基礎結構可用性、執行個體層級保護、資料庫層級保護,以及資料層應用程式功能。

著作權本文件是以原本的形式提供。

本文件中所表達的資訊和觀點,包括及其他網際網路網站參考資料,如有變更恕不另行通知。

您應自行承擔使用本文件的風險。

此處描述的部分範例僅供說明使用,純屬虛構,並無意圖亦不應將其影射為任何實際關聯或連接。

本文件不會為您提供任何產品的任何智慧財產權的任何法律權限。

您可以複製及使用本文件,但僅限組織內部參考用途。

© . 著作權所有,並保留一切權利。

目錄高可用性和災害復原概念错误!未指定书签。

高可用性說明错误!未指定书签。

規劃與未規劃的停機時間比較错误!未指定书签。

降低可用性错误!未指定书签。

量化停機時間错误!未指定书签。

復原目標错误!未指定书签。

調整或機會成本错误!未指定书签。

監視可用性健全狀況错误!未指定书签。

規劃災害復原错误!未指定书签。

概觀:的高可用性错误!未指定书签。

错误!未指定书签。

大幅縮短規劃的停機時間错误!未指定书签。

排除閒置硬體,並改善成本效益和效能错误!未指定书签。

容易部署及管理错误!未指定书签。

和功能比較错误!未指定书签。

保護層級错误!未指定书签。

基礎結構可用性错误!未指定书签。

作業系統错误!未指定书签。

容錯移轉叢集错误!未指定书签。

叢集驗證精靈错误!未指定书签。

仲裁模式和投票組態错误!未指定书签。

透過強制仲裁執行災害復原错误!未指定书签。

執行個體層級保護错误!未指定书签。

可用性改進–執行個體错误!未指定书签。

容錯移轉叢集執行個體错误!未指定书签。

資料庫可用性错误!未指定书签。

可用性群組错误!未指定书签。

可用性群組容錯移轉错误!未指定书签。

可用性群組接聽程式错误!未指定书签。

可用性改進─ 資料庫错误!未指定书签。

用戶端連接性建議错误!未指定书签。

結論错误!未指定书签。

高可用性和災害復原概念當所有專案關係人對於規劃、管理及評量和目標的相關商務驅策因素、挑戰及目標具有共識時,您將可以為高可用性和災害復原方案選擇最合適的資料庫技術。

熟悉這些概念的讀者可前往本文的<概觀:的高可用性>一節。

高可用性說明對任何的軟體應用程式或服務來說,使用者的經驗和期待就是高可用性的最終評斷標準。

停機時間會對企業造成有形與觀感方面的影響,影響可能包含資訊遺失、財物損失、生產力降低、機會成本、違約金或商譽受損等問題。

「高可用性方案的主要目標就是要將停機時間的影響降到最低,或是讓損失降到最少。

」針對此目標構築的完善策略會在商務程序和服務等級協定 (),以及技術功能和基礎結構成本之間取得理想的平衡。

一個平台是否稱得上高度可用,取決於客戶和專案關係人的協定和預期。

系統可用性的計算方式如下:這個公式產生的值通常會依照業界標準,以的個數來表示此方案的品質,藉此傳達年度可能執行時間的分鐘數,或停機時間的分鐘數。

的個數可用性百分比年度總停機時間天小時分秒分秒規劃與未規劃的停機時間比較系統中斷可能是已預期及規劃中的結果,但也可能是未規劃的意外事件。

停機時間若經過適當地管理,不一定會造成負面影響。

可預知的停機時間有兩種主要類型:規劃的維護工作。

規劃的維護工作會預先宣告及協調時間間隔,維護工作包括軟體修補、硬體升級、密碼更新、離線重新索引、資料載入或災害復原程序演習。

經過謹慎及妥善管理的作業程序應該可將停機時間縮至最短,並防止任何資料遺失。

事先規劃的維護活動可視為投資,因為這些活動可防止或緩和其他可能更嚴重的未規劃中斷情況。

未規劃的中斷。

系統層級、基礎結構或程序失敗可能會在未規劃或不受控制的情況下發生,也可能會在可預知的情況下發生,通常是因為相關人員認為不太可能會發生或其影響尚可接受。

穩固的高可用性方案會偵測這些失敗類型、從中斷狀態自動復原,然後重新建立容錯機制。

建立高可用性的時,您應該將規劃的維護活動和未規劃的停機時間之關鍵效能指標 () 分開計算。

透過此方法,您可清楚比較您投入維護活動的心力以及避免未規劃停機時間的好處。

降低可用性我們不應該將高可用性視為全有或全無的價值主張。

相對於完全中斷,使用者通常還是比較能接受仍可使用部分系統,或使用有限的功能或降低的效能。

這些不同程度的可用性包括:唯讀和延遲作業。

在維護期間或分段式災害復原期間,系統仍可讓使用者擷取資料,但可能暫時停止新工作流程和背景處理,或是將其排入佇列中。

資料延遲和應用程式回應。

由於繁重的工作負載、待處理項目或部分平台失敗,有限的硬體資源可能會超載或過小。

使用者經驗會因此變差,但仍可以較不具生產力的方式完成工作。

部分、暫時性或懸置性失敗。

應用程式邏輯或硬體堆疊的健全性會在遇到錯誤時重試或自動修正。

這類問題對使用者而言可能會造成資料延遲或應用程式回應不良。

部分端對端失敗。

規劃或未規劃的中斷可能會在整套方案中縱向發生 (基礎結構、平台及應用程式),或在不同的功能元件之間橫向發生。

視受影響的功能或元件而定,使用者可能會經歷部分作業成功或效能降低。

若將系統中斷導致可用性降低的程度放在頻譜上來看,一端是完全中斷,依程度輕重排列下來就是這些較不理想的情況,而這些可用性降低的情況也可做為分段式災害復原的中繼步驟。

由此看來,使用者對於可用性降低時退而求其次的接受態度也就不足為奇了。

量化停機時間實際發生停機時間時 (不論是規劃或未規劃的停機時間),主要商務目標就是讓系統恢復上線,並將資料損失降至最低。

停機時間的每一分鐘都有直接和間接成本。

若發生未規劃的停機時間,您必須要平衡花費在判斷發生中斷的原因、目前的系統狀態,以及從失敗中復原所需步驟時的時間與工作量。

在任何中斷的預定時間點,您應該制定或尋求商務決策,以停止調查中斷原因或執行維護工作、透過讓系統恢復上線從失敗中復原,然後視需要重新建立容錯機制。

復原目標資料備援是高可用性資料庫方案的主要元件。

主要執行個體的交易活動都會以同步或非同步的方式套用至一個或多個次要執行個體。

發生中斷時,進行中的交易可能會回復,或因為資料傳播延遲而在次要執行個體上遺失。

您可以評量影響,然後判斷恢復交易所需時間及上次交易復原的延遲時間,據此來設定復原目標:復原時間目標 ()。

這是中斷的持續時間。

初始目標是至少讓系統恢復到唯讀功能,方便相關人員調查失敗原因。

不過,主要目標還是將整個服務還原至可進行新交易的時間點。

復原點目標 ()。

這通常稱為可接受的資料遺失量值。

這是上次認可資料交易到失敗前,以及失敗後到最近復原資料的時間間隔或延遲。

實際的資料遺失會隨系統在失敗時的工作負載、失敗類型及使用的高可用性方案類型而有所不同。

您應該使用和值做為目標,指定企業容許的停機時間及可接受的資料遺失,並做為監視可用性健全狀況的標準。

調整或機會成本停機時間的商務成本可能是指財務,或是對客戶商譽形式上的影響。

這些成本會隨時間累積,或者在中斷期間的特定時間點產生。

除了預測特定復原時間和資料復原點失敗所產生的成本之外,您還可以計算為達到和目標及避免完全失敗所需的商務程序和基礎結構投資。

這些投資主題應該包括:避免停機時間。

如果一開始未發生中斷,則可以完全避免中斷復原成本。

投資包括容錯和備援硬體或基礎結構、將工作負載分散到不同失敗點,以及預防性維護的規劃停機時間等成本。

自動復原。

如果發生系統失敗,您可以透過自動且透明的復原機制,大幅降低停機時間對客戶經驗的影響。

資源使用情形。

次要或待命基礎結構可處於閒置狀態,等到發生中斷情況時再擔綱上陣。

同時這些設備也可以用於唯讀工作負載,或將工作負載分散到所有可用的硬體,藉此提升整體系統效能。

在特定和目標下,您可以時間函數表示及調整所需的可用性和復原投資,以及停機時間的預計成本。

在實際中斷期間,這可讓您根據經過的停機時間來制定成本相關決策。

監視可用性健全狀況從營運觀點來看,在實際中斷期間,您不應該嘗試將所有相關變數列入考量,立刻在當下計算或機會成本。

相反地,您應該以監視待命執行個體在預期時的資料延遲。

發生中斷情況時,您也應該限制中斷時一開始花在調查根本原因的時間,改為著重於檢查復原環境的健全狀況,然後依據詳細的系統記錄和次要資料複本進行後續鑑識分析。

規劃災害復原高可用性是指為防止系統中斷所執行的工作,而災害復原則是指失敗後重新建立高可用性所執行的工作。

您應該在實際中斷之前,盡可能地規劃災害復原程序和職責。

起始自動或手動容錯移轉和復原計畫的決策,會以主動式監視和警示為基礎,並應該繫結至預先建立的和臨界值。

完善的災害復原計畫範圍應該包括:失敗和復原的規模。

根據失敗位置和類型,您可以在資料中心、基礎結構、平台、應用程式或工作負載等不同層級採取更正措施。

研究性來源資料。

適當團體應該能夠隨時存取所有基準和最近的監視記錄、系統警示、事件記錄及診斷查詢。

相依性協調。

在應用程式堆疊中,以及所有專案關係人之間,系統與商務的依存關係為何?決策樹。

預先決定、可重複且經過驗證的決策樹,包含角色職責、錯誤分級、和目標的容錯移轉準則及規定的復原步驟。

驗證。

採取步驟從中斷復原之後,必須執行哪些動作來確認系統回到正常作業?文件。

將上述所有項目擷取到一組文件中,並提供足夠的詳細資料和清楚說明,方便第三方團體可在最少協助下執行復原計畫。

這類文件通常稱為「執行書」或「資源書」。

復原演習。

定期練習災害復原計畫以建立預期的目標基準,並考慮定期輪流在主要站台和每個災害復原站台上,主控實際執行的主要站台。

概觀:的高可用性若想達成所需的和目標,您必須確保重要應用程式持續執行,並在未規劃及規劃的停機時間保護重要資料。

提供一組功能,可協助您達成這些目標,同時降低成本和複雜性。

對於新的功能非常熟悉的讀者可前往本文<保護層級>一節更深入的討論內容。

是全新經過整合、具備彈性且符合成本效益的高可用性和災害復原方案。

該方案可在資料中心及跨資料中心提供資料和硬體備援,並改善應用程式容錯移轉時間,以增加關鍵性應用程式的可用性。

提供彈性的組態,並可重複使用現有的硬體投資。

相关文档
最新文档