SureHA 技术白皮书
Secoway USG5000 技术白皮书

华为Secoway USG5000防火墙技术白皮书华为技术有限公司Huawei Technologies Co., Ltd.目录目录 ........................................................ 错误!未定义书签。
1 概述.................................................... 错误!未定义书签。
网络中存在的问题........................................ 错误!未定义书签。
防火墙产品介绍.......................................... 错误!未定义书签。
防火墙的定义............................................ 错误!未定义书签。
防火墙设备的使用指南 .................................... 错误!未定义书签。
2 防火墙设备的技术原则 .................................... 错误!未定义书签。
防火墙的可靠性设计...................................... 错误!未定义书签。
防火墙的性能模型........................................ 错误!未定义书签。
网络隔离................................................ 错误!未定义书签。
访问控制................................................ 错误!未定义书签。
IP访问控制列表....................................... 错误!未定义书签。
二层访问控制列表..................................... 错误!未定义书签。
联想SureHA容灾方案介绍

2
技术
复制
• 基于主机:利用主机的CPU与网络去复制数据。
• 基于存储:脱离OS,完全利用阵列去做数据的镜像。
关键指标:RTO & RPO
• RPO(Recovery Point Objective):即数据恢复点目标,主要指的是业务系统所能容 忍的数据丢失量。 • RTO(Recovery Time Objective):即恢复时间目标,主要指的是所能容忍的业务停 止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。
命令提示符
Linux版
平均数据 写入量(MB/s) 平均数据 传送时间 平均镜像数据通信量 (MB/s)
性能监视
发送的镜像数据的字节 数
镜像数据
提取传送数据
Windows版
统计信息记录在平时的日志中,并可导 出为CSV文件
13
远程集群功能
通过为镜像数据指定网络带宽,来降低对带宽的负荷 ▐ 根据网络带宽, 可以实现镜像 ▐ 即使不使用镜像专线,也不用在意对其他的通讯影响
▼ SureHA WebManager
③同步结束之后,通过GUI的简单操作可以实现故障恢复。
③ 通过GUI进行简单的故障恢复
IP地址
①恢复主机例子
更换出问题的硬件 安装OS和软件 安装SureHA集群
SureHA的设定信息 可以从备机,通过GUI 来简单恢复!
主机名
IP地址 主机名
业务
业务
对策 远程集群的配置及功能 DR方案标准配置及服务介绍
20
SureHA100G2容灾方案产品
SureHA100G2共享型双机方案产品销售套件
• • 38-016066 ST_SureHA100G2异地容灾套件(Linux)-STL 38-016067 ST_SureHA100G2异地容灾套件(Windows)-STL 标配包括: • 5m FC线缆*2 • 心跳线*1 • 三个节点的共享基础license、 容灾license、告警license (Windows或Linux) • SureHA Cluster安装配置手册 • HA双机软件安装部署服务及容 灾安装部署服务 • 1年7*8电话支持 • 1年用户报修免费上门维护一次
华为终端云服务(HMS)安全技术白皮书说明书

华为终端云服务(HMS )安全技术白皮书文档版本V1.0 发布日期 2020-05-19华为终端云服务(HMS),安全,值得信赖华为终端有限公司地址:广东省东莞市松山湖园区新城路2号网址:https:///cn/PSIRT邮箱:****************客户服务传真:*************目录1简介 (1)网络安全和隐私保护是华为的最高纲领 (2)2基于芯片的硬件和操作系统安全 (4)麒麟处理器集成安全芯片 (4)敏感个人数据在安全加密区处理 (5)EMUI安全加固及安全强制管理 (6)3安全业务访问 (7)密码复杂度 (7)图形验证码 (7)帐号保护和多因子认证 (8)风险操作通知 (8)启发式安全认证 (8)儿童帐号 (8)帐号反欺诈 (8)保护帐号的隐私 (9)4加密和数据保护 (10)EMUI数据安全 (10)加密密钥管理和分发 (11)认证和数字签名 (12)可信身份认证和完整性保护 (13)信任环TCIS (13)5网络安全 (14)安全传输通道 (14)云网络边界防护 (14)安全细粒度VPN保护 (15)主机和虚拟化容器保护 (16)多层入侵防护 (16)零信任架构 (17)漏洞管理 (17)运营审计 (18)6业务安全 (19)云空间 (19)天际通 (20)查找我的手机 (21)浏览器 (21)钱包/支付 (22)业务反欺诈 (24)7应用市场和应用安全 (25)应用市场和应用安全概述 (25)开发者实名认证 (26)四重恶意应用检测系统 (26)下载安装保障 (27)运行防护机制 (28)应用分级 (29)快应用安全 (29)软件绿色联盟 (30)定期发布安全报告 (30)开放安全云测试 (30)8 HMS Core(开发者工具包) (32)HMS Core框架 (32)认证凭据 (33)业务容灾 (34)华为帐号服务(Account kit) (34)授权开发者登录 (34)反欺诈 (34)通知服务(Push Kit) (34)身份认证 (35)Push消息保护 (35)Push消息安全传输 (36)应用内支付服务(In-App Purchases) (36)商户和交易服务认证 (36)防截屏录屏 (36)防悬浮窗监听 (36)禁止口令密码输入控件提供拷出功能 (36)广告服务(Ads Kit) (37)高质量的广告选择 (37)反作弊系统 (37)数据安全 (37)云空间服务(Drive Kit) (38)认证授权 (38)数据完整性 (38)数据安全 (38)业务双活与数据容灾 (38)游戏服务(Game Kit) (39)数据保护 (39)用户授权 (39)用户身份服务(Identity Kit) (39)钱包服务(Wallet kit) (40)系统环境安全识别能力 (40)卡券数据安全(仅中国支持) (40)运动健康服务(Health Kit) (41)用户数据访问控制 (41)数据加密存储 (41)线上快速身份认证服务(FIDO) (41)本地认证(BioAuthn) (42)外部设备认证 (42)数字版权服务(DRM Kit) (43)硬件级安全运行环境 (43)安全视频路径 (43)安全时钟 (44)DRM证书认证 (44)安全传输 (44)机器学习服务(ML Kit) (44)ML算法包APK安全 (45)数据处理 (45)近距离通信服务(Nearby Service) (45)定位服务(Location Kit) (46)用户授权 (46)数据存储 (47)位置服务(Site Kit) (47)地图服务(Map Kit) (47)情景感知服务(Awareness Kit) (48)分析服务(Analytics Kit) (48)服务端防仿冒 (48)数据安全传输 (48)服务器数据隔离 (49)动态标签管理器服务(Dynamic Tag Manager) (49)防仿冒 (49)有限的API代码执行权限 (50)动态标签代码安全管理 (50)安全检测服务(Safety Detect) (50)系统完整性检测(SysIntegrity) (50)应用安全检测(AppsCheck) (51)恶意URL检测(URLCheck) (52)虚假用户检测(UserDetect) (52)9隐私控制 (53)本地化部署 (53)数据处理清晰透明 (54)最小化数据获取 (54)数据主体权利与隐私控制 (55)数据处理者义务 (56)数据隔离 (56)差分隐私 (56)联合学习 (57)保护未成年人个人信息 (57)10安全和隐私认证及合规 (58)ISO/IEC 27001/27018认证 (58)ISO/IEC 27701认证 (59)CSA STAR 认证 (59)CC认证 (59)PCI DSS认证 (60)华为帐号EuroPriSe认证 (60)11展望 (61)关注安全技术,保护用户并对用户赋能 (61)巩固防御机制,提升安全能力,共建安全生态 (62)做好准备,应对颠覆性技术带来的威胁 (62)A缩略语表 (64)注:由于不同型号或不同国家市场特性的差异,部分能力仅在部分市场可用,具体以产品说明为主,本文其他地方不再单独说明。
HiSec安全解决方案技术白皮书

HiSec 安全解决方案技术白皮书目录1方案背景 (1)1.1风险分析 (1)1.2解决思路 (2)1.3方案价值 (2)2方案概述 (3)2.1方案架构 (3)3方案介绍 (5)3.1三层联动闭环方案 (5)3.1.1方案概述 (5)3.1.2数据采集 (6)3.1.3威胁检测 (7)3.1.3.1WEB 异常检测原理 (8)3.1.3.2邮件异常检测原理 (9)3.1.3.3C&C 异常检测 (9)3.1.3.4隐蔽通道异常检测原理 (9)3.1.3.5流量基线异常检测原理 (9)3.1.3.6恶意文件检测原理 (10)3.1.3.7关联分析原理 (10)3.1.3.8威胁判定原理 (10)3.1.3.9云端威胁情报 (10)3.1.4联动闭环 (11)3.1.4.1基于IP 阻断 (11)3.1.4.2本地信誉联动 (12)3.2终端联动响应 (13)3.2.1方案概述 (13)3.2.2关键技术方案 (14)3.2.2.1调查取证 (14)3.2.2.2确认终端感染范围 (15)3.2.2.3终端联动处置 (16)3.3ECA 检测方案 (16)3.3.1方案概述 (16)3.3.2ECA 原理 (17)3.3.2.1TLS 协商过程 (18)3.3.2.2网络行为特征分析 (19)3.3.2.2.1TLS 流特征 (19)3.3.2.2.2上下文流量信息关联 (22)3.3.2.3ECA 检测分类模型 (22)3.4网络诱捕方案 (23)3.4.1方案概述 (23)3.4.2诱捕原理 (25)3.4.3关键过程 (25)3.4.3.1网络混淆技术 (25)3.4.3.2仿真交互技术 (25)3.5安全智能运维 (26)3.5.1应用策略调优 (26)3.5.1.1 概述 (26)3.5.1.2 关键技术方案 (26)3.5.2应用策略仿真 (27)3.5.2.1 概述 (27)3.5.2.2 关键技术方案 (27)3.5.3基于用户的访问合规调优 (28)3.5.3.1 概述 (28)3.5.3.2 关键技术方案 (28)3.6安全业务统一管理 (29)3.6.1设备管理 (29)3.6.2对象管理 (30)3.6.3策略管理 (30)4典型应用场景/典型组网 (31)4.1三层联动闭环典型场景 (31)4.2结合ECA 和网络诱捕的典型场景 (32)4.3终端联动响应典型场景 (33)1 方案背景1.1风险分析1.2解决思路1.3方案价值1.1风险分析全球网络威胁形势不断变化,新型攻击复杂且隐蔽,攻击频率和严重程度不断增长,网络技术与应用的发展无疑又加重了安全管理的负担,安全管理人员面临着巨大的挑战。
2019年9月 奇安信云安全管理平台产品白皮书

云安全管理平台产品白皮书版本信息文档名称密级创建人云安全管理平台产品技术白皮书2.0.3V1.0公开云安全公司修订记录修订日期修订内容修订人2019.7新建,适用于云安全管理平台V2.0.3,文档版本2.0.3V1.0云安全公司版权声明:奇安信集团及其关联公司对其发行的或与合作伙伴共同发行的产品享有版权,本文中出现的任何文字叙述、文档格式、插图、照片、方法、过程描述等内容,除另有特别注明外,所有版权均属奇安信集团及其关联公司所有;受各国版权法及国际版权公约的保护。
对于上述版权内容,任何个人、机构未经奇安信集团或其关联公司的书面授权许可,不得以任何方式复制或引用本文的任何片断;超越合理使用范畴、并未经上述公司书面许可的使用行为,奇安信集团或其关联公司均保留追究法律责任的权利。
免责声明奇安信集团,是专注于为政府、军队、企业,教育、金融等机构和组织提供企业级网络安全技术、产品和服务的网络安全公司,包括但不限于以下主体:北京奇安信科技有限公司、网神信息技术(北京)股份有限公司、北京网康科技有限公司,以及上述主体直接或者间接控制的法律实体。
奇安信集团在此特别声明,对如下事宜不承担任何法律责任:1、本产品经过详细的测试,但不能保证与所有的软硬件系统或产品完全兼容,不能保证本产品完全没有错误。
如果出现不兼容或错误的情况,用户可拨打技术支持电话将情况报告奇安信集团,获得技术支持。
2、在适用法律允许的最大范围内,对因使用或不能使用本产品所产生的损害及风险,包括但不限于直接或间接的个人损害、商业盈利的丧失、贸易中断、商业信息的丢失或任何其它经济损失,奇安信集团不承担任何责任。
3、对于因电信系统或互联网网络故障、计算机故障或病毒、信息损坏或丢失、计算机系统问题或其它任何不可抗力原因而产生的损失,奇安信集团不承担任何责任,但将尽力减少因此而给用户造成的损失和影响。
4、对于用户违反本协议规定,给奇安信集团造成损害的,奇安信集团将有权采取包括但不限于中断使用许可、停止提供服务、限制使用、法律追究等措施。
认证技术白皮书

认证技术白皮书华为技术有限公司目录1前言 (2)2为什么使用认证 (3)3认证相关技术 (3)3.1PPP O E接入认证原理 (4)3.2WEB接入认证原理 (8)3.3802.1X接入认证原理 (14)3.4绑定认证原理 (18)3.5各种认证方式比较 (19)4华为认证方案特点 (20)4.1华为公司认证解决方案特点 (20)5华为认证技术解决方案 (22)5.1PPP O E接入认证典型组网方式 (23)5.2WEB接入认证典型组网方式 (24)5.3802.1X接入认证典型组网方式 (27)5.4绑定认证典型组网方式 (29)5.5多种认证自由组合 (29)2003-06-30 内部资料,请勿扩散第1页, 共31页1 前言在数据网络中,包括企业网、INTERNET网络等等,追求的是网络简单、开放,所有人可以自由接入和使用。
而在电信数据网络中,运营商(比如网络服务提供商NSP、业务提供商ISP等)关心的是网络可运营和可管理,要管理每个用户的接入、业务使用、费用等等。
在可运营、可管理网络中,引入了针对用户管理的AAA技术,包括认证(Authentication)、授权(Authorization)、计费(Accounting)三个技术:认证..,是在用户开始使用系统时对其身份进行的确认动作。
授权,是在网络安全中,授权某用户以特定的方式与某网络系统通信。
计费,是记录并提供关于经济活动的确切清单或数据。
认证是识别用户身份的过程,而授权是根据认证识别后的用户情况授予对应的网络使用权限(QoS、带宽限制、访问权限、用户策略),而计费也是根据认证后的用户身份采用对应的计费策略并记录、提供计费信息(时长、流量、位置等等),三个技术紧密联系但又相互独立的。
认证..技术是用户管理最基本的技术。
目前网络中,有许多设备不支持认证,有许多设备只支持某一种认证,同时认证技术种类繁多、认证要求各不相同,造成网络中认证方案的混淆和混乱。
三未信安服务器密码机-技术白皮书v3.0(201301)

三未信安服务器密码机技术白皮书SANSEC HSM SJJ0930/SJJ1012 White Paper Version 3.0北京三未信安科技发展有限公司2013年1月1.产品简介三未信安服务器密码机(SJJ0930/SJJ1012)是由北京三未信安科技发展有限公司自主研发的高性能密码设备,能够适用于各类密码安全应用系统进行高速的、多任务并行处理的密码运算,可以满足应用系统数据的签名/验证、加密/解密的要求,保证传输信息的机密性、完整性和有效性,同时提供安全、完善的密钥管理机制。
密码应用系统通过调用密码机提供的标准API函数来使用密码机的服务,密码机API与密码机之间的调用过程对上层应用透明,应用开发商能够快速的使用密码机所提供的安全功能。
密码机API接口符合《公钥密码基础设施应用技术体系密码设备应用接口规范(试行)》标准接口规范,通用性好,能够平滑接入各种系统平台,满足大多数应用系统的要求,在应用系统安全方面具有广泛的应用前景。
2.功能描述⏹密钥生成与管理:可以生成1024/2048/3072/4096位RSA密钥对和256位ECC密钥对1,采用由国家密码管理局批准使用的物理噪声源产生器芯片生成的随机数。
⏹密钥的安全存储:设备内可存储50对RSA密钥对(包括签名密钥对和加密密钥对)和50对ECC密钥对2,并且私钥部分受系统保护密钥的加密保护。
⏹数据加密和解密:支持SSF33算法3、SM1算法、SM4算法4、AES算法、3DES算法的ECB和CBC模式的数据加密和解密运算。
1仅SJJ1012型号支持ECC算法2同上3SSF33对称算法为可选算法4⏹消息鉴别码的产生和验证:支持基于SSF33算法5、SM1算法、SM4算法6、AES算法、3DES算法的MAC产生及验证。
⏹数据摘要的产生和验证:支持SM37、SHA-1、SHA224、SHA256、SHA384、SHA512等杂凑算法。
⏹数字签名的产生和验证:可以根据需要利用内部存储的RSA/ECC8私钥或外部导入RSA/ECC私钥对请求数据进行数字签名。
SURE时间戳服务器技术白皮书

SURE时间戳服务器SURE Time Stamping Authority Server技术白皮书山东确信信息产业股份有限公司ShanDong Sure Information Industry Inc二零一零年知识产权声明:本白皮书中的内容是山东确信信息产业股份有限公司SURE时间戳服务器技术说明书。
相关权利归山东确信信息产业股份有限公司所有。
白皮书中的任何部分未经本公司许可,不得转印、影印或复印及传播。
山东确信信息产业股份有限公司山东省济南市高新区舜华路2000号舜泰广场11号楼北区2层电话:(86-0531)6659 0661传真:(86-0531)8811 3370网址:电子信箱:********************目录第一章产品概述 (4)1.1公司简介 (4)1.2产品体系介绍 (5)1.3产品背景 (5)第二章术语及定义 (6)第三章 SURE时间戳服务器概述 (7)3.1概述 (7)3.2网络部署 (7)3.3功能描述 (8)1、服务器端功能(TSA Server) (8)2、客户端应用接口(TSA Client API)功能 (9)3.4产品特点 (9)第四章产品运行环境 (11)4.1硬件环境 (11)4.2软件环境 (11)1、 TSA Server (11)2、客户端接口(Client API) (11)第五章技术指标 (12)第一章产品概述随着全球经济一体化速度的加快和信息安全领域的快速发展,这对我国所有的企业来说面临着机遇和挑战。
信息化浪潮的到来,提高了企业的工作效率,增强了核心竞争力,为企业能够迅速把握住相关信息并转化为经济效益提供了有效地帮助。
目前,各单位的日常办公与网络密不可分,网上办公系统(OA)、ERP、财务系统、审批系统等逐步与日常业务密切结合,成为日常工作中不可或缺的一部分。
但网络欺诈、信息泄密、信息抵赖等问题普遍存在,对信息安全提出了严峻的考验。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
集群软件进行的下一个任务是IP地址的交接。失效切换时、通过IP地址的交接,所以不用在意业务在哪个服务器上运行。集群软件交接IP地址的目的就在于此。
应用程序的交接
集群软件业务交接的最后任务是交接应用程序。与容错计算机(FTC)不同,在一般的失效切换集群中不交接包含应用程序运行中内存内容的进程状态等。也就是说,通过将故障服务器上运行的应用程序,在正常的服务器中重新执行,来完成应用程序的交接。
第 1 章SureHA100G2集群系统概览
集群系统
现在的计算机社会中,持续的提供不停止的服务已经成为通往成功的关键。例如仅由于1台机器故障或超负荷而宕机就导致对客户的服务全面停止。这样的话,不但会带来莫大的损失,还会失去客户的信任。随着集群系统的导入,发生意外事故时会将系统停止时间(宕机时间)降低到最小限度、使负载均衡,提高其可用性。
共享磁盘的互斥控制
共享磁盘型的失效切换集群中,多个服务器上共享磁盘装置。一般而言,文件系统通过保持服务器内数据的缓存,可以激发超出磁盘装置物理I/O性能界限的文件I/O性能。
如果从多个服务器上mount同时访问某个文件系统的话会怎么样呢?
通常的文件系统不考虑在自身以外的服务器上更新磁盘上的数据。因此缓存和磁盘上的数据会产生矛盾,最终将导致数据遭到损坏。失效切换集群系统中,为了防止后面提到的网络分区症状所引起的多个服务器同时mount文件系统,会对磁盘装置采取互斥控制。
集群资源的交
集群管理的资源中有磁盘、IP地址、应用程序等内容。下面说明用于交接这些集群资源的失效切换集群系统的功能。
数据的交接
在共享磁盘型集群中,共享磁盘装置上的分区保存服务器之间的交接数据。也就是说,所谓的交接数据,就是在正常的服务器上对应用程序使用的文件所在分区的文件系统重新mount。由于共享磁盘装置与交接目标服务器是物理连接,因此,集群软件应该做就只有文件系统的mount。
故障发生后,被查出故障的服务器经过物理隔离修复后,只要连接集群系统就可以作为待机服务器恢复运行。重视业务连续性的实际操作中,也可以不进行组的故障恢复。如果必须要在原来的服务器上运行业务时,请移动组。
图12从发生故障到恢复的流程
由于失效切换处的服务器配置不够、双向待机引起超负荷等原因而希望在原来的服务器上运行业务时,原来节点的恢复作业完成后将暂时停止业务,在原来的节点上重启业务。将失效切换的组返回到原来的服务器称为故障恢复。
如图1-3所示,只有1个业务,待机服务器为不运行业务的待机形态称为单向待机。有2个以上业务,各自的节点既为运行服务器又为待机服务器的形态称为双向待机。
图13HA集群的运行形态
镜像磁盘型
上述共享磁盘型适用于大规模系统,但共享磁盘大体价格较高因此构筑系统的成本也会增大。所以,不使用共享磁盘,而通过将各服务器磁盘在服务器间建立镜像,可以以更低的价格实现相同功能,这类集群系统称为镜像磁盘型集群系统。但是,由于需要在服务器间为数据建立镜像,因此不适用于需要大量数据的大规模系统。
应用程序发出Write请求时,数据镜像引擎会将数据写入本地磁盘的同时,通过心跳线将Write请求分发给待机服务器。所谓心跳线是连接在服务器之间的电缆,在集群系统中用于服务器的死活监视。数据镜像型中除死活监视外还用于数据的传送。待机服务器的数据镜像引擎通过将接收的数据写入待机服务器的本地磁盘中,使运行服务器和待机服务器间的数据实现同步。
负载均衡集群
是将客户端的请求遵从恰当的负荷均衡原则分配给各节点的集群。是以高扩展性为目的的集群、一般无法进行数据交接。包括load balance集群、并列数据库集群。
HPC(High Performance Computing)集群
是指计算量非常大的集群。是为使用超级计算机执行单一业务的集群。使用所有节点的CPU来执行单一业务的网格计算技术近年来已成为热点。
网络分区症状
切断所有连接在服务器间的心跳线时,仅根据心跳所进行的死活监视将不能与服务器宕机进行区分。这种状态下会被当作是服务器宕机、实行失效切换处理,在多个服务器上同时mount文件系统,将损坏共享磁盘上的数据。
图110网络分区症状
将这样的问题称为“网络分区症状”或者Split-brain-syndrome。为了解决这个问题,在失效切换集群中所有的心跳线都被切断时,可以考虑运用能确切实现共享磁盘装置互斥控制的各种对策。
对于应用程序发出的Read请求,仅从运行服务器的磁盘中读取。
图14数据镜像的结构
系统构
共享磁盘型集群将磁盘阵列装置在集群服务器间实现共享。服务器发生故障时待机服务器使用共享磁盘上的数据实现数据的交接。
镜像磁盘型集群是经过网络将集群服务器上的数据磁盘镜像化的构成。服务器故障时使用待机服务器上的镜像数据交接业务。数据的镜像化以I/O为单位进行,因此从上层应用程序看是与共享磁盘相同的。
HA (High Availability)集群
一般提升系统可用性时,会认为对构成系统的组件进行冗余化,消除Single Point of Failure是重要的。所谓Single Point of Failure指的是计算机的构成要素(硬件的组件)因为只有一个,所以该处发生故障时会有使业务停止的弱点。所谓HA集群是使用多台节点进行冗余化操作、将系统停止时间控制在最小限度,提升业务可用性(availability)的集群系统。某些骨干业务系统等的宕机会给业务带来很大影响,因此此类系统不允许停止,需要导入HA集群。
例如对DB实例进行失效切换时,并非以发生故障前一刻的状态重启,而是和先宕机再启动一样,进行事务的回滚,并且需要从客户端再次连接。该数据库恢复所需要的时间可以通过DBMS的Check Point Interval的设置在某种程度上进行控制,但是一般都需要几分钟。
多数应用程序仅通过再次执行就可以再续业务,但是也有的应用程序需要在故障发生后进行业务恢复操作。为此,集群软件通过启动脚本替代应用程序以便能够描述业务恢复步骤。脚本中以描述脚本执行的主要原因以及执行服务器等信息为主,根据需要,也描述清除正在更新的文件等恢复步骤。
下图是共享磁盘型集群的构成图例。
图15系统构成
根据运行形态可以将失效切换型集群分为下列几类。
单向待机集群
将其中一个服务器作为运行服务器作业、另一方的服务器作为待机服务器不进行作业的运行形态。可以以最简单的运行形态构建失效切换后没有性能下降的高可用性系统。
图16单向待机集群
同一应用程序双向待机集群
在多个服务器上运行相同的业务应用程序并互相待机的运行形态。各业务应用程序独立运行。失效切换时在一台服务器上将运行多个同一业务应用程序,所以必须是可以实现这种运行的应用程序。可以将某个业务数据分割成多个时,按照想要访问的数据变更客户端连接的服务器,可以构筑以数据分割为单位的负载均衡系统。
所谓集群,有“集团”、“团”的意思,顾名思义是“将多个计算机汇集成一群(或者多群),谋求提升可靠性及处理性能的系统”。集群系统有多个种类,可分为下列3种。其中,SureHA100G2属于High Availability集群。
HA (High Availability) 集群
是平时作为运行服务器作业,在运行服务器发生故障时将业务交接到待机服务器的集群。是以高可用性为目的的集群。包括共享磁盘型、镜像磁盘型。
还有一个就是写入保证的问题。应用程序向共享磁盘里写入数据时,通常是通过文件系统写入。应用程序即使写入完成,文件系统仍会保留在磁盘缓存上,所以未写入共享磁盘,运行服务器就宕机的情况下,磁盘缓存上的数据将不能交接到待机服务器。因此,发生故障时,需要切实交接到待机服务器的重要数据,必须要通过同步写入等方法,切实地写入到磁盘中。这与单个服务器宕机时数据不因断电而丢失一样。也就是说,在设计集群系统时要考虑到:交接给待机服务器的只有共享磁盘中记录的数据,象磁盘缓存这样的内存上的数据不予交接。
图111数据的交接
看似简单,但是在设计/构筑集群系统时有几点必须要注意。
一个是文件系统以及数据库的恢复时间问题。要交接的文件在故障发生的前一刻被其他的服务器所使用,或者也许正在被更新。因此,有些文件系统,有时需要交接时进行一致性的检查,如果是数据库就需要进行回滚等处理。这种情况与电源故障造成宕机重启单个服务器时是一样的。此类恢复处理需要较长时间时,若就此追加在失效切换时间(业务的交接时间)上,将成为系统可用性低下的主要原因。
在没有集群化的系统中使用其它服务器重启应用程序时,客户端必须再次连接不同的IP地址。但是多数的集群系统里不是以业务为单位给服务器分配IP,而是分配其他网络的IP地址(虚拟IP地址)。因此客户端没必要去区分正在执行业务的是运行服务器还是待机服务器,如同连接同一个服务器一样,可以持续地运行业务。
由于运行服务器宕机发生失效切换时,共享磁盘上的数据没有进行妥当的结束处理就交接给待机服务器。因此待机服务器中有必要对交接的数据进行逻辑检查。这与一般未集群化的系统宕机后重启时进行的处理是一样的。例如,如果是数据库就需要回滚及前滚的处理。由此客户端仅运行未确认的SQL就可以继续业务。
心跳可以仅通过确认ping的应答这种死活监视方式,根据集群软件不同,也可以传送本地服务器的状态信息等内容。集群软件收发心跳,在心跳无应答时视作该服务器故障并开始失效切换处理。但考虑到由于服务器的高负荷等原因会导致心跳的收发延迟,所以到判定为服务器故障需要一定程度的缓冲时间。因此实际发生故障的时间和集群软件查出故障的时间会存在时间差。
图19N +N结构
故障
集群软件一查出给持续业务带来问题的故障就会执行业务交接(失效切换)。在进入失效切换处理的具体内容之前,先简单地介绍一下集群软件是怎样查出故障的。
SureHA100G2为监视服务器,定期地与伙伴服务器进行生存确认。将此生存确认称为心跳。
心跳和服务器故障的查出
集群系统中应该查出的最基本的故障是构成集群的服务器的宕机。服务器的故障中包含电源异常以及内存错误等硬件故障或者OS的崩溃等。为了查出此类故障,使用心跳来监视服务器的死活。