FusionCompute运维故障处理指南
FusionCompute_V100R005C00_日常操作维护与故障处理(PDF)

Copyright © 2015 Huawei Technologies Co., Ltd. All rights reserved.
Page 13
虚拟机管理—虚拟机操作管理
虚拟机操作包括虚拟机启动、休眠、唤醒、关闭、迁移、删除、帮定主机等。
Copyright © 2015 Huawei Technologies Co., Ltd. All rights reserved.
CPU热插拔策略不同时,调整CPU属性生效的条件不同: 不启用CPU热添加:调整CPU资源控制策略时,在线生效;增加CPU数量或减 少CPU数量时,需重启虚拟机后生效。 启用CPU热添加:增加CPU数量、调整CPU资源控制策略时,在线生效;减少 CPU数量,需重启虚拟机后生效。
Copyright © 2015 Huawei Technologies Co., Ltd. All rights reserved.
Copyright © 2015 Huawei Technologies Co., Ltd. All rights reserved. Page 4
目录
1. FusionCompute基本维护操作
FusionCompute Portal
虚拟机管理 账户管理
告警管理
备份恢复
Copyright © 2015 Huawei Technologies Co., Ltd. All rights reserved.
Copyright © 2015 Huawei Technologies Co., Ltd. All rights reserved.
Page 16
虚拟机管理—快照还原虚拟机
快照还原注意事项: 1、快照恢复虚拟机前提,虚拟机必须为“已关闭”或“已休眠”; 2、若虚拟机在创建快照后绑定了新磁盘,则在使用该快照还原虚拟机时,新磁 盘会自动与虚拟机解绑定。可根据需要,手动重新绑定。 3、若虚拟机的某个磁盘属性为“不受快照影响”,则使用快照还原虚拟机时, 不对该磁盘的数据进行还原。如果快照后,该磁盘被解绑定,则快照恢复的虚 拟机会重新绑定该磁盘,但磁盘数据不进行还原。 4、如果快照后,该磁盘被删除,则快照恢复的虚拟机上不存在该磁盘。
FusionCompute平台日常维护指南

FusionCompute数据手工恢复
在对FusionCompute进行重大操作(如升级或打补丁、重大数据调整、扩容等)后,系 统有可能出现异常或未达到预期结果。此时,需要对其进行回退,回退过程中需要进行 数据恢复操作。 恢复过程中需要停止VRM服务:
Page 32
目录
1. FusionCompute基本维护操作 2. FusionCompute定位信息收集
备份存放路径 数据库备份文件:/var/backup/[YYYY]-[MM]-[DD]_sn/DATA 配置备份文件:/var/backup/[YYYY]-[MM]-[DD]_sn/DB
Page 30
FusionCompute手工备份
备份的作用:进行重大操作(如升级、重大数据调整等)前,对VRM节 点数据进行手工备份,从而保证系统在出现异常或未达到预期结果时 可以及时进行数据恢复,将对业务的影响降到最低。
Page 18
网络管理—添加上行链路
添加上行链路:在已创建的分布式交换机中添加上行链路,为虚 拟机提供网络资源。
Page 19
网络管理—创建端口组
端口组是一种策略设置机制,这些策略用于管理与端口组相连的 网络。虚拟机的虚拟网卡连接到分布式交换机的端口组,这样, 即使与同一端口组相连接的虚拟机各自在不同的主机上,这些虚 拟机也都属于虚拟环境内的同一网络。
Page 25
虚拟机管理—制作模板
制作模板方式:虚拟机转为模板、虚拟机克隆为模板和模板克隆为模板。
Page 26
虚拟机管理—创建虚拟机快照
虚拟机快照:将某一时刻虚拟机的所有磁盘信息保存下来,用于虚拟机数据的 还原和恢复。一台虚拟机可以创建多个快照,使用其中一个快照恢复虚拟机时, 不会对其他快照产生影响。
精选-HCIE-Cloud -故障处理实验指导手册

1 故障处理实验介绍1.1 故障处理概述1.1.1 什么是故障?故障是系统不能执行规定功能的状态。
通常而言,故障是指系统中部分元器件功能失效而导致整个系统功能恶化的事件。
设备的故障一般具有五个基本特征:层次性、传播性、放射性、延时性、不确定性等。
1.1.2 故障处理流程故障处理总体流程主要分为四个过程:故障信息收集、故障判断、故障定位、故障排除。
故障信息收集故障信息是故障处理的重要依据,系统维护人员应尽可能多的收集故障信息。
故障判断排除故障之前,系统维护人员根据收集的故障详细信息,对故障范围和类型进行判断。
故障定位故障定位是指从众多可能原因中找出故障原因的过程。
通过一定的方法或手段分析、比较各种可能的故障成因,不断排除非可能因素,最终确定故障发生的具体原因。
以下是故障定位的常用方法:•在管理界面查看告警信息•在管理界面查看监控信息是否正常•查询操作日志,分析操作过程是否有误•在管理界面检查数据配置是否正确•观察设备指示灯状态是否正常故障排除故障排除是指根据不同的故障原因清除故障的过程。
故障排除包括检修线路、修改配置数据、重启相关进程、重启服务器等。
确认故障是否被排除通过查询设备状态、查看设备指示灯和告警等方法确认系统已正常运行,并进行相关业务调测以确保业务正常。
记录故障处理过程故障排除后应记录故障处理要点,给出针对此类故障的防范和改进措施,避免同类故障再次发生。
1.2 实验介绍1.2.1 关于本实验本实验主要介绍FusionCompute,FusionAccess,FusionStorage Block,FusionCloud故障处理,了解故障处理方法和故障处理流程,学习如何处理故障。
1.2.2 实验目的●理解故障处理的思路●掌握FusionCompute故障处理方法●掌握FusionAccess故障处理方法●掌握FusionStorage Block故障处理方法●掌握FusionCloud故障处理方法1.3 实验拓扑华为考试中心HCIE-Cloud实验环境由5台华为RH2288H V3服务器搭建而成,服务器之间使用1台华为S5700交换机进行连接。
云计算故障处理-FusionCloud故障处理

基础设施层
FusionSphere 分布式存
计算节点
储
云备份 云容灾
服务器
交 换 机
防 火 墙
负 载 均 衡
文
件
对象存储 FusionInsight LibrA vSphere Oracle
存
服务器
服务器
服务器 服务器 服务器
储
公共服务API
运营 API
计量信息 Ceilometer
消息通知 Mail/SMS SMN
gaussdb ntp-server ntp-client
日志类型 操作日志 运行日志 运行日志 组件启停日志 运行日志
组件启停日志 运行日志 运行日志 操作日志 运行日志 组件启停日志 运行日志 组件启停日志 运行日志
日志存储具体路径 /var/log/fusionsphere/operate/glance-api /var/log/fusionsphere/component/glance-api /var/log/fusionsphere/component/glance-registry /var/log/fusionsphere/component/glanceControl /var/log/fusionsphere/component/swift-proxy /var/log/fusionsphere/component/swift-store /var/log/fusionsphere/component/swiftControl /var/log/fusionsphere/component/rabbitmq /var/log/fusionsphere/component/rabbitmq-client /var/log/fusionsphere/operate/keystone-api/ /var/log/fusionsphere/component/keystone /var/log/fusionsphere/component/keystoneControl/ /var/log/fusionsphere/component/gaussdb /var/log/fusionsphere/component/gaussdbControl/ /var/log/fusionsphere/component/ntp-server/ /var/log/fusionsphere/component/ntp-client/
超融合一体机故障应对措施

一、登录系统时,显示页面为服务器的地址信息1、故障描述通过浏览器访问超融合一体机管理平台地址时,界面显示为服务器的HDM登录页面。
2、应对方案通过HDM口登录服务器管理页面(默认用户名:admin,默认密码:Password@_),点击“网络-专用网口-配置”,查看IPv4地址是否与平台地址冲突。
若冲突,请修改地址。
点击“网络-共享网口-配置”,查看IPv4地址是否与平台地址冲突,若冲突,修改IPv4地址,或去勾选“IPv4配置”项。
使用专用网口进行服务器管理。
二、区域配置不正确1.故障描述创建资产时,提示“区域配置不正确,资产创建失败”。
2.应对方案(1)检查资产信息配置是否存在错误,例如管理IP或名称与组内已有成员是否重复。
如果是资产管理IP、名称重复等错误,请根据提示修改相应配置信息。
(2)检查区域配置是否正确,确保区域配置IP范围在父区域范围内,查看是否存在其它错误,例如IP范围或名称与组内已有成员是否重复。
如果是区域IP范围、名称重复等错误,请根据提示修改相应配置信息。
(3)如果区域未配置,请按照区域配置步骤配置区域信息。
(4)如果上述操作完成后问题仍无法排除,请联系技术支持工程师。
三、管理IP不一致1、故障描述创建资产时,提示“创建失败,管理IP不一致”。
2、应对方案该问题是由于创建资产管理IP与区域IP范围不一致造成的。
解决方法如下:(1)检查资产管理IP是否超出区域IP范围,如果未超出,查看信息配置是否存在错误,例如管理IP或名称与组内已有成员是否重复。
如果是资产管理IP、名称重复等错误,请根据提示修改相应配置信息。
(2)检查区域配置是否正确,确保区域配置IP范围在父区域范围内,查看是否存在其它错误,例如IP范围或名称与组内已有成员是否重复。
如果是区域IP范围、名称重复等错误,请根据提示修改相应配置信息。
(3)如果上述操作完成后问题仍无法排除,请联系技术支持工程师。
四、资产发现失败1、故障描述创建拓扑任务后,自动发现资产功能失效,资产发现失败。
ManageOne FusionManager运维平台故障处理指南

ManageOne FusionManager 运维平台故障处理指南故障处理目录目录前言 (ii)1概述 (1)1.1故障处理流程 (2)1.2故障分类 (3)2信息收集 (4)2.1基本故障信息收集 (5)2.2告警信息收集 (5)3管理节点故障 (6)3.1FusionManager 虚拟机故障 (7)4操作维护类故障 (10)4.1修改虚拟机IP 后虚拟机通信中断 (11)4.2修改管理IP 后登录FusionManager 异常 (12)4.3修改管理IP 后资源界面异常 (13)4.4修改管理IP 后资源使用情况界面异常 (14)4.5主机关联的数据存储异常 (15)5系统时间故障 (17)5.1系统时间错误 (18)A 附录 (20)A.1配置IE 浏览器 (21)A.2配置Firefox 浏览器 (22)A.3登录FusionManager (23)A.4查看告警 (24)B 术语 (26)B.1A-E (27)B.2F-J (28)B.3K-O (30)B.4 P-T (31)B.5 U-Z (32)1 概述关于本章1.1故障处理流程1.2故障分类1.1故障处理流程故障处理总体流程主要分为四个过程:故障信息收集、故障判断、故障定位、故障排除。
具体实施过程如图1-1所示。
说明故障信息收集处理重大故障前,请先联系技术支持处理。
图1-1 常见故障处理流程故障信息是故障处理的重要依据,系统维护人员应尽可能多的收集故障信息。
故障判断排除故障之前,系统维护人员根据收集的故障详细信息,对故障范围和类型进行判断。
故障定位故障定位是指从众多可能原因中找出故障原因的过程。
通过一定的方法或手段分析、比较各种可能的故障成因,不断排除非可能因素,最终确定故障发生的具体原因。
以下是故障定位的常用方法:●在管理界面查看告警信息●在管理界面查看监控信息是否正常●查询操作日志,分析操作过程是否有误●在管理界面检查数据配置是否正确●观察设备指示灯状态是否正常故障排除故障排除是指根据不同的故障原因清除故障的过程。
FusionCloud运维故障处理指南

日志类型 操作日志 运行日志
组件启停 日志
日志存储具体路径 /var/log/fusionsphere/operate/neutron-api /var/log/fusionsphere/component/nutron-server /var/log/fusionsphere/component/nutron-sriov-nic-agent /var/log/fusionsphere/component/nutron-evs-agent /var/log/fusionsphere/component/nutron-reschedule /var/log/fusionsphere/component/nutron-metadata-agent /var/log/fusionsphere/component/nutron-dhcp-agent /var/log/fusionsphere/component/nutron-l3-agent /var/log/fusionsphere/component/nutron-servicechain-agent /var/log/fusionsphere/component/nutron-metering-agent /var/log/fusionsphere/component/nutron-openvswitch-agent /var/log/fusionsphere/component/nutron-netmap-nic-agent /var/log/fusionsphere/component/nutron-vc-vswitch-agent001
FusionCloud运维故障处理指南
技术创新,变革未来
前言
⚫ FusionCloud是物理分散、逻辑统一、业务驱动、云管协同、 业务感知的数据中心解决方案,可支持企业或机构业务的持 续发展,能满足对业务全生命周期的管理。了解和掌握 FusionCloud的故障处理方法,可以更好的部署和维护企业云 计算环境。
FusionCompute日常维护与故障处理介绍

FusionCompute日常维护与故障处理介绍技术创新,变革未来⚫FusionCompute是华为云计算解决方案的基石,了解和掌握FusionCompute的日常维护和故障处理方法,可以更好的部署和维护企业云计算环境。
通过本章学习,您将能够掌握FusionCompute系统的日常运维能力。
⚫学完本课程后,您将能够:⚫描述日常维护操作⚫区分FusionCompute告警⚫分析常见故障处理步骤⚫描述FusionCompute常见故障处理方法1.维护管理◼日常监控☐配置管理☐用户管理☐FusionCompute备份与恢复2.故障管理日常维护操作⚫为了保证系统长期正常、稳定的运行,维护工程师需要定期对系统进行检查,并根据检查出的异常结果排除故障。
维护项目检查项正常状态维护周期查看系统告警FusionCompute 上的告警无新增告警每天检查FusionCompute 健康状态健康检查报告无“不合格”检查项每天检查设备运行状态服务器、交换机和存储设备的指示灯状态指示灯显示正常每天检查设备运行环境温湿度符合运行环境对温度和湿度的要求。
每周空气质量符合运行环境对空气质量的要求每周防尘情况无明显尘土附着每周查看预警整改公告“/enterpr ise”,选择“公告>产品公告>预警公告>IT >云计算数据中心>FusionSphere >FusionSphere”,查看预警整改公告。
满足预警通知的要求每月查看告警告警级别图标说明紧急已经影响业务、需要立即采取纠正措施的告警为紧急告警。
重要已经影响业务,如果不及时处理会产生较为严重后果的告警为重要告警。
次要目前对业务没有影响,但需要采取纠正措施,以防止更为严重的故障的发生,这种情况下的告警为次要告警。
提示检测到潜在的或即将发生的影响业务的故障,但是目前对业务还没有影响,这种情况下的告警为提示告警。
实时监控⚫管理员可以查看集群、主机以及虚拟机的监控信息,以便于了解集群在指定时间段内的运行状态目录1.维护管理☐日常监控◼配置管理☐用户管理☐FusionCompute备份与恢复2.故障管理⚫管理员可以根据业务需求对FusionCompute系统配置参数作出调整。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主机故障案例-添加主机失败
收集 • 在FusionCompute界面上添加主机失败 信息
定位 故障
• VRM与CNA节点网络链路不通
• 添加主机失败后,主机上可能残留网络配置数据,导致再次添加主机 失败
排除
• 检查VRM与故障CNA节点网络连接 • 删除故障CNA节点残留网络数据
故障
检查
• 告警消失 • 业务正常
收集 • FusionCompute服务异常,无法重新启动VRM虚拟机 信息
定位 故障
• 在FusionCompute中对VRM虚拟机执行关机操作 • 在VRM虚拟机上执行关机命令 • VRM操作系统异常引发VRM自动关机
排除 故障
• 使用“PuTTY”,登录VRM节点所在主机 • 切换至“root”用户: su - root • 查找VRM虚拟机id: ll /etc/galax/eucalyptus • 启动虚拟机: /opt/galax/NCclient ncStartInstances 虚拟机ID
确认
第12页
系统接口管理
⚫ FusionCompute管理如下几类系统接口:
绑定网口
◼ 绑定主机的网口,以提高网络的可靠性。
存储接口
◼ 在主机中添加存储接口,实现主机与存储设备对接。 ◼ 添加多个存储接口,可以实现存储的多路径传输。
业务管理接口
◼ 承载一些特殊业务流量的系统接口,这些特殊业务包括热迁移虚拟 机、虚拟机主机容灾、虚拟化SAN存储心跳检测等。
添加主机存储接口
第7页
主机和集群故障点
站点故障
不能使用 FusionCompute
不能配置级联
集群故障
不能创建、修 改、移除集群
集群配置故障
主机故障
不能添加、修 改、移除主机
主机配置故障
系统接口故障
网口绑定异常 业务管理接口
异常 存储接口异常
第8页
站点、集群故障点分析
• 不能使用FusionCompute • 不能配置级联 • 不能创建、修改、移除集
系统管理
• FusionCompute的权限、任务与日志、系统配置等系统管理。
第4页
FusionCompute故障概览
存储池故障
网络池故障
虚拟机和模板故 障
主机和集群故障
FusionCompute 故障
日常操作维护故 障
第5页
目录
1. FusionCompute故障简介 2. FusionCompute主机和集群故障处理 3. FusionCompute存储故障处理 4. FusionCompute网络故障处理 5. FusionCompute虚拟机和模板故障处理 6. FusionCompute日常操作维护故障处理 7. FusionCompute高危操作一览表 8. 典型案例
第3页
FusionCompute功能简介
计算池
• 提供站点下集群与主机资源的监控、管理和维护功能。
存储池
• 提供站点下存储资源、数据存储与磁盘管理功能,并可为系统增添共 享存储设备。
网络池
• 提供分布式交换机和网络资源的维护和管理。
虚拟机和模板
• 提供虚拟机资源的监控、管理、维护和模板属性规格管理的功能。
第13页
系统接口故障点分析
• 网口绑定异常 • 业务管理接口异常 • 存储接口异常
故障点
可能的故障原 因
• 网络异常 • 主机异常 • VRM异常
• 排除网络故障 • 修复主机 • 修复VRM
排除故障
系统接口涉及到底层网络硬件,主机和VRM节点,排除故障时可自顶 向下快速定位故障层次,然后再自底向上逐步排除故障点。
检查
• 告警消失 • 业务正常
确认
第10页
主机故障点分析
• 不能添加、修 改、移除主机
• 主机配置故障
故障点
可能的故障原因
• 网络异常 • 代理服务异常 • 系统异常
• 排除网络故障 • 修复代理服务 • 重装系统
排除故障
主机上的计算资源经过虚拟化后,形成计算资源池,并分配给虚拟机 使用。如果主机出现故障,将影响上层的虚拟机和业务。
FusionCompute运维故障处理指南
技术创新,变革未来
前言
⚫ FusionCompute是华为云计算解决方案的基石,了解和掌握 FusionCompute的故障处理方法,可以更好的部署和维护企业 云计算环境。
第1页
目标
⚫ 学完本课程,您将能够:
了解FusionCompute故障分类 熟悉FusionCompute主机和集群故障处理 熟悉FusionCompute存储故障处理 熟悉FusionCompute网络故障处理 熟悉FusionCompute虚拟机和模板故障处理 熟悉FusionCompute日常操作维护故障处理 熟悉FusionCompute高危操作
群 • 集群配置故障
故障点
可能的故障原因
• 网络异常 • VRM节点异常 • 站点配置异常 • 集群配置异常
• 排除网络故障 • 排除VRM节点故障 • 修复站点配置 • 修复集群配置
排除故障
FusionCompute使用VRM节点对资源统一调度管理,站点、 集群故障和VRM节点强相关。
第9页
站点、集群故障案例-VRM虚拟机关机后 无法启动
第2页
目录
1. FusionCompute故障简介 2. FusionCompute主机和集群故障处理 3. FusionCompute存储故障处理 4. FusionCompute网络故障处理 5. FusionCompute虚拟机和模板故障处理 6. FusionCompute日常操作维护故障处理 7. FusionCompute高危操作一览表 8. 典型案例
第14页
系统接口故障案例-删除存储接口路由,导 致存储链路断开
收集 • 删除存储接口路由后,提示存储链路中断,关联虚拟机不能使用 信息
定位
• 主机与存储设备通过三层网络连接,主机的存储接口和存储设备的存 储IP地址不在同一网段,需要设置静态路由,使存储平面能够互通
故障
排除
• 登录主机 • 为主机存储接集群
向集群添加主机
设置主机时钟同步
否
存储类型 为SAN?
是
存储设备 厂商
其他
华为
修改主机存储多路径
⚫ FusionCompute主机和集群的故障处理,可 以参考该流程顺序进行检查。
⚫ 主机和集群的故障可能会涉及到如下关键 故障点:
站点故障
集群故障 主机故障 系统接口故障