Check+Point防火墙设备故障处理指导手册+V2.0

Check+Point防火墙设备故障处理指导手册+V2.0
Check+Point防火墙设备故障处理指导手册+V2.0

Check Point防火墙故障处理

指导手册V2.1

2012/03/30

文档修订记录

文档说明

此文档是由以色列捷邦安全软件科技公司于2012/3/30制定的内部文档。本文档仅就CheckPoint 内部与相关合作伙伴和CheckPoint最终用户使用。

版权说明

本文档中出现的任何文字叙述、文档格式、插图、照片、方法、代码等内容,除由特别注明,版权均属于以色列捷邦安全软件科技公司所有,受到有关产权及版权法保护。任何个人、机构未经以色列捷邦安全软件科技公司书面授权许可,不得以任何方式复制或引用本文档的任何片断。

2

目录

1文档描述 (5)

2故障排错流程 (6)

2.1防火墙故障处理流 (6)

2.2故障级别定义: (6)

3防火墙故障处理 (7)

3.1.防火墙一级故障处理: (7)

3.2.防火墙二级故障处理: (11)

3.3.防火墙三级故障处理: (14)

3.4.防火墙四级故障处理: (15)

3.5.防火墙路由故障处理: (15)

4故障现象检查 (16)

4.1问题节点确认 (16)

4.1.1防火墙硬件问题 (17)

4.1.2网络环境问题 (19)

4.1.3防火墙软件问题 (20)

4.1.4防火墙性能问题 (21)

5功能模块Debug过程 (22)

5.1防火墙Kernel Debug命令 (23)

5.1.1概述: (23)

5.1.2Debug flags and modules: (23)

5.1.3Debug的buffer: (23)

5.1.4参考的命令: (23)

5.2正常流量被拦截的排查流程 (25)

5.3VPN故障排查流程 (26)

5.4VPN Debug的排错流程 (28)

5.5Endopoint Connect 连接问题排错流程 (28)

5.6ClusterXL 排错流程 (32)

5.6.1开始ClusterXL debug前需要检查的项目 (35)

5.6.2CluseterXL问题的Kernel debug 命令 (35)

5.7防火墙日志问题排错流程 (37)

5.8策略下发失败的问题排错流程 (38)

5.9Voip协议的排错流程 (39)

6防火墙巡检报告 (40)

6.1防火墙(FW)信息输入 (43)

6.2管理服务器(SMC)信息输入 (43)

6.3防火墙物理层运行状况检查 (44)

6.3.1硬件资源使用情况 (44)

6.3.2硬件资源健康检查 (44)

6.4防火墙系统层运行状况检查 (45)

6.4.1系统运行日志分析 (45)

6.4.2系统安全配置检查 (45)

6.4.3系统与策略备份检查 (46)

6.4.4系统垃圾文件检查 (46)

6.5防火墙应用运行状态检查 (46)

6.5.1防火墙进程检查 (46)

6.5.2防火墙链接表检查 (47)

6.5.3ClusterXL状态检查 (47)

6.5.4SecureXL状态检查 (48)

6.5.5防火墙流量分析 (48)

6.5.6防火墙License检查 (49)

6.5.7管理服务器安全检查(Windows) (49)

1文档描述

本文档用于Check Point防火墙设备出现故障时作为判断及收集信息使用。在日常的排除故障过程中,除了必要的网络情况判断,拓扑信息描述等,还需要收集防火墙以及相关设备的有关信息,以下主要对防火墙的相关故障所需获取的信息及排错过程进行描述。

首先,防火墙设备存在的故障问题主要分如下几大类:

?设备崩溃问题

适用于设备出现无故重启、设备无响应或设备出现完全失去工作能力,即设备硬件或者软件导致的宕机等情况。

?性能处理问题

适用于防火墙出现性能处理问题的环境,如出现严重的丢包、极高的网络延时、所有业务出现访问缓慢等情况。

?业务访问问题

适用于业务数据流通过防火墙之后出现的业务不通,或访问缓慢等情况。

?OSPF问题

适用于防火墙启用动态OSPF路由协议的环境,如出现OSPF路由问题,邻居协商问题等。防火墙出现不同故障,必须使用不同的命令收集相应信息,在命令的使用过程中,基本信息命令收集是必须的,DEBUG的命令信息视具体情况而定,最好能够获取该类信息。

注意:运行命令过程中需启用终端软件的日志记录功能,记录所有操作会话。

2故障排错流程

2.1防火墙故障处理流

流程说明:从防火墙的排障的总体流程来看,首先必须确定故障点设备,再从故障点设备进行排错。流程主要集中在防火墙的问题进行说明,以下对流程进行说明:

2.2故障级别定义:

3防火墙故障处理

3.1.防火墙一级故障处理:

A:一级故障定义:

对业务运营造成灾难性影响

网络或系统停机,导致客户业务完全停止服务;

如:防火墙系统crash,且未发生切换,业务完全受阻。

B:信息内容搜集:

如无法快速判断故障问题,请抓取最基本数据:注意需要收集两台设备信息

如无法通过SSH登录设备,请通过原装console线登录设备命令行收集,所有会话需要记录到文件。

IP平台设备信息搜集:

设备宕机没有切换,硬关机,然后加电重启设备,使用Console线搜集重启的字符输出。 登录系统后搜集所有coredump文件,如下所示,通常在/var/crash目录 [admin]# find / -name "*core*"

/var/crash/vmcore.0.gz

/var/crash/vmcore.1.gz

/var/crash/vmcore.2.gz

搜集系统CST文件

CST是Configuration Summary Tool的简写,CST文件会包含系统配置、版本信息、系统运行情况、系统日志、甚至保存在本地硬盘上的防火墙日志,如果不需要搜集防火墙日志可以使用IPSO-A[admin]# cst –small命令,缩短搜集CST的时间,搜集完整的CST过程如下:

IPSO-A[admin]# cst

CST version 2007-09-26

=============== N O T I C E: VOYAGER LOCKS =========================

Please make sure you are logged out of Voyager.

CST gathers certain information from clish, which may not work

when there is a configuration lock in place established by an active

Voyager session.

=============== E N D O F N O T I C E =========================

Continue? [y] y

Output Directory? [.] /var/tmp #指定CST文件的存储目录注意:ECST文件,其路径在/opt/ecst_output。

如果设备完全挂起,接入console口没有任何输出的情况下,或者如下情况:System hang

Complete loss of connectivity

No console login prompt

Transient failure/performance conditions

Out of memory conditions

Out of swap conditions

请通过如下步骤搜集信息,首先准备如下设备,

一个DTE (Date Terminal Equipment) 支持数据通信标准EIA/TIA-232 的console线连接到 IPSO console接口.

必须通过如下Terminal工具登录:

HyperTerm,SecureCRT (Windows)

cu or tip (UNIX)

Serial console (terminal) server.

Dumb terminal.

DTE串口属性设置参数

9600 bps

8 data bits

1 stop bit

No parity

No flow control

---------------------------------------------------------------------------

1.在发生故障时,接入console线到设备,

2.在console工具上启用会话记录,

3.首先敲键盘“Break”键,然后立即执行”ddb”,屏幕上不会显示任何输出。

4.如果发生Crash你将会看到有输出,否则重复步骤1~3

5.如果有输出信息后,输入 ps 命令 (观察并且搜集进程信息)

6.输入 trace 命令 (观察并且搜集trace 信息)

7.输入一个 continue 命令返回 IPSO

8.重复3到6的步骤多次,直到输出信息相同。

9.输入 panic 命令 (系统将dump 一个 core 文件并且重启)

10.保存完整的会话日志和core文件并且上传给support。

到 ipso系统使用命令[admin]# find / -name "*core*"确认找到core 文件, 同时从$FWDIR/bin/boot/modules目录下尽量搜索并且得到所有的*.o 文件。

-----------------------------------------------------------------------------------

Power-1与UTM-1平台信息搜集:

如无法快速判断故障问题,请抓取最基本数据:注意需要收集两台设备信息

如无法通过SSH登录设备,请用原装console线登录设备命令行收集,所有会话需要记录到文件。 设备宕机没有切换,硬关机,然后加电重启设备,使用Console线搜集重启的字符输出。 登录系统后搜集所有coredump文件,操作过程如下所示:

SecurePlatform OS 2.4

启用生成 User Mode core dump文件:

进入 Expert 模式

# expert

设置core dump文件的大小为'unlimited'

# ulimit -a

# ulimit -c unlimited

# ulimit -a

注意: 如需禁用则允许'ulimit -c 0'命令

确认'/etc/sysctl.conf' 文件中如下行的输出为1

# Controls whether core dumps will append the PID to the core filename.

# Useful for debugging multi-threaded applications.

kernel.core_uses_pid = 1

校验 LKCD(Linux Kernel Crash Dump)工具的级别设置如下

# less -N -M /etc/sysconfig/dump

到输出信息的最后查看如下输出的参数一直,如果数值不一致则使用vi编辑工具修改为如下值。DUMP_ACTIVE=1

DUMPDEV=/dev/vmdump

DUMPDIR=/var/log/dump

DUMP_SAVE=1

DUMP_LEVEL=8

DUMP_FLAGS=0

DUMP_COMPRESS=0

PANIC_TIMEOUT=5

保存LKCD工具的参数设置

# /sbin/lkcd config

确认如下目录已经存在

/var/log/dump/usermode

如果没有,需要创建一个目录。

# mkdir -p /var/log/dump/usermode

保存配置,重启设备

# reboot

当下次设备发生挂起或者重启时,系统会记录下core dump信息到如下文件。

/var/log/dump/usermode/ProcessName.PID.core

SecurePlatform OS 2.6 启用core dump的步骤

启用生成 User Mode core dump文件:

进入 Expert 模式

# expert

设置core dump文件的大小为'unlimited'

# ulimit -a

# ulimit -c unlimited

# ulimit -a

注意: 如需禁用则允许'ulimit -c 0'命令

确认'/etc/sysctl.conf' 文件中如下行的输出为1

# Controls whether core dumps will append the PID to the core filename.

# Useful for debugging multi-threaded applications.

kernel.core_uses_pid = 1

确认如下目录已经存在

/var/log/dump/usermode

如果没有,需要创建一个目录。

# mkdir -p /var/log/dump/usermode

保存配置,重启设备

# reboot

当下次设备发生挂起或者重启时,系统会记录下core dump信息到如下文件。

/var/log/dump/usermode/ProcessName.PID.core

也可以通过命令搜索core dump文件,如下所示。

[admin]# find / -name "*core*"

/var/crash/vmcore.0.gz

/var/crash/vmcore.1.gz

/var/crash/vmcore.2.gz

Core dump 文件搜集到后将文件上传给TAC做进一步分析。

搜集系统cpinfo文件

Cpinfo是SecurePlatform(SPLAT)的配置文件、系统日志以及设备当前运行状态的[R71-FWA]# expert #登入专家模式

Enter expert password:

You are in expert mode now.

[Expert@R71-FWA]# cpinfo -n -z -o /var/tmp/FWA.cpinfo #执行命令导出cpinfo cpinfo (I:0110): Beginning ...

cpinfo (I:0116): Latest cpinfo version: https://www.360docs.net/doc/3d4116961.html,/downloads/

cpinfo (I:0112): Embedding files ...

cpinfo (I:0117): Zipping output file ...

cpinfo (I:0118): Zipping output file - done (/var/tmp/FWA.cpinfo.gz) cpinfo (I:0111): Done

[Expert@R71-FWA]#

[Expert@R71-FWA]# ls

[Expert@R71-FWA]# cd /var/tmp

[Expert@R71-FWA]# ls -alt

total 7380

drwxrwxrwt 4 root root 4096 Nov 6 17:10 .

-rw-rw---- 1 root root 7527853 Nov 6 17:10 FWA.cpinfo.gz

drwxrwxrwt 2 root root 4096 Nov 3 22:22 vi.recover

然后使用FTP工具将文件传出去供Check Point技术工程师分析。

C:完成相关故障信息收集后,进行故障恢复处理

1:进行防火墙倒换(故障设备为主设备,故障时未发生切换)

如果是IPSO(IP)平台,做主备切换通过登录系统Web管理页面,修改备机所有VRRP接口的priority值高于主机即可实现切换。

如果是SPLAT平台(Power-1或者UTM-1),通过命令可以clusterXL_admin off做主备切换。

物理切换操作:拔除故障防火墙设备业务连线,console连接到备机,观察备机的HA状态,状态变为Master后,观察业务。

2: 若拔线后,防火墙双机未发生切换,则重启故障防火墙。

注意:此时请将console线连接故障防火墙console口,记录输出。

D:请将相关信息提交给Check Point支持人员。

3.2.防火墙二级故障处理:

A:二级故障定义:

严重影响业务运营。

对最终客户造成间歇影响的网络或系统事件;

如:防火墙系统拦截重要应用,或者部分网络不通。

B:信息内容搜集:

首先收集SmartView Tracker中存在问题源地址或者协议的日志截图

如无法快速判断故障问题,请抓取最基本数据:注意需要收集主用(或故障)设备信息

使用kernel debug在故障期间进行debug数据收集

使用抓包命令和工具对故障业务进行抓包

IP平台设备信息搜集:

从SmartView Tracker中收集故障信息

打开SmartDashboard→选择SmartView Tracker然后过滤出存在问题的网段和协议,双击存在问题的日志记录,将日志信息截图保存下来。

搜集系统CST文件

CST是Configuration Summary Tool的简写,CST文件会包含系统配置、版本信息、系统运行情况、系统日志、甚至保存在本地硬盘上的防火墙日志,如果不需要搜集防火墙日志可以使用IPSO-A[admin]# cst –small命令,缩短搜集CST的时间,搜集完整的CST过程如下:

IPSO-A[admin]# cst

CST version 2007-09-26

=============== N O T I C E: VOYAGER LOCKS =========================

Please make sure you are logged out of Voyager.

CST gathers certain information from clish, which may not work

when there is a configuration lock in place established by an active Voyager session.

=============== E N D O F N O T I C E =========================

Continue? [y] y

Output Directory? [.] /var/tmp #指定CST文件的存储目录

搜集fw monitor信息

fw monitor是Check Point软件自带的抓包工具,主要用于检测数据包在通过防火墙时的状态,确认问题是发生在系统层,还是防火墙本身拦截了报文。

[IPSO]#fw monitor -e "accept sport=21 or dport=21 and src=192.168.0.190 or dst=192.168.0.253;" -o /var/tmp/monitor.cap

如上fw monitor抓取源地址是192.168.0.190访问到192.168.0.253的任何源端口与目标端口都是21的流量,并且将输出的内容记录在var/tmp/monitor.cap文件中。以上命令是一个较全的例子,可以根据实际环境精简命令。

[IPSO]#fw monitor -e 'PROTO_tcp,dport=8001 or sport=8001;' -o /var/tmp/monitor.cap

如上所示,是针对TCP 8001协议进行的抓包,假如客户8001协议通过防火墙时访问不通,

则通过fw monitor针对该协议进行针对性的抓包,并将文件保存在/var/tmp/目录。

如果协议属性是udp协议,使用如下命令,修改PROTO_udp即可,然后制定端口。

[IPSO]# fw monitor -e 'PROTO_udp,dport=8001 or sport=8001;' -o /var/tmp/monitor.cap

搜集tcpdu mp抓包信息

Tcpdump是系统抓包命令,通常是操作系统层的抓包,用来判断网络层数据包交互访问过程是否正常,所有使用的IP地址以真实环境中存在问题的IP或者协议来抓包。

[IPSO]#tcpdump -vv -e -w /var/tmp/test.cap -i eth-s1/s2p4c0 -nn src 192.168.203.19 and dst 192.168.203.17

如上tcpdump抓取接口eth-s1/s2p4c0上源地址为192.168.203.19访问到192.168.203.17的报文,通过-w命令将文件保存为/var/tmp/目录下test.cap文件。

[IPSO]# tcpdump -vv -e -w /var/tmp/test.cap -i eth0 port 80 and dst 192.168.0.1

如上是抓取接口eth0上端口为80目标地址192.168.0.1的命令,保存文件名为test.cap 的文件到/var/tmp/目录。

搜集防火墙kernel层debug信息

搜集zdebug信息对理解和找到报文被防火墙丢弃的原因很重要,zdebug启用后,默认的buffer size 是1024KB,主要对fw、h323、cluster、vpn、rtm模块的问题进行故障信息收集,所以是一个包含信息较全的命令,而且执行方便,强烈建议在问题发生期间进行debug,并开放1~2分钟。

[admin]# fw ctl zdebug + drop > /var/tmp/drops.txt

如上命令是指搜集zdebug中相关模块中所处理流量被drop掉的部分,保存为var/tmp目录的drop.txt文件。

注:防火墙开启Debug一定程度上会造成CPU的升高,但绝大部分情况下不会影响太大。注意不要长期在防火墙上开启DEBUG,关闭使用Ctrl+c按键结束。

所有信息搜集齐全后,打包交给Check Point TAC工程师进行分析排错。

Power-1与UTM-1平台信息搜集:

如无法快速判断故障问题,请抓取最基本数据:注意需要收集两台设备信息

如无法通过SSH登录设备,请用原装console线登录设备命令行收集,所有会话需要记录到文件。

从SmartView Tracker中收集故障信息

与IPSO系统过程一样

搜集系统cpinfo文件

Cpinfo是SecurePlatform(SPLAT)的配置文件、系统日志以及设备当前运行状态的

[R71-FWA]# expert #登入专家模式

Enter expert password:

[Expert@R71-FWA]# cpinfo -n -z -o /var/tmp/FWA.cpinfo #执行命令导出cpinfo 然后使用FTP工具将文件传出去供Check Point技术工程师分析。

搜集fw monitor信息

搜集fw monitor命令过程与上文IPSO系统过程一样。

搜集tcpdu mp抓包信息

搜集tcpdump命令与上文IPSO系统过程一样。

搜集防火墙kernel层debug信息

搜集debug信息与上文IPSO系统过程一样

SPLAT平台可以使用如下命令,将收集到/var/tmp目录的文件打包后通过ftp传出来;

[Expert@R71-FWA]# tar -cvf info.tar /var/tmp

如上信息收集完成后,将文件打包,上传到TAC ftp服务器。

C:请将相关信息提交给Check Point支持人员。

3.3.防火墙三级故障处理:

A:故障定义:

只对最终客户造成有限影响的网络事件;

?测试或试运行环境中发现的问题,通常会对运营网络造成负面影响;

?有现成的成功临时变通方法,可以用来解决优先级较高的问题

如:某应用无法访问到目标服务器

B: 单业务访问问题信息内容收集

基本信息:

从SmartView Tracker中收集故障信息

搜集报错日志过程与上文过程一样。

搜集系统cpinfo文件(IPSO平台)

搜集命令过程与上文过程一样。

搜集系统cpinfo文件(SPLAT平台)

搜集命令过程与上文过程一样。

搜集fw monitor信息

搜集命令过程与上文过程一样。

搜集tcpdu mp抓包信息

搜集命令过程与上文过程一样。

搜集防火墙kernel层debug信息

搜集命令过程与上文过程一样。

注:防火墙开启Debug一定程度上会造成CPU的升高,但绝大部分情况下不会影响太大。注意不要长期在防火墙上开启DEBUG,关闭使用Ctrl+c按键结束。

如上信息收集完成后,将文件打包,上传到TAC ftp服务器,交给Check Point TAC工程师进行分析排错。

C:请将相关信息提交给Check Point支持人员。

3.4.防火墙四级故障处理:

信息请求;

?有关设备配置或功能的标准问题。

请将相关需求信息邮件提交给Check Point维护人员。

3.5.防火墙路由故障处理:

A:故障定义:

路由无法学到,对最终客户造成影响的网络事件;

测试或试运行环境中发现路由的问题,通常会导致业务访问故障;

如:防火墙动态路由无法学到

B: 路由问题信息收集

从SmartView Tracker中过滤关于OSPF故障信息

打开SmartDashboard→选择SmartView Tracker然后过滤出OSPF协议,双击存在问题的日志记录,将日志信息截图保存下来。

从SPLAT系统平台收集故障信息

在故障发生期间,登录SPLAT系统命令行,进入/var/log目录搜集routing_messages文件。

[Expert@R71-FWA]# router #进入router模式,show出相关信息

localhost>en

localhost#show

access-list interface ipv6 log running-config version

history ip kernel memory task

localhost#show running-config

localhost#show ip ospf neighbors

从IPSO系统管理界面收集故障信息

在故障发生期间,登录IPSO系统管理Voyager界面, 选择 'Configuration > Routing >

Routing Options'. 在OSPF下拉表中,选择 "All"并且点击"Apply".将会在/var/log目录下生成 ipsrd.log.*的文件,搜集所有 ipsrd.log.*的文件搜集系统cpinfo文件(IPSO平台)

搜集fw monitor信息

[admin]#fw monitor -e 'accept ip_p=89;'

[admin]#fw monitor -e "host=x.x.x.x and dst=x.x.x.x and dport=21 ,accept;"

搜集tcpdu mp抓包信息

[admin]# tcpdump -i eth-s3p1 -s 0 -w dump.dat ip proto ospf

搜集IPSO系统OSPF相关信息

nokia[admin]# iclid

IPSO-A> show version

IPSO-A> show ospf database database-summary

IPSO-A> show ospf neighbors

IPSO-A> show ospf interfaces

IPSO-A> show ospf errors brief

IPSO-A> show ospf events

IPSO-A> show ospf packets

IPSO-A> show ospf

C:请将相关需求信息邮件提交给Check Point维护人员。

4故障现象检查

首先发生故障后,首先从现象上要检查如下几方面:

网关连通性:受影响范围的终端PC上进行Ping测试,确定直连网关是否可达,同时可以关联性地检查本地的ARP信息是否与网关对应,同时确定不同VLAN的终端现象是否相同。相关命令:ping x.x.x.x 及 arp –a(显示ARP列表)

防火墙连通性:受影响范围的终端PC上进行Ping测试,确定访问的到防火墙的网络连通性,可以测试到客户端同侧防火墙接口以及跨防火墙安全区接口,简单确定防火墙是否处理数据情况,同时确定不同VLAN的终端现象是否相同。相关命令:ping x.x.x.x 。

业务连通性:受影响范围的终端PC上进行针对业务IP的Ping测试和正常业务访问测试,简单从业务的网络层面和应用层面确定业务是否正常。

路由路径:受影响范围的终端PC上进行针对业务IP进行路径测试,测试出现中断的路由节点,相关命令:tracert –d x.x.x.x .

4.1问题节点确认

问题与火墙无关,则跳过下面章节,问题与火墙有关,则进入如下章节进行分析。

4.1.1防火墙硬件问题

发现问题与防火墙相关联后,首先确认设备硬件是否运行正常,通常需要到设备所处的物理

运维制度及流程

运行维护管理制度 2017年8月

目录3 3 3 5 6 6 7 8 8 9 9

1、总则 第一条为保障公司信息系统软硬件设备的良好运行,使员工的运维工作制度化、流程化、规范化,特制订本制度。 第二条运维工作总体目标:立足根本促发展,开拓运维新局面。在企业发展壮大时期,通过网络、桌面、系统等的运维,促进企业稳定可持续性发展。 第三条运维管理制度的适用范围:运维部全体人员。 2、编制方法 本实施细则包括运维服务全生命周期管理方法、管理标准/规范、管理模式、管理支撑工具、管理对象以及基于流程的管理方法。 本实施细则以ITIL/ISO20000为基础,以信息化项目的运维为目标,以管理支撑工具为手段,以流程化、规范化、标准化管理为方法,以全生命周期的PDCA循环为提升途径,体现了对运维服务全过程的体系化管理。 3、运维部工作职责 一、负责网站运维和技术支持 (一)根据网站运营战略和目标,负责网站整体架构、栏目、应用系统等技术开发方案制定和组织开发,保障网站技术的稳定性和先进性。 (二)负责网站栏目和应用系统的使用培训和操作使用指南编

写,对用户使用过程中出现问题的沟通和解决; (三)网站设备和软件购买计划书的拟定,包括采购数量、品牌规格、技术参数。会同行政部进行采购。 (四)网站设备和软件操作规程和应用管理制度的制定,并负责监督执行。 (五)网站设备和软件安装、调试和验收,使用培训和维修保养。 (六)网站日常运行过程中信息安全和技术问题的协调解决,保障网站24小时安全稳定运行。 (七)网站技术服务外包管理,主要包括技术外包开发、运行服务托管和空间域名管理。 (八)负责网站管理系统及设备保密口令的设置和保存,保密口令设置后报中心主任备案,保密口令设定后任何人不得随意更改,保密口令每季度更新一次。 (九)负责网站新程序、新系统和网站改版升级方案技术的设计开发。 二、负责网站信息和技术安全 (一)执行国家和省上有关网络信息技术安全的法律法规,与通信管理和网络安全监管部门联络,及时处理网站信息技术安全方面存在的问题,确保网站安全、稳定、可靠运行。 (二)网站信息技术安全保密制度和工作流程的制定,落实信息技术安全保密责任制,执行“谁主管、谁负责,谁主办、谁负责”的原则,责任到人。

运维部服务规范手册V2.1

上海伯乔信息科技有限公司 运维部服务规范手册 @ ~

版本历史 备注 版本/状态作者参与者、 起止日期 2011-8-29创建 、 增加运维流程、去掉部分 2011-9-16 表单 2011-10-12优化板块和界面 文档中特殊符号注解: 表示注解。 表示同个标题下不同项目或步骤 : 目录 目录 1服务文化 (3) 服务宗旨: (3) 服务理念: (3) 2服务总则 (4) 两个愿景: (4) 四项要求: (4) 七大不准 (4) 3运维规范 (5) , 24小时响应机制 (5) 远程排障规范 (5)

服务电话接听流程规范 (6) 接听电话 (6) 上门服务流程规范 (7) 生成上门服务单(见附表1) (7) 上门服务流程规范 (8) 交单归档 (17) 售前技术支持规范 (17) 售前技术支持的准备工作 (18) < 售前工作注意事项 (18) 拜访结束,填写表单 (19) 售前后续工作 (19) 售后培训服务规范 (20) 售后培训环境部署 (20) 售后讲师培训工作规划 (20) 培训体系优化 (21) 运维流程 (21) 4附表 (22) " 1服务文化 1.1服务宗旨: 愈精致、愈宽容、愈贴心

1.2服务理念: 激情、创造、分享、奉献 2服务总则 2.1两个愿景: 用我们的诚心满足客户服务需求,让伯乔客户感动用我们的专业提升客户使用价值,让伯乔品牌增值2.2— 2.3四项要求: 服装整洁,注重仪表 关注客户,真诚服务 操作规范,行为专业 乐于沟通,耐心指导 2.4七大不准 不准对客户的需求置之不理 不准代替客户在服务单据上签名 不准接受客户任何形式的馈赠 不准无故失约 :

公司运维服务规范

某公司运维服务规范 第一章总则 第一条为保障公司运维工作有序开展,规范运维工作和人员的服务要求,避免人为操作不当引起的重大、关健运维事故,根据电信公司及公司维护管理办法要求,特制定本规范。 第二条本规范是公司运行维护管理的基本依据,维护岗位人员必须严格遵照执行。 第三条本规定的最终解释权在技术质量管理部。 第二章适用范围 第四条本规定所指的系统是指公司及各部门承接的运维项目中涉及的范围,按合同约定包括:网络设备、服务器、操作系统、应用系统、数据及保障项目正常运行的各项辅助设施。 第五条本规定适用于对各部门运维分管领导、运维管理员、运维项目经理及成员等各维护岗位人员(包括各部门外包员工)的运维管理要求。 第三章运维服务要求 第六条运维岗位人员要具备良好的工作作风和严谨的工作态度,服从管理,认真负责,坚守岗位,在问题面前不推诿、不拖拉、不盲目、不蛮干,要冷静分析、沉着处理。 第七条遵照公司各项运维管理制度及客户运维工作要求,严格执行维护工作服务规范,确保人员、系统及各项设施安全。具体要求

包括: (一)、基本维护要求 1、遵守客户业务管理和现场管理要求。 2、周期性的维护工作应经客户审批同意后方可实施。 3、因故障修复、功能升级等引起的系统版本升级和割接工作应经客户测试通过后方可实施。 4、未经客户同意,各维护岗位人员不得私自对客户的在线系统进行数据变更、数据统计、应用程序变更、系统参数调整、硬件设备调整。 5、维护外包人员须经业务和管理培训,明确岗位职责,通过部门考核确认后方可上岗。在客户现场以理想公司员工身份执行维护工作,遵循各项运维管理制度。 6、定期检查所维护系统的安全状况,为客户提出合理的预防处理措施。 (二)、故障响应/处理制度 1、遵照公司(故障控制管理办法)要求,在接到故障报修通知后,及时与用户取得联系后进行排障,故障排除后填写故障修复信息。 2、各维护岗位人员应确保通讯工作24小时畅通。 3、严格执行故障处理和处理逐级上报制度。 (三)、信息记录(维护资料管理) 1、建立健全系统维护文档和记录资料库,相关资料由各部门妥

AN5006-04设备常见故障处理手册

An5006-04常见故障处理手册 烽火通信科技股份有限公司宽带产品部 Fiberhome Telecommunication Technologies Co. Ltd. Broadband Product Division 网址:https://www.360docs.net/doc/3d4116961.html,

前言 本手册针对烽火通信科技股份有限公司AN5006-04设备语音模块在外工程使用过程中较为常见的一些故障给出常用的解决办法,目的在于帮助工程人员迅速、准确定位和解决问题。 本手册首先介绍定位AN5006-04设备语音模块常见故障定位手段,然后列举一些AN5006-04设备的故障案例,以供进行故障处理时参考。 AN5006-04设备语音模块在本手册中简称为IAD。 本书适合以下人员阅读: 网络管理员 网络工程师 技术推广人员

目录 1常用定位问题手段 (1) 1.1版本查询 (1) 1.2H248协议相关参数查询 (1) 1.3网关注册状态和端口状态查询 (2) 1.4IP地址查询 (2) 1.5语音算法查询 (2) 1.6抓包分析 (3) 2摘机没有拨号音 (4) 2.1故障现象 (4) 2.2原因分析 (4) 2.3解决办法 (4) 3IAD作为被叫振铃一声后便不再振铃 (6) 3.1故障现象 (6) 3.2原因分析 (6) 3.3解决办法 (6) 4通话时有回音 (8) 4.1故障现象 (8) 4.2原因分析 (8) 4.3解决办法 (8) 5通话时音量过大或者过小 (10) 5.1故障现象 (10) 5.2原因分析 (10) 5.3解决办法 (10)

1常用定位问题手段 1.1版本查询 出现问题后一般建议先查看设备的版本号,看设备目前的版本是否为最新的版本,通过升级到最新版本后直接解决。可通过网管或者在串口/TELNET界面使用命令“show version”命令查看版本号。 串口/TELNET界面命令如下: MG6002(F2)#show version 协议类型: Megaco V1.1.0.4 & V5.2 软件版本: R4.05.02.12 软件版本日期: Jun 25 2008 22:42:08 Linux内核版本: 2.37 1.2H248协议相关参数查询 如果端口采用H248协议,协议相关参数一定要配置正确,否则IAD将无法成功注册到MGC,进而无法进行通话。 查询协议相关参数可通过网管或者在串口/TELNET界面使用命令“show megaco”和“show endpoint”,分别检查网关参数和端点相关参数。 串口/TELNET界面命令如下: MG6002(F2)#show megaco 当前H.248协议配置 ============================== 网关名称: 138.1.123.22 网关IP地址: 138.1.123.22 网关端口: 2944 RTP端口范围: 4000~10000 MGC地址: 138.1.1.123 MGC端口: 2944 是否使用备份MGC: 否 网关注册状态: REGISTERED 是否使用设备MAC作为网关名称: 否 是否启用心跳机制: 否 MG6002(F2)#show endpoint 端口是否注册端口名称连接状态协议类型

(完整版)中国铁塔动环常见告警处理指导手册

中国铁塔动环常见告警处理指导手册一、FSU离线告警 告警名称:FSU离线; 告警解释:FSU和铁塔集团平台连接通讯中断; 原因分析:1)信号差或不稳定;2)FSU设备掉电;3)无线模块硬件故障;4)FSU设备硬件故障;5)天线和无线模块连接中断,或天线丢失;6)VPN服务器连接不上;7)SIM卡被盗、欠费或故障。平台处理方法:查询历史告警记录,如频繁离线或长时间离线,需现场检查。 现场处理方法: 第一步检查供电: 1)在运维监控系统检查离线站点是否有停电告警,判断是否现场停电; 2)现场检查FSU指示灯不亮设备没有供电。 原因分析:FSU供电异常。 解决方案: 1)检查整个基站是否停电,如停电则通知相关人员取电; 2)检查FSU供电空开是否跳闸及通电线路是否正常。 第二步检查无线模块: 检查无线模块指示灯都不亮或都常亮。

原因分析:无线模块供电异常或无线模块故障。 解决方案: 1)无线模块供电故障,则检查给无线模块供电接线是否正常如正常,则用万用表测量给无线模块供电FSU输出端是否有12V,如没有则为FSU供电板问题,更换FSU供电板。 2)确认供电正常,则更换无线模块进行测试。 下站建议:下站时建议随身带上一套可以成功拨号的无线网卡和SIM 卡,下站的时候作对比验证,快速确认是SIM卡问题,还是无线模块问题。 第三步FSU检查 通过EISUConfig软件登陆FSU设备,点击设备诊断管理。 1)信号强度弱:通过设备软件登录设备,如信号强度小于15。

解决方案:更换运营商无线模块或将天线外延(室内站放到室外,室外柜放到底部隐蔽区域或有外层保护情况下放到机柜顶部) 2)铁塔VPN网络连接异常:铁塔VPN网络提示连接异常 3)铁塔网管未注册:铁塔网管提示连接异常(正常显示连接正常)解决方案: 确认总部平台正常,重启FSU(等待程序连接)。如重启后未恢复,联系厂家专业人员。 平台恢复确认:告警管理-活动告警监控-当前告警查询该站点,确认告警是否消除。 二、电源配套告警 2.1开关电源类告警: 2.1.1开关电源通信状态告警 告警名称:开关电源通信状态告警; 告警解释:开关电源和FSU之间的通讯中断; 原因分析:开关电源和FSU之间的通讯中断 平台处理方法:无 现场处理方法:检查开关电源屏幕是否显示正常,和FSU的监控线连接是否正常。

动环常见故障处理

设备名称管理工作 采集服务器、应用服务器 动环系统中心机房设备常见故障处理 故障现象原因分析排除方法备注 1、网线故检查网线连接 障状态 查看交换机是 2、交换机否正常供电,工 异常作状态是否正 常 3、工作台检查并设置相管理工作台网络设 网络设置关网络配置置 错误 4、网络通检测网络通道用PING等命令测 道异常试 5、管理工重启设备和软 作台异常件 1、客户端 查看客户端软在运行里输入查看 软件配置 件配置详见配置设置文档 2、服务器查看服务器配在运行里输入查看 异常置详见配置设置文档 3、网络通检杳网络通道 客户端软件不能登 网络连接中断,可能 对方服务器没有打

动环系统站点设备常见故障处理

启动 输入开关 量(门 磁、 红外、窗 破 )讯线损坏 3、设备网口 损坏 更换设备底板 4、网络设置重新设置网络设置完毕后要重启,不和站编号错参数(IP、网然设置无效 误关、子网掩码) 和站编号 1、短接开关 没短接 加短接开关 2、空开断开空开推上 3、底板损坏更换底板 4、cpu松动加固cpu或更更换cpu需要进行升级或损坏换cpu和系统配置操作 1、前端传感检查传感器接参考工程手册 器接线松动线,测量电压 2、前端传感更换相同型号参考工程手册 器损坏传感器 3、布线损坏检查更换布线参考工程手册 4、卡线端子 松动 重新卡线参考工程手册 5、卡线端子更换接线,重参考CR-NMS 网络化 到主板模块新插拔监控平台用户手册 设备无法开关量告

的线松动或 损坏 6、底板或开 关量输入模 块损坏 序号设备名称故障现象原因分析 1、前端传感 器接线松动 2、前端传感 器损坏 3、布线损坏 模拟量 (温 湿 度、烟雾) 输出开关量(蜂鸣 器 ) 4、卡线端子 模拟量告 蜂鸣器不 松动 5、卡线端子 到主板模块 的线松动或 损坏 &模拟量输 入模块损坏 1、前端蜂鸣 器接线松动 2、前端蜂鸣 更坏底板或开 关量输入模块 损坏 排除方法 检查传感器接 线,测量电压 更换相同型号 传感器 检查更换布线 更换接线,重 新插拔 模拟量输入模 块损坏 检查蜂鸣器接 线,测量电压 更换相同型号 备注 参考工程手册 参考工程手册 参考工程手册 参考工程手册 参考CR-NMS 网络化 监控平台用户手册 参考工程手册 参考工程手册

故障管理和故障处理流程规定

故障管理和故障处理流程规定 (暂行稿) 工程运维中心 二〇〇八年八月

目录 第一章目的 (3) 第二章工程运维中心在95013业务维护管理中的职责 (3) 第三章 95013业务故障分类 (3) 第四章故障处理的原则: (4) 第五章故障处理时限要求。 (4) 第六章故障管理和故障报告制度 (4) 第七章故障通报制度 (5) 第八章故障处理及报告流程图 (5) 第九章工程运维中心内部处理流程 (6) 第十章外部支持流程(研发、建设和其他厂家) (6) 第十一章工程运维中心各部门及公司相关部门的责任 (7) 第十二章故障的跟踪管理 (7) 附件一:95013业务重大/严重故障分析报告 (9)

第一章目的 工程运维中心承担95013业务网络和平台日常维护工作,为规范故障管理和故障处理的工作流程,使网络和平台故障能够得到正确及时地处理,保证 95013业务安全稳定的运行,特制定本规定。 第二章工程运维中心在95013业务维护管理中的职责 a)工程运维中心网管中心值班工程师和各分公司运维人员承担95013业务的日常运行监控和维护工作。 b)工程运维中心运维组负责95013平台的故障处理;各地分公司运维人员负责现场支持,并负责协调当地运营商的运维支持。 c)建立故障通报制度,如发生重大故障,应按照故障等级和故障上报流程逐级向上汇报。 d)定期召开网络质量分析会,遇有重大故障,应及时召开故障分析会。 负责全公司运维人员的技术业务培训,提高运维人员的技术维护水平和工作能力。 第三章 95013业务故障分类 95013业务系统和网络故障分为重大故障、严重故障和一般故障。 1.重大故障:全部业务中断 2.严重故障包括: 一种以上业务全部中断≥60分钟 一省以上业务全部中断≥60分钟 用户注册、业务受理全部中断≥4个小时 3.一般故障:除重大故障、严重故障以外的其它故障。

GPON常见故障处理方法

华为GPON故障 1.1 分支光纤断或OLT检测不到预期的单ONT的光信号(LOSi) 告警名称或故障现象: 分支光纤断或OLT检测不到预期的单ONT的光信号(LOSi) (闪断则伴随有SD,RDI) 告警产生原因: 1、O NU上联光纤断裂:ONU到分光器间光缆断裂; 2、单个ONU频繁闪断; 告警处理方法: 1、派网服维护人员到现场检查ONU,并检查检查ONU到分光器前ODF间尾纤; 2、单个ONU的分支光纤断裂告警只影响该ONU的业务,检查光路。 3、单个ONU的闪断会引起该PON 口所有ONU的质差并一起闪断,查看历史告警,以告警时间的先后次序去激活ONU,直至PON 口下其他ONU的闪断结束,可以定位闪断源头为刚才去激活的ONU,按第2步处理,要求收光在 -10dBm~-22 dBm 。 4、配合网服维护人员更换分光器后的ODF架位到ONU端的尾纤,或是跟换分光器到ODF架位间的楼间光缆中纤芯; 1.2 主干光纤断或OLT检测不到预期的光信号(LOS) 告警名称或故障现象:

主干光纤断或OLT检测不到预期的光信号 告警产生原因: 1、分光器到OLT光功率过低; 2、分光器到OLT间光缆故障; 2、分光器损耗过大; 告警处理方法: 1、检查分光器与OLT之间的光路,跟换好一点的光纤; 2、检查分光器端口及整体耗损,更换分光器端口或者整体替换; 1.3 以太光口LOS 告警名称或故障现象: OLT上以太光口LOS,若是单上联的OLT同时会引起OLT托管; 告警产生原因: OLT与城域网间尾纤、光缆光功率低 告警处理方法: 1?该故障会引起OLT单边,检查光路,通知城域网检查对端交换机端口状态1.4 以太网端口链路状态从up变化为down 告警名称或故障现象: OLT的以太网端口链路状态从up变化为down 告警产生原因: 1、端口光口未打开; 2、光路衰耗过大,超过门限;

问题与故障处理流程图

NGBOSS3.0系统问题及故障管理流程 1、相关概念 1)问题定义:问题是一个或多个不知原因的事件。 2)问题与故障(或突发事件)的关系:当问题的影响符合故障(或突发事件)定义 标准时,问题即形成故障(或突发事件)。 3)故障处理小组:故障处理小组由各业务流的故障牵头处理人组成,共同完成故障 管理相关工作。目前业务运营中心故障处理小组包括话单流陈霞、订单流张嘉琦、账务流刘华、热线支持组马立娜及值班组阴衍亮。 2、故障处理 一、角色及职责定义 1)故障上报人 ●根据故障上报标准判断为故障后,第一时间按要求发出报告邮件,并电话通 知故障分派员。 ●对于符合故障或突发事件定义的问题,逐层升级至本部门主管经理;未达到 标准的通知主管,由主管酌情升级。 ●对于故障或突发处理过程中未按时限回复进展情况,由故障上报人直接升级 至故障分派员。 ●对于发生的故障,统一按业务运营中心内部要求进行登记。 ●故障上报人由业务运营中心50000号值班班长及运维组人员担当。 2)故障分派员 ●接收故障上报人的报障邮件和报障电话通知。

●根据故障情况,以邮件及电话方式指定故障处理牵头人。 ●根据故障牵头人要求,协助故障牵头处理人进行故障处理,跟进处理步骤, 监督执行。 ●故障分派员由值班组人员担任。 3)故障处理牵头人 ●牵头处理故障分派员分派的故障。 ●指派故障涉及的各部分人员协助进行故障处理,如有必要,可要求相关人员 现场支持。 ●跟踪整个故障处理过程,做好记录,评估各步骤的完成情况。 ●组织BMCC相关人员和相关厂商人员进行故障处理方案的制定,掌控整个过 程。 ●监督故障处理各重要步骤的执行,做好资源调度,在异常问题及时升级至相 关领导,协助完成资源调配。 ●在原因明确后、方案确认后、方案实施关键点完成后及时通报故障最新进展, 直至故障解决。。 ●根据故障处理情况及时向领导汇报故障处理情况。 ●与对外信息发布人及时沟通,协商确认对外发布口径。 ●记录问题处理过程,登记故障问题管理列表中的相关处理信息。 ●负责故障处理完成后,整理并填写故障分析报告,并按时提交。 ●总结及优化类似故障的处理步骤,为后续故障处理提供依据。 ●根据故障管理员的要求组织故障分析会、故障分享会,对故障进行总结分 析。

空调、电源常见故障处理工作手册

空调、电源常见故障处理工作手册 目录 一、基站交流电源部分常见故障的判断和处理 (2) 1、基站交流配电屏的主要特点和主要性能 (2) 2、基站交流配电屏常见的面板指示 (2) 3、基站交流电源常见的故障处理流程 (2) 3.1外电中断处理流程 (2) 3.2缺相处理流程 (2) 3.3反相故障处理流程 (3) 3.4中性线故障处理流程 (3) 3.5过压、欠压故障处理流程 (3) 3.6过流及短路故障处理流程 (3) 3.7雷击后出现的浪涌电压抑制现象故障处理流程 (3) 二、基站开关电源系统常见故障的判断和处理 (4) 1、开关电源的主要特点和主要性能 (4) 2、常见的故障和处理流程 (4) 2.1 整流模块功能设定 (4) 2.2整流模块常见故障的处理流程 (5) 3、直流配电模块常见的故障和处理流程 (6) 3.1输出电压过高或过低告警处理流程 (6) 3.2分路熔断器熔断或分路配电空气开关跳闸处理流程 (6) 4、蓄电池系统常见故障处理 (6) 4.1、电池主要特点和主要性能 (6) 4.3电池的常见故障和处理流程 (7) 5、监控模块常见的故障和处理流程 (8) 5.1监控模块同整流模块或整个开关电源系统通讯中断 (8) 5.2监控模块故障引发整个开关电源系统工作异常 (8) 三、基站空调系统常见故障的判断和处理 (8) 1、空调对电源的要求和注意事项 (8) 1.1空调对电源的要求 (8) 1.2空调维护注意事项 (8) 2、基站空调的常见故障和处理流程 (9) 2.1低压报警处理流程 (9) 2.2高压报警处理流程 (9) 2.3压缩机过载处理流程 (9) 四、附录 (9)

IT运维手册故障及处理

IT运维手册 第二篇硬件篇 一计算机章 ㈤常见问题 1主机 ⑴无法正常开机 ①硬盘灯亮 多为显示器或LCD排线问题,可插入系统引导盘看有无反应,若无反应,则为硬件问题,建议售后处理;若有反应,则为软件问题,可重装系统。 ②硬盘灯不亮 I电源问题 需更换电源和电池,多为电源适配器或电池损坏造成的提供电压不稳。可更换同型号电源线,排查故障。 II内存问题 拔插内存条或更换插槽。可能是内存条松动或自配内存条不兼容造成,若因不兼容,可通过更改BIOS设置解决。 III灰尘问题 笔记本长期不清洗,积压过多灰尘会造成静电或短路,可拆开外壳用吹风机清理灰尘。 IV主板问题 主板问题是造成不能开机最大可能因素,主板为集成电路,任何地方损坏都会造成硬盘无法通电,从而不能开机,建议去售后处理。 ⑵无法正常上网

①网络设置问题 此原因较多出现于需手动指定IP、网关、DNS服务器联网方式下,及使用代理服务器上网的,应仔细检查计算机的网络设置。 ②DNS服务器的问题 I当IE无法浏览网页时,可先尝试用IP地址来访问,如果可以访问,则为DNS的问题,造成DNS的问题可能是联网时获取DNS出错或DNS服务器本身问题,可手动指定DNS服务(地址可以是当地TSP提供的DNS服务器地址,也可用其它地方可正常使用DNS服务器地址。在网络的属性里进行(控制面板-网络和拨号连接-本地属性-TCP/IP协议-属性-使用下面的DNS服务器地址)。不用的ISP有不同的DNS地址。有时候则是路由器或网卡的问题,无法与ISP的DNS服务连接,这种情况可重启路由器或重新设置路由器。 II本地DNS缓存出现问题,为提高网站访问速度,系统会自动将已经访问过并获取IP地址的网站存入本地DNS缓存里,一旦继续访问此网站,则不再通过DNS服务器而直接从本地DNS缓存取出该网站的IP地址进行访问。所以,如果本地DNS缓存出现问题,会导致网站无法访问。可以在“运行”中执行ipconfig /flushdns来重建本地DNS缓存。 ③IE浏览器本身的问题 IE浏览器本身出现故障或IE被恶意修改破坏都会导致无法浏览网页,可尝试用上网助手“IE修复专家”来修复或者重装IE浏览器。 ④网络防火墙问题 如果网络防火墙设置不当,如安全等级过高、不小心把IE放进了阻止访问列表、错误的防火墙策略等,可尝试检查策略、降低防火墙安全等级或直接关掉试试是否恢复正常。

系统运维管理制度

系统运维管理制度

运维管理制度 系统运维管理制度(试行) (2018年8月版) 第一章总则 运维以技术为基础,通过技术保障产品提供更高质量的服务。在软件产品的整个生命周期中运维组都需要适时参与并发挥不同得作用,因此运维组工作内容和方向非常多。 运维目标是在服务出现异常时尽可能快速恢复服务,从而保障服务的可用性;同时深入分析故障产生的原因;推动并修复服务存在的问题,同时设计并开发相关的预案以确保服务出现故障是可以高效止损。 第一条为保障信息系统软硬件设备的良好运行,使运维技术人员工作制度化、流程化、规范化,特制订本制度。 第二条运维管理工作总体目标:立足根本促发展,开拓运维新局面。在办公系统运行推广时期,通过网络、桌面、系统等的运维,促进信息系统能够稳定可持续性的发展。 第三条运维管理制度的适用范围:运维全体人员。 第二章编制方法 第一条本实施细则包括运维服务全生命周期管理方法、管理标准/规范、管理模式、管理支撑工具、管理对象以及基于流程的管理方法。

第二条本实施细则以ITIL/ISO20000为基础,以信息化项目的运维为目标,以管理支撑工具为手段,以流程化、规范化、标准化管理为方法,以全生命周期的PDCA循环为提升途径,体现了对运维服务全过程的体系化管理。 第三章运维部工作职责 第一条系统运维和技术支持 (1)根据公司业务的推进和发展目标,负责平台信息系统管理及数据交换策略的整体架构、对应用系统等技术开发方案的基础支撑,保障基础平台的稳定性和先进性。 (2)负责系统基础平台的使用培训和操作使用指南编写,对用户使用过程中出现问题的沟通和解决; (3)会同项目实施,确认系统信息基础设备和软件数量、品牌规格、技术参数,确保项目有效推进实施。 (4)系统信息基础设备和软件操作规程、应用管理制度的制定,并负责监督执行。 (5)系统信息基础设备的软件安装、调试和验收,使用培训和维修保养。 (6)系统信息基础平台日常运行过程中信息安全和技术问题的协调解决,保障平台24小时安全稳定运行。 (7)负责平台系统管理及设备保密口令的设置、更新、保存。 (8)负责系统信息协同管理及协同数据交换策略研究新程序、新系统和软件改版升级工作。

SCADA监控系统常见故障处理手册

目录 第一章:1.5MW SCADA监控 1.1塔底屏 1.1.1塔底屏重启后不能自动登陆系统 1.1.2Client.exe软件启动时报错 1.1.3塔底屏软件启动不正常 1.1.4塔底无数据,中控室显示正常 1.1.5无法使用远程桌面连接到塔底屏 1.1.6更换塔底屏后,塔底屏监控软件配置完成后软件无法启动1.2数据库及监控软件 1.2.1风机监控数据压缩包正常生成但关系数据库存储异常(利用率)1.2.2监控软件上查询显示正常,数据中心压缩数据包也正常但使用 数据分析工具查询数据异常,表现为变量数据整体偏移 1.2.3发电量汇总及日报中发电量统计为0 1.2.4在查询发电量及生成日报时如果风机发电量为0则查询缓慢1.2.5中控室前台监控机风机监控显示正常但后台工控机没有显示1.2.6塔底通讯正常但中控室显示异常 1.2.7发现某台风机报出的故障信息与实际故障不符 1.2.8配置服务器启动lampp失败

1.2.9启动监控程序显示无法连接数据库 1.2.10储存多条报警信息或多条操作员日志 1.2.11发电量与功率不符 1.2.12现场发电量修复 1.3通讯相关 1.3.1整条通讯线路通讯中断 1.3.2某台风机监控通讯中断 1.3.3风机通讯闪断 1.4SCADA硬件及其它网络设备 1.4.1防火墙VPN远程连接无法第二阶段协商成功 1.4.2控创服务器无法开机解决办法。 1.4.3服务器数据溢出 1.4.4忘记MOXA交换机IP地址,如何重新配置交换机 1.4.5Cisco路由器及交换机掉电后配置被清空 1.5与第三方通讯 1.5.1第三方与我方监控机opc无法连接 1.5.2第三方与我方监控机ModBus通讯不正常或无法建立数据连接 第二章:2、3、6MW SCADA监控 2.1打开监控界面显示无法浏览网页

运维故障处理思路

事件/故障处理应该要有什么思路 导读: 在讲解事件、故障处理思路前,我先讲一个故障场景(以呼叫中心系统作为一例子): 业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。 运维人员开始忙活了,查资源使用情况、查服务就是否正常、查日志就是否报错、查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去,但就是原因还未定位。 经理过来了解情况:“系统恢复了不?”、“故障影响就是什么?”、“交易中断了不?”…… 运维人员赶紧敲键盘,写sql,瞧交易量;敲键盘,写命令,瞧系统资源、情况…… 最终,定位到问题原因就是其中一个功能没有控制返回数量,导致内存泄露。 针对这个故障,业务希望运维能否更快的解决故障的恢复,经理希望制定优化呼叫中心故障处理流程,做了以下几件事: 1.优先故障处理过程的时间——”能通过鼠标完成的工作,不要用键盘“ 2.提前发现故障,加强监控——“技术早于业务发现问题,监控不仅就是报 警,还要协助故障定位” 3.完善故障应急方案——“应急方案就是最新的、准确的、简单明了的” 4.长远目标:故障自愈——”能固化的操作自动化,能机器做的让机器做“ 下面将从故障常见的处理方法开始介绍,再从故障前的准备工作(完善监控、制定应急方案等方式)来解决经理提出的问题,并提出未来解决故障的想法。 1、常见的方法: 1)确定故障现象并初判问题影响 在处理故障前,运维人员首先要知道故障现象,故障现象直接决定故障应急方案的制定,这依赖于运维人员需要对应用系统的整体功能有一定的熟悉程度。 确认了故障现象后,才能指导运维人员初判断故障影响。 2)应急恢复

计算机常见故障及处理方法

计算机常见故障及处理方法 (总5页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

计算机在使用了一段时间后,或多或少都会出现一些故障。总结出计算机使用和维护中常遇到的故障及简单的排除方法介绍给大家。也许有人会认为:“既然不是搞计算机专业维修的,当然不可能维修计算机!”这倒不一定。况且如果只是遇到一点小小的故障,就要请专业的维修人员来维修,不免有些“劳民伤财”。只要根据这里的计算机故障处理方法,就可以对简单的故障进行维修处理。 一、电源故障 电源供应器担负着提供计算机电力的重任,只要计算机一开机,电源供应器就不停地工作,因此,电源供应器也是“计算机诊所”中常见的“病号”。据估计,由电源造成的故障约占整机各类部件总故障数的20%~30%。所以,对主机各个部分的故障检测和处理,也必须建立在电源供应正常的基础上。下面将对电源的常见故障做一些讨论。 故障1:主机无电源反应,电源指示灯未亮。而通常,打开计算机电源后,电源供应器开始工作,可听到散热风扇转动的声音,并看到计算机机箱上的电源指示灯亮起。 故障分析:可能是如下原因: 1.主机电源线掉了或没插好; 2.计算机专用分插座开关未切换到ON; 3.接入了太多的磁盘驱动器; 4.主机的电源(Power Supply)烧坏了; 5.计算机遭雷击了。 故障处理步骤: 1.重新插好主机电源线。 2.检查计算机专用分插座开关,并确认已切到ON。 3.关掉计算机电源,打开计算机机箱。 4.将主机板上的所有接口卡和排线全部拔出,只留下P8、P9连接主板,然后打开计算机电源,看看电源供应器是否还能正常工作,或用万用表来测试电源输出的电压是否正常。 5.如果电源供应器工作正常,表明接入了太多台的磁盘驱动器了,电源供应器负荷不了,请考虑换一个更高功率的电源供应器。 6.如果电源供应器不能正常工作或输出正常的电压,表明电源坏了,请考虑更换。 故障2:电源在只向主板、软驱供电时能正常工作,当接上硬盘、光驱或插上内存条后,屏幕变白而不能正常工作。 故障分析:可能是因为电源负载能力差,电源中的高压滤波电容漏电或损坏,稳压二极管发热漏电,整流二极管已经损坏等。

运维故障处理思路

事件/故障处理应该要有什么思路 导读: 在讲解事件、故障处理思路前,我先讲一个故障场景(以呼叫中心系统作为一 例子): 业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。 运维人员开始忙活了,查资源使用情况、查服务是否正常、查日志是否报错、 查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去,但 是原因还未定位。 经理过来了解情况:“系统恢复了吗?”、“故障影响是什么?”、“交易中 断了吗?”…… 运维人员赶紧敲键盘,写sql,看交易量;敲键盘,写命令,看系统资源、情况…… 最终,定位到问题原因是其中一个功能没有控制返回数量,导致内存泄露。 针对这个故障,业务希望运维能否更快的解决故障的恢复,经理希望制定优化 呼叫中心故障处理流程,做了以下几件事: 1.优先故障处理过程的时间——”能通过鼠标完成的工作,不要用键盘“ 2.提前发现故障,加强监控——“技术早于业务发现问题,监控不仅是报 警,还要协助故障定位” 3.完善故障应急方案——“应急方案是最新的、准确的、简单明了的” 4.长远目标:故障自愈——”能固化的操作自动化,能机器做的让机器做 “ 下面将从故障常见的处理方法开始介绍,再从故障前的准备工作(完善监控、 制定应急方案等方式)来解决经理提出的问题,并提出未来解决故障的想法。 1、常见的方法: 1)确定故障现象并初判问题影响 在处理故障前,运维人员首先要知道故障现象,故障现象直接决定故障应急方 案的制定,这依赖于运维人员需要对应用系统的整体功能有一定的熟悉程度。

确认了故障现象后,才能指导运维人员初判断故障影响。 2)应急恢复 运维最基本的指标就是系统可用性,应急恢复的时效性是系统可用性的关键指标。 有了上述故障现象与影响的判断后,就可以制定故障应急操作,故障应急有很多,比如: 服务整体性能下降或异常,可以考虑重启服务; 应用做过变更,可以考虑是否需要回切变更; 资源不足,可以考虑应急扩容; 应用性能问题,可以考虑调整应用参数、日志参数; 数据库繁忙,可以考虑通过数据库快照分析,优化SQL; 应用功能设计有误,可以考虑紧急关闭功能菜单; 还有很多…… 另外,需要补充的是,在故障应急前,在有条件的情况需要保存当前系统场景,比如在杀进程前,可以先抓个CORE文件或数据库快照文件。 3)快速定位故障原因 是否为偶发性、是否可重现 故障现象是否可以重现,对于快速解决问题很重要,能重现说明总会有办法或 工具帮助我们定位到问题原因,而且能重现的故障往往可能是服务异常、变更 等工作导致的问题。 但,如果故障是偶发性的,是有极小概率出现的,则比较难排查,这依赖于系 统是否有足够的故障期间的现场信息来决定是否可以定位到总是原因。 是否进行过相关变更 大部份故障是由于变更导致,确定故障现象后,如果有应的变更,有助于从变 更角度出现分析是否是变更引起,进而快速定位故障并准备好回切等应急方案。 是否可缩小范围 一方面应用系统提倡解耦,一支交易会流经不同的应用系统及模块;另一方面,故障可能由于应用、系统软件、硬件、网络等环节的问题。在排查故障原因时 应该避免全面性的排查,建议先把问题范围缩小到一定程序后再开始协调关联 团队排查。 关联方配合分析问题

基站常见电源故障处理手册

基站常见电源故障处理手册 电源系统作为基础网络,其正常工作是通信网络安全可靠运行的基础。基站作为通信网络的组成单元,其安全工作同样要求电源系统的正常运行作为支撑,尽管不同的基站系统配置不尽相同,但电源系统主要由交流配电、开关电源、蓄电池、空调和接地系统组成或者由其中的一部分组成。基站电源系统的常见故障也基本类同。现将基站电源的常见故障和处理方法进行归类说明,作为维护人员处理基站电源故障的参考。 一、交流配电故障 基站的交流配电部分主要包括:业主(电力局)配电房分路开关、市电进线电缆、基站计量电度表、基站电源进线总开关、三相分路开关、单相分路开关等设备。部分郊线基站还配有变压器。常见的交流配电故障主要有: 1.基站交流断电:基站交流断电是指整个基站没有交流输入。对于此类故障首先判断是否电力局市电停电。(1)如果市电停电,对于VIP基站则采用移动油机进行应急发电。发电时必须将交流输入空开断开,油机电缆接入基站电源总开关的下桩头,保证油机电源不会倒送进入市电电网。根据油机的容量,切断空调开关、蓄电池的熔断器避免油机输出过载保护。注意:油机发电时必须保证通风和接地,避免操作人员的安全事故。(2)如果市电正常而基站内没有交流电源,则检查基站电源总开关是否跳闸、业主配电房内送往移动基站的开关是否跳闸。 2.空开跳闸:空开跳闸往往是由于负载或线路短路、空开容量与负载电流不匹配或空开损坏造成。此类故障的检查步骤一般为:(1)检查开关、分路电缆和设备是否存在短路烧焦的痕迹,如果存在,则首先排除设备和线路故障;(2)如果线路正常,可以试着合上跳闸的开关,如果开关立即跳闸,这说明负载侧存在短路现象或开关损坏。(3)如果开关合上后负载工作正常,测量负载电流与开关容量进行比较并观察一段时间。如果空开仍然跳闸,这说明开关损坏需要更换。 3.电源缺相:电源缺相是指三相电源中有一相或两相的电压为0V,电源缺相将造成开关电源、空调保护停机。产生的原因主要有:市电输入缺相或开关损坏。电源缺相的检查可用万用表从末级开始逐级向上测量三相电源的电压,根据

高压设备常见故障及处理方法

高压设备常见故障及处理方法 一般高压配电装置是泛指,按规程规定电压在250伏以上称为高压,这里我们主要是讲10千伏成套装置,也就是开关柜、计量柜、电容柜等,当然还包括进出线及变压器等。 高压断路器 1.真空开关的常见故障及处理 (1)故障现象:支持绝缘子断裂。 处理方法:应停电及时更换。 (2)故障现象:真空开关爆炸。 处理方法:及时停电分析原因,并加以更换,排除故障的送电,如属开关本体质量问题,更换后即可送电。 (3)故障现象:操作开关后出现过电压。 处理方法:由于产生过电压的原因很复杂,应根据具体情况进行分析,并检查是否安装有氧化锌避雷器,参数选择是否合理,年检是否参加,是否合格,如不符合条件,应更换。 (4)故障现象:跳合闸失灵。 处理分析:检查跳合闸回路,是否有断线,开关机构是否卡住等。 2.六氟化硫断路器 (1)故障现象:漏气。 处理方法:应采取防止跳合闸的措施,进行停电更换处理,处理过程中应特别注意防护措施,因为SF6气体在正常情况下是无毒无害的,但在电弧作用下会分解出有毒的物质,这一点应按操作规程执行。 隔离开关 (1)故障现象:绝缘子破裂,胶合处脱落。 处理方法:采取相应措施,减少负荷停电后处理(用旁路开关代替)。

(2)故障现象:绝缘子表面严重放电。 处理方法:应及时停电予以更换(创造条件)。 (3)故障现象:接触部分过热,当温度超过75摄氏度时。 处理方法:采取相应措施及时更换或处理(螺丝松动等)。 母线 (1)故障现象:接触部分过热(温升超65摄氏度,在环境温度不大于105摄氏度)。 处理方法:分析原因,增加接触面,对接触面处理,并涂导电膏。 (2)故障现象:支持绝缘子破裂。 处理方法:采取措施,更换损坏绝缘子,并分析原因、进行试验。 (3)故障现象:进线发出共振噪声,并有放电声。 处理方法:停电后适当紧固母线卡子,并旋转卡子卡住母线。 变压器 1.油变压器 (1)故障现象:当停送电时变压器内部有不均匀的声音或敲击声。 分析处理:有可能是变压器铁芯松动,螺丝松动掉落,充电后被吸起停电后被释放等,应进一步做试验或吊芯检查处理。 (2)故障现象:变压器轻重瓦斯动作。 分析处理:变压器内部可能发生故障,应立即采油样进行色谱分析,检查原因后相应处理,由于二次穿越性故障造成变压器瓦斯动作应检修。 (3)故障现象:继电保护动作跳闸,原因众多,应逐步分析。 分析处理:首先应区别是否为变压器本体故障,有瓦斯保护的变压器,如瓦斯保护未动作,说明变压器内部故障可能性很低,应检查其他原因,如无瓦斯保护的变压器主保护为速断保护,则应考虑故障可能为变压器,应进一步试验分析,如为过电流保护动作,则可能由于二次穿越故障引起,应进一步查明故障予以处理,处理方法无非是检修或更换。

现场运维故障处理手册

1现有的低压集抄原理及采集方案 1.1电力线载波通信原理 1.1.1电力线载波(PLC) 电力线载波(PLC)是电力系统特有的、基本的通信方式,电力线载波通讯是指利用现有电力线,通过载波方式将模拟或数字信号进行高速传输的技术。由于使用坚固可靠的电力线作为载波信号的传输媒介,因此具有信息传输稳定可靠,路由合理、可同时复用远动信号等特点,是唯一不需要线路投资的有线通信方式。 1.1.2电力线载波的特点: 1、配电变压器对电力载波信号有阻隔作用,所以电力载波信号只能在一个配电变压器区域范围内传送; 2、三相电力线间有很大信号损失(10 dB -30dB)。通讯距离很近时,不同相间可能会收到信号。一般电力载波信号只能在单相电力线上传输; 3、不同信号藕合方式对电力载波信号损失不同,藕合方式有线-地藕合和线-中线藕合。线-地藕合方式与线-中线藕合方式相比,电力载波信号少损失十几dB,但线-地藕合方式不是所有地区电力系统都适用; 4、电力线存在本身固有的脉冲干扰。目前使用的交流电有50HZ和60HZ,其周期为20ms和16.7ms,在每一交流周期中,出现两次峰值,两次峰值会带来两次脉冲干扰,即电力线上有固定的100HZ或120HZ脉冲干扰,干扰时间约2ms,因此干扰必须加以处理。有一种利用波形过0点的短时间内进行数据传输的方法,但由于过0点时间短,实际应用与交流波形同步不好控制,现代通讯数据帧又比较长,所以难以应用;

5、电力线对载波信号造成高削减。当电力线上负荷很重时,线路阻抗可达1欧姆以下,造成对载波信号的高削减。实际应用中,当电力线空载时,点对点载波信号可传输到几公里。但当电力线上负荷很重时,只能传输几十米。 1.2低压集抄系统方案说明 1.2.1低压集抄系统工作原理 集中抄表系统是指利用微电脑技术,通信技术和数字信号处理技术,通过通信介质自动实现电能量数据采集、存储、传输和处理的系统。根据采用通讯载体的不同,目前主要有专线通信技术、无线通信技术和电力线载波通信技术。 利用电力线作为通信介质实现电力线载波集中抄表系统是完成电力行业自动抄表的最佳解决方案。如图 1 所示,安装在用户电能表侧的采集器模块(采集器)或直接使用的载波电能表,采集并存储电能表数据,并与采集终端或集中器进行双向通讯,集中器再通过GPRS/PSTN/GSM/RJ45 等方式的传输媒介将电能数据发送至系统主站。同时,也可实现手持抄表器对现场电能表、采集器、集中器的数据抄读和参数设置。

相关文档
最新文档