weblogic日常维护总结与故障诊断
运维常见问题和解决方案

运维常见问题和解决方案
《运维常见问题和解决方案》
运维(运维技术)是指运营和维护的缩写,主要是指企业的
IT基础设施和应用服务的管理。
在进行运维工作的过程中,
经常会遇到一些常见问题,这些问题需要及时解决,以保证系统的正常运行。
以下是一些运维常见问题和解决方案:
1. 网络故障
网络故障是最常见的问题之一。
当出现网络故障时,首先需要检查网络设备和连接是否正常。
如果网络设备无故障,可能是网络配置问题,可以尝试重新配置网络设置或重启设备。
2. 硬件故障
硬件故障包括服务器、存储设备、交换机等硬件设备的故障。
当出现硬件故障时,需要及时更换故障设备,并重新配置系统,以保证系统的正常运行。
3. 软件升级问题
在进行软件升级时,可能会出现兼容性问题或安装失败的情况。
为了避免这些问题,需要提前备份系统数据并进行充分的测试,确保升级过程顺利。
4. 安全漏洞
安全漏洞可能导致系统遭受黑客攻击或数据泄露。
为了避免安全漏洞,需要及时更新系统补丁,并加强系统安全配置,定期进行安全检查,保证系统的安全性。
5. 性能问题
系统性能问题可能导致应用服务的延迟或崩溃。
为了解决性能问题,可以通过优化系统配置、增加硬件资源或使用性能监控工具定位问题,并进行相应的调整和优化。
综上所述,运维工作中常见的问题有很多,解决这些问题需要运维人员具备丰富的经验和技能。
通过及时的故障排除和系统优化,可以确保企业的IT基础设施和应用服务的正常运行。
weblogic日常维护总结与故障诊断

中间件故障诊断总结一、步骤:1、准确描述现象:客户说的和自己查看到的:平台、版本、操作、信息等。
特别是,故障前是否有做过什么操作:网络调整、设备调整、主机参数调整、配置文件修改……反正将这一切都列入排查的对象。
2、使用工具收集数据,收集配置文件、日志、dump文件等等。
3、使用分析数据,根据问题或收集的数据,使用适当的工具分析数据,当然包括了在网上和在官方支持站点搜索类似的问题的解决办法。
4、尝试解决问题,根据找到的问题点,尝试解决。
如修改错的,复原正确的;运行有问题的,适当调整运行的环境和运行的参数等等。
5、给出最佳解决方案,一般就是继续观察了。
6、总结经验并加以重用,知识积累。
二、通过前台收集基本的信息:1、重点是故障前做过的操作2、比对运行平台是否在官方的兼容性列表中,一般就是关注各个版本,特别是一些比较怪异的问题3、检查环境和参数,如能打开控制台,就在控制台中初步观察,一般进入控制台的格式是如:。
常用的留意点如下:A、域运行状态(域-监视-健康状况);一般为running状态,如果不是running,那这些界面就没有了。
B、服务器运行状态(域-环境-服务器),正常的为running。
C、各个server性能(JVM)状态(域-环境-服务器,点击具体的serve后进入,监视-健康状况);留意JVM堆中当前可用的内存量。
不同的JVM,所显示的内容可能不一样,以下为sun的:D、各个server线程状态(域-环境-服务器,点击具体的serve后进入,监视-线程);一般来说,空闲线程要多;健康状况为ok如下图health状态为:Warning,这个是有线程阻塞的。
阻塞线程的内容为:####<2011-8-13上午02时42分35秒GMT+08:00><Error><WebLogicServer><dataweb1><dc_admin1><[ACTIVE]ExecuteThre ad:'15'forqueue:(self-tuning)'><<WLSKernel>><><><BEA-000337><[STUCK]Execut eThread:'19'forqueue:(self-tuning)'hasbeenbusyfor"2,492"secondsworkingonth erequestwhichismorethantheconfiguredtime(StuckThreadMaxTime)of"2,400"secon ds.Stacktrace:Method)Source)E、JDBC(域-环境-服务器,点击具体的serve后进入,监视-JDBC);活动连接数合理。
关于Weblogic应用集群服务启动慢的缺陷分析及处理办法 (1)

关于Weblogic应用集群服务启动慢的缺陷分析及处理办法一、缺陷现象江苏公司电网GIS部分服务部署在Linux Redhat5.5操作系统的服务器上,使用的中间件版本为Weblogic 9,在电网GIS运行过程中,如果遇到因为应用服务器原因或者检修计划安排,重启Weblogic程序,需要花费10分钟以上的等待时间。
在日常检修中,重启Weblogic程序集群服务的耗时都在30分钟左右,在7*24小时的在线运行系统,中断业务服务时间,严重影响系统的运行及检修工作。
国家电网公司核心系统的应用架构,均采用Weblogic集群服务,此缺陷为系统日常检修的通病,造成很多省公司检修系统停机时间过长,甚至不敢停机维护系统,属于中间件的重大缺陷问题,已经存在很久。
二、缺陷分析对于一个简单部署的Weblogic而言,一般情况下,启动Weblogic最长一般需要2~3分钟时间,同时在启动时,Weblogic的日志内容是滚动的,不会在日志的某个地方静止到5分钟以上,所以这是极不正常的现象。
Weblogic启动慢的原因,在Weblogic启动时,通过对线程堆的监控,线程挂在security相关的随机数生成上面。
这个由于JDK的配置(JDK从/dev/random读取‘randomness’经常耗费10分钟或者更长的时间)导致的。
三、缺陷处理针对该问题,有三种解决方案,分别如下:在Weblogic启动参数里添加“-Djava.security.egd=file:/dev/./urandom”(/dev/urandom 无法启动)执行命令mv /dev/random /dev/random.ORIG ; ln /dev/urandom /dev/random将/dev/random 指向/dev/urandom修改Linux上Weblogic使用的jdk $JAVA_HOME/jre/lib/security/java.security 文件将securerandom.source=file:/dev/urandom 修改为securerandom.source=file:/dev/./urandom这样可以解决任何一个域Weblogic启动慢的问题。
I-Nodal_V1节点采集单元电源板故障分析与维修

《装备维修技术》2024年第1期(总199期)I-Nodal V1节点采集单元电源板故障分析与维修瞿婉洁(中石化石油工程地球物理有限公司物资装备中心,江苏南京)摘要:I-Nodal V1节点仪器是中石化地球物理公司自主研制的节点采集系统,自2019年产业化后该仪器已应用于40多个野外项目。
随着野外生产应用使用年限增加,节点采集单元故障数量逐渐上升。
据此,主要从I-Nodal V1节点采集单元电源板电路组成入手,结合电源板测试结果,对I-Nodal V1节点采集单元电源板几种常见的故障进行分析总结,并提出解决方法,为该设备的维修提供技术参考。
关键词:I-Nodal节点仪器;故障分析与维修;节点采集单元Analysis and Maintenance of Power Board Faults in I-Nodal V1Node Acquisition UnitQu Wanjie(Sinopec Geophysical Corporation Purchasing&Equipment Center,Nanjing211100,China)Abstract:The I-Nodal V1node instrument is a node acquisition system independently developed by Sinopec geophysical company.Since its industrialization in2019,the I-Nodal V1node instrumenthas been applied to more than40field projects.As the service life of field production applications increases,the number of node acquisition unit failures gradually increases.This article mainly startswith the composition of the power board circuit of the I-Nodal V1node acquisition unit,and com-bined with the test results of the power board,analyzes and summarizes several common faults ofthe power board of the I-Nodal V1node acquisition unit,and proposes solutions,providing technical reference for the maintenance of the equipment.Keyword:I-Nodal node instrument;Fault analysis and maintenance;Node acquisitionunit引言国内各探区勘探程度的逐步提高,且勘探目标日趋复杂,对地下小、碎、薄等复杂地质体的描述精度和分辨率要求越来越高[1]。
设备维保中的故障解决案例分享与经验总结

环境因素
总结词
温度、湿度、压力、尘土
详细描述
设备运行环境可能对设备产生影响,如温度过高或过低影响散热和电气性能,湿度过大导致设备受潮 ,压力变化影响设备稳定性,尘土积累影响散热和机械部件动作。
03 故障解决过程
诊断与定位
故障现象描述
初步检查
准确记录设备出现的问题,包括异常声音 、异常指示、性能下降等。
经验总结
定期检查电源和电路板,确保 设备稳定运行。
案例二:设备运行不稳定
故障描述
设备在运行过程中出现异常响动、振动或频 繁的故障报警。
解决方法
对机械部件进行检查和紧固,必要时更换磨 损部件。
故障原因
机械部件磨损或松动。
经验总结
定期对设备进行维护和保养,确保机械部件 的稳定性和可靠性。
案例三:设备性能下降
设备维保中的故障解决 案例分享与经验总结
目录
CONTENTS
• 设备故障案例分享 • 故障原因分析 • 故障解决过程 • 经验总结与教训 • 未来改进建议
01 设备故障案例分享
案例一:设备突然停机
故障描述
设备在运行过程中突然停止工 作,无任何预兆。
故障原因
电损坏的部件。
故障描述
设备性能逐渐下降,不能满足正常工 作需求。
故障原因
长时间使用导致设备老化或内部积垢 。
解决方法
对设备进行全面的清洁和维护,必要 时更换老化部件。
经验总结
及时发现和处理设备性能下降的问题 ,避免影响生产效率和产品质量。
02 故障原因分析
机械故障
总结词
机械部件磨损、断裂、卡滞
详细描述
设备长时间运行导致机械部件磨损,如轴承、齿轮等,或者受到外力冲击断裂 。此外,机械部件之间可能因异物进入或润滑不足导致卡滞。
设备故障分析总结

设备故障分析总结在生产和运营过程中,设备故障是不可避免的问题。
及时、准确地分析设备故障的原因,并采取有效的措施进行解决和预防,对于保障生产的正常运行、提高设备的可靠性和使用寿命、降低维修成本等方面都具有重要的意义。
本文将对近期发生的设备故障进行详细的分析和总结。
一、故障设备基本信息本次故障的设备是设备名称,该设备主要用于设备的主要用途。
设备的型号为具体型号,生产日期为生产日期,投入使用时间为投入使用时间。
二、故障现象描述在故障发生时间,操作人员发现设备出现了以下故障现象:1、设备无法正常启动,按下启动按钮后没有任何反应。
2、设备运行过程中突然停止,且控制面板上显示故障代码具体代码。
3、设备的输出功率明显下降,达不到正常的工作要求。
三、故障排查过程1、电气系统检查首先检查了电源线路,发现电源线连接正常,没有松动和短路的情况。
对控制电路进行了检测,发现控制板上的一个继电器损坏,导致启动信号无法传递。
2、机械系统检查检查了设备的传动部件,发现皮带出现了严重的磨损和松弛现象,影响了设备的动力传递。
对设备的轴承进行了检查,发现其中一个轴承出现了卡死的情况,导致设备无法正常运转。
3、液压系统检查检查了液压油箱的油位,发现油位过低,导致液压系统无法正常工作。
对液压泵和液压阀进行了检测,发现液压泵的内部磨损严重,液压阀也出现了堵塞的情况。
四、故障原因分析1、电气系统故障继电器损坏是由于长期频繁的开合导致的触点烧蚀,属于正常的老化现象。
控制板上的一些电子元件也出现了性能下降的情况,可能是由于工作环境温度过高或者湿度较大导致的。
2、机械系统故障皮带磨损和松弛是由于长期使用没有及时进行调整和更换,导致皮带受力不均。
轴承卡死是由于润滑不良和灰尘进入导致的,这也反映了设备的日常维护保养工作不到位。
3、液压系统故障油位过低是由于操作人员没有及时检查和添加液压油,导致液压系统吸空。
液压泵内部磨损和液压阀堵塞是由于液压油污染严重,没有按照规定的周期进行更换和过滤。
案例分析---Weblogic服务启动后自动停止问题

【问题描述】
进入服务后,服务中出现“请按任意键继续”的提示,按了任意键后,服务退出。
【排查过程】
出现服务自动停止运行,可能原因有:
(1)相应数据库服务未启动;
(2)中间件weblogic有问题;
(3)已经有服务启动,之后启动的服务会自动退出。
1、检查oracle数据库服务,oracle服务已经启动
2、检查weblogic服务是否有问题,我们可以查看到重启服务时提示
有另一个服务正在运行。
3、查看任务管理器中,确实有CMD.EXE的进程,并且我们注意到,
同时有计划任务在运行,因此怀疑在任务计划中启动了服务。
查看计划任务,果然是已经启动了weblogic服务,
【解决方案】
因服务在计划任务中设置成了自动启动,因此不需要手动打开服务。
运维常见故障及处理

运维常见故障及处理一、编码器故障故障原因:1)、连接导线断掉1)、编码器本体损坏处理方法:1)更换连接导线,紧固连接插头2)如本体坏掉,更换编码器二、通讯中断或者无通讯故障原因:1)环网有断点2)SCADA系统处理方法:1)查找断电的机组送电,或是UPS断电送电。
2)RIU 复位,交换机的水晶头从插3)SCADA从新启动三、振动传感器动作,安全链断开故障原因:1)由于风速过大,导致塔筒摇晃太大2)程序错误处理方法:1)如果因为振动大使安全链断开,在现场将UPS从新启动(机舱PLC断电)2)如有振动报警而安全链没有断开,在安全情况可以将振动等级增大一级以使风机组运行(厂家允许情况下)3)从新导入程序四、变桨通讯故障故障原因:1)滑环内部接触不好2)变桨通讯模块出错3)NOP插头接触不良4)主控柜内部程序出错处理方法:1)更换连接导线,NOP插头紧固2)更换变桨通讯模块,或从新上电变桨通讯模块,紧固CAN1连接插头3)从新导入主控程序四、发电机温度高故障原因:1)传感器坏掉2)散热器风扇不正常工作,或换气风扇不工作3)外界温度处理方法:1)检查传感器,更换传感器或换连接线。
2)检查散热器的空开,若跳掉,从新投入。
3)外界温度高,使机舱温度升高,应及时散热降温五.齿轮油温低故障原因:1)环境温度低且齿轮箱加热装置没有工作;2)环境温度过低且齿轮箱加热装置功率不足;3)温度传感器故障处理方法:1)检查加热器线路。
2)功率不足是,等待加热到正常温度3)若传感器损坏,断线及时更换。
六、变桨轴承密封圈漏油故障原因:密封圈出厂质量问题。
处理方法:厂家更换变桨轴承密封圈(仅供参考,欢迎大家补充)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中间件故障诊断总结一、步骤:1、准确描述现象:客户说的和自己查看到的:平台、版本、操作、信息等。
特别是,故障前是否有做过什么操作:网络调整、设备调整、主机参数调整、配置文件修改……反正将这一切都列入排查的对象。
2、使用工具收集数据,收集配置文件、日志、dump文件等等。
3、使用分析数据,根据问题或收集的数据,使用适当的工具分析数据,当然包括了在网上和在官方支持站点搜索类似的问题的解决办法。
4、尝试解决问题,根据找到的问题点,尝试解决。
如修改错的,复原正确的;运行有问题的,适当调整运行的环境和运行的参数等等。
5、给出最佳解决方案,一般就是继续观察了。
6、总结经验并加以重用,知识积累。
二、通过前台收集基本的信息:1、重点是故障前做过的操作2、比对运行平台是否在官方的兼容性列表中,一般就是关注各个版本,特别是一些比较怪异的问题3、检查环境和参数,如能打开控制台,就在控制台中初步观察,一般进入控制台的格式是http://ip地址:端口/console如:http://192.168.0.89:7001/console/。
常用的留意点如下:A、域运行状态(域-监视-健康状况);一般为running状态,如果不是running,那这些界面就没有了。
B、服务器运行状态(域-环境-服务器),正常的为running。
C、各个server性能(JVM)状态(域-环境-服务器,点击具体的serve后进入,监视-健康状况);留意JVM 堆中当前可用的内存量。
不同的JVM,所显示的内容可能不一样,以下为sun的:D、各个server线程状态(域-环境-服务器,点击具体的serve后进入,监视-线程);一般来说,空闲线程要多;健康状况为ok如下图health状态为:Warning,这个是有线程阻塞的。
阻塞线程的内容为:####<2011-8-13 上午02时42分35秒 GMT+08:00> <Error> <WebLogicServer> <dataweb1> <dc_admin1> <[ACTIVE] ExecuteThread: '15' for queue:'weblogic.kernel.Default (self-tuning)'> <<WLS Kernel>> <> <><1313174555613> <BEA-000337> <[STUCK] ExecuteThread: '19' for queue: 'weblogic.kernel.Default (self-tuning)' has been busy for "2,492" seconds working on the request"weblogic.work.SelfTuningWorkManagerImpl$WorkAdapterImpl@12035ed", which is more than the configured time (StuckThreadMaxTime) of "2,400" seconds. Stack trace:.SocketOutputStream.socketWrite0(Native Method) .SocketOutputStream.socketWrite(SocketOutputStream.java:97).SocketOutputStream.write(SocketOutputStream.java:141).ns.DataPacket.send(Unknown Source)E、JDBC(域-环境-服务器,点击具体的serve后进入,监视-JDBC);活动连接数合理。
F、程序EJB/Web Module(域-部署);状态为活动,健康状况为ok。
其目标关联正确G、JMS(域-服务-消息传送-JMS服务器);健康状态为ok。
4、在控制台生成dump;生成Dump Thread Stacks内容;查找queryList等关键字符,即可快速定位问题代码。
5、如果控制台打不开或无法进入,就要先看进程有没有在跑,如果进程有,但控制台或程序无法进入,一般就是有故障了,此时,可以通过相关日志进行后台分析分析。
三、后台日志分析:一般来说,新建立的环境,配置的问题多一点;已经运行的生成系统错误或bug 的可能性大点。
当出现故障时,就可以调取系统日志、中间件的日志,根据相关关键字(BEA-)网上搜索,或到官方网站对相关问题的描述进行查找。
WebLogic在启动及运行过程中会记录各种LOG信息,以帮助系统治理员对整个应用系统进行治理及维护。
1、log默认位置..\user_projects\domains\your_domain\servers\AdminServer\logs下面的AdminServer.log;access.log;domain_name.log新版的如:C:\Oracle\Middleware\user_projects\domains\base_domain\servers\Adm inServer\logs如果是重定向输出的,就看重定向输出的文件。
2、日志文件说明WebLogic SERVER运行日志假如WebLogic SERVER在启动或运行过程中有错误发生,错误信息会显示在屏幕上,并且会记录在一个LOG文件中,该文件默认名为AdminServer.log。
该文件也记录WebLogic的启动及关闭等其他运行信息。
可在Gernal属性页中设置该文件的路径及名字,错误的输出的等级等。
HTTP访问日志在WebLogic中可以对用HTTP,HTTPS协议访问的服务器上的文件都做记录,该LOG文件默认的名字为Access.log,内容如下,该文件具体记录在某个时间,某个IP地址的客户端访问了服务器上的那个文件。
127.0.0.1 - - [25/Feb/2002:11:35:58 +0800] "GET /weather HTTP/1.1" 302 0127.0.0.1 - - [25/Feb/2002:11:35:58 +0800] "GET /weather/index.Html HTTP/1.1" 200 176HTTP访问日志的属性可在HTTP属性页中进行设置。
DOMAIN运行日志记录一个DOMIAN的运行情况,一个DOMAIN中的各个WebLogic SERVER可以把它们的一些运行信息(比如:很严重的错误)发送给一个DOMAIN的ADMINISTRATOR SERVER上,ADMINISTRATOR SERVER把这些信息些到DOMAIN 日志中。
默认名为:domain_name.log 。
一般就看这个最多。
3、通过控制台查看或修改系统日志路径登录weblogic后台左侧菜单:Environment->Servers右侧菜单:AdminServer(admin)->logging只找到examplesServer.log、access.log配置如图:4、其他如果日志太少,里面没有记载相关信息,可参照日志文件的回滚设置。
在“滚动类型:”属性页中可以设置这些日志文件的回滚方式,当日志文件到一定得大小或过了设定的时间后,把日志信息保存到一个新的文件中。
WebLogic提供按文件大小和时间两种方式。
如下面的设置种,选择Rotation Type 为BY SIZE。
也就是当日志文件的大小达到500K时,重新写一个新的文件。
假如Rotation Type 为BY TIME,那么是每隔一段时间重新写一个新的文件。
并且对这些文件编号设置日志文件名如:_%yyyy%_%MM%_%dd%_%hh%_%mm%5、日志的处理:查看日志中输出的具体内容,再进行处理。
如:BEA-下面是一个线程阻塞的一个信息####<2011-8-13 上午03时51分46秒 GMT+08:00> <Error> <WebLogicServer> <dataweb1> <dc_admin1> <[ACTIVE] ExecuteThread: '11' for queue:'weblogic.kernel.Default (self-tuning)'> <<WLS Kernel>> <> <><1313178706712> <BEA-000337> <[STUCK] ExecuteThread: '1' for queue: 'weblogic.kernel.Default (self-tuning)' has been busy for "2,503" seconds working on the request"weblogic.work.SelfTuningWorkManagerImpl$WorkAdapterImpl@deab5f", which is more than the configured time (StuckThreadMaxTime) of "2,400" seconds. Stack trace:四、产生hread Dump来分析问题hread Dump是非常有用的诊断Java应用问题的工具,每一个Java虚拟机都有及时生成显示所有线程在某一点状态的thread-dump的能力。
虽然各个Java虚拟机thread dump打印输出格式上略微有一些不同,但是Thread dumps出来的信息包含线程;线程的运行状态、标识和调用的堆栈;调用的堆栈包含完整的类名,所执行的方法,如果可能的话还有源代码的行数。
Thread Dump特点:•能在各种操作系统下使用•能在各种Java应用服务器下使用•可以在生产环境下使用而不影响系统的性能•可以将问题直接定位到应用程序的代码行上Thread Dump能诊断的问题包括:•查找内存泄露,常见的是程序里load大量的数据到缓存•发现死锁线程•收集 Thread Dump进行 Thread Dump 的方法取决于安装挂起服务器实例的操作系统。