运维服务管理的5大难点及对策
运维常见问题和解决方案

运维常见问题和解决方案
《运维常见问题和解决方案》
运维(运维技术)是指运营和维护的缩写,主要是指企业的
IT基础设施和应用服务的管理。
在进行运维工作的过程中,
经常会遇到一些常见问题,这些问题需要及时解决,以保证系统的正常运行。
以下是一些运维常见问题和解决方案:
1. 网络故障
网络故障是最常见的问题之一。
当出现网络故障时,首先需要检查网络设备和连接是否正常。
如果网络设备无故障,可能是网络配置问题,可以尝试重新配置网络设置或重启设备。
2. 硬件故障
硬件故障包括服务器、存储设备、交换机等硬件设备的故障。
当出现硬件故障时,需要及时更换故障设备,并重新配置系统,以保证系统的正常运行。
3. 软件升级问题
在进行软件升级时,可能会出现兼容性问题或安装失败的情况。
为了避免这些问题,需要提前备份系统数据并进行充分的测试,确保升级过程顺利。
4. 安全漏洞
安全漏洞可能导致系统遭受黑客攻击或数据泄露。
为了避免安全漏洞,需要及时更新系统补丁,并加强系统安全配置,定期进行安全检查,保证系统的安全性。
5. 性能问题
系统性能问题可能导致应用服务的延迟或崩溃。
为了解决性能问题,可以通过优化系统配置、增加硬件资源或使用性能监控工具定位问题,并进行相应的调整和优化。
综上所述,运维工作中常见的问题有很多,解决这些问题需要运维人员具备丰富的经验和技能。
通过及时的故障排除和系统优化,可以确保企业的IT基础设施和应用服务的正常运行。
运维工作存在的问题

运维工作存在的问题
运维工作存在的一些常见问题包括:
1. 人工操作繁琐:传统的运维工作通常需要人工手动操作,包括系统部署、配置管理、日志分析等,工作繁琐且容易出错。
2. 高维护成本:随着业务规模的增长,运维所需的服务器、网络、存储等设备数量也会增加,增加了硬件维护和成本。
3. 部署问题:运维工作中常常出现的问题之一是部署的复杂性。
手动部署容易出错而且耗时长,并且需要保证在不同环境中的一致性。
4. 异常监测与故障处理:运维人员需要及时发现和解决系统故障,包括服务器宕机、网络中断、应用程序故障等。
这对运维人员来说是一个重要的挑战。
5. 扩展能力有限:当业务需要扩展时,运维团队往往需要加大投入,增加服务器和设备数量,增加人力投入来应对高负载和高并发请求。
6. 文档和知识管理:运维工作涉及到系统配置、变更记录、问题解决方案等大量的文档和知识,需要进行有效的管理和维护。
7. 自动化程度低:传统的运维工作往往依赖手动操作,缺乏自动化的工具和流程。
这使得运维工作效率低下,难以应对大规模和复杂的系统。
8. 安全性问题:运维工作需要保证系统的安全性,包括数据的保护、漏洞修复和身份认证等。
安全性问题需要得到高度关注和处理。
9. 应急响应不及时:当系统出现问题时,运维团队需要及时响应和解决。
但在某些情况下,应急响应不及时,导致系统停机时间过长,影响业务的正常进行。
以上是一些常见的运维工作问题,解决这些问题的关键在于引入自动化工具和流程,提高运维效率和质量。
运维服务管理的5大难点及对策

运维服务管理的5大难点及对策以下基于我们公司的情况讨论运维服务管理,可能不是非常具有代表性,只是希望找出运维服务管理中经常碰到的难点,以及对应的解决方法。
前段时间,一位朋友说了一个观点,运维服务是自动化程度最低的一个行业,很有意思,那运维服务会不会也是管理最薄弱的一个行业呢?我接触运维服务的时间不长,但个人总觉得我们把运维服务搞得复杂化了,没有看透业务本质。
在运维服务行业,真正意义上的管理者非常缺乏,我说的“管理者”,是用对象的方式看待业务与流程的。
有时我们过于强调行业经验的重要性,事实上在管理领域,行业的特性对管理者提出的特殊要求没有我们想象的多。
运维服务尚未真正形成行业,多数的领导者不以管理见长,多是从底层或技术部门提升而来,视野与管理理念缺乏,妨碍了运维服务管理的成熟与发展。
以下我将对运维服务管理的一些难点展开说明。
一.项目型管理方式的挑战当一个组织以项目的形式运作管理时,在管理上积淀是比较困难的。
项目本身就是一个独立的权力结构,公司的组织机构是按部门、科室式划分,管理体系也多以部门职能划分流程,这时权力的矛盾就会在业务运作时产生,发生资源的略夺行为。
要么部门难以管理,要么项目难以管理。
而项目是一个临时的组织,这种人力的汇聚与释放都比较麻烦,起用一名人力需要相当长的磨合期。
而公司的任务往往是周期性的(最小时间单位很大),这时人力释放并不意味可以马上投入利用,这种痛苦没有经历过很难体会到,这比你在ERP中排生产计划还要难。
运维服务普通是以项目的形式管理的,项目内的作业与部门或公司的管理往往存在误差。
如果部门或公司处于强势地位,项目内的作业往往会被冲击,或者被动敷衍配合公司的管理。
比如培训,站在部门或公司的角度希望搞员工能力提升的培训,这种计划安排,往往与项目内希望做的培训有非常大的出入。
项目的一线主管,往往认为公司或部门不是帮助他们,而是一个麻烦制造者。
一旦项目数量大时,这种情况越普遍。
因为项目越多,上层对规范、标准化的愿望就越发强烈,当一线主管花费越来越多的管理资源,配合公司的规范与标准时,对项目的控制力就会下降。
工程管理中的运维阶段重难点及改善思路

工程管理中的运维阶段重难点及改善思路在工程管理中,运维阶段常常是一个被忽视或者被低估重要性的环节。
然而,良好的运维工作对于项目的稳定性和可维护性至关重要。
本文将从深度和广度的角度来探讨工程管理中运维阶段的重难点,并提出改善思路。
1. 运维阶段的重难点1.1 系统稳定性在运维阶段,系统稳定性是一个至关重要的指标。
然而,由于系统的复杂性和多样性,很多时候系统稳定性很难得到保障。
特别是在大规模的分布式系统中,系统稳定性往往成为一个头疼的问题。
各种未知的风险、硬件故障、软件bug等都可能对系统的稳定性产生影响,给运维工作增加了难度。
1.2 故障排查与处理一旦系统出现故障,对于运维团队来说,排查与处理故障是一项极具挑战性的任务。
很多时候,故障的原因并不是显而易见的,需要深入的技术知识和丰富的经验来进行排查。
而且,在处理故障的过程中,需要保证对系统的影响最小化,这就需要高效的应急响应和快速的恢复能力。
1.3 资源管理运维阶段需要对资源进行合理的调配和管理,包括硬件资源、网络资源、人力资源等。
如何更加高效地利用资源,提高系统的利用率,降低成本,是一个需要考虑的重要问题。
2. 改善思路2.1 自动化运维自动化运维是提高运维效率和稳定性的重要手段。
通过自动化工具和流程,能够减少运维人员的重复劳动,提高工作效率,同时减少人为错误的发生。
在系统部署、配置管理、监控告警等方面都可以借助自动化来提高运维效率。
2.2 弹性架构设计在系统设计阶段就考虑到运维的需求,设计具有较强弹性的架构。
当系统出现负载异常、服务不可用等情况时,系统能够自动进行伸缩,从而确保系统的稳定性和可用性。
需要在架构设计中考虑到故障的隔离和容错性,以减小故障对整个系统的影响。
2.3 数据驱动的运维通过数据分析和挖掘,能够更好地了解系统的运行状况和性能问题。
基于数据驱动的运维,能够及时发现潜在问题,并提前做出预防和调整。
通过数据的支持,能够优化资源的调配和利用,提高运维的效率和成本控制。
网络运维管理的挑战与解决方案

网络运维管理的挑战与解决方案随着互联网的迅猛发展,网络运维管理已经成为企业日常运营中的重要环节。
然而,网络运维管理也面临着一系列的挑战。
本文将探讨网络运维管理的挑战,并提出一些解决方案,以帮助企业提升网络运维管理的效率和质量。
一、网络运维管理的挑战1. 复杂性:现代网络环境中存在着各种各样的设备、协议和技术,如路由器、交换机、防火墙、负载均衡等。
不同设备之间的兼容性和交互性造成了网络运维管理的复杂性。
2. 安全性:网络威胁和黑客攻击继续增长,企业面临着日益严峻的网络安全挑战。
网络运维管理需要及时发现和应对各种安全威胁,以确保网络环境的安全性。
3. 故障排除:网络故障是网络运维中常见的问题。
故障排除需要精确定位问题所在,并快速采取措施进行修复,以减少业务中断时间。
4. 性能管理:随着网络负载不断增加,网络性能的管理和监控变得尤为重要。
网络运维管理需要通过实时监控和分析,及时发现并解决性能问题,以提供用户满意的网络体验。
5. 规模化管理:随着企业规模的扩大,网络设备的数量也在不断增加。
规模化网络运维管理需要自动化工具和流程的支持,以便高效地管理和操作大量设备。
二、网络运维管理的解决方案1. 自动化运维工具:采用自动化运维工具可以提高管理效率。
例如,网络配置管理工具可以帮助管理人员集中管理和配置网络设备,减少手动操作的工作量。
2. 安全威胁监测:实施安全威胁监测系统,通过对网络流量进行实时监控和分析,及时发现并应对潜在的安全威胁。
3. 故障管理系统:建立完善的故障管理系统,可以帮助运维团队快速定位和解决网络故障。
此外,还可以采用自动化的故障排除工具,快速识别并解决常见的故障问题。
4. 性能监控与优化:利用性能监控工具实时监测网络性能,对网络瓶颈进行识别和优化。
定期进行性能测试和评估,确保网络的高效运行。
5. 规模化管理平台:借助网络运维管理平台,可以集中管理和监控企业所有网络设备。
管理平台包括设备自动发现功能,以及集中化的设备配置管理、事件管理和性能管理等功能,提高管理效率。
运维工作中的常见挑战及应对策略

运维工作中的常见挑战及应对策略在当今数字化的时代,运维工作对于企业的正常运营和发展起着至关重要的作用。
运维人员需要确保系统的稳定性、安全性和高效性,以支持企业的业务持续运行。
然而,在实际的运维工作中,往往会面临各种各样的挑战。
一、运维工作中的常见挑战1、复杂的系统架构随着企业业务的不断发展和技术的不断更新,系统架构变得越来越复杂。
可能涉及到多个服务器、数据库、网络设备、应用程序等,它们之间的相互关系错综复杂。
这使得运维人员在进行故障排查、性能优化和系统升级时面临巨大的困难。
2、频繁的变更管理业务需求的不断变化导致系统需要频繁进行变更,如软件的更新、配置的修改、新功能的上线等。
如果变更管理不当,很容易引发系统故障,影响业务的正常运行。
3、资源紧张包括硬件资源(如服务器内存、存储)和人力资源。
硬件资源不足可能导致系统性能下降,而人力资源紧张则会使运维人员面临巨大的工作压力,难以应对突发情况和进行深入的系统优化。
4、安全威胁网络攻击、数据泄露等安全威胁日益严峻。
运维人员需要不断加强系统的安全防护,及时发现和处理安全漏洞,确保企业数据的安全。
5、监控与预警的难题有效的监控是及时发现问题的关键,但建立全面、准确的监控体系并非易事。
同时,如何从大量的监控数据中快速准确地识别出关键的预警信息也是一个挑战。
6、跨部门协作的障碍运维工作往往需要与开发、测试、业务等多个部门紧密协作。
但由于部门之间的目标、工作方式和优先级不同,可能会导致沟通不畅、协作困难,影响问题的解决效率。
7、高可用性的要求许多企业的业务对系统的可用性要求极高,需要实现 24/7 不间断运行。
这对运维人员的技术水平和应急处理能力提出了很高的要求。
二、应对策略1、优化系统架构对复杂的系统架构进行梳理和优化,简化系统之间的关系,采用模块化、分布式的架构设计,提高系统的可维护性和可扩展性。
同时,建立完善的系统文档,记录系统的架构、配置和运行逻辑,方便运维人员快速了解系统。
服务器运维中常见问题及解决方案

服务器运维中常见问题及解决方案在进行服务器运维工作时,经常会遇到各种各样的问题,这些问题可能会影响服务器的正常运行,甚至导致系统崩溃。
为了保障服务器的稳定性和安全性,及时解决这些问题至关重要。
本文将介绍一些服务器运维中常见的问题,并提供相应的解决方案,希望能帮助大家更好地应对这些挑战。
一、服务器性能问题1. 问题描述:服务器性能下降,响应速度变慢,甚至出现卡顿现象。
解决方案:首先可以通过监控工具查看服务器的负载情况,找出是否有某个进程占用了过多的资源。
可以尝试优化代码、增加硬件资源(如CPU、内存)或升级服务器配置来提升性能。
另外,定期清理服务器日志和临时文件也是提升性能的有效方法。
2. 问题描述:服务器频繁宕机或重启。
解决方案:首先检查服务器硬件是否正常,如电源、内存、硬盘等是否存在故障。
其次,查看系统日志,找出导致服务器宕机的原因,可能是由于软件bug、系统配置错误等引起的。
及时更新系统补丁、升级软件版本可以解决一些潜在的问题。
二、网络问题1. 问题描述:服务器无法访问外网或内网,网络连接异常。
解决方案:首先检查服务器的网络配置,确保IP地址、子网掩码、网关等设置正确。
可以通过ping命令测试网络连通性,找出网络故障的具体原因。
如果是防火墙导致的网络问题,需要检查防火墙规则是否设置正确,是否阻止了服务器的网络访问。
2. 问题描述:服务器遭受DDoS攻击,网络带宽被占用。
解决方案:可以通过配置防火墙规则、使用DDoS防护服务等方式来应对DDoS攻击。
另外,及时更新系统补丁、加强服务器安全配置也是防范DDoS攻击的重要手段。
三、安全问题1. 问题描述:服务器存在安全漏洞,可能被黑客攻击。
解决方案:定期对服务器进行安全漏洞扫描,及时修补漏洞是防范黑客攻击的有效方法。
另外,加强服务器的访问控制、配置防火墙、使用安全加固工具等措施也可以提升服务器的安全性。
2. 问题描述:服务器遭受恶意软件感染,系统数据被篡改或删除。
安全运维工作难点分析及措施

应用系统多样
企业内部存在大量不同类型的应 用系统,如ERP、CRM、OA等, 每个系统都有不同的安全需求和 漏洞风险。
安全管理策略难以统一
安全标准不统一
不同系统、不同应用的安全标准和管理要求各不相同,难以实现 统一的安全管理策略。
安全技术多样
针对不同系统和应用,需要采用不同的安全技术和管理手段,增加 了安全管理的复杂性和难度。
建立完善的安全运维培训体系,提升人员技能 水平。
加强团队建设,提高人员稳定性和工作积极性。
难点二:复杂系统
04
环境下的安全管理
系统环境复杂度高
系统架构复杂
现代企业IT系统通常采用微服务 、容器化等先进技术,系统架构 复杂度高,安全管理难度大。
网络环境复杂
企业网络环境包括内部局域网、 外部广域网、云计算环境等,网 络设备和连接众多,难以全面监 控和管理。
致工作效率低下且易出错。
缺乏智能分析与预警
02
现有的安全运维系统缺乏智能分析与预警能力,无法及时发现
潜在的安全威胁并做出响应。
智能化技术应用不足
03
尽管人工智能、机器学习等技术在安全领域取得了一定进展,
但在实际安全运维工作中的应用仍显不足。
应对措施及建议
完善数据采集体系
建立全面的数据采集体系,覆盖网络、主机、 应用等各个层面,确保数据的完整性和准确性
安全运维现状分析
介绍当前企业安全运维的现状,包括团队构成、技术水平、工作流程 等方面。
难点与挑战
详细阐述在安全运维工作中遇到的难点和挑战,如技术更新迅速、攻 击手段多样、人员技能不足等。
解决措施与实践
提出针对安全运维难点的解决措施和实践经验,如完善技术体系、
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
运维服务管理的5大难点及对策以下基于我们公司的情况讨论运维服务管理,可能不是非常具有代表性,只是希望找出运维服务管理中经常碰到的难点,以及对应的解决方法。
前段时间,一位朋友说了一个观点,运维服务是自动化程度最低的一个行业,很有意思,那运维服务会不会也是管理最薄弱的一个行业呢?我接触运维服务的时间不长,但个人总觉得我们把运维服务搞得复杂化了,没有看透业务本质。
在运维服务行业,真正意义上的管理者非常缺乏,我说的“管理者”,是用对象的方式看待业务与流程的。
有时我们过于强调行业经验的重要性,事实上在管理领域,行业的特性对管理者提出的特殊要求没有我们想象的多。
运维服务尚未真正形成行业,多数的领导者不以管理见长,多是从底层或技术部门提升而来,视野与管理理念缺乏,妨碍了运维服务管理的成熟与发展。
以下我将对运维服务管理的一些难点展开说明。
一.项目型管理方式的挑战当一个组织以项目的形式运作管理时,在管理上积淀是比较困难的。
项目本身就是一个独立的权力结构,公司的组织机构是按部门、科室式划分,管理体系也多以部门职能划分流程,这时权力的矛盾就会在业务运作时产生,发生资源的略夺行为。
要么部门难以管理,要么项目难以管理。
而项目是一个临时的组织,这种人力的汇聚与释放都比较麻烦,起用一名人力需要相当长的磨合期。
而公司的任务往往是周期性的(最小时间单位很大),这时人力释放并不意味可以马上投入利用,这种痛苦没有经历过很难体会到,这比你在ERP中排生产计划还要难。
运维服务一般是以项目的形式管理的,项目内的作业与部门或公司的管理往往存在偏差。
如果部门或公司处于强势地位,项目内的作业往往会被冲击,或者被动敷衍配合公司的管理。
比如培训,站在部门或公司的角度希望搞员工能力提升的培训,这种计划安排,往往与项目内希望做的培训有非常大的出入。
项目的一线主管,往往认为公司或部门不是帮助他们,而是一个麻烦制造者。
一旦项目数量大时,这种情况越普遍。
因为项目越多,上层对规范、标准化的愿望就越发强烈,当一线主管花费越来越多的管理资源,配合公司的规范与标准时,对项目的控制力就会下降。
一旦发生问题,上层领导就会认为是缺乏规范与标准化所致,形成一个恶性循环。
我经常看到一种现象,当某个项目发生个严重运维事件时,马上会短时间把管理资源堆积起来,对事件进行深入到可怕的分析,然后制订出一个非常完备的制度,要求每个项目进行落实。
这种做法会起良性作用吗?我怀疑,因为反应过度了,也有些缺乏理性。
资源永远是有限的,你把多数的资源花在防止概率很低的问题上,而让那些概率较高的问题没有相应的管理资源去控制,你采用的措施会妨碍你达到目的。
对运维服务而言,你让客户用一个最重要的词说出他的要求,他们往往会说“稳定”。
同样,运维服务管理也是最需要稳定的,救火堵漏的做法不可取。
先稳定你的管理,再去谈改善。
永远处于制度的发布与调整中,会让运维服务管理成为最大的运维风险。
我觉得此时领导者的作用非常重要。
作为高层领导,由于缺乏细节信息,对自已的运维服务管理缺乏信心,一旦发生问题,就会过度反应,这种现象是非常可怕的。
作为运维服务的管理部门,一定要想清楚自已应该做什么,你的管理边界在什么地方。
你是一个政策制订者,不应该越过项目的边界去干涉项目的内部事务。
管理部门负责服务体系的维护与执行监督,及所有服务资源的调配,这才是最重要的。
更细节层面,管理部门应该只扮演辅助角色。
二.运维资源的充分利用问题有时我会想一个问题:做运维的人员,是应该忙还是闲呢?这是个很矛盾的问题。
如果忙,那证明你的运维问题比较多;闲吧,证明你运维问题比较少,但你的资源可能没有充分利用。
那有没有一种可能,把每一个运维人员的工作安排得都不是那么忙,也不是那么闲呢?运维最大的成本是人力成本,想办法提高工时利用率,本无可厚非。
但分析下来,做到这一点有时不现实,或者是很困难的。
在多数运维服务中,你的运维对象不是标准化的,尤其是在软件领域。
这决定了你的人员复用是困难的,因为一个人员的脑子只能装进几个系统,而每个系统的升级与处理故障的知识是每隔一段时间就更新的。
举这样一个例子:A系统每天的问题处理需要3小时,B系统需要3小时,现在由两个不同的人员负责,那是不是可以由一个人负责运维这两个系统呢?现实肯定是行不通的。
即便一个人可以掌握两个系统运维的知识,两个系统发生故障的时间完全有可能重叠,还有其它临时事务排挤在一起,造成服务问题。
这种情况下,人力的闲置不可避免。
虽然即便一名服务人员的资源没有充分利用,客户也会购买你整个的人力。
但当这样的闲置情况很多时,作为一个商业公司,就要想办法去提高资源利用率。
这方面好像除了提高人员的运维能力外,没有更好的办法对应解决。
三.服务台管理问题服务台设立也是一个比较复杂的课题。
怎样的服务台才最有效、最节省资源?如果仅仅为了满足参观者的感官,让一帮戴着耳机的热线MM坐成一片,忙碌着,用甜美的声音问着好,确也显得气派。
但现实情况中,这样的服务台很可能没起到作用,是在浪费运维资源。
项目多时,服务台的人员恐怕听不懂客户在说些什么,尤其当你的运维服务不是标准化的产品服务时(比如桌面)。
比如,一个客户打电话过来,说“我的售车申报做不了”,服务台人员如果没有深入的项目知识,估计连是哪个系统都搞不清楚,甚至连问题描述与等级都不知道如何定(注意服务台人员要在ITSM系统中派单)。
这时,服务台可能直接转电话或者草草记录下来,其作用跟一个4万元的语音菜单没有区别。
更有意思的是,语音菜单会在客户电话时提示:A系统请按1,这时电话是接入到服务台,还是接入到这个系统的一线工程师呢?如果服务台可以处理这个电话,事实上服务台就是一线。
多数情况下,服务台人员无法处理这类电话,除非你把所有一线工程师纳入服务台。
在运维服务中,当你的服务台无法做一线支持时,不设立专门的热线MM会合适些,或者把你一线支持人员全部纳入服务台中,把服务台做成一个虚拟或混合型的。
我们的情况跟上述有些类似,服务台人员不了解具体的项目知识,需要把电话转到一线人员处;或者告诉一线人员,由一线人员跟客户联系,最后客户都不打电话到服务台了。
我个人倾向于把一线人员纳入服务台,取消单纯接电话性质的服务台人员,这会节约运维资源,但这也会产生一些问题,比如谁来监督事件的服务质量。
四.运维服务分析问题运维服务中,我们一直强调改善,改善就意味着一要清楚你的现状,二要清楚你的目标。
这两点是要基于大量数据分析的,我们说的改善不是针对项目这么微观的层面,而是基于整体的层面,这意味着你的数据有一个度量标准。
这个标准适于不同类型的项目,不然你根本无从知道你的整体状况。
这里ITIL中的SLM有一个指引作用,但这还不够,我认为要做到深入的运维分析,需要以下几个要素:①需要有一个精确的CMDB:CMDB提供信息让你方便把每一次事件定位,以便知道什么地方什么组件出了多少问题,在项目层面可以提供精确的数据做改进(哪一个模块是问题最多的);在管理层面,CMDB的附带信息会告诉你,哪一类设备是我们运维的薄弱环节(如果硬盘的故障比重较大,我们可能换供应商,或者提升运维人员的硬盘维修能力)。
②需要有一个横向业务分类基准:要基于组织层面,规划出一个分类数据,以供每一个项目统一调用。
比如事件的类型,我们可以分为:故障、请求、咨询、新需求、投诉,这样可以跨项目统计,每个周期内每一个事件类型有多少。
比如事件的分类:我们可以分为软件、硬件、网络、数据库、接口、业务。
③需要时间资源的记录:这一部份的数据采集最为困难,也最有价值。
它与上面的信息交互分析,可以知道哪一类设备花去我们最多的时间资源(CMDB),可以知道我们硬件故障的平均处理时长是多少(事件分类),还可以知道新需求会花去我们多少时间资源(事件类型)。
除此之外,基于员工的绩效分析以及运维结算的数据统计都需要基于此部份信息。
运维服务分析,个人的意见是:没有ITSM软件,是难以展开的。
五.软件化管理问题运维服务作业采用ITSM软件管理,这本没有什么值得争议,说来我也在设计与推行这种工具,但应用时的确两难。
有人问我,用ITSM系统对一线工程师到底有什么好处?换位思考,如果我是一名一线工程师,我是不愿意使用这种工具的,我快速把事件搞定,不去填任何信息,来得多快。
说什么知识库与CMDB,我没有这些时,故障一样可以处理。
我不是否认我设计的东西,只是它真正的价值在于平台与运维服务管理,而不在于具体的业务支持。
ITSM系统的上线,会降低运维服务成本吗?会提高运维服务的效率吗?我的回答是不会,起码短期不会。
同样是修一台电脑,怎么可能会因为上一个ITSM工具,以前需要30分钟,现在就只要20分钟呢?人们一直没有理解管理软件的真正价值。
管理软件首先要满足管理的需求,而不是具体业务操作的需求。
你想提高桌面的运维效率么?SMS是解决这一方面问题的。
上ITSM工具,是为了固化你的体制与流程,让你的服务体制更规范、标准化,形成一面镜子,把你真实的运维现状反映出来,让你的运维服务管理起来。
如果说某段时间增加了你的成本,那么这个成本是你必须付的,这是你以前欠下的债。
用一个不恰当的例子,学内功不能让你很快打倒一个人,学一个招式可以。
但学十年的内功跟学十年的招式相比,前者更具成效,而且当你学了招式一两年后,你会发现你无法进步,因为缺乏根基。
要想清楚你上ITSM工具是为什么,你要解决什么问题,如果你不是为了解决管理上的问题,而是为了提高工程师效率,那么不是你的目的错了就是选择错了。
只有当你的运维服务管理稳定成熟后,才能为你后续一切提升提供源源不断的动力、方向、决策支持数据,而软件就是帮助你前行的有力工具。
ITSM工具,由于SLA的计算,对事件处理信息录入有较苛刻的要求,这对需要在厂区跑来跑去的工程师来讲是比较麻烦的。
比如象桌面项目的服务工程师,他们不可能随身带着电脑,外面服务时,都是电话派单过去。
事件单关闭不及时,会引起SLA的计算失真问题。
这都是些负面影响,在软件功能上很难有什么解决办法,需要有其它的对应方式。
选取了ITSM工具,如果领导者不坚定,最后应用可能得不偿失。
如果没有强力实施到底,到时数据采集不到,管理分析无法有效进行,反而会让工程师怨声一片,两头不讨好。
退一万步说,最坏的结果是,不能有效支持业务活动,工程师比以前填写更多的信息,但对公司来说,有负面影响吗?我们不会因为上一个ITSM工具而多请几个人,也不会因为上一个ITSM工具多发一些加班费,所以成本是不会因此上升的。
长期来说,收益一定是有的。