样章_海量运维监控系统规划与部署(基于Linux+Nagios+Centreon+NagVis等)
监控安装部部署方案

监控安装部部署方案监控是现代IT运维管理中不可或缺的一部分。
监控可以帮助我们识别问题并及时解决,避免服务中断和损失。
在这里,我们将探讨如何进行监控安装部部署方案。
确定监控目标在进行监控安装部署前,首先需要确定监控目标。
监控目标可能是服务器、数据库、网络设备、应用程序或服务等。
要考虑的因素包括监控目标的数量、种类、位置和复杂性。
需要对不同的目标设定不同的监控策略,以满足不同的监控需求。
选择监控工具选定监控目标后,需要选择合适的监控工具。
监控工具的选择要考虑多个因素,如价格、可靠性、可扩展性、易用性和功能等。
常见的监控工具包括Zabbix、Nagios、Prometheus等。
这里以Zabbix为例进行介绍。
Zabbix简介Zabbix是一款开源的网络监控工具,具有强大的功能和灵活的配置选项。
其主要特点包括:•支持多种监控对象,如服务器、网络设备、应用程序和数据库等。
•支持多种监控方式,如SNMP、IPMI、JMX、HTTP等。
•支持多种告警方式,如邮件、短信、微信、Telegram等。
•支持数据可视化和报表生成,如图形、曲线、饼图、柱状图等。
Zabbix安装在安装Zabbix前,需要首先安装好以下软件包:•web服务器:如Apache或Nginx等。
•数据库服务器:如MySQL或PostgreSQL等。
•PHP:建议使用版本为5.4以上。
安装Zabbix的步骤如下:1.下载并解压Zabbix软件包:$ tar zxvf zabbix-4.4.1.tar.gz2.进入解压后的目录:$ cd zabbix-4.4.13.执行configure脚本:$ ./configure --prefix=/usr/local/zabbix --enable-server --enable-agent --with-mysql --with-net-snmp --with-libcurl4.执行make命令:$ make5.执行make install命令:$ make installZabbix配置完成Zabbix安装后,需要进行配置。
linux运维项目案例

linux运维项目案例Linux运维项目案例1. 项目名称:服务器性能优化项目概述:本项目旨在对公司的服务器进行性能优化,提高服务器的稳定性和响应速度,保证系统的正常运行。
项目目标:- 提升服务器的性能,减少系统响应时间- 优化服务器的资源利用率,提高系统的稳定性- 针对服务器瓶颈问题进行定位和解决- 实施监控系统,及时发现和解决服务器性能问题项目实施步骤:1. 服务器性能评估:- 分析服务器的硬件配置、操作系统版本、应用程序等情况- 使用工具对服务器进行性能测试,如top、vmstat等- 收集服务器运行日志和性能数据进行分析2. 服务器性能优化:- 根据评估结果,针对性地优化服务器性能- 调整系统内核参数,优化网络、磁盘和内存等子系统- 针对应用程序进行性能优化,如代码优化、数据库调优等- 配置负载均衡,提高系统的可扩展性和负载能力3. 服务器监控系统:- 部署监控系统,实时监测服务器的性能指标- 设置阈值和告警规则,及时发现和解决服务器性能问题- 记录服务器的历史性能数据,进行性能趋势分析和容量规划4. 项目验收:- 对优化后的服务器进行性能测试,验证优化效果- 撰写项目报告,总结项目的收获和经验教训- 提供相关文档和培训,确保项目交付后的可维护性和可扩展性项目收益:通过服务器性能优化项目,可以获得以下收益:- 提高用户体验,减少系统响应时间,提高网站访问速度- 减少服务器的资源占用,节省硬件成本和能源消耗- 提升系统的稳定性,减少服务器宕机和故障的风险- 降低维护成本,减少故障排查和优化的工作量项目风险:- 优化不当可能导致系统不稳定或性能下降- 优化过程中可能需要重启服务器,导致系统中断- 优化结果可能与预期不符,需要进一步调整和优化项目团队:- 项目经理:负责项目计划、进度和质量管理- 运维工程师:负责服务器性能评估和优化工作- 网络工程师:负责网络性能优化和负载均衡配置- 数据库管理员:负责数据库性能调优和容量规划项目时间计划:- 服务器性能评估:2天- 服务器性能优化:5天- 服务器监控系统:3天- 项目验收及文档编写:2天以上是一个典型的Linux运维项目案例,通过对服务器性能进行评估和优化,可以提高系统的稳定性和响应速度,为企业的业务提供更好的支持。
nagios监控端安装配置手册

一、系统环境与软件版本情况本文档使用被监控机的操作系统为rhel6.3 _64位。
监控主机操作系统为rhel6.0 _64位及windows 2003,nagios主服务版本Nagios® Core™ 3.2.3,linu被监控机与主监控通信插件NRPE版本为nrpe-2.8.1。
window被监控机与主监控服务软件为NSClient++-0.2.7所使用的软件如下nrpe-2.8.1.tar.gzNSClient++-0.2.7.zip二、安装配置过程。
因为系统安装大家都非常熟悉了此次略过操作系统安装过程,首先是linux环境下被监控机的安装配置过程。
在安装之前先写个nagios监控非本地信息的原理图主监控机被监控机NRPE总共由两部分组成:–check_nrpe 插件,位于在监控主机上–NRPE daemon,运行在远程的linux主机上(通常就是被监控机)按照上图,整个的监控过程如下:当nagios需要监控某个远程linux主机的服务或者资源情况时1.nagios会运行check_nrpe这个插件,告诉它要检查什么.2.check_nrpe插件会连接到远程的NRPE daemon,所用的方式是SSL3.NRPE daemon会运行相应的nagios插件来执行检查4.NRPE daemon将检查的结果返回给check_nrpe插件,插件将其递交给nagios做处理.注意:NRPE daemon需要nagios插件安装在远程的linux主机上,否则,daemon不能做任何的监控.因为使用rehl线上的yum源安装需要授权,所以先使用iso搭个本地的yum源。
mount /dev/cdrom /mnt/cdrom/ 挂载光驱mkdir /home/rehliso 创建yum源目录。
cp -Rf /mnt/cdrom/* /home/rehliso/ 拷贝安装文件到源目录cd /etc/yum.repos.d/ 切换至yum配置文件目录cp rhel-source.repo rhel-source.repo.bak 备份配置文件vi rhel-source.repo 编辑配置文件,删除之前内容加入[rhel_6_iso]name=local isobaseurl=file:///home/rehlisogpgcheck=1gpgkey=file:///home/rehliso/RPM-GPG-KEY-redhat-release保存退出Yum clean all清除YUM缓存因为是用二进制安装包进行安装所以要先安装gcc编译器yum -y install gcc 安装gcc编译器安装完成后用sftp上传安装文件nrpe-2.8.1.tar.gz, nagios-plugins-1.4.13.tar.gz至/usr/local/src/目录下创建nagios用户Userad nagiosPasswd nagiosCd /usr/local/src 切换至/usr/local/src/目录解压安装包tar zxvf nagios-plugins-1.4.13.tar.gzcd nagios-plugins-1.4.13编译安装./configuremakemake install这一步完成后会在/usr/local/nagios/下生成两个目录libexec和share修改目录权限把权限所属chown nagios.nagios /usr/local/nagios/chown -R nagios.nagios /usr/local/nagios/libexec/至此被监控机nagios插件已经安装完成,接下来就是安装nrpe服务了切换至软件包目录Cd /usr/local/src解压安装文件tar zxvf nrpe-2.8.1.tar.gzcd nrpe-2.8.1编译安装./configurechecking for SSL... configure: error: Cannot find ssl libraries 出现了该错误主要是因为监控主机插件check_nrpe与被监控nrpe服务的通信是通过ssl方式连接的所以必须安装sslyum -y install openssl-devel 所以这个可以在gcc安装时顺便也安装了ssl安装完成后重新./configure*** Configuration summary for nrpe 2.8.1 05-10-2007 ***:General Options:-------------------------NRPE port: 5666NRPE user: nagiosNRPE group: nagiosNagios user: nagiosNagios group: nagiosReview the options above for accuracy. If they look okay,type 'make all' to compile the NRPE daemon and client.成功后会出现以上安装的基本信息接下来编译安装make allmake install-daemonmake install-daemon-configmake install-plugin 安装check_nrpe这个插件之前说过监控机需要安装check_nrpe这个插件,被监控机并不需要,我们在这里安装它是为了测试的目的安装xinetd脚本make install-xinetd这里还要补充一下因为官网的安装文档是将NRPE deamon作为xinetd下的一个服务运行的.在这样的情况下xinetd就必须要先安装好,所以还得确定系统是否已经安装了xinetd的服务[root@localhost nrpe-2.8.1]# service xinetd restartxinetd: unrecognized service服务并未安装yum -y install xinetd 安装xinetd服务安装完成后修改配置文件vi /etc/xinetd.d/nrpeservice nrpe{flags = REUSEsocket_type = streamport = 5666 端口wait = nouser = nagios 用户group = nagios 用户组server = /usr/local/nagios/bin/nrpeserver_args = -c /usr/local/nagios/etc/nrpe.cfg --inetdlog_on_failure += USERIDdisable = noonly_from = 127.0.0.1,192.168.1.243}only_from = 127.0.0.1,192.168.1.243在后面增加监控主机的地址192.168.1.243以空格间隔编辑/etc/services文件,增加NRPE服务端口添加如下信息nrpe 5666/tcp #nrpe查看防火墙是否启动chkconfig iptables –list如果启动需要添加5666端口的开放规则vi /etc/sysconfig/iptables-A INPUT -m state --state NEW -m tcp -p tcp --dport 5666 -j ACCEPT添加该条目service iptables restart 重启iptables服务重启xinetd服务service xinetd restart检查服务端口状态[root@localhost ~]# netstat -natp |grep 5666tcp 0 0 :::5666 :::* LISTEN 1959/xinetd 服务端口已经启动测试NRPE是否则正常工作之前我们在安装了check_nrpe这个插件用于测试,现在就是用的时候.执行[root@localhost ~]# /usr/local/nagios/libexec/check_nrpe -H localhostNRPE v2.8.1返回了版本信息说明nrpe已经正常的工作了。
运维与监控系统设计

运维与监控系统设计1. 系统设计概述运维与监控系统是一种集合了运维工作和监控任务的综合性系统,旨在提升公司的运维效率和服务质量。
本文将从运维与监控系统的需求分析、系统架构设计、功能模块设计和性能优化等方面进行详细介绍。
2. 需求分析运维与监控系统设计的首要任务是满足运维人员的日常需求,大致包括以下几个方面:2.1 实时监控:能够实时监控系统各项指标,包括服务器的负载、数据库的连接数、网络带宽等等。
2.2 预警机制:能够准确判断异常情况,并及时发出预警通知。
对于已知的异常情况,能够根据预先设定的规则进行自动处理。
2.3 故障排查:提供详尽的日志信息,以便运维人员能够快速发现和解决故障。
2.4 可靠性提升:系统设计要考虑到容错、负载均衡和线上系统切换等关键点,以确保服务能够持续可用。
3. 系统架构设计针对以上需求,运维与监控系统可以采用分布式架构,以提高系统的可扩展性和鲁棒性。
分布式架构的基本设计包括以下几个核心模块:3.1 数据采集模块:负责采集各类监控数据,可以通过Agent的方式安装在需要监控的服务器上,定时向中心服务器发送数据。
3.2 数据存储模块:负责存储采集到的监控数据,可以使用无SQL数据库或者关系型数据库。
3.3 数据处理模块:负责对采集到的监控数据进行处理和分析,生成报表和图表,以便运维人员能够清晰地了解整体系统的状态。
3.4 异常检测模块:负责根据预先设定的规则检测异常情况,并发出预警通知,可以使用机器学习等技术提高检测的准确性和可靠性。
3.5 用户界面模块:提供用户操作界面,包括实时监控展示、报警信息查看、故障排查等功能。
4. 功能模块设计针对运维与监控系统设计的需求,具体的功能模块可以按照以下几个方向进行设计:4.1 实时监控模块:通过图表、曲线等形式展示实时的监控数据,可以根据需要定制监控指标。
4.2 预警机制模块:根据系统异常情况的严重程度进行预警,可以通过邮件、短信、微信等方式发送预警通知。
Nagios安装与配置详解

Nagios学习笔记之(一)最初搭建2012-07-17 13:05:08标签:linux监控nagios cacti声明:原创作品,如需,请与作者联系。
否则将追究法律责任。
Nagios学习笔记之一最初搭建一、简介:Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等。
在系统或服务状态异常时发出或短信报警第一时间通知运维人员,在状态恢复后发出正常的或短信通知。
二、搭建过程:OS:CentOS 5.5 x86_64(最小化即可)Nagios主程序:nagios-cn-3.4.1Nagios插件:nagios-plugins-1.4.15.tar.gz2.1安装前:2.1.1安装依赖包,下载源程序包1.#cd/etc/yum.repos.d/2.#rm-fr./*3.#wget wget mirrors.163./.help/CentOS-Base-163.repo4.#yum makecache#删除系统自带的yum源,下载网易的网络源并更新缓存1.#yum-y install gcc glibc glibc-common gd gd-devel httpd#安装必须的依赖包1.#wget /sourceforge/nagios/nagios-3.4.1.tar.gz2.#wget /sourceforge/nagiosplug/nagios-plugins-1.4.15.tar.gz#下载nagios主程序以及插件程序2.1.2正式安装:1.#groupadd nagcmd2.#useradd-G nagcmd nagios3.#usermod-G nagcmd apache#创建一个用户组名为nagcmd用于从Web接口执行外部命令。
将nagios用户和apache用户都加到这个组中。
1.#tar zxf nagios-3.4.1.tar.gz2.#cd nagios3.#./configure--prefix=/usr/local/nagios --with-command-group=nagcmd4.#解压程序包,并进行预编译前的配置(默认用户就是nagios,所以只需指定组)5.#make all#编译Nagios程序包源码6.#make install#安装二进制运行程序7.#make install-init#初始化脚本8.#make install-config#配置文件样本9.#make install-commandmode#设置运行目录权限10.#make install-webconf#安装Nagios的WEB配置文件到Apache的conf.d目录下#htpasswd -c /usr/local/nagios/etc/ers nagiosadmin#创建一个nagiosadmin的用户用于登录Nagios的web界面。
运维监控系统

运维监控系统【⒈系统概述】本章节主要介绍运维监控系统的概要信息,包括系统的目标、功能和特点等内容。
【⒉系统架构】本章节详细描述运维监控系统的整体架构,包括各个组件、模块和技术栈的组成,并展示它们之间的关系和交互。
【⒊系统模块】本章节罗列出运维监控系统的所有模块,每个模块包括功能描述、输入输出接口、依赖关系等详细信息。
【⑴数据采集模块】本节详细介绍数据采集模块,包括数据采集的对象、采集方式、数据格式等内容。
【⑵数据存储模块】本节详细介绍数据存储模块,包括存储方式、数据结构、数据清洗和去重等操作。
【⑶数据处理模块】本节详细介绍数据处理模块,包括数据预处理、特征提取、数据分析等操作。
【⑷告警模块】本节详细介绍告警模块,包括告警策略、告警通知方式、告警处理流程等内容。
【⑸可视化模块】本节详细介绍可视化模块,包括图表展示、数据查询、报表等功能。
【⒋系统部署与配置】本章节详细描述运维监控系统的部署和配置要求,包括硬件需求、软件依赖、环境准备等内容。
【⒌用户手册】本章节为运维监控系统的用户提供详细的操作手册和教程,包括系统使用、配置和常见问题解答等内容。
【附件】⒈数据采集模块接口文档⒉数据存储模块配置文件示例⒊告警模块示例规则配置【法律名词及注释】⒈版权:指对创作的文学、艺术和科学作品享有的某种特权,并授予他人使用此作品的限定权利。
⒉专利:指为保护发明者在技术领域的创新,国家授予给其专利权,使其在一定期限内对该技术享有独占权利。
⒊商标:指用以区别特定商品或服务的标志,如标识、符号、名称或装潢,以及一系列的声音、颜色和形状等。
运维监控中心建设方案

运维监控中心建设方案1. 引言随着互联网的快速发展和公司规模的不断扩大,企业的IT系统越来越复杂,对运维监控的需求也越来越迫切。
运维监控中心作为企业IT系统稳定性和性能监控的核心组成部分,起到了重要的作用。
本文将介绍运维监控中心建设的目标与原则、硬件与软件选型、建设步骤以及后续运维工作等方面的内容。
2. 目标与原则建设运维监控中心的目标是实现对企业IT系统运行状态和性能的全面监控,发现问题并及时做出响应,确保系统的稳定性和高可用性。
为了实现这一目标,我们需要遵循以下原则:•全面性:监控中心应覆盖所有关键的IT系统和组件,包括服务器、网络设备、数据库、应用程序等。
•实时性:监控数据需要实时更新,并能够及时发出告警通知。
•可扩展性:监控中心应能够灵活地扩展,随着业务的发展和系统的变化而变化。
•可视化:监控数据需要以直观、易懂的方式展示,方便运维人员了解系统状况。
•智能化:监控中心应具备一定的智能分析和预测能力,提前发现潜在问题,并给出优化建议。
3. 硬件与软件选型3.1 硬件选型在选择监控硬件设备时,需要考虑以下因素:•性能:硬件设备需要具备足够的性能,以支持高并发访问,并能够处理海量的监控数据。
•可靠性:硬件设备应具备高可靠性,确保长时间稳定运行。
•可扩展性:硬件设备应支持灵活的扩展,以适应未来业务和数据的增长。
根据以上要求,我们推荐选择高性能的服务器和存储设备,并采用分布式部署架构,以提高系统的可用性和扩展性。
3.2 软件选型在选择监控软件时,需要考虑以下因素:•功能:软件应提供全面的监控功能,包括资源监控、性能监控、日志监控、事件告警等。
•易用性:软件应具备良好的界面设计和操作体验,方便运维人员使用和配置。
•可扩展性:软件应支持灵活的扩展,以适应不同业务需求和新的监控场景。
根据以上要求,我们推荐选择一款成熟的监控软件,如Zabbix或Nagios等。
它们都具备丰富的监控功能和较好的用户体验,同时也有强大的社区支持和插件生态系统。
监控系统配置使用(Nagios)

监控系统配置使用—Nagios
讲师:吴云鹏
税友软件集团股份有限公司
课程目标
nagios体系结构认识 • 帮助运维人员对nagios体系结构有更清晰的认识
如何配置监控项 • 帮助运维人员更有效的使用和配置nagios的监控项
理解监控项含义 • 帮助运维人员更好理解现有监控项的含义
2
课程大纲
3
系统介绍 原理、结构 部署、配置 监控项简介
问题交流
Nagios介绍
Nagios介绍: Nagios是一款用于系统和网络监控的应用程序,可在设定的条件下对主机和服务
进行监控,在状态变差和变好的时候给出告警信息。 Nagios 的特征包括: 1) 监控网络服务(SMTP、POP3、HTTP、NNTP、PING 等); 2) 监控主机资源(处理器负荷、磁盘利用率等); 3) 简单地插件设计使得用户可以方便地扩展服务的检测方法; 4) 当服务或主机问题产生与解决时将告警发送给联系人(Email)、页面声音报警 Centreon介绍: centreon作为nagios的分布式监控管理平台,它的底层使用nagios监控软件,通过 centreon页面可以简单方便地管理和配置nagios;
个性类监 控
监控项
Weblogic 类监控
Oracle类 监控
15
监控插件
插件作用
• 什么是插件?插件和命令的关系?
插件存放位置
• 存放在监控机位置?存放在被监控机位置?
现有插件
• 现有哪些插件?获取插件网站
16
回顾
通用监控
主机监控项 Weblogic监控项
Oracle监控项
17
个性监控
Godengate监控项 业务监控项 接口监控项
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
企业级IT监控系统概述众所周知,随着中国经济的迅猛发展,国内企业的信息化发展也取得了前所未有的成就,无论是部署规模还是运维规模都变得庞大起来。
伴随而来的企业信息化需求逐步迈向多元化,层次化,异构化,使得IT基础框架和上层应用日益复杂。
为了确保信息服务质量、提升安全性,对于在此类企业从事IT运维工作的管理人员和技术人员来讲,如何及时获得信息系统告警信息、迅速定位故障原因、快速高效地处理各类IT问题、降低故障率和故障响应时间等等,就称为亟待解决的问题和难点。
目前来说,很多企业的核心业务都已经完全信息化。
为了确保业务稳定可靠,并且快速有效地开展,企业经常会运用多个信息系统进行消息传递和系统交互,从而加大了故障定位的时间和问题解决的难度。
面对系统宕机或者服务中断,每一位负责任的IT运维管理人员在面对用户的投诉、领导的问责、同事们的紧张时,无不在殚精竭虑地思考如何能够快速准确地定位系统故障,及时采取有效手段使故障能够快速解决,业务能够及时恢复。
如此一来,研发并部署一套适合企业特点的,能够统一管理和展现各种监控资源,实现集中告警,全面协助IT运维管理人员实时掌握系统整体运行状态,快速定位故障,缩短处理时间的企业级IT运维监控系统就显得迫在眉睫了。
什么是IT运维监控系统既然IT运维监控系统这么重要,那么究竟什么才是IT运维监控系统呢?所谓IT运维监控系统,有如下两层含义-“监”指的是对其他服务器的检测、监视;“控”指的是对其他服务器的控制,掌控。
IT运维监控系统往往是一套独立的信息系统、或者是若干信息系统的集合,用以对其他信息系统进行问题检测,甚至能够实现对其他信息系统进行部分或者完全的远程控制。
例如,就服务器检测而言,监控系统能够周期性地连接到一个HTTP服务器上,检测其是否能够正常响应浏览器的请求。
又例如,监控系统能够接收系统管理人员的指令,在被监控的服务器上执行一个脚本,完成某项控制类操作。
这一切听起来好像很简单,但是别忘了,许多商业性质的系统监控软件都不再是简单的单一软件,而是摇身一变,成为多个组件在一起才能发挥作用的“套件”,且售价动辄都是上百万人民币,还不算上后期的实施和维护费用,其客户端的大小都在数百兆以上,成为不折不扣的重量级选手了。
如果实施得当的话,一套好的IT运维监控系统可以成为各类信息技术人员最好的朋友。
它能在信息系统出现灾难之前就提前告知系统管理员某些细微的故障症候,使管理人员能够未雨绸缪,及早采取措施避免系统发生不可修复的错误。
它也能够记录系统某些规律性的行为,使管理人员借以梳理并总结出信息系统的普遍行为,规划出系统的运行负载和服务能力。
IT运维监控系统还能够协助信息安全工程师发觉系统运行中的异常信息,能够实现IT运行的可视化,以帮助企业高层及时掌控信息系统的实时状态。
如果IT运维监控系统更加智能的话,它甚至在发现故障之后自行解决故障,而不用值班人员在发现故障后凌晨给系统管理员打电话惊醒对方的美梦。
也就是说,好的IT运维监控系统能够给企业信息技术人员和管理人员注入正能量,使大家能够非常愉快地投入每天的工作,而不是充当救火队员时刻紧张地准备冲到第一线。
但往往理想很丰满,现实很骨感。
很多时候,我们遇到的往往是糟糕的监控系统,它带给我们的只有种种的不快,例如如下场景,您是否似曾相识:●某些监控系统在遇到系统故障时,常常不报警、或者总是报警,不是让管理人员挨上级批评,就是被频繁的报警短信或者电话逼疯。
一般来说,前一种情况往往是由于监控系统长时间没有得到有效维护,继而导致无法发出有效报警引起的;而后一种情况则是由于监控项得不到合理调整而频频触发监控阈值引起的。
●某些监控系统往往在被监控端部署庞大的客户端程序,长时间运行后产生各种各样的问题,例如消耗服务器资源、触发服务器过度负载、引发安全漏洞、产生庞大的网络流量等。
●某些监控系统缺乏服务商良好的技术支持。
随着监控项的增多,监控项报警的能力逐渐丧失,效率越来越低,或者服务商提供的服务费用较高,增大了企业的运营成本。
●某些监控系统技术封闭,管理人员缺乏对该系统的全面了解,在出现报警故障等问题时无法寻找有效的技术支持,影响系统安全。
●某些监控系统架构封闭,可扩展性较差,无法针对业务灵活地添加或者调整监控项。
●某些监控系统不支持监控数据采集入库、数据展示、报表统计等功能,导致管理人员无法针对系统性能数据进行故障趋势分析和容量分析。
在当下国内的IT生态环境中,中小型的企业占据绝大多数,它们普遍有着和大型企业一样甚至更为复杂的IT基础设施,却不能拿出和后者同样的预算来雇佣同样高水平的24小时IT监控专家,更无法短时间内掏出一大笔钱来购买昂贵的商业监控软件或者相应的技术服务,长期承受着大型商业监控系统软件提供商或多或少的忽视。
与此同时,这些企业的核心业务又离不开IT技术的推动,更无法承受IT系统不可用带来的种种损失。
如果能够存在一套物美价廉的监控系统,既能适应中小型企业多样架构的IT环境,又具备良好的扩展性和兼容性,无疑会受到这些企业的热烈欢迎。
在此,我向大家隆重推荐一款开源IT运维监控系统软件组合-Linux、Nagios、Centreon和NagVis。
从操作系统到监控软件,从配置管理工具到可视化监控视图管理工具,这组软件将能够满足中小型企业甚至大型企业多样化的IT监控需求。
借助其高效可扩展的架构设计和智能灵活的监控插件,能够满足各类纷繁复杂的监控需求。
一句话概括来说:只有您想不到的,没有它做不到的。
开源监控软件之崛起-Linux、Nagios、Centreon和NagVis谈到开源监控软件,就不能不提到在业界众所周知的“四大”IT运维监控软件提供商-BMC、CA、HP和IBM。
根据Gartner的报告,这四位软件厂商在同领域解决方案中仍然占据着统治性的地位。
但这并不意味着“四大”厂商可以高枕无忧了,根据同一份报告,它们同样面临着内部的互相竞争以及来自开源监控软件的竞争。
例如,调查报告显示,有29%的受访者认为可以在自己企业内部部署开源监控软件,而且这个比率还在不断升高(Gartner 报告:“Challenges Loom for 'Big Four' IT Operations Vendors”April 20,2005)。
“四大”公司的IT运维监控解决方案作为一种成熟的、企业级IT运维管理平台,其优异表现是我们有目共睹的。
但纵使是最为强大的军队,如果没有一个好的指挥官,不懂得如何发挥这支军队的强大战斗力,那这支军队也不可能取得太多辉煌的战果。
在“四大”IT 运维监控系统部署和运行的一些实践中,就出现过各种各样的误区,其中有商务上的、有管理上的、更有技术上的原因,以至于将系统的部署以及后续运维带入了窘境,这种情况在IT 运维管理年预算不高的中小型公司中很常见。
Nagios是于2002年异军突起的一个轻量级的开源IT运维监控框架,它原来的名字叫Netsaint,是出于监控网络设备的目的而开发的。
在2002年问世之初,略显稚嫩的它面临着What’s up Gold、Big Brother、Host Monitor等小型监控软件,以及其他一些检测主机是否在线,是否存活的简单监控工具的强有力竞争。
在1.x的版本中,1.2发行版就已经非常稳定了,自此以来Nagios逐渐赢得了用户的信任,反过来又给它的开发者—Ethan Galstad以更强的信心投入到后续开发中去(/about/history)。
从最初的简陋个人工具到无所不能的监视利器,对于正面临重量级企业运维监控系统的高昂成本和维护压力的IT 运维工程师和管理人员而言,Nagios的出现为曾经阴霾的天空带来了灿烂的阳光。
作为开源家族中的重量一员,Nagios在设计之初,只能运行在Linux操作系统上,如Redhat、CentOS、Debian 和Ubuntu等主流Linux发型版本中,大都能够看到Nagios(从版本1.0到3.0)的发行包。
值得一提的是,Nagios在Linux的32位版本和64位版本中都工作得很好,因此操作系统版本位数并不是部署和运行Nagios的障碍。
一般来说,Linux操作系统系统安装完毕之后,需要安装一系列Development包,才能正常地编译、安装并运行Nagios。
除了主流Linux操作系统之外,部分商业Unix操作系统,例如AIX、Solaris,它们的高版本也都能够良好地运行Nagios。
但与安装后便已具备Nagios编译和运行环境的Linux 系统不同的是,这些商业Unix系统必须手动安装了诸如GCC、Mysql、Perl等必须的编译和运行环境之后,才能和Linux操作系统一样,编译和运行Nagios。
俗话说,智者千虑,必有一失,愚者千虑,必有一得。
诚然,Nagios作为出色的开源监控框架,其稳定性和安全性毋庸置疑。
但是,众所周知,Nagios是出了名的“难搞死”,其可用性和界面友好性一直是运维监控管理人员吐槽的对象。
Nagios基于Web的用户界面完全是基于CGI编写,由C语言直接生成Html代码,其风格仍然处在上个世纪,对于现在见惯了各种华丽界面的用户来讲,确实是风格丑陋。
更让人难以接受的是,Nagios的配置文件至今仍然基于文本,需要用Linux下的文本编辑器编辑管理。
且Nagios的不同配置文件之间关联复杂,当Nagios启动的时候需要检测配置文件之间,以及配置文件内各配置项之间的关联是否合乎规范,否则就会报出校验失败的错误信息,导致无法启动。
作为Nagios的开发者和维护者,要保持Nagios作为一款监控框架的严谨,就需要在安全稳定和易用友好两者之间做出取舍。
由于Nagios是一款用来监控生产系统核心服务器的监控软件,其稳定性和可靠性应该是首要考虑的对象。
基于以上权衡,Nagios的开发人员选择安全而忽视界面友好度也就可以理解了。
在Nagios的发行版中,包含了一个简单的CGI 用户界面,该界面向Nagios用户提供了简单的告警展示功能,但不包括任何配置文件管理、用户管理等配置文件管理功能。
为了弥补这些缺陷,开源世界的各位大神们就努力开发了一系列的Nagios后台管理工具盒前台展示界面,例如Nagios V-Shell、NagiosQL、ICINGA等,其中最著名的莫过于法国人开发的Centreon(/)这一款软件。
Centreon是一款Nagios的前端管理软件,拥有其他Nagios管理工具所无法比拟的优点。
Centreon具备强大的模板管理工具,支持批量添加主机和服务,能够自动建立主机和服务之间的关联,采用了AJAX技术,能够实现Web界面的自动刷新、ACL权限管理、日志管理、丰富的告警展示图形等功能。