大数据运维管理平台说明书

大数据运维管理平台说明书
大数据运维管理平台说明书

碧茂大数据运维管理平台说明书

版本控制

目录

简介 (3)

功能详细介绍 (3)

配置管理 (6)

集群监控 (11)

告警系统 (17)

巡检 (20)

知识库 (24)

简介

碧茂运维管理平台是针对大数据分布式集群系统设计的自动化运维管理平台,核心功能包括集群资产管理,监控系统,告警系统,系统巡检和运维知识库系统等。详细如下:

一、资产管理

提供可视化界面实现对主机和集群资源的统一配置和管理,对各项监控管理任务进行调度配置、监控和管理。方便运维人员能随时掌握系统全貌,集群服务角色分布情况,硬件资源分配情况,能根据管理需求进行定制化定时任务调度。

二、监控系统

1、主机的健康性能的监控

2、集群服务的端口、健康性能指标的监控

3、集群参数的监控,并自动给出调优建议

4、集群日志的监控预警,自动化收集汇总集群进程和应用日志,并对错误日志进行预警

三、告警系统

1、选择任意监控的指标和阈值,进行邮件告警

四、系统巡检(特色功能)

对系统和集群进行健康和性能检查,自动化生成巡检报告。分为基础巡检和深度巡检。

基础巡检指的是根据需求可以灵活选择需要巡检的服务、指标、参数,自动化生成巡检报告。深度巡检指的是对不同服务的结构对象进行深入分析诊断。

五、知识库系统(特色功能)

一套高质量的集群管理运维相关的知识管理系统,包括运维工具箱、最佳实践和解决方案。知识库系统中的方案可以一键执行来实现复杂运维流程的自动化处理,包括:

?日常集群操作需求,包括服务启停、参数修改、备份恢复、集群扩容迁移、安全配置和升级

?自动化故障处理

功能详细介绍

登录界面

用户首先需要获取license,激活产品后才能正常使用,提示如下:

点击激活,会自动生成机器码,请联系厂商获取激活码

激活后,会提示到期日,产品可以正常进行登录了

首页是向导页,以路线图的方式引导你进行集群配置和集群监控

配置管理

全局配置

用于配置全局参数和服务,包括数据保留配置、告警服务、告警配置和数据库配置等

修改全局参数

数据库配置

用于配置关系型数据库,支持Mysql和PostgreSQL等,通常是CM、Hive、Hue、Oozie等元数据库,方便管理和查询。

支持添加和删除数据库配置

主机配置

用于添加、修改和删除管理的主机信息

查看主机配置

添加配置

服务配置

用于添加修改或删除需要监控的集群类型、集群,包括服务、角色、主机、端口等目前支持的集群包括:CDH、HDP、ApacheHadoop、华为FusionInsight和星环

目前支持的服务包括:HDFS、YARN、HBase、Hive、Zookeeper、Impala等

查看监控服务配置

可以通过选择“集群名”或“服务名”来过滤查询

查看主机角色分布

添加监控配置

集群类型

服务

调度配置

用于配置和监控集群监控所需的定时调度服务,包括指标采集服务、监控服务、分析服务和其他需要定时调度的服务

查看调度配置

添加调度配置

查看调度日志

集群监控

此模块用于监控在“配置管理”模块中所添加的主机和服务

主机监控

监控主机的健康状态和各项关键指标,包括CPU、内存、网络、IO、进程等主机监控概览

所有集群主机的关键指标的展现,便于快速及时发现主机健康问题和资源问

单台主机监控页面

用于展现单台主机所有监控指标,便于深入了解主机的配置情况和分析重要监控指标以下是部分截图:

服务监控

监控集群服务的健康状态和性能指标。目前覆盖了HDFS、YARN、HBASE、HIVE等核心服务组件。

服务监控主页

概览整个集群的所有服务状态、集群基本信息和各个组件的关键指标信息。

另外,也提供了对集群的基本操作,包括服务启停等

点击“操作”,可以对整个集群或服务进行启停操作

服务监控详情页

用于展现单个服务所有监控指标,便于深入了解服务的配置情况和分析重要监控指标。此外,也可以对特定主机的角色进行操作。

以HDFS为例,以下是部分截图:

点击“操作”,对特定主机的角色进行启停

参数监控

监控集群服务的运行所配置的参数情况,用于及时掌握集群配置情况,参数分为:文件目录参数、主机端口参数、运行环境参数和性能参数4大类。每个参数都会有相应中文解释和调优建议,用户可以参考建议来优化集群。

以HDFS 为例,以下是部分截图:

日志监控

监控集群服务的进程日志和应用日志

进程日志监控

可以根据集群、服务、角色、日志级别和主机来选择要查看的日志类型,已经下载完整日志用于深入分析。

选择集群和日志级别,查看YARN应用日志

告警系统

此模块用于在监控过程中针对集群不合理的指标值(全局参数控制)进行预警

告警配置

查看告警阈值

点击参数,可调整告警阈值

点击“启动”后,告警服务会启动并及时发送告警邮件

每隔15分钟(全局参数控制)会重新检查并发送告警邮件,页面中可以看到告警信息页面告警

页面提示出现告警

点击右上角邮件图标,查看告警详情

邮件告警

巡检

此模块实现了集群自动化巡检和生成巡检报告,包括基础巡检和深度巡检两大块。

?基础巡检

基础巡检范围主要涉及集群架构配置、主机运行情况、集群运行情况和参数配置。每个巡检模块用户可以加入主观分析结果,即自定义填写分析结论和调优建议。

?深度巡检

深度巡检用于深度分析集群潜在的性能和配置问题。便于从规划和架构上对集群进行优化。详细包括:

HDFS

?文件目录信息

?HDFS管理报告

?HDFS快照信息

?FSCK文件系统健康检查

YARN

?基本信息

?集群指标

?调度队列

?应用信息

?应用统计信息

?集群节点信息

IT运维管理平台

简单运维 轻松管理 统一门户管理 云基础架构管理 管理 统计报表 无线管理 业务服务管理 数据中心管理 @ 告警管理

RIIL-BMC,综合业务管理平台 以IT业务价值为核心,帮助企业构建可视、智能的IT一体化管理动态模型,通过端到端海量IT数据的实时透视与分析,洞察企业IT正在发生的一切,为企业IT管理提供决策依据与最佳实践指引,提升企业IT运营管理水平,挖掘IT 业务价值。 统一门户管理 整合运维数据,打造个性化的信息看板 Portal一体化门户定位于连接RIIL各产品、各模块的统一访问门户,为用户提供整合的资源信息、统一的用 户登录认证、个性化的管理界面等服务 业务服务管理 业务运行状况有效度量与数据分析,快速定位业务故障点 业务服务管理帮助IT管理者全局掌握业务的运行状态和健康水平,了解动态变化趋势,快速查明问题源,降 低运营风险。同时可直观反映IT资源的运行状况对应用系统、核心业务以及用户的影响,遇到故障帮助IT人

业务体验分析 基于嗅探技术获取用户体验数据,提升用户满意度 关注用户满意度,实时监测各关键应用性能,提供详细的性能和故障现场数据,分析业务交易服务质量,构建以业务为中心的业务管理视图。帮助客户了解其业务应用系统的使用情况及最终用户的体验情况。 告警管理 智能化故障关联分析,提升故障处理时效 告警管理帮助管理人员实时掌握所有业务系统的运行状态,一旦发现异常,快速定位问题根源点,并主动通知责任人,采用直观的可视化方式进行故障分析管理,降低管理人员的工作难度,提升整体故障处理的工作效率。 无线管理 多厂商,有线、无线一体化管理 支持对锐捷、H3C、华为、Cisco、Aruba、Juniper、中兴等无线设备的的全方位管理。图形化展现无线设备及用户分布情况,用户体验好坏直观可视

运维监控管理平台建设方案(参考)

IT运维监控管理平台 建设方案 XXXXXXX

目录 第1章概述 (4) 1.1 建设背景 (4) 1.2 建设目标 (4) 1.3 建设思路 (5) 第2章系统总体设计 (6) 2.1 总体架构 (6) 2.2 设计原则 (7) 2.3 运维管理体系架构设计 (8) 2.3.1 系统总体架构设计 (8) 2.3.2 监控采集层 (9) 2.3.3 数据处理层 (9) 2.3.4 运行展现层 (9) 2.4 系统技术路线 (10) 2.4.1 采用Java语言开发 (10) 2.4.2 采用J2EE框架 (11) 2.4.3 采用WebService进行数据互连互通 (11) 2.4.4 数据库技术 (13) 2.4.5 性能控制 (14) 2.4.6 开发、运行环境 (14) 2.5 应用接口总体设计 (14) 2.5.1 系统内部集成接口 (14) 2.5.2 与基础运维管理工具的集成接口 (15) 2.5.3 与ITSM系统的集成接口 (15) 2.5.4 与相关外部系统的统一身份认证与单点登录接口 (15) 2.6 系统安全设计及部署 (16) 2.6.1 输入检验 (16) 2.6.2 GET请求和Cookie中的敏感数据 (16)

2.6.3 防通过嵌入标记实现的攻击 (16) 2.6.4 防口令猜测功能 (17) 2.6.5 页面和字段级的权限控制 (17) 2.6.6 系统安全架构 (17) 第3章系统功能设计 (18) 3.1 动环监控 (18) 3.1.1 配电柜监测 (18) 3.1.2 配电开关及电流监控 (18) 3.1.3 发电机监控 (19) 3.1.4 ATS监测 (19) 3.1.5 STS监测 (19) 3.1.6 UPS监控子系统 (20) 3.2 统一门户子系统 (20) 3.2.1 信息主管领导内容展示 (21) 3.2.2 运维人员内容展现 (21) 3.2.3 一般用户内容展现 (22) 3.3 IT运行监控子系统 (22) 3.3.1 基础平台功能 (22) 3.3.2 网络设备管理 (24) 3.3.3 服务器监控管理 (27) 3.3.4 存储监控管理 (30) 3.3.5 数据库监控管理 (30) 3.3.6 中间件监控管理 (31) 3.3.7 web与应用监控管理 (32) 3.3.8 虚拟化监控管理 (33) 3.3.9 IP地址管理管理 (34) 3.3.10 信息点管理 (35) 3.3.11 告警监控管理与转发处理 (36) 3.3.12 综合监控管理 (37)

IT运维管理系统使用手册

IT运维管理系统 用户使用手册 大庆和光电子科技开发有限公司 二〇一六年十月

目录 1、基础信息 (3) 1.1项目信息 (3) 1.2项目检查项 (4) 1.3设备基础信息 (6) 2、日常巡检 (8) 2.1软件日巡检 (8) 2.2软件周巡检 (9) 2.3服务器系统巡检 (10) 2.4服务器硬件巡检 (10) 3、巡检查询 (11) 3.1软件日常巡检检查 (11) 3.2服务器巡检报告 (11) 4、运维资料管理 (12) 4.1系统问题管理 (12) 4.2项目资料管理 (15)

1、基础信息 1.1项目信息 主要录入各运维组所维护的项目信息,各运维组各自录入各自的项目信息。如下图所示 【新增】按钮:点击“新增”按钮,按要求添加项目信息,点击“确认保存”按钮即可。如图所示: 注:状态字段:有两个状态,分别是“正常”和“停用”。当状态是“正常”,则在软件日/周巡检中显示;当状态是“停用”,则在软件日/周巡检中不显示。 项目路径:填写该项目发布的位置,例如:D:\Publish

【编辑】按钮:点击“编辑”按钮,编辑已添加的项目信息,点击“确认保存”按钮即可。如图所示: 【删除】按钮:选中要删除项目前的复选框,点击“删除”按钮,确定要删除,点击“确认”按钮即可。如图所示: 1.2项目检查项 主要是录入各运维组巡检项目的检查项,各运维组录入各自的项目检查项信息,如下图所示

【新增】按钮:点击“新增”按钮,按要求添加项目的检查项信息,点击“确认保存”按钮即可。如图所示: 【编辑】按钮:点击“编辑”按钮,编辑已添加的项目的检查项信息,点击“确认保存”按钮即可。如图所示:

智能运维管理系统_需求规格说明书

智能运维管理系统需求规格说明书

修订

目录 1.文档介绍.............................................. 错误!未定义书签。. 文档目的 ........................................... 错误!未定义书签。. 文档范围 ........................................... 错误!未定义书签。 . 读者对象 ........................................... 错误!未定义书签。 . 参考文档 ........................................... 错误!未定义书签。 . 术语与缩写解释 ..................................... 错误!未定义书签。 2.系统概述.............................................. 错误!未定义书签。 . 系统建设目标 ....................................... 错误!未定义书签。 . 系统总体结构 ....................................... 错误!未定义书签。 . 用户的特点 ......................................... 错误!未定义书签。 . 设计和实现上的限制 ................................. 错误!未定义书签。 3.系统功能性需求........................................ 错误!未定义书签。 . 双活中心工作运行状态监控模块....................... 错误!未定义书签。 场景描述........................................ 错误!未定义书签。 用例分析........................................ 错误!未定义书签。 参与者列表...................................... 错误!未定义书签。 . 专用监控功能模块 ................................... 错误!未定义书签。 场景描述........................................ 错误!未定义书签。 用例分析........................................ 错误!未定义书签。 参与者列表...................................... 错误!未定义书签。 . 故障告警模块 ....................................... 错误!未定义书签。 场景描述........................................ 错误!未定义书签。 用例分析........................................ 错误!未定义书签。 参与者列表...................................... 错误!未定义书签。 用例描述........................................ 错误!未定义书签。 . 数据配置管理模块 ................................... 错误!未定义书签。 场景描述........................................ 错误!未定义书签。 用例分析........................................ 错误!未定义书签。 参与者列表...................................... 错误!未定义书签。 . 故障切换管理模块 ................................... 错误!未定义书签。 场景描述........................................ 错误!未定义书签。 用例分析........................................ 错误!未定义书签。 参与者列表...................................... 错误!未定义书签。 . 数据接口 ........................................... 错误!未定义书签。 场景描述........................................ 错误!未定义书签。 用例分析........................................ 错误!未定义书签。

大数据中心运维服务技术方案设计

数据中心机房及信息化终端设备维护方案 一、简况 xxx客户数据中心机房于XX年投入使用,目前即将过保和需要续保运维的设备清单如下: 另外,全院网络交换机设备使用年限较长,已全部过保,存在一定的安全隐患。 二、维保的意义 通过机房设备维护保养可以提高设备的使用寿命,降低设备出现故障的概率,避免重特大事故发生,避免不必要的经济损失。设备故障时,可提供快速的备件供应,技术支持,故障处理等服务。

通过系统的维护可以提前发现问题,并解决问题。将故障消灭在萌芽状态,提高系统的安全性,做到为客户排忧解难,减少客户人力、物力投入的成本。为机房内各系统及设备的正常运行提供安全保障。可延迟客户设备的淘汰时间,使可用价值最大化。 通过引入专业的维护公司,可以将客户管理人员从日常需要完成专业性很强的维护保养工作中解放出来,提升客户的工作效率,更好的发挥信息或科技部门的自身职能。 通过专业的维护,将机房内各设备的运行数据进行整理,进行数据分析,给客户的机房基础设施建设、管理和投入提供依据。 三、维护范围 1、数据中心供配电系统 2、数据中心信息化系统 3、全院信息化终端设备 4、数据库及虚拟化系统 四、提供的服务 为更好的服务好客户,确实按质按量的对设备进行维护;我公司根据国家相关标准及厂商维护标准,结合自身多年经验积累和客户需求,制定了一套自有的服务内容: 1、我公司在本地储备相应设备的备品备件,确保在系统出现故障时,及时免费更换新的器件,保障设备使用安全。 2.我公司和客户建立24小时联络机制,同时指定一名负责人与使用方保持沟通,确保7*24小时都可靠联系到工程技术人员,所有节日都照此标准执行。 3.快速进行故障抢修:故障服务响应时间不多于30分钟,2小时内至少2人以上携带相关工具、仪器到达故障现场,直到设备恢复正常运行。

大数据运维管理平台

点击文章中飘蓝词可直接进入官网查看 大数据运维管理平台 随着大数据技术的发展,在安全领域中信息系统的建设、规划、投资等决策将日益基于数据和分析而做出判断,而并非过去基于经验和直觉的模式。大数据运维管理平台能够更容易的采集、分析数据,提供定期的报表统计,直观展现信息系统的实时安全态势、为安全决策提供数据,大数据运维管理平台哪家好? 大数据运维管理平台,能够有效的安全事件监控和预警措施,能够在信息系统即将遭到攻击或已经遭到攻击时,快速、准确地发现攻击行为,并迅速启动处置和应急机制。同时可以对信息系统的安全事件进行综合分析,了解当前整体系统的安全态势,为整体网络与信息安全规划提供有效的数据支持。 南京风城云码软件公司(简称:风城云码)南京风城云码软件技术有限公司是获得国家工信部认定的“双软”企业,具有专业的软件开发与生产资质。多年来专业从事IT运维监控产品及大数据平台下网络安全审计产品研发。开发团队主要由留学归国软件开发人员及管理专家领衔组成,聚集了一批软件专家、技术专家和行业专家,依托海外技术优势,使开发的软件产品在技术创新及应用领域始终保持在领域上向前发展。 目前公司软件研发部门绝大部分为大学本科及以上学历;团队中拥有系统架构师、软件工程师、中级软件工程师、专业测试人员;服务项目覆盖用户需求分析、系统设计、代码开发、测试、系统实施、人员培训、运维整个信息化过程,并具有多个项目并行开发的能力。 自公司成立已来,本团队一直从事IT系统运维管理以及网络信息安全审计产品的开发,同时在电力、制造行业及政府部门的信息化、智能化系统的开发及信息安全系统的开发中有所建树;在企事业协同办公管理、各类异构系统的数据交换与集成(企业总线ESB)、电力行业软件系统架构设计、电网大数据量采集和数据分析、电能质量PQDF算法解析等应用方面拥有丰富开发的经验。特别在网络信息安全、IT应用系统的智能化安全监控领域具有独特的技术优势和深厚的技术储备。近年来随着企业的不断发展和技术的不断更新,公司的开发团队正在拓展更多业务范围和更新的技术应用。

itop运维综合管理平台使用手册

xxxx运维综合管理平台 操作手册V1.0 xxxx(天津)科技有限公司

变更记录

目录 1.平台介绍 (3) 1.概述 (3) 2.平台架构 (4) 2.1展示层 (5) 2.2功能层 (6) 2.3技术层 (7) 2.4外部接口层 (8) 1.xxxx运维综合管理平台软件功能 (9) 2.1服务台 (9) 2.2自助服务中心 (10) 2.3配置管理模块 (10) 2.4事件管理模块 (12) 2.5问题管理模块 (16) 2.6变更管理模块 (18) 2.7服务管理模块 (21)

1.平台介绍 1.概述 xxxx运维综合管理平台是为了业务需要进行开发,适用于IT服务的日常运维管理。它基于ITSS最佳实践,适应符合ITSS最佳实践的流程,同时它又很灵活,可以适应 一般的IT服务管理流程。 xxxx运维综合管理平台的功能包括: ?记录IT配置项(如服务器、应用程序、网络设备、虚拟机、联系人、位置、VLAN等)及其各个配置项之间的关联关系; ?管理事件、用户请求和变更审批与执行等; ?归档IT服务及与外部供应商的合约,包括SLA(服务级别协议); ?手动或脚本方式导出所有信息; ?批量导入或同步/联调所有来自外部平台的数据; xxxx运维综合管理平台基于Apache/IIS、MySQL和PHP,它可以在任何支持这些程序的操作平台上运行,如Windows、Linux(Debian、Ubuntu和Redhat)、Solaris 和MacOS X等。此外,由于平台是基于B/S架构的应用程序,不需要在用户电脑上部署任何客户端,只需要一个简单的Web浏览器(IE 8+、Firefox 3.5+、Chrome或Safari 5+)即可使用。 2.平台架构 平台架构如下图所示:

可视化综合运维管理系统白皮书

IT可视化综合运维管理解决方案 SmartView产品 技术白皮书V1.61 目录

一、导论 1.1. 产品背景 IT行业技术突飞猛进地发展,设备集成度不断提高,使各种网络设备之间的界限逐渐模糊,主设备、传输系统、支撑系统之间相互融合,互相渗透,已经逐步向一体化的解决方案迈进。 首先,机房内由设施数量众多,特别是当企业存在分支机构,由于分布范围广,机房内走线将非常复杂,尤其是老机房,如何理清楚设备与设备、设备与系统的拓扑关系,通常是机房维护人员的最为头疼的难题。 其次,对于办公区域,存在大量固定资产、移动办公类设备,这些设备资产的管理常常具有移动性,且各种人为情况较多。办公区域工位与网络也有一定的对应关系,如何找出工位与设备资产、工位与网络端口的对应关系,将能够很大程度上提升并规范企业的IT水平。 此外,当设备出现故障的时候,在相同类型的设备中,如何能快速定位出故障设备,如何真实的通过系统反应出设备环境及周边情况;如何通过系统以往解决过程和系统知识库,提供可参考的解决思路,将能够显着提高运维的自动化程度。 因此,有必要建立一套“集中监控、集中维护、集中管理”的监控系统,实现对企业IT资产实现远程集中监控,实时动态呈现设备告警信息及设备参数;快速定位出故障设备,使维护和管理从人工被动看守的方式向计算机集中控制和管理的模式转变;通过标准的ITIL流程提升企业IT服务效率。 3D仿真是企业IT数字化管理信息化建设的一个重要的组成部分,全三维可视化资源管理与运维监控平台,形象化的虚拟场景和真实数据相结合,通过3维场景能显着增强机房查看与监控,企业办公区域监控,提高设备、设施、资产与流程的直观可视性、可管理型,真正提高企业IT运维管理的效率,让IT真正服务于企业运营。 神州数码针对以上问题推出一套基于生产实景的全3D可视化IT资源管理与运维监控管理平台,形象化的虚拟场景和真实数据相结合,用户在显示屏幕前即可查看到机房中的所有设备,对于日常维护人员对设备的运行监控管理,资产审核人员对设备的盘点

运维服务工具应用情况说明书

运维服务工具应用情况说明 编制: 审核: ****公司 二〇一四年一月 所有:****公司。保留所有权利。

目录 序言 (3) 一、运维管理类工具的应用情况 (3) 1.1 400客服故障业务受理系统 (3) 1.1.1系统业务介绍 (3) 1.1.2系统功能及原理 (4) 1.2 知识库管理工具 (5) 1.2.1系统业务介绍 (5) 1.2.2系统功能介绍 (5) 二、监控、系统维护类工具的应用情况 (6) 2.1指挥调度系统监控平台 (6) 2.2硬件系统监控工具 (7) 2.3程控交换机维护工具 (7) 三、其他运维及故障检测工具 (7) 3.1示波器 (7)

序言 ****公司产品广泛应用于****单位的指挥中心,提供特服的受理及后期处理平台,由于行业的特殊性,系统的稳定性、安全性及持续运行能力尤其重要,而且随着业务发展,特服受理系统的涉及围越来越官方,对信息化的依赖程度越来越高,对系统的稳定性、维护能力也提出了更高的要求。 正是在这种情况之下,特服指挥调度系统的运行维护管理引起了公司的关注,同时也认识到一个好的运维系统需要好的运维工具支持,公司先后组建了运维工具开发团队及系统产品监控、维护工具开发团队,针对客户管理、系统故障受理系统、系统监控及系统维护等软硬件平台进行部署及开发,先对目前运维服务工具的应用情况进行说明。 一、运维管理类工具的应用情况 运维、管理类工具目前公司主要是利用400客服故障业务受理系统完成。 1.1400客服故障业务受理系统 1.1.1系统业务介绍 “400客服故障业务受理系统”主要完成公司负责承建的各类系统在运行过程中出现的故障申报的业务受理系统,该系统通过硬件及软件实现对客户的受理、处理、反馈、跟踪功能,并为客户提供7×24小时不间断服务,系统主要组成包括以下部分: 1)故障业务排队接入受理系统 2)后台业务流转通信平台 3)故障受理、登记系统 4)二级分配、处理系统 5)数字录音录时子系统 6)查询、统计、分析系统 7)用户处理情况回访系统 8)故障业务跟踪系统

大数据平台运维手册

大数据平台运维手册

目录 1.简介 (1) 1.1.大数据平台介绍 (1) 1.2.大数据平台Manager介绍 (2) 2.使用前的准备 (3) 2.1.客户端硬件配置 (3) 2.2.软件环境要求 (3) 2.3.支持的浏览器 (3) 3.系统检查 (4) 3.1.管理员服务器IP,端口及账号权限检查 (4) 3.2.管理员服务器空间检查 (4) 4.开始集群管理 (5) 4.1.TDH Manager的基本操作 (5) 4.1.1.启动和停止TDH Manager (5) 4.1.2.终止TDH Manager进程 (6) 4.1.3.重启大数据平台-manager和agent (6) 4.1.4.TDH Manager登入和登出 (6) 4.1.5.TDH Manager语言选择 (7) 4.1.6.TDH Manager用户信息登记和更新 (8) 5.创建集群服务 (10) 5.1.创建集群 (10) 5.2.集群服务的添加、删除 (13) 6.管理菜单 (17) 6.1.节点管理 (17) 6.1.1.添加节点 (18) 6.2.用户管理 (22) 6.2.1.管理用户 (23) 6.2.2.管理用户组 (33) 6.2.3.管理用户角色 (35) 6.3.日志查询 (43) 6.4.审计查询 (44) 6.5.NTP管理 (45) 6.6.许可证管理 (46) 6.7.Guardian服务监控 (48) 6.7.1.Guardian服务的角色 (49) 6.7.2.Guardian服务的配置 (50) 6.7.3.Guardian服务操作的监控 (51) 6.8.备份与恢复 (51) 7.Zookeeper的运维 (53) 7.1.ZooKeeper服务的管理 (53) 7.1.1.启动、停止、删除Zookeeper服务 (53) 7.1.2.配置服务 (54) 7.2.ZooKeeper服务的监控 (54) 7.2.1.CPU使用监控 (54)

大数据时代应运而生的智能运维管理平台

大数据时代应运而生的智能运维管理平台 序言:信息化建设至今,网络运维管理已经上升到一个全新的阶段,不仅仅局限于对服务器、设备的管理,更需要从设备到链路、从机房环境到应用服务直至网络全局的管理,智能运维大数据应运而生。 随着网络功能体系的完善与业务系统的不断增加,经常会出现业务系统运行太缓慢或影响工作效率,究竟是系统、操作、网络、服务器还是应用系统导致的问题呢,这个黑匣子里的数据、流向和峰值是否可以一目了然?而网络出现故障时,运维人员只能各个环节逐一排查,繁琐且耗时,且不符大数据时代的智能化趋势。 以上场景,国产运维厂商豪越创始人汪兆伟建议,可以引进一套智能运维大数据管理平台,帮助运维人员方便快捷地进行分析和管理,实时监控网络及设备性能,及时预警告警,在线查询数据报表,全面保障网络系统的稳定运行。智能运维大数据平台,至少需要满以下基本指标: 指标1:数据采集能力和设备兼容性 对于SNMP的支持程度可以体现平台的技术优良性,应支持市面上绝大多数设备的采集监控需求,无论面对怎样的网络环境,都能快速获取设备性能参数,进而有效管理;否则若数据采集都无法实现,管理就更无从下手。 指标2:故障及时告警及面板图可操作 当网络系统发生故障时,需第一时间发出告警,并通过性能分析发现当前异常设备,进而关联设备的物理拓扑图,并在物理拓扑图上确定其告警的重要等级;可直接对设备面板图进行操作,节省处理故障时间。

指标3:统一管理、智能运维 将所有网络管理要素纳入统一平台进行管理,可进行网络架构、设备、性能及应用的智能关联管理,避免出现分离、孤立的信息,帮助运维人员迅速定位问题根源。 目前以豪越HYDO为代表的智能运维大数据平台,采用国际工业标准,遵循IETF RFC 规范与被管对象进行标准化的、开放化的通信管理。 ●64位体系架构 采用主流的64 位CPU 架构,软件按照64 位操作系统特性进行专门设计,充分满足当前IT 环境需求。例如,网口流量数据指标采集支持64 位、存储,避免32位计数形式下,短时间内出现边界溢出的情况。 CPU 采用64 位架构时,操作系统可以直接管理更大的内存。进程地址空间更大,应用程序在进行大量数据采集,数据加工分析时,不会出现32 位计算时常见的内存空间不足情况。 ●采用Linux操作系统 采用工业界稳定的Linux 操作系统,相比Windows 操作系统具备高安全性、高稳定性、高性能、少病毒、少漏洞等特点,充分满足网管系统长时间连续性监控管理需求。 ●统一门户管理 统一门户(Portal)是一种Web应用,通常用来提供个性化、单点登录、聚集

海康综合监控与运维管理平台V13用户操作手册

min 海康威视iVMS-9300综合监控与运维管理平台 用户操作手册 杭州海康威视系统技术有限公司 2016.3

目录 目录 (1) 第1章前言 (5) 1.1编写目的 (5) 1.2术语和缩写 (5) 第2章平台概述 (6) 2.1环境要求 (6) 2.1.1运行硬件环境 (6) 2.1.2运行软件环境 (6) 2.2用户登录 (7) 第3章运维概况 (7) 3.1视频概况 (11) 3.1.1视频概况 (11) 3.1.2一键运维 (13) 3.2卡口概况 (14) 3.2.1过车统计 (15) 3.2.2资源信息 (15) 3.2.3服务器信息 (15) 3.2.4最新异常信息 (16) 第4章巡检中心 (16) 4.1运行监测 (17) 4.1.1监控点视频 (17) 4.1.1.1 监控点明细查看 (17) 4.1.1.2 视频预览 (18) 4.1.1.3 工单上报 (19) 4.1.1.4 视频质量诊断图片查看 (20) 4.1.1.5 图像重巡 (21) 4.1.1.6 查询导出 (21) 4.1.2录像 (22) 4.1.2.1 录像详情查看 (23) 4.1.2.2 巡检一次 (24) 4.1.2.3 工单上报 (24) 4.1.2.4 查询导出 (25) 4.1.3卡口 (26) 4.1.3.1 卡口信息 (26) 4.1.3.2 异常信息 (28) 4.1.4编码资源 (29) 4.1.4.1 设备详情查看 (30) 4.1.4.2 工单上报 (31) 4.1.4.3 查询导出 (31) 4.1.5解码资源 (32) 4.1.5.1 解码资源详情查看 (33) 4.1.5.2 工单上报 (33)

智能运维管理系统-需求规格说明书-V2.0

智能运维管理系统V2.0 需求规格说明书

修订

目录1..................................................................................................................... 文档介绍5 1.1. ..............................................................................................................文档目的 5 1.2. ..............................................................................................................文档范围 5 1.3. ..............................................................................................................读者对象 5 1.4. ..............................................................................................................参考文档 5 1.5. .................................................................................................. 术语与缩写解释 5 2..................................................................................................................... 系统概述6 2.1. ...................................................................................................... 系统建设目标 6 2.2. ...................................................................................................... 系统总体结构 7 2.3. .......................................................................................................... 用户的特点 7 2.4. ........................................................................................... 设计和实现上的限制 8 3.......................................................................................................... 系统功能性需求8 3.1. ........................................................................ 双活中心工作运行状态监控模块

大数据运维管理平台有什么作用

大数据运维管理平台主要有两个作用,一个是批量部署;另一个是集群配置。 一、大数据运维管理平台批量部署 我们都知道大数据本身是一个分布式的系统,因此在安装时,需要对每一个节点进行组件的安装,并且由于是开源软件,其安装过程相对比较复杂,大数据每个组件都需要做很多的配置工作,这一点相信各位深有体会。DKH 提供了DKM 来自动化安装部署大数据。大大缩短了大数据的安装时间,同时也简化了安装大数据的过程。 自动化安装的过程如下: 1.安装环境准备,下载DKM 以及DKH 的安装文件,安装JDK,yum 等基本软件。 2.挑选一台节点,安装DKM ,用户只需要启动安装脚本即可,通常情况下几分钟就能够完成。 3.DKM 是一个web 应用,提供了基于浏览器的界面,用户可以通过浏览器可视化的进行DKH的安装部署。 4.通过DKM 界面,添加其他需要的安装的节点,选择要安装的大数据组件,以及每个节点承担的角色,选择安装,DKM 会自动地将需要安装的软件分发到对应的节点,并完成安装。 5.当所有节点的软件都安装完成之后,DKM 会启动所有的服务。从上述的安装过程可以看出DKH 的安装主要体现两个特点,批量化以及自动化。只需要在其中一个节点完成,

其他节点都可以进行批量化的自动安装。 二、大数据运维管理平台集群配置 1.可视化参数配置界面。大数据包含许多的组件,不同的组件都包含各种各样的配置,并且分布于不同的主机之上。DKM 针对这种情况提供了界面化的参数配置功能,并且能够自动的部署到每个节点。 2.高可靠配置。DKM 对关键的组件使用HA部署方案,避免单点失效的发生,同时DKH 对于组件的异常错误提供了自动恢复处理,最大限度的保证服务的可靠性。

某公司BI系统数据运维管理办法

XX公司管理层决策报表系统 数据运维管理办法 (试行) 为规XX公司(以下简称公司)管理层决策报表系统(以下简称BI)的数据运维管理工作,为公司管理层提供准确详实的数据信息,及时协调解决数据运维过程中的问题,明确各部门、岗位职责,有效保障数据真实、准确、及时,特制定本管理办法。 1、总则 1.1公司BI系统的数据运维管理工作,包括数据管理和系统运维两面工作,是在公司高层领导的参与和支持下,综合考虑策略、目标、组织、流程及信息技术来展开。 1.2公司数据管理执行XX总部《XX总公司数据管理办法》。 1.3公司BI系统数据运维准则: 1.3.1公司高层领导的参与和支持; 1.3.2以业务为主导,综合考虑策略、目标、组织、流程及信息技术,明确职责、分工协作; 1.3.3遵循统一的工作标准和规,依托现有信息技术基础架构,

采用可行的实施案,完善BI系统; 1.3.4建立知识共享和有效沟通渠道,特别是跨部门协调工作,确保BI系统运行。 2、适用围 2.1本管理办法所称数据是指在公司生产经营过程中产生的,通过信息系统录入、使用、传递和保存的各类数据,包括XX 公司SAP系统、in-sight中国铝业手工数据录入平台等信息系统。 2.2本管理办法所称系统运维是指以业务流程为导向,涵盖人力资源、财务、投资、生产、供应销售等业务条线,按公司需求收集整理数据所做的BI系统开发、运维工作,包括XX公司BIEE测试系统、公司BIEE生产系统、XX公司ETL开发系统(整合层及以上)、以及PowerDesigner数据模型设计、RPD模型开发、plsqldev数据管理等运维工作。 2.3在XX公司BI系统运维中,按照职责分工不同,各数据系统及软件具体是由业务人员录入相应的业务数据(包括手工数据录入),各条线运维人员负责BI系统展示设计与手工平台模板设计及编写映射文档等初设性运维工作,技术运维人员负责BI系统各层级数据模型、数据仓库的搭建、衔接和权限分配等

校园网综合运维管理平台

校园网综合运维管理平台 一、系统简要描述 ●系统名称:DTSM校园网综合运维管理平台 ●开发单位:广州市点易资讯科技有限公司 ●版本号: ●开发模式:定制开发 ●系统架构:B/S 结构 ●开发平台: ●数量: 1套 ●报价: 人民币33万元 ●功能及用途简要描述 DTSM校园网综合运维管理平台是为校园网用户提供网络自助服务和网络服务运维流程管理的专业平台,整合校园网系统运行环境、网络、服务器与业务应用等的分割管理,实现对IT系统的集中、统一、全面流程管理;平台系统设计遵循 FCAPS、eTOM、ITIL等国际服务管理标准和规范,达到技术、功能、服务三方面的有机整合,能实现IT 服务支持过程的标准化、流程化、规范化,提高故障应急处理能力,提升系统运维的管理效率和服务水平。 该平台主要功能包括服务台、流程管理、设备监控管理等,实现校园网用户入网流程管理、网络服务流程管理、网络资源管理,平台能够与收费系统和认证系统对接并实现数据交互。 二、模块功能描述 1、网络服务流程管理模块 提供用户网络自助报障、Duty值班事件受理、故障流程管理(包括资源 配置库管理、流程跟踪、服务质量管理等)、服务统计、回访等功能; (1)用户网络自助报障

用户通过自助平台故障报修,可查询报障记录和故障处理进度。(2)Duty值班事件受理 Duty值班受理电话报障和网上报障,并在运维管理平台上建立(或确认)事件工单。 (3)运维流程管理 具体实现流程为: 服务台通过网路和电话受理建立工单; 一线人员通过系统接单和处理,处理包括事件成功处理之后的申请关闭,或申请二线支持,或不能处理的申请撤单。 二线人员可以受理一线(或项目经理)转交的工单或则直接从服务台接单处理,成功处理可以申请关闭,或则回退给一线工程师等; 服务台人员可以根据处理情况进行回访,并给予意见; 项目经理根据一线、二线的处理情况和回访情况,决定事件的关闭或则回退等相关处理。 在这期间,涉及到服务台、事件管理、问题管理、变更和发布管理、服务水平管理、知识库和方案库管理; ●服务台 ●建立运维团队与用户之间的单一联系点,统一受理用户的咨询、服 务请求、故障报修、流程跟踪、投诉等情况,并通过底层监控系统 主动预警网络故障,通过事件管理流程及时处理,及时跟踪和通报 处理进展,借助知识库和方案库,解决大部分常规事件。同时,也 包括集中监控平台、电子值班管理、统一实时展现IT运行状况。 ●事件管理 ●事件管理流程是事件驱动的日常流程。服务台接收到的事件主要包 括故障和服务请求。事件管理负责事件的调查、诊断、修复,其主 要目标是尽可能快地解决故障,以恢复受影响的业务。 ●问题管理 ●主动的问题管理主要是进行各个系统的巡检、分析和建议。被动的 问题管理主要是分析各个系统的故障,定义问题,并提出可能变更

精处理安运维说明书

新疆东方希望有色金属有限公司动力站2X350MW工程 凝结水精处理系统(工艺部分) 安装运行维护说明书SB-XDFH-S0101-01 批准: 审核: 校核: 编制:

目录 系统设计、安装、运行、维护手册 (2) 第一章设计说明 (3) 第二章系统运行操作程序说明 (10) 第三章安装及工艺系统调试 (11) 第四章安全指南 (15)

系统设计、安装、运行、维护手册 本凝结水精处理系统适用于对空冷机组的冷凝水的处理,该系统可除去热力系统中腐蚀产物铁等氧化物,以及系统中有可能带入凝结水中的盐份。 本工程为新疆东方希望有色金属有限公司动力站2×350MW工程国产燃煤亚临界直接空冷机组的凝结水精处理系统,本系统对于凝结水进行100%精处理,每台机组设置一套。 整个凝结水精处理系统分为两部分,即:凝结水精处理粉末覆盖过滤器部分和爆膜反洗铺膜部分。凝结水精处理粉末覆盖过滤器设计成单列并联布置,每台机组设置两台粉末覆盖过滤器,以及相应的阀门、管道和护膜管路等组成,每台过滤器可处理100%的凝结水流量,正常运行一运一备,系统设有100%旁路,凝结水精处理的旁路系统有自动调节功能,在遇到下列情况之一时,旁路系统能自动打开,并切除凝结水精处理系统: 进水水温≥85oC 进出水母管两端差压≥0.175MPa PLC工控系统在接受以上信号后会自动开启旁路门,100%的凝结水经系统旁路回到汽机凝结水系统,此时,同步启动护膜泵,关闭粉末树脂覆盖过滤器的进、出水门。确保机组安全运行及过滤器膜层稳定。当一台过滤器运行至失时后,会自动解列,备用过滤器会即升压,准备投运。 爆膜反洗铺膜部分由爆膜反洗单元、铺膜单元、相应的箱罐、水泵、阀门、管道等组成。

云平台下的运维体系建设工作内容87904

云平台下的运维体系建设工作内容 一、系统运维 系统运维负责IDC、网络、CDN和基础服务的建设(LVS、NTP、DNS);负责资产管理,服务器选型、交付和维修。详细的工作职责如下: IDC数据中心建设 收集业务需求,预估未来数据中心的发展规模,从骨干网的分布,数据中心建筑,以及Internet接入、网络攻击防御能力、扩容能力、空间预留、外接专线能力、现场服务支撑能力等方面评估选型数据中心。负责数据中心的建设、现场维护工作。

网络建设 设计及规划生产网络架构,这里面包括:数据中心网络架构、传输网架构、CDN网络架构等,以及网络调优等日常运维工作。 LVS负载均衡和SNAT建设 LVS是整个站点架构中的流量入口,根据网络规模和业务需求,构建负载均衡集群;完成网络与业务服务器的衔接,提供高性能、高可用的负载调度能力,以及统一的网络层防攻击 能力;SNAT集中提供数据中心的公网访问服务,通过集群化部署,保证出网服务的高性能与高可用。 CDN规划和建设 CDN工作划分为第三方和自建两部分。建立第三方CDN的选型和调度控制;根据业务发展趋势,规划CDN新节点建设布局;完善CDN业务及监控,保障CDN系统稳定、高效运行;分析业务加速频道的文件特性和数量,制定最优的加速策略和资源匹配;负责用户劫持等CDN日常故障排查工作。 服务器选型、交付和维护 负责服务器的测试选型,包含服务器整机、部件的基础性测试

和业务测试,降低整机功率,提升机架部署密度等。结合对公司业务的了解,推广新硬件、新方案减少业务的服务器投入规模。负责服务器硬件故障的诊断定位,服务器硬件监控、健康检查工具的开发和维护。 OS、内核选型和OS相关维护工作 责整体平台的OS选型、定制和内核优化,以及Patch的更新和内部版本发布;建立基础的YUM包管理和分发中心,提供常用包版本库;跟进日常各类OS相关故障;针对不同的业务类型,提供定向的优化支持。 资产管理 记录和管理运维相关的基础物理信息,包括数据中心、网络、机柜、服务器、ACL、IP等各种资源信息,制定有效的流程,确保信息的准确性;开放API接口,为自动化运维提供数据支持。 基础服务建设 业务对DNS、NTP、SYSLOG等基础服务的依赖非常高,需要设计高可用架构避免单点,提供稳定的基础服务。

大数据中心建设运维方案

大数据中心建设运维方案 1.1.技术和售后服务 群体的协作精神,强烈的责任心,追求完美的技术和服务,是公司永远的信念,注重产品、注重技术、注重服务、注重管理是我公司的经营目标。公司拥有一批努力进取、具有创新意识的高素质的市场营销人员、技术支持及售后维护人员,秉承严谨、创新、求实、高效的经营理念,凭借与国内外诸多大学、研究机构、教授学者的良好合作关系,建立了完善的销售及技术服务体系,为用户提供最优的产品和最满意的售后服务。 公司设有专门的售后服务中心,为客户提供快捷周到的售后服务及有针对性的研究数据订制服务。

1.2.售后服务项目 (1)系统安装、调试、验收服务 (2)维修服务 (3)培训服务 (4)技术支持 1.3.售后服务项目内容 (1)安装、调试、验收服务 根据项目要求,项目施工公司派出一支组织能力强,技术过硬的团队。我公司在供货及施工组织计划等方面有完整的一套组织方案,保证在合同签订内安装完毕并可交付正常使用。项目负责人和技术工程师将进行实地考察,了解企业实地场景,认真听取企业意见并提供安装建议,配合企业落实项目。设备安装调试完毕后,工程总负责对安装设备进行逐个功能检测与系统调试,确认系统正常运行后,通知企业负责人工程安装调试完毕,提供详细的培训计划。在企业安排好培训时间与培训人员后,开始设备培训。

1.保修服务 所有设备严格按照国家有关部门颁布的“三包”细则,并按厂家的保修条例对投标设备进行保修。保修期内提供免费的维修、维护保养服务(人为或自然灾害的原因损坏除外)。保修期内出现的设备故障,厂家免费维修或更换零部件,并使设备投入正常运行。 2.本地化服务 售后服务提供长期的本地化服务。 3.服务响应时间 保修期内,我公司承诺根据故障处理流程,随时响应,常驻人员通过远程电话解决故障,。 4.备品备件服务 核心设备提供备机,其他设备提供充足的备件,故障不能及时解决时及时更换备品备件,保证系统正常运行。5.保修期外的设备故障 对于质保期满的保修服务,公司将派专人到用户地点提取设备,并为用户提供备用机器,保证用户正常使用,尽快为用户维修好故障设备。对此我方只收取维修设备的成本费及所需基本运费,不另外收取人工服务费。对于设备的易损、易耗配件,公司均以最优惠的价格提供用户的易耗品服务。

相关文档
最新文档