Chukwa在日志数据监控方面的运用

Chukwa在日志数据监控方面的运用
Chukwa在日志数据监控方面的运用

龙源期刊网 https://www.360docs.net/doc/a77429555.html,

Chukwa在日志数据监控方面的运用

作者:常广炎

来源:《无线互联科技》2017年第05期

摘要:Chukwa是Hadoop软件家族成员的一员,是_个分布式系统,应用于大规模集群的数据收集上,构建在Hadoop的HDFS和MapReduce框架之上。文章通过对数据日志的采集、存储、分析和展示,为用户提供全面、灵活、可视化的服务,弥补了MapReduce对大量日志文件处理能力不足的弱点。

关键词:分布式系统;Hadoop;Chukwa;MapReduce

1.Chukwa的简介

Hadoop的MapReduce最初用于日志处理,随着集群日志不断地增加,生成大量的小文件,而MapReduce具有处理少量大文件的优势。Chukwa弥补了这一缺陷,同时具有高可靠性。

Chukwa由Yahoo开发,是基于Hadoop的大集群分布式监控系统,是Hadoop软件家族成员之一,依赖于Hadoop的其他子项目,以HDFS为存储层,MapReduce为计算模型,Pig作

为其高层处理语言,是采用流水式处理方式和模块化结构的收集系统。Chukwa的系统开销非常小,不到整个集群资源的5%。

2.Chukwa的架构

Chukwa有3个主要组成部分:客户端,运行在每个监控机上,传送源数据到收集器;收集器和分离解析器,收集器接收客户端数据,将其写到HDFS中,分离解析器进行数据分析,转换成有用记录;HICC是一个Web页面,用于Chukwa内容的展示。

2.1客户端(Agent)

集群上的每一个结点,Chukwa使用一个Agent来采集它感兴趣的数据,每一类数据通过一个Adaptor来实现,数据类型在相应配置中指定。启动Adaptor可以通过UNIx命令完成,Adaptor能够扫描目录,追踪创建文件,接收UDP消息,不断追踪日志,将日志更新到文件中。Agent的主要工作是负责Adaptor的开始和停止,并通过网络传输数据。为了防止数据采集端Agent出现故障,Chukwa的Agent采用了watchdog机制,会自动重启和终止数据采集进程,防止原始数据的丢失。

2.2收集器(Collector)和分离解析器(Demux)

相关主题
相关文档
最新文档