日志分析系统

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Web日志集中管理系统的研究与实现

吴海燕朱靖君程志锐戚丽

(清华大学计算机与信息管理中心,北京100084)

E-mail:wuhy@

摘要:

Web服务是目前互联网的第一大网络服务,Web日志的分析对站点的安全管理与运行维护非常重要。在实际运行中,由于应用部署的分散性和负载均衡策略的使用,使得Web日志被分散在多台服务器上,给日志的管理和分析带来不便。本文设计并实现了一个Web日志集中管理系统(命名为ThuLog),系统包括日志集中、日志存储和日志分析三个模块。目前,该系统已经在清华大学的多个关键Web应用系统上进行了应用,能够帮助系统管理员清晰地了解系统运行情况,取得了较好的运行效果。

关键词:Web日志日志分析日志集中管理系统

The Research and Implementation of a Centralized Web

Log Management System

Wu Haiyan Zhu Jingjun Cheng Zhirui Qi Li

(Computer&Information Center,Tsinghua University,Beijing100084) Abstract:Web is now the biggest network service on the Internet.The analysis of Web logs plays an important role in the security management and the maintenance of a website.But because of the decentralization of deployment and the use of load balancing,Web logs are often seperated on each Web server,which makes the management and analysis of them not so convenient.This paper designs and implements a Web Log Centralized Management System(named ThuLog),which includes3modules:the centralization of logs,the storage of logs and the analysis of logs.Through log analysis of several critical Web systems in Tsinghua University,it could help system administrators learn clearly what happens in information systems and achieves good operating results.

Key words:Web Logs Log Analysis Web Log Centralized Management System

1.引言

近年来,随着计算机网络技术的迅速发展,Web正以其广泛性、交互性、快

捷性和易用性等特点越来越受到人们的青睐,并且已经渗入到社会的各个应用领域。目前全球Web站点的数量已经超过一亿,而且这个数字还在不断地飞速增长。

Web日志记录了用户访问站点的许多基本信息,它对于站点的运行维护起到非常重要的作用。通过对Web日志进行分析统计,我们可以得出诸如站点访问量、站点流量、访问量最多的页面等信息,这些信息有助于我们了解Web服务器的日常运行状况。另外,Web日志中还包含了发生在网站上的不寻常的和不期望活动的证据,通过查看和分析日志文件,我们能够发现黑客入侵或入侵的企图,并及时采取相应的防护措施,所以,Web日志对于网站的安全维护也是非常重要的。在实际中,由于应用部署的分散性和负载均衡策略的使用,Web日志一般是分散在多台服务器上的。日志的分散不利于我们对日志进行整体的分析,也使得日志的安全管理难以得到保障。

根据调研,目前用于日志集中的软件产品很少,且有许多不足之处,例如,大多数产品只是采用定时传输的方式,而且有的只是实现了日志的集中传输,还缺乏对日志的管理和分析。因此,基于实际的需要,我们开发了一个Web日志集中管理系统,取名为ThuLog。系统能够通过定时和实时两种方式把多台Web 服务器上的日志集中起来进行存储,并利用数据库对日志进行分析和查询,最后通过Web方式把分析的结果展示给用户。用户据此可以及时地了解到各个服务器的运行状况,从而极大地方便了他们对网站的管理与维护。

下文首先介绍系统的总体结构,然后分别介绍系统的各个模块,接着介绍系统在实际中的应用效果,最后是总结和展望。

2.系统总体结构

我们首先对系统的总体结构进行了设计,设计的系统总体结构如图1所示。

图1系统总体结构图

系统由三个模块组成,分别是:日志集中模块、日志存储模块和日志分析模块。日志集中模块完成日志的生成、发送和接收功能;日志存储模块实现了日志的文件存储和数据库存储;而日志分析模块则包括日志分析和分析结果的展示两个子模块。

系统在设计上完整地实现了Web日志的集中管理与分析功能,同时因为遵循syslog标准,具有很好的扩展性,使之可以接收操作系统日志、网络设备日志等。日志在各个Web服务器上生成,再发送到日志机上。日志机对所有服务器的日志进行接收和整理,分别存储到文件和数据库中。之所以用数据库对日志进行存储,是为了更好地对日志进行管理和分析。采用数据库能够对日志进行结构化存储,从而可以快捷、高效地对日志进行各种查询和分析。而且考虑到系统的可扩展性,要对日志信息进行更为深入的挖掘,则更需要数据库的支持。系统会从文件和数据库中提取日志数据进行分析,部分的分析结果会被存储到数据库中,最后通过Web方式把分析的结果展示给用户。以上就是系统工作的大致流程,下面分别对系统的三个模块作具体的介绍。

3.日志集中模块

日志集中模块的主要任务是把各个服务器上的日志有效地传输到日志机上。日志的传输方式有很多种,在实际中,我们实现了ftp、rsync和syslog这三种日志传输方式。其中ftp和rsync是定时传输方式,syslog是实时传输方式。

对于使用负载均衡的应用来说,日志的定时传输还需要处理日志的合并问

相关文档
最新文档