Web日志挖掘中数据预处理技术的研究

合集下载

Web日志挖掘中数据预处理技术的研究

ＮＴ．５０：Ｉｔｒｅｐｏｅ６．ｎｅｎｔＥｘｌｒｒ０”
的图片、声音和脚本代码一起被下载到了客户端。
当挖掘的目的是用户访问模式时，片和声音文件图显然用处不大。可以把后缀为ＪＥＭＰ，Ｉ，ＰＧ，３ＧＦＷＭＶ等的记录删除。但是，当挖掘的目的是为了进行网络流量分析时，些信息又会显得非常的重要，这
典型的日志记录形式如下：
次客户连接请求完所要的网页后，服务器会自动与客户断开连接，同时被申请的网页文件连同文件上
２２１２９．６一［２：３５８６２０］一０．９．４６１２：５２／／０６
“ＧＴｄｙｌｇｈｌ．ｔｌ／．１” 一１０ — Ｅ／ｒ／ｏ／ｅｐｈｍｌＨｒＴＰ１０１０１一 “ ｔ／ｗｗ．ｅｐｅｕｃ ” 一 “ ｉｄｗｓ１２ｈｔ／ｗｈｌ．ｄ．ｎｐ：Ｗｎｏ
理，包括删除无关紧要的数据，合并某些记录，对用户请求页面时发生错误的记录进行适当的处理等等。只有当服务器日志中的数据能够准确地反映用户访问Ｗｅ点的情况时，过挖掘得到的关ｂ站经
联规则才是真正有用的。由于Ｈｒ议是一个面向非连接的协议，ＴＰ协每
表１ＥＬ日志格式ＣＦ
雷ＨＨＨＨ簦Ｈ
图１Ｗｅｂ日志挖掘的预处理过程
２１数据清理．
数据预处理的第一步是数据清理，，据清 ’数］理是指根据实际需求，ＷＥ日志文件进行处对Ｂ

基于Web日志的数据预处理研究

关键。
③ 用户请求页面的日期和具体时间；
④用户请求的方法、用户所请求的页面以及传输
使用的协议版本：
⑤ 服务器状态码，０２表示请求成功；０ ⑥ 发送给客户端的总字节数： ⑦ 用户代理。
１数据的来源
Ｗｅ用记录的数据除了服务器的日志记录外．ｂ使还包括代理服务器１志、览器端１志、册信息、３浏３注用
０引言
数据预处理是Ｗｅｂ１挖掘的关键技术．其主３志要任务是从Ｗｅ志文件中有效地识别用户访问会ｂ１３话。预处理的输入是原始１志文件，出的是用户会３输
① 访问用户的Ｉ址或用户使用的代理服务器Ｐ地
＼
竺
基于Ｗｅｂ日志的数据预处理研究
金述强．蒋外文
（南大学信息科学与工程学院，沙４０８）中长１０３
摘
要：详细介绍Ｗｅ日志挖掘的数据预处理过程。通过对预处理的结果用户会话文件进行处ｂ
理，造出扩展有向树模型，从每个用户会话文件中发现该用户所有的最大向前ｇ用构并ｌ路径，实施ｗｅ志挖掘算法提供数据基础。为ｂ１３关键词：数据预处理；用户会话；扩展有向树；最大向前引用路径

Web日志挖掘的相关技术研究的开题报告

Web日志挖掘的相关技术研究的开题报告一、选题背景随着互联网的不断发展，日志数据越来越庞大，尤其是Web日志数据。

Web日志是Web服务器记录的一份详细记录，包括访问时间、来源IP地址、访问页面、使用设备等信息。

这些日志数据不仅对于网站运营和管理有着重要的价值，而且对于企业决策也非常关键。

因此，对Web日志数据的分析和挖掘成为了一个热门的研究方向。

二、选题意义Web日志挖掘技术的研究和应用可以为企业提供更深入的业务洞察和数据支持，可以为用户提供更好的网站访问和使用体验。

同时，Web日志挖掘技术还可以应用于网站性能和安全监测、网站流量分析、用户行为分析等领域，为网站运营提供有力的支持。

三、研究目标本研究的目标是探究基于Web日志的挖掘技术，包括但不限于信息提取、趋势分析、模式挖掘、异常检测等方面，以实现对于Web日志中隐藏的有价值信息的发现和分析。

四、研究内容本研究将针对Web日志挖掘技术的相关问题进行分析和实验，包括但不限于以下内容：1. Web日志数据的采集和处理：- 采集数据：使用网络爬虫和Web服务器记录日志等方式采集数据。

- 数据清洗和预处理：对采集到的数据进行过滤、清洗和格式化处理。

2. Web日志挖掘技术：- 网站性能分析：分析网站的访问量、速度等指标，找出可能导致网站性能下降的因素。

- 流量分析：分析访客来源、流量变化等动态趋势，以及访客点击次数、访问路径等指标。

- 用户行为分析：对用户行为进行分析，了解用户的兴趣、喜好以及消费行为等方面。

- 异常检测：检测到网站遭受黑客攻击或病毒感染等异常行为，提前预防或防范可能的风险。

五、研究方法本研究将采用的研究方法包括文献调研、实验探究、数据分析等方式。

具体来说，将结合机器学习、数据挖掘、智能算法等方面的技术，以实现对日志数据的分析和挖掘。

六、预期成果研究成果将包括学术论文和相关技术实现。

在学术论文方面，将对Web日志数据的挖掘技术等方面进行深入探究和研究，形成一定的理论贡献；而在技术实现方面，将通过实验和实践，研发相关的Web日志挖掘算法和应用系统。

Web日志挖掘中的数据预处理研究

ｐｅｒａｍｅｔｒｔｔｎ．Ａｎｕｇｓｓａｆｃｉｅｍｅｈｄｆｒｅｌｇｗｉｅａｌｄｐｒ，ｉｅｄｔｓｎ，ａａｃｅｎｎ，ｅｄｉｓｇｅｔｎｅｆｔｔｏａｉｔｄｔｉａｔｌａａｆｉｔｅｖｏｄｎｈｅｓｋｕｏｄｔｌａｉｇｕｅｄｎｉｃｔｎ，ｓｓｉｎｉｅｔｃｔｎ，ｅｃｓｒｉｅｔａｉｉｆｏｅｓｏｄｎｉａｉｉｆｏｔ．Ｔｅｖｌｉｆｔｉｔｏｓｖｒｅｙｔｅｅｐｒｎａａａｈａｉｔｏｓｍｅｈｄｉｅｉｄｂｈｘｅｉｄｙｈｉｆｍｅｔｌｔ．ｄ
ｉｇｎ．Ｔｈｓｐｐｒｃｍｐｅｅｙｃｍｂｈｏｅｐｏｅｓｏａａｐｅｒａｍｅｔｉｅｍｓｏｂｌｇｆｌｎｎａａｉａｅｏｌｔｌｏｓｔｅｗｈｌｒｃｓｆｄｔｒｔｅｔｎｎｔｒｆｗｅｏ－ｅｍｉｉｇＳｄｔｉ
中图分类号：Ｐ９Ｔ３１文献标志码：Ａ文章编号：１７４０７２１）１０８ — ５６３— ８，０２０ — ０１０（
ＤａａｐｒｐｒｃｓｉｏｅｏｆｌｉｎｇｔｅｏｅｓｎｇｆｒＷｂｌｇ－ｉｍｎｉｅ
Ｖｏ．６Ｎｏ１１２．
Ｆｂ２１ｅ．０２
Ｗｅ日志挖掘中的数据预处理研究ｂ
卢健，刁雅静
（江苏科技大学经济管理学院，江苏镇江２２０）］０３；

Web日志挖掘的数据预处理研究

① 中间缓存保存了最近从ｗ出服务器传来的所有页面，
在一段时间内，这些缓存的页面可以直接下传给多个通过代
理发出Ｗｅ请求的用户而％ｂ服务器完全不知道这些行为，ｂ
作者简介：方成效（９ｍ）男，１８，江西都昌人，华东交通大学信息工程学院硕士研究生，研究方向：ｂＷｅ挖掘；袁可风（４，１５）男，９
（）１本地缓存。为了减少数据传输量以提高网络性能，大部分的浏览器都将最近访问的页面缓存在本地硬盘上，以所当用户点击“ ＡＫ按钮，次访问这些已访问过的页面时，ＢＣ ” 再浏览器首先检查本地是否存在该页面，如果有，就检查Ｗｅ服ｂ务器上对应的页面有没有更新，己经更新，若则从Ｗｅ服务器ｂ
（ｃｏｌｆ珊ｏｎｉｅｎ，ａｔｈａＪｏｎｎｅｉ，日ｃａｇ３０３Ｃｉ）ＳｈｏｏＩｎＥｇｅｒｇＥｓＣｉａｔｇＵｉｒｔＮＩＩｎ３０１，ｈａｎｉｎｉｏｖｓｙＪ】ｎ
Ａｈ￣．ｈａｅｎｌｓｓｄｔＩａｒＴｉｐｐｒａａｙｅａＰｑｍ）ＢＢｇ删ｓａｏＢｉｎｆｒｅｏｏＷｂｌｇｍｉｉｇｐｏｏｅｈｎｎ，ｒｐｓｓｔｅ嘲ｉｅｔｃｔｎａｉｍｅｃｂｓｄＯｌｏｕｔｄｎｉａｉｒｈｔａｅｉｌｇｑｏｅｉｆｏｔｉ
方成效，袁可风
（东交通大学信息工程学院，华江西南昌３０１）３０３摘要：分析了ｗｅｂ日志挖掘的数据预处理过程，出了基于日志引用页的用户识别算法，提并对其性能进行分析，最后给出

Web日志挖掘数据预处理研究

是ｗｅｂ使用分析的一个基本先决条件。
１１ｗｂ日志文件．ｅ
考虑到普遍性和代表性，文那仅以Ｉ本Ｉ务器日志文Ｓ服件［为例，论Ｗ３２］讨Ｃ扩展日志记录ＥＦ（ｘｅｄｄＬｇＦｒＬＥｔｅｏｏ— ｎ
＃Ｆｉｌｓｅｄ：Ｃ— ｉｔｍｅＣ — ｍｅｈｄＣ－ｕｉｓｅｓ－ｓａｕｐＤａｅＴｉＳｔｏＳｒ — ｔｍｃｔｔｓ
用户浏览的前一个网址，
ＵｅｎｍｅＳｒａｍｅｈｄｔｏｕｌｔｍｒ—ｓｅ接过来的ｕｅ—ａｅｔＹｅｓｒ— ｇｎｓｐｏｏｏｒｔｃｌｓａｕｔｔｓｂｔｓｙｅＹｅｓＹｅｓＹｓｅ客户所用的浏览器使用的Ｉｔｒｅ协议，ＨＴｎｅｎｔ如ＴＰ，ＴＦＰ用ＨＴＴＰ或者ＦＰ术语所描述的动作状态Ｔ传输的字节数
微型电脑应用
２００７年第２卷第１期３０
Ｗｅｂ日志挖掘数据预处理研究
夏成文，韩坚华，梁乘铭
摘要：详细介绍ＥＦ日志文件格式的基础上定义了会话表，对预处理过程中几个主要步骤进行深入讨论，结已有在Ｌ并总
表１Ｗ３扩展日志格式部分域Ｃ
域标识符是否需要前缀描
述
ｄｔａｅｔｉｍｅＩｐ
－
ＮＯＮＯＹｅｓＹｅＳＹｅｓＹｅｓ

基于Web日志挖掘数据预处理技术的研究

使用情况．而辅助管理和支持决策。从
／＼
亟巨
土
．
・
＝苎＝二苎兰＝＝
亟ｉ
．
户访问序列。
ｘｌＵ＝Ｊ＝：ｘＵｘＩｊ：＝；ｘ【ｉｌＵ＝＋Ｉｌ；ｆ．；ｎ ¨）ｏａ２ｒｋ－：ｉ｛ｒ．＝；）ｆＪｌ－．ｏＯ＞＇
用１志和站点拓扑结构．３构造出他的浏览路径。果当前请求的如页面的引用页不在已浏览的页面系列中，则认为存在另外具有１Ｗｅ．ｂ日志挖掘的过程Ｗｅ日志挖掘的过程一般分为数据预处理阶段、挖掘算法相同Ｉ址与代理的用户。ｂＰ地下面给出的是ｉａｅｔ相同的访问序列基于日志参引Ｄ和ｇｎ均实施阶段（式识别）模式分析阶段。１出了日志挖掘的过模、图给页面的用户识别算法。／ｎ（＜ｉ＝）ｉ广设１＝＜ｎ为ｐ和ａｅｔ相同且按时间升序排列的ｇｎ均某暂定用户访问序列，ｉｕｌＤ的参引页，ｘ为识别后的用Ｌ．ｒ为ｐＵ
陈荣旺１２
郭
红
【摘要】数据预处理是Ｗｅ：ｂ日志挖掘中的关键和重要一步，文章分析了Ｗｅｂ日志挖掘的数据预处理过程，并给出基于日志参引页的用户ｉ￣、径补全算法和基于一种时问窗口模型的会话划分算法。ｅｌ路，【关键词】Ｗｅ：ｂ日志挖掘数据预处理算法

一种WEB日志挖掘的数据预处理方法

１引言
当前已经有很多科研工作者和研究机构发现网站
日志数据具有很大的利用价值，希望通过对ｗｅｂ日志
挖掘算法的输入直接影响日志挖掘的质量。一个ｗｅｂ服务器是重要的数据来源，因为它明确记录了所有访问此网站的客户的浏览动作。它记录了多个用户对一个站点的访问信息。Ｗｅｂ使用记录的数据除了服务器的日志记录外，还包括浏览器端日志代理服务器日志、代理服务器日志、注册用户信息、登录信息、用户会
ｓｐｌｍｅｔｇｐｔ．Ａｆｒｔｅｕｅｄｎｉｃｔｎｈｒｅｏｅｐｇｅｕｅｅｅｃｅｃｆｄｔｕｐｅｎｉａｎｈｔｓｒｉｅｔａｉ，ｔｅｆｅｈｉｆｏｍａｆｔａｅｒｄｃｓｔｆｉｙｏａｈｈｉｎａ
下：
部分，将有价值的模式提取出来。数据预处理是ｗｂｅ日志挖掘的关键技术，主要任务是从ｗｅ其ｂ日志文件中有效地识别用户访问会话。数据预处理的结果作为
① 基于项目：国家科技攻关计划（０３ａ４）２０ｂｌｃ０
话信息、交易信息、ｏｋｅ中的信息、Ｃｏｉ用户查询信息、
的研究来进一步改善网站设计，使用户在更短的响应时间内找到他所需要的资源，增进用户体验，了解用户的兴趣和真正动机等。Ｗｅｂ访问日志挖掘过程一般
分为三个步骤：（）１数据预处理：对原始的ｗｅ日志ｂ
Ａｂｓｒｃ：Ｗｅｏｎｎｓａｍｐｏｔｎｓａｃｉｅｔｏｂｏｔｂｍｉｎ．ｔｒｐｏｅｓｎｓａｋｙｔｃｎｌｇｔａｔｂｌｇｍｉｉｇｉｎｉｒｔｅｅｒｈｄｒｃｉｎａｕａｒｗｅｎｉｇＤａａｐｅｒｃｓｉｇｉｅｈｏｏｙｅｉｂｏｉｉｇｎｗｅｌｇｍｎｎ．Ｔｈｒｉｌｅｃｉｓｔｅｐｅｒｃｓｉｇｆｍｉｉｇｌｇｎｄｔｉｅａｔｃｅｄｓｒｂｅｈｒｐｏｅｓｎｏｎｎｏｓｉｅｌａ．Ｄａａｐｅｏｅｓｎｔｒｐｒｃｓｉｇｉｃｕｅｄｔｃｅｎｉｅｔｆｎｕｅ，ｒｃｇｉｉｇｅｓｏ，ｃｅｎｉｇｐｈｆａｏｅａｅｎｎｌｄｓａａｌａ，ｄｎｉｇｓｒｅｏｎｚｎｓｓｉｎｌａｎｕｔｅｌｍｅｆｔｐｇａｄｙｉｈ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

户对某个特定页面的请求往往会引起几个日志的记录，然而对于日志挖掘来讲，多时候我们并不需要很网页上的图形或其他资源请求，有用户请求的只ＨＭＬ页面才真正代表了用户的意图。关于这点我Ｔ们可以通过删除特定的后缀名来完成。另外现在很多搜索软件也会自动对用户所搜索的相关网页发送
用挖掘又叫Ｗｅｂ日志挖掘。通过Ｗｅｂ日志挖掘可
以从ｗｂ服务器的日志中发现用户的访问模式，ｅ分析站点的使用情况，从而进一步研究Ｗｅｂ日志记录
中的规律，以期改进Ｗｅｂ站点的性能和组织结构，
是将传统的数据挖掘技术与Ｗｅｂ数据资源结合起来，并综合运用统计学、计算机网络、据库与数据数仓库、可视化等众多领域的技术，进行Ｗｅｂ挖掘。Ｗｅ掘包括结构挖掘、用挖掘、ｂ挖使内容挖掘等几个方面。其中ｗｂ使用挖掘又叫Ｗｅ日志挖ｅｂ
１引言
随着互联网的飞速发展，网络应用已经渗透到我们生活工作的方方面面。我们利用网络搜索有用的信息，相互交流沟通，行商业活动等。如何有效进地分析用户的需求，助用户从因特网的信息海洋帮
中发现他们感兴趣的信息和资源，已经成为一项迫切而重要的课题。解决这些问题的一个有效途径就
请求，这些对我们来说都是没用的记录。删除这些
第７卷第３期
２００８年９月
广东轻工职业技术学院学报
ＪＯＵＲＮＡＬＯＦＧＵＡＮＧＤＯＮＧＮＤＵＳＩＴＲＹＴＥＣＨＮＩＣＡＬＣＯＬＬＥＧＥ
Ｖ０１７．
ＮＯ．３
Ｓｐ．２０ｅ０８
Ｗｅｂ日志挖掘中数据预处理技术的研究
页；把用户归类，不同类型的用户运用不同的链对
接；为用户推荐他们可能感兴趣的网页等个性化服
务。
虽然Ｗｅ自身有着异质、ｂ分布、动态、统一结无
构的特点，但从局部来看在每个提供信息资源的Ｗｅｂ服务器上都有一个结构比较完善的日志文件，对其进行挖掘是切实可行的且具有重要意义。Ｗｅｂ日志挖掘过程大体分为：数据预处理、式发现、模模
中图分类号：Ｐ３３Ｔ９
文献标识码：Ａ
文章编号：６２１５（０８０－０９４１７－９０２０）３００－０
指从海量的Ｗｅｂ信息源集合中发现有效的、颖新
的、在可用的及最终可理解的知识（模式，潜如规
图１Ｗｅ日志挖掘过程ｂ
３ｗｂ日志数据预处理的意义ｅ
从图１中我们看到，要对Ｗｅｂ数据进行有效的挖掘，首先必须对Ｗｅｂ日志进行数据预处理。所谓数据预处理即根据挖掘的目的，原始Ｗｅ对ｂ日志文
律，束等）的非平凡过程。Ｗｅ约ｂ挖掘主要分为Ｗｅｂ结构挖掘、ｂ内容挖掘、ｂ使用挖掘。其ＷｅＷｅ中Ｗｅ用挖掘是指通过挖掘存储在Ｗｅ的访ｂ使ｂ上问日志，而发现有用的信息的过程，以Ｗｅ从所ｂ使
掘。数据预处理是ｗｂ日志挖掘的首要步骤，ｅ也是非常重要的一步。预处理过程是保证Ｗｅ日志挖ｂ掘质量的关键，预处理的结果直接影响到挖掘算法的选择与模式发现。本文介绍ｗｂＥ志挖掘的一些ｅｔ
提高站点的服务质量。另外通过Ｗｅｂ日志挖掘我们可以发现用户的兴趣并为他们创造新的个人网
步，处理的结果决定了挖掘的效率和质量。本文主要阐述了预处理的一般过程，针对预并目前国内外常用的一些预处理技术进行了探讨和分析。
关键词：ｂ日志挖掘；Ｗｅ数据预处理；户识别；用会话识别
式分析等三个阶段。
相关知识，主要分析ｗｂ日志数据预处理的一般并ｅ过程，对该领域的一些技术和方法进行了比较详细
的探讨。
２ｗｂ日志挖掘的概念ｅ
随着网络的发展和人们对信息的需求，个研究热点。Ｗｅｂ挖掘是
秦文胜
（东轻工职业技术学院电子通信工程系，广广东广州５００）１３０
摘
要：ｂ日志挖掘是利用数据挖掘技术挖掘和分析网络日志，获取网站使用过程Ｗｅ并
中的有价值的信息和模式的过程。预处理是Ｗｅｂ日志挖掘的第一步，是非常关键的一也
收稿日期：０８— ６—１２００８
作者简介：文胜（９７一）女，教授。秦１６，副
ｌ０
广东轻工职业技术学院学报
第７卷
原始嗣
志文件
预处理
挖掘数
据集
模式发现
规则
模式
模式分析
有意义的
模式、规则