Clementine在用户频繁访问路径挖掘中的应用

万方数据

name]、事件[cs(Refemr),cs-uri-stem,cs-uri-query,∞一status]。每条访问记录中表示目标页的es一面一stem字段和来源页面的es(Referer)字段,构成一对(Sourse来源字段,Destination目标字段)。由于存在路径缺失问题,具有来源字段的日志格式,为路径识别提供了方便∞J。

根据数据预处理的目标需求,第一项重要的工作是日志清洗。我们利用Clementine提供的数据处理节点如选择、合并、排序、历史、填充、导出等构建高效、可重复使用、易操作的web日志预处理数据

流[7-8】,利用这些具有不同功能的数据流,完成数据合并、数据清洗、用户和会话识别、数据筛选等处理。例如完成数据清洗、用户和会话识别的过程,可通过执行图1、2的数据流来完成。其中节点“Append”、“清洗规则”、“数据审核”分别完成数据合并、按条件清洗、数据审核功能,节点“生成Use-riD”、“生成SessionID”、“time+8”分别完成用户识别、会话识别、时间转换(+8小时)功能。数据预处理中,由于代理服务器、防火墙、本地缓存的存在,使得用户的有效识别p1(也称为独立访问者数量【l刚)变得非常困难。基于实现的可行性,我们选用了目前常见的c—ip+cs(User—Agent)的用户识别和会话超时切分(初步设30分钟为阈值)的方法。

为了使挖掘结果能反映精确的用户行为,应将Web日志挖掘数据库中的数据噪声减少到最低。因此,前期的数据清洗和进一步的数据筛选至关重要。可定义和维护一个缺省的适合于数据清洗的规则库¨¨,包括删除数据、合并数据、规范数据的规则,存放在图1的“选择“节点里,并且对该规则库可以根据当前挖掘目标进行修改。同理,后期的数据筛选也相应建立—个条件库。筛选条件可设置为:筛选出一定时间内会话记录页面大于1,IP访问控制范围内的数据(如果图书馆访问是IP控制方式的话)。

图1日志清洗数据流

图2用户和会话识别数据流

为了提高数据挖掘的效率,还需要将来源和目标URL转化成唯一的数字或字母编码。实现的方法是在Clementine外部先建立一个URL编码转化对照表,通过“Merge”节点导入到web挖掘数据库中。若某挖掘只关心用户对某一栏目的访问情况,而不关心某栏目下具体页面的点击数量,就需要在URL编码转化对照表中将这些页面归并到同一栏目下,共用一个唯一编码,然后将合并会话序列中相邻的重复页面的规则添加到规则库中。

经过编码与去噪声处理,会话文件的数据减少到3.05MB(原来是1.64GB),可从Clementine中导出到文本或数据库,以备下一步使用。这样,可大大提高后期的数据处理效率。

2数据挖掘的格式转化:切分最大前向路径根据挖掘的需要,还需将会话序列进一步切分成粒度更小的、对挖掘有意义的事务序列。划分事务的主要方法为引用时长和Chen等Mo人提出的最大前向引用,简称为MFP。本文主要选用第二种方法。对于每个用户会话,以开始页面为起点,每个最大前向路径即为一个事务。每个事务可定义为从起点页第一次引用开始,到发生回退的前一页组成一组路径,前向指引定义为—个从未在事务集合中出现的页面,回退指引定义为—个已经在前面的事务集合中出现的页面。发生回退的前一页往往是内容或目标网页,而这一页之前的页面往往是导航页面。

如图3所示,用户从网站拓扑结构的A节点完全遍历到O节点的过程中,在D、E、H、N处各发生了一次折返,每次折返(由前进变回退)都会产生一个最大前向路径,也就是图中的{ABCD、ABCE、

ABFGH、ALMN和ALO。解析最大前向路径的算法万方数据

称MF算法。

图3网站访问序列

由于clementine的脚本过于复杂,目前没有很多资料可以参考。我们暂时放弃在Clementine中实现MFP切分,将clementine的会话序列文件导出到FoxPro中,参考Chen论文M3中提到的MF算法,利用编程的方法完成这一过程,导入会话序列文件,生成适合Clementine挖掘的MFP文件格式。如图4所示,包含会话ID(ID)、事务ID(时间)、网页ID(内容)3个字段。该算法是在完成路径补充的基础上使用的,算法的第4步[4J,在判定来源页D是前向指引之后,直接将目标页D添加到Y的后面(Y+D),并没有考虑当前的来源页S。我们可适当修改这一步骤,在判定D的时候,同时也判定来源页S是否出现为前向指引,采取了“Y+S+D”的方式,符合路径缺失的条件后对S进行了首页补齐。

图4MFP文件格式

3频繁访问路径的挖掘与分析

完成了繁琐的数据处理,利用Clementine提供的挖掘节点,连接目标数据,设定相应参数和阈值,可以在MFP事务数据库中挖掘有意义的模式与规则。我们利用Clementine的序列节点、网络节点构建了基于Clementine的日志挖掘模型。如图5所示,其中序列节点——sessionid,目标数据为MFP文件,用于频繁访问路径的挖掘,运行后会生成同名预测节点。其中网络节点一网页关联关系,目标数据为会话序列文件,用于网页关联关系的挖掘。

图5基于Clementine的日志挖掘模型

序列节点适合于连续数据或与时间有关的数据的模式挖掘。该算法是基于CARMA关联规则算法,使用一个有效的二次传递方法查找频繁出现的序列,并可以创建一个生成模型节点,插入到数据流中创建预测。因此,序列节点适合于用户频繁访问序列的挖掘。

首先,我们须创建序列规则集。在序列节点(图5中的“sessionid”)的“字段”选项卡上指定一个ID字段及一个时间字段(可选),以及一个或多个内容字段(字符类型设置为集合)。根据揭示的序列关系的不同,我们设置两种方式。一种为事务内部的序列关系。选择事务ID作为ID字段,不指定时间字段(序列节点会默认行号顺序为时间值),选择网页作为内容节点。另一种为同一个会话中不同事务间的序列关系。选择会话ID作为ID字段,指定事务ID作为时间字段,选择网页作为内容节点。

初步调整最低规则支持度为2%,置信度为2%,最大序列容量为5,这样就在挖掘结果中看到支持度比较低的长度大的访问模式。执行数据流,生成序列预测节点,可见12条支持度在2%以上的规则。如图6所示,参见其中的支持度指标,可找到4条明显的序列,一是[1](首页)和[32](全文期刊),支持度为64.91%;二是[1]和[33](网络数据

库),支持度为24.648%;三是[1]和[72](图书馆万方数据

?76?中华医学图书情报杂志2010年7月第19卷第7期ChinJMedLibrInfSci,V01.19No.7july.2010

信息),支持度为lO.27%;另外还有一个明显的序列,eP<前项[1]和[32],后项[33]>,规则支持度为2.833%。

简单分析获知,大部分读者的网络信息行为是通过网络数据库获取最新的期刊文献,其中以全文期刊为首选,然后选择网络数据库,偶尔浏览网站中的信息内容。但浏览文献信息(32,33)和浏览网站新闻的行为(72)之间不存在明显的序列关系,说明网站用户的信息行为都比较专一。

图6频繁访问路径:同一会话不同覃务之间的序列关系

如图7,执行“网页关联关系”数据流,可看到网站访问的热点图,关联紧密的用粗线表示。

圈7网页关联关系

序列<l,32>的链接百分比为39.06%,序列<l,33>的百分比为13.6%,序列<l,72>的百分比为6.36%,序列<32,100>的百分比为2.29%。如果能够将会话序列文件中的回退的路径也除去,则看到的结果将更加精确。4结论

在整个数据挖掘过程中,花了10%的时间研究单个的日志格式,60%时间做Web日志预处理,30%的时间做最大前向路径切分和数据格式转换,数据挖掘实际只用了10%或者更少的时间。可见Web预处理在整个数据挖掘中的重要性,同时也看到基于挖掘工具Clementine的序列挖掘过程比普通数据库处理、预处理花费的时间大大减少,而且它不需要研究人员熟练掌握挖掘算法,只需要关注自己要完成的事情和解决的问题。由于Clementine数据流是具有重用性的,规则库也是可维护的,而且Clementine平台集成了数据挖掘的大多数方法,因此将Clementine用于Web日志挖掘是有效可行的。本研究中的Clementine预处理、挖掘数据流不仅适应于网站用户使用模式的挖掘,同样适应于电子数据库中信息检索行为的挖掘,实现的关键在于能否获得包含更详细的用户信息和使用行为的Web日志。

【参考文献】

[1]孔吴,周长胜,Web日志挖掘预处理研究[J].北京机械工业学院学报,2005,20(4):28—31.

[2]互联网数据挖掘综述:Web使用记录的挖掘[EB/OL].[2009—1l一25].htIp:Hwww.dwway.eom/html/80/n-2180-3.htnd.[3]田稷,张冬梅,Web日志挖掘数据库数据挖掘对采访决策的意义[J].图书馆杂志,2001,20(II):4l一42.

[4]ChenMS,ParkJS,YuPS.Dataminingforpathtraverse]patternsinawebenvironment[C].InternationalConferenceonDistribu-tedComputingSystem,Hongkong.1996:385-392.http://citese-erx.ist.pau.edu/viewdcc/download?doi=10.1.1.43.9534&m?

=r印l蛳=阻

【5]Clementine的数据挖掘中文教程[EB/OL].[2009-II一25].http://Www.quRnwen.tom.cn/dw,/1544013/.

[6]ChenMS,ParkJs,YuPS.Yu,EfficientDataMiningforPathTraversalPattems[J].IEEETrmmKnowlDataEng(s104l一4347),1998,10(2):209-221.

[7]郑慧霞,徐硕.Web13志预处理的Chmentine方案[J].医学信息学杂志,2009,30(12):33-36,40.

[8]谢邦昌.数据挖掘Clementine应用实务[M].北京:机械工业出版社,2008.

[9]吕佳.Web日志挖掘技术应用研究[J].重庆师范大学学报:自然科学版,2006,23(4):I-6.

【lO]网站流量统计指标及其网络营销含义:独立访问者数量分析[EB/OL].(200r7一04一t6)[2009-11—25].http://lIi.“du.

eom/jam/blef,/item/at50220868c95fd062d9860e.html.

[11]李歌维.Web日志挖掘数据预处理与数字图书馆个性化服务[J].情报杂志,2007,2s(s):90—91.

[收稿日期:2009—12—02】

[本文编辑:杜云祥]万方数据

Clementine在用户频繁访问路径挖掘中的应用

作者:郑慧霞, 徐硕, 王丽娜, ZHENG Hui-xia, XU Shuo, WANG Li-na

作者单位:中国医学科学院医学信息研究所,北京,100005

刊名:

中华医学图书情报杂志

英文刊名:CHINESE JOURNAL OF MEDICAL LIBRARY AND INFORMATION SCIENCE

年,卷(期):2010,19(7)

被引用次数:1次

参考文献(11条)

1.孔昊;周长胜Web日志挖掘预处理研究[期刊论文]-北京机械工业学院学报 2005(04)

2.互联网数据挖掘综述:Web使用记录的挖掘 2009

3.田稷;张冬梅web日志挖掘数据库数据挖掘对采访决策的意义[期刊论文]-图书馆杂志 2001(11)

4.Chen MS;Park JS;Yu PS Data mining for path traversal patterns in a web environment[外文会议] 1996

5.Clementine的数据挖掘中文教程 2009

6.Chen MS;Park JS;Yu PS Yu,Efficient Data Mining for Path Traversal Patterns 1998(02)

7.郑慧霞;徐硕Web日志预处理的Clementine方案[期刊论文]-医学信息学杂志 2009(12)

8.谢邦昌数据挖掘Clementine应用实务 2008

9.吕佳Web日志挖掘技术应用研究[期刊论文]-重庆师范大学学报(自然科学版) 2006(04)

10.网站流量统计指标及其网络营销含义:独立访问者数量分析 2009

11.李歌维Web日志挖掘数据预处理与数字图书馆个性化服务[期刊论文]-情报杂志 2007(08)

本文读者也读过(6条)

1.杨思基于用户访问序列挖掘的站点路径优化分析[期刊论文]-图书馆界2009(1)

2.郑慧霞.徐硕Web日志预处理的Clementine方案[期刊论文]-医学信息学杂志2009,30(12)

3.范列数据挖掘及其工具的选择[期刊论文]-大众商务(下半月)2010(3)

4.郑慧霞.徐硕Web日志预处理的Clementine方案[会议论文]-2009

5.王琼.刘珏.徐汀荣.Wang Qiong.Liu Jue.Xu Tingrong基于站点结构的用户频繁路径挖掘[期刊论文]-计算机应用与软件2009,26(1)

6.Huy Anh Nguyen.Deokjai Choi Application of Data Mining to Network Intrusion Detection:Classifier Selection Model[会议论文]-2008

引证文献(1条)

1.郑慧霞巧用Clementine简化数据处理[期刊论文]-中华医学图书情报杂志 2011(4)

本文链接:https://www.360docs.net/doc/2011224500.html,/Periodical_zhyxtsgzz201007023.aspx

相关主题
相关文档
最新文档