Clementine在用户频繁访问路径挖掘中的应用

万方数据

ｎａｍｅ］、事件［ｃｓ（Ｒｅｆｅｍｒ），ｃｓ－ｕｒｉ－ｓｔｅｍ，ｃｓ－ｕｒｉ－ｑｕｅｒｙ，∞一ｓｔａｔｕｓ］。每条访问记录中表示目标页的ｅｓ一面一ｓｔｅｍ字段和来源页面的ｅｓ（Ｒｅｆｅｒｅｒ）字段，构成一对（Ｓｏｕｒｓｅ来源字段，Ｄｅｓｔｉｎａｔｉｏｎ目标字段）。由于存在路径缺失问题，具有来源字段的日志格式，为路径识别提供了方便∞Ｊ。

根据数据预处理的目标需求，第一项重要的工作是日志清洗。我们利用Ｃｌｅｍｅｎｔｉｎｅ提供的数据处理节点如选择、合并、排序、历史、填充、导出等构建高效、可重复使用、易操作的ｗｅｂ日志预处理数据

流［７－８】，利用这些具有不同功能的数据流，完成数据合并、数据清洗、用户和会话识别、数据筛选等处理。例如完成数据清洗、用户和会话识别的过程，可通过执行图１、２的数据流来完成。其中节点“Ａｐｐｅｎｄ”、“清洗规则”、“数据审核”分别完成数据合并、按条件清洗、数据审核功能，节点“生成Ｕｓｅ－ｒｉＤ”、“生成ＳｅｓｓｉｏｎＩＤ”、“ｔｉｍｅ＋８”分别完成用户识别、会话识别、时间转换（＋８小时）功能。数据预处理中，由于代理服务器、防火墙、本地缓存的存在，使得用户的有效识别ｐ１（也称为独立访问者数量【ｌ刚）变得非常困难。基于实现的可行性，我们选用了目前常见的ｃ—ｉｐ＋ｃｓ（Ｕｓｅｒ—Ａｇｅｎｔ）的用户识别和会话超时切分（初步设３０分钟为阈值）的方法。

为了使挖掘结果能反映精确的用户行为，应将Ｗｅｂ日志挖掘数据库中的数据噪声减少到最低。因此，前期的数据清洗和进一步的数据筛选至关重要。可定义和维护一个缺省的适合于数据清洗的规则库¨¨，包括删除数据、合并数据、规范数据的规则，存放在图１的“选择“节点里，并且对该规则库可以根据当前挖掘目标进行修改。同理，后期的数据筛选也相应建立—个条件库。筛选条件可设置为：筛选出一定时间内会话记录页面大于１，ＩＰ访问控制范围内的数据（如果图书馆访问是ＩＰ控制方式的话）。

图１日志清洗数据流

图２用户和会话识别数据流

为了提高数据挖掘的效率，还需要将来源和目标ＵＲＬ转化成唯一的数字或字母编码。实现的方法是在Ｃｌｅｍｅｎｔｉｎｅ外部先建立一个ＵＲＬ编码转化对照表，通过“Ｍｅｒｇｅ”节点导入到ｗｅｂ挖掘数据库中。若某挖掘只关心用户对某一栏目的访问情况，而不关心某栏目下具体页面的点击数量，就需要在ＵＲＬ编码转化对照表中将这些页面归并到同一栏目下，共用一个唯一编码，然后将合并会话序列中相邻的重复页面的规则添加到规则库中。

经过编码与去噪声处理，会话文件的数据减少到３．０５ＭＢ（原来是１．６４ＧＢ），可从Ｃｌｅｍｅｎｔｉｎｅ中导出到文本或数据库，以备下一步使用。这样，可大大提高后期的数据处理效率。

２数据挖掘的格式转化：切分最大前向路径根据挖掘的需要，还需将会话序列进一步切分成粒度更小的、对挖掘有意义的事务序列。划分事务的主要方法为引用时长和Ｃｈｅｎ等Ｍｏ人提出的最大前向引用，简称为ＭＦＰ。本文主要选用第二种方法。对于每个用户会话，以开始页面为起点，每个最大前向路径即为一个事务。每个事务可定义为从起点页第一次引用开始，到发生回退的前一页组成一组路径，前向指引定义为—个从未在事务集合中出现的页面，回退指引定义为—个已经在前面的事务集合中出现的页面。发生回退的前一页往往是内容或目标网页，而这一页之前的页面往往是导航页面。

如图３所示，用户从网站拓扑结构的Ａ节点完全遍历到Ｏ节点的过程中，在Ｄ、Ｅ、Ｈ、Ｎ处各发生了一次折返，每次折返（由前进变回退）都会产生一个最大前向路径，也就是图中的｛ＡＢＣＤ、ＡＢＣＥ、

ＡＢＦＧＨ、ＡＬＭＮ和ＡＬＯ。解析最大前向路径的算法万方数据

称ＭＦ算法。

图３网站访问序列

由于ｃｌｅｍｅｎｔｉｎｅ的脚本过于复杂，目前没有很多资料可以参考。我们暂时放弃在Ｃｌｅｍｅｎｔｉｎｅ中实现ＭＦＰ切分，将ｃｌｅｍｅｎｔｉｎｅ的会话序列文件导出到ＦｏｘＰｒｏ中，参考Ｃｈｅｎ论文Ｍ３中提到的ＭＦ算法，利用编程的方法完成这一过程，导入会话序列文件，生成适合Ｃｌｅｍｅｎｔｉｎｅ挖掘的ＭＦＰ文件格式。如图４所示，包含会话ＩＤ（ＩＤ）、事务ＩＤ（时间）、网页ＩＤ（内容）３个字段。该算法是在完成路径补充的基础上使用的，算法的第４步［４Ｊ，在判定来源页Ｄ是前向指引之后，直接将目标页Ｄ添加到Ｙ的后面（Ｙ＋Ｄ），并没有考虑当前的来源页Ｓ。我们可适当修改这一步骤，在判定Ｄ的时候，同时也判定来源页Ｓ是否出现为前向指引，采取了“Ｙ＋Ｓ＋Ｄ”的方式，符合路径缺失的条件后对Ｓ进行了首页补齐。

图４ＭＦＰ文件格式

３频繁访问路径的挖掘与分析

完成了繁琐的数据处理，利用Ｃｌｅｍｅｎｔｉｎｅ提供的挖掘节点，连接目标数据，设定相应参数和阈值，可以在ＭＦＰ事务数据库中挖掘有意义的模式与规则。我们利用Ｃｌｅｍｅｎｔｉｎｅ的序列节点、网络节点构建了基于Ｃｌｅｍｅｎｔｉｎｅ的日志挖掘模型。如图５所示，其中序列节点——ｓｅｓｓｉｏｎｉｄ，目标数据为ＭＦＰ文件，用于频繁访问路径的挖掘，运行后会生成同名预测节点。其中网络节点一网页关联关系，目标数据为会话序列文件，用于网页关联关系的挖掘。

图５基于Ｃｌｅｍｅｎｔｉｎｅ的日志挖掘模型

序列节点适合于连续数据或与时间有关的数据的模式挖掘。该算法是基于ＣＡＲＭＡ关联规则算法，使用一个有效的二次传递方法查找频繁出现的序列，并可以创建一个生成模型节点，插入到数据流中创建预测。因此，序列节点适合于用户频繁访问序列的挖掘。

首先，我们须创建序列规则集。在序列节点（图５中的“ｓｅｓｓｉｏｎｉｄ”）的“字段”选项卡上指定一个ＩＤ字段及一个时间字段（可选），以及一个或多个内容字段（字符类型设置为集合）。根据揭示的序列关系的不同，我们设置两种方式。一种为事务内部的序列关系。选择事务ＩＤ作为ＩＤ字段，不指定时间字段（序列节点会默认行号顺序为时间值），选择网页作为内容节点。另一种为同一个会话中不同事务间的序列关系。选择会话ＩＤ作为ＩＤ字段，指定事务ＩＤ作为时间字段，选择网页作为内容节点。

初步调整最低规则支持度为２％，置信度为２％，最大序列容量为５，这样就在挖掘结果中看到支持度比较低的长度大的访问模式。执行数据流，生成序列预测节点，可见１２条支持度在２％以上的规则。如图６所示，参见其中的支持度指标，可找到４条明显的序列，一是［１］（首页）和［３２］（全文期刊），支持度为６４．９１％；二是［１］和［３３］（网络数据

库），支持度为２４．６４８％；三是［１］和［７２］（图书馆万方数据

?７６?中华医学图书情报杂志２０１０年７月第１９卷第７期ＣｈｉｎＪＭｅｄＬｉｂｒＩｎｆＳｃｉ，Ｖ０１．１９Ｎｏ．７ｊｕｌｙ．２０１０

信息），支持度为ｌＯ．２７％；另外还有一个明显的序列，ｅＰ＜前项［１］和［３２］，后项［３３］＞，规则支持度为２．８３３％。

简单分析获知，大部分读者的网络信息行为是通过网络数据库获取最新的期刊文献，其中以全文期刊为首选，然后选择网络数据库，偶尔浏览网站中的信息内容。但浏览文献信息（３２，３３）和浏览网站新闻的行为（７２）之间不存在明显的序列关系，说明网站用户的信息行为都比较专一。

图６频繁访问路径：同一会话不同覃务之间的序列关系

如图７，执行“网页关联关系”数据流，可看到网站访问的热点图，关联紧密的用粗线表示。

圈７网页关联关系

序列＜ｌ，３２＞的链接百分比为３９．０６％，序列＜ｌ，３３＞的百分比为１３．６％，序列＜ｌ，７２＞的百分比为６．３６％，序列＜３２，１００＞的百分比为２．２９％。如果能够将会话序列文件中的回退的路径也除去，则看到的结果将更加精确。４结论

在整个数据挖掘过程中，花了１０％的时间研究单个的日志格式，６０％时间做Ｗｅｂ日志预处理，３０％的时间做最大前向路径切分和数据格式转换，数据挖掘实际只用了１０％或者更少的时间。可见Ｗｅｂ预处理在整个数据挖掘中的重要性，同时也看到基于挖掘工具Ｃｌｅｍｅｎｔｉｎｅ的序列挖掘过程比普通数据库处理、预处理花费的时间大大减少，而且它不需要研究人员熟练掌握挖掘算法，只需要关注自己要完成的事情和解决的问题。由于Ｃｌｅｍｅｎｔｉｎｅ数据流是具有重用性的，规则库也是可维护的，而且Ｃｌｅｍｅｎｔｉｎｅ平台集成了数据挖掘的大多数方法，因此将Ｃｌｅｍｅｎｔｉｎｅ用于Ｗｅｂ日志挖掘是有效可行的。本研究中的Ｃｌｅｍｅｎｔｉｎｅ预处理、挖掘数据流不仅适应于网站用户使用模式的挖掘，同样适应于电子数据库中信息检索行为的挖掘，实现的关键在于能否获得包含更详细的用户信息和使用行为的Ｗｅｂ日志。

【参考文献】

［１］孔吴，周长胜，Ｗｅｂ日志挖掘预处理研究［Ｊ］．北京机械工业学院学报，２００５，２０（４）：２８—３１．

［２］互联网数据挖掘综述：Ｗｅｂ使用记录的挖掘［ＥＢ／ＯＬ］．［２００９—１ｌ一２５］．ｈｔＩｐ：Ｈｗｗｗ．ｄｗｗａｙ．ｅｏｍ／ｈｔｍｌ／８０／ｎ－２１８０－３．ｈｔｎｄ．［３］田稷，张冬梅，Ｗｅｂ日志挖掘数据库数据挖掘对采访决策的意义［Ｊ］．图书馆杂志，２００１，２０（ＩＩ）：４ｌ一４２．

［４］ＣｈｅｎＭＳ，ＰａｒｋＪＳ，ＹｕＰＳ．Ｄａｔａｍｉｎｉｎｇｆｏｒｐａｔｈｔｒａｖｅｒｓｅ］ｐａｔｔｅｒｎｓｉｎａｗｅｂｅｎｖｉｒｏｎｍｅｎｔ［Ｃ］．ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｓｔｒｉｂｕ－ｔｅｄＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍ，Ｈｏｎｇｋｏｎｇ．１９９６：３８５－３９２．ｈｔｔｐ：／／ｃｉｔｅｓｅ－ｅｒｘ．ｉｓｔ．ｐａｕ．ｅｄｕ／ｖｉｅｗｄｃｃ／ｄｏｗｎｌｏａｄ？ｄｏｉ＝１０．１．１．４３．９５３４＆ｍ？

＝ｒ印ｌ蛳＝阻

【５］Ｃｌｅｍｅｎｔｉｎｅ的数据挖掘中文教程［ＥＢ／ＯＬ］．［２００９－ＩＩ一２５］．ｈｔｔｐ：／／Ｗｗｗ．ｑｕＲｎｗｅｎ．ｔｏｍ．ｃｎ／ｄｗ，／１５４４０１３／．

［６］ＣｈｅｎＭＳ，ＰａｒｋＪｓ，ＹｕＰＳ．Ｙｕ，ＥｆｆｉｃｉｅｎｔＤａｔａＭｉｎｉｎｇｆｏｒＰａｔｈＴｒａｖｅｒｓａｌＰａｔｔｅｍｓ［Ｊ］．ＩＥＥＥＴｒｍｍＫｎｏｗｌＤａｔａＥｎｇ（ｓ１０４ｌ一４３４７），１９９８，１０（２）：２０９－２２１．

［７］郑慧霞，徐硕．Ｗｅｂ１３志预处理的Ｃｈｍｅｎｔｉｎｅ方案［Ｊ］．医学信息学杂志，２００９，３０（１２）：３３－３６，４０．

［８］谢邦昌．数据挖掘Ｃｌｅｍｅｎｔｉｎｅ应用实务［Ｍ］．北京：机械工业出版社，２００８．

［９］吕佳．Ｗｅｂ日志挖掘技术应用研究［Ｊ］．重庆师范大学学报：自然科学版，２００６，２３（４）：Ｉ－６．

【ｌＯ］网站流量统计指标及其网络营销含义：独立访问者数量分析［ＥＢ／ＯＬ］．（２００ｒ７一０４一ｔ６）［２００９－１１—２５］．ｈｔｔｐ：／／ｌＩｉ．“ｄｕ．

ｅｏｍ／ｊａｍ／ｂｌｅｆ，／ｉｔｅｍ／ａｔ５０２２０８６８ｃ９５ｆｄ０６２ｄ９８６０ｅ．ｈｔｍｌ．

［１１］李歌维．Ｗｅｂ日志挖掘数据预处理与数字图书馆个性化服务［Ｊ］．情报杂志，２００７，２ｓ（ｓ）：９０—９１．

［收稿日期：２００９—１２—０２】

［本文编辑：杜云祥］万方数据

Clementine在用户频繁访问路径挖掘中的应用

作者：郑慧霞，徐硕，王丽娜， ZHENG Hui-xia， XU Shuo， WANG Li-na

作者单位：中国医学科学院医学信息研究所,北京,100005

刊名：

中华医学图书情报杂志

英文刊名：CHINESE JOURNAL OF MEDICAL LIBRARY AND INFORMATION SCIENCE

年，卷(期)：2010,19(7)

被引用次数：1次

参考文献(11条)

1.孔昊;周长胜Web日志挖掘预处理研究[期刊论文]-北京机械工业学院学报 2005(04)

2.互联网数据挖掘综述:Web使用记录的挖掘 2009

3.田稷;张冬梅web日志挖掘数据库数据挖掘对采访决策的意义[期刊论文]-图书馆杂志 2001(11)

4.Chen MS;Park JS;Yu PS Data mining for path traversal patterns in a web environment[外文会议] 1996

5.Clementine的数据挖掘中文教程 2009

6.Chen MS;Park JS;Yu PS Yu,Efficient Data Mining for Path Traversal Patterns 1998(02)

7.郑慧霞;徐硕Web日志预处理的Clementine方案[期刊论文]-医学信息学杂志 2009(12)

8.谢邦昌数据挖掘Clementine应用实务 2008

9.吕佳Web日志挖掘技术应用研究[期刊论文]-重庆师范大学学报(自然科学版) 2006(04)

10.网站流量统计指标及其网络营销含义:独立访问者数量分析 2009

11.李歌维Web日志挖掘数据预处理与数字图书馆个性化服务[期刊论文]-情报杂志 2007(08)

本文读者也读过(6条)

1.杨思基于用户访问序列挖掘的站点路径优化分析[期刊论文]-图书馆界2009(1)

2.郑慧霞.徐硕Web日志预处理的Clementine方案[期刊论文]-医学信息学杂志2009,30(12)

3.范列数据挖掘及其工具的选择[期刊论文]-大众商务（下半月）2010(3)

4.郑慧霞.徐硕Web日志预处理的Clementine方案[会议论文]-2009

5.王琼.刘珏.徐汀荣.Wang Qiong.Liu Jue.Xu Tingrong基于站点结构的用户频繁路径挖掘[期刊论文]-计算机应用与软件2009,26(1)

6.Huy Anh Nguyen.Deokjai Choi Application of Data Mining to Network Intrusion Detection:Classifier Selection Model[会议论文]-2008

引证文献(1条)

1.郑慧霞巧用Clementine简化数据处理[期刊论文]-中华医学图书情报杂志 2011(4)

本文链接：https://www.360docs.net/doc/2011224500.html,/Periodical_zhyxtsgzz201007023.aspx