Web日志预处理中优化的会话识别方法
一种动态时间阈值的会话识别算法

的集 合 。 这些 集合数 据或 者说 访 问 日志 记 录划 分 对
为单 一 的会 话 过程就 是会话 识别 。 次会话 认 为就 一 是用 户 的一次 网页浏 览 过程 . 浏览 过程 就形 成 了一 系 列带访 问 时间次 序 的页面集 合 。 定 义 U (sr es n 为 一 个 用 户 会 话 , S S ue si ) s o U 由 用 户 标 识 、 问页 面 两个 元 素 构 成 , S ueI 访 即U < sr D, R > 其 中ueI S, sr D为用户 标识 。 S R 为该 时 间段 用户 请
式 来进 行预 处理 , 略了用 户多样 、 性 的特 点 , 忽 个 对
时间 阈值 为 l 分钟 。 0 ( ) 大 向前 参 引模 型 。最 大 向前参 引是 指 用 4最
户在浏 览 网页过程 中 , 按下 返 回按钮 将浏 览前 一 个 网页, 即一 个会话 结束 , 新一 个会 话开 始 。
考 虑 到用 户 访 问 网络 时会 话 识 别 的时 间 与 网
页 内容 及 网站结构 有关 , 出一 种改 进 的会话 识 别 提
算法 。 总体 思路 : 综合 分析 网页 的 内容 、 网站设 计 结
构、 网页对用 户 的重要 程度 , 同时加 入页 面链 人 、 链 出数 因素 . 成不 同的用 户访 问We 页 面 的不 同时 形 b 间 阈 值 ,根 据得 到 的 不 同时 间 阈值 进 行会 话 的划
的熟练程 度及 网络 速度 的不 同 , 致不 同用 户 的会 导 话 时 间不同 。 是传 统 的用户识 别算 法采 用预 先设 但 定方法 , 会话 时 间间 隔 阈值 相 同 , 有 考虑 不 同用 没
基于Web日志的数据预处理研究

③ 用户请求 页面 的 日期和具体 时间 ;
④用户请求的方法 、 用户所请求的页面以及传输
使用 的协议版本 :
⑤ 服务器状 态码 , 0 2 表示请求成 功 ; 0 ⑥ 发送 给客户端 的总字节数 : ⑦ 用户代理 。
1 数 据 的 来 源
We 用 记 录 的数 据 除 了服 务 器 的 日志 记 录 外 . b使 还 包 括 代 理 服 务 器 1志 、 览 器 端 1志 、 册 信 息 、 3 浏 3 注 用
0 引 言
数 据 预 处 理 是 We b 1 挖 掘 的 关 键 技 术 .其 主 3志 要 任 务 是 从 We 志 文 件 中 有 效 地 识 别 用 户 访 问 会 b1 3 话 。 预 处 理 的 输 入 是 原 始 1志 文 件 , 出 的 是 用 户 会 3 输
① 访 问用户 的 I 址或用户使 用 的代理服务 器 P地
\
竺
基 于 We b日志 的数 据 预 处 理 研 究
金 述 强 . 蒋 外 文
( 南大学 信息科 学与工 程学 院 , 沙 4 08 ) 中 长 1 0 3
摘
要 :详 细 介 绍 W e 日 志 挖 掘 的数 据 预 处 理 过 程 。 通 过 对 预 处 理 的 结 果 用 户 会 话 文 件 进 行 处 b
理 , 造 出 扩 展 有 向 树 模 型 , 从 每 个 用 户 会 话 文件 中发 现 该 用 户 所 有 的 最 大 向 前 g 用 构 并 l 路 径 , 实施 w e 志挖 掘 算 法提 供 数 据 基 础 。 为 b1 3 关 键 词 :数 据 预 处 理 ;用 户 会 话 ;扩 展 有 向 树 ;最 大 向 前 引 用 路 径
在Web开发中如何实现会话的跟踪

在Web开发中如何实现会话的跟踪
答:在开发Web应⽤程序的时候,经常需要能做到数据共享或者在不同页⾯之间传递参数,⽽且⼀个会话中的数据可能会在不同地⽅使⽤,就需要专⽤的机制来传递和保存这些数据;
所谓会话,指的是从客户端打开与服务器的连接并发出请求到服务器响应客户端请求的全过程。
会话跟踪则是对同⼀个⽤户对服务器的连续请求和接受响应的监视,由于客户端与服务器端之间是通过HTTP协议进⾏通信的,⽽HTTP本⾝是⽆状态协议,不能保存客户的信息,即⼀次响应完成之后连接就断开了,在下⼀次请求时,需要重新建⽴连接,等建完连接以后还要判断是否是同⼀
个⽤户,所以相对会话的过程进⾏监控,最后就是通过会话跟踪技术。
有以下四种:
(1)page代表⼀个页⾯相关的对象和属性
(2)request代表与Web客户端发⽣的⼀个请求相关的对象和属性
(3)session代表⽤于某个Web客户端的⼀个⽤户体验相关的对象和属性
(4)application代表与整个Web应⽤程序相关的对象和属性。
Web日志挖掘的数据预处理研究

① 中间缓存保存了最 近从 w出 服务 器传 来的所有 页 面 ,
在一段时间 内, 这些缓 存的页 面可 以直 接下传 给多 个通 过代
理发 出 We 请 求的用户而 %b服务 器完全 不知道这 些行 为 , b
作者简介: 方成效(9m)男, 18 , 江西都昌人 , 华东交通大学信息工程学院硕士研究生, 研究方向: b We 挖掘; 袁可风( 4 , 1 5)男, 9
() 1本地缓存 。为了减少数据传输 量以提高 网络性 能 , 大 部分的浏览器都将 最近访 问 的页面缓 存在 本地 硬盘 上 , 以 所 当用户点击“ A K 按 钮 , 次访 问这些 已访 问 过的 页面 时 , BC ” 再 浏览器首先检查本 地是否存在该页面 , 如果有 , 就检 查 We 服 b 务器上对应的页面有没有更新 , 己经更新 , 若 则从 We 服务器 b
(colf 珊 o ni e n , at h aJ o n n e i , 日cag 30 3 C i ) Sho o I nEg erg Es C i at gU i rt N IIn 3 01 , h a n i n i o v sy J】 n
Ah  ̄ . h a e n ls sd t I ar T i p p ra ay e a Pqm)BB g删 s a o Bi n fr e o o W blgmiig po o e h n n , rp sst e嘲 i e t c t n ai me c b s d Ol o u t d n i ai r h t ae ilg q oe i f o t i
方成效 , 袁可风
( 东交通大学信 息工程 学院, 华 江西 南 昌 30 1 ) 30 3 摘要 : 分析 了 we b日志挖 掘的数据预 处理过程 , 出了基 于 日志引用页的用户识 别算法 , 提 并对其性 能进行 分析 , 最后给 出
web日志分析常用方法及应用

Web日志挖掘分析的方法日志文件的格式及其包含的信息①2006-10-17 00:00:00②202.200.44.43 ③218.77.130.24 80 ④GET⑤/favicon.ico⑥Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:1.8.0.3)+Gecko/20060426+Firefox/1.5.0.3。
①访问时间;②用户IP地址;③访问的URL,端口;④请求方法(“GET”、“POST”等);⑤访问模式;⑥agent,即用户使用的操作系统类型和浏览器软件。
一、日志的简单分析1、注意那些被频繁访问的资源2、注意那些你网站上不存在资源的请求。
常见的扫描式攻击还包括传递恶意参数等:3、观察搜索引擎蜘蛛的来访情况4、观察访客行为应敌之策:1、封杀某个IP2、封杀某个浏览器类型(Agent)3、封杀某个来源(Referer)4、防盗链5、文件重命名作用:1.对访问时间进行统计,可以得到服务器在某些时间段的访问情况。
2.对IP进行统计,可以得到用户的分布情况。
3.对请求URL的统计,可以得到网站页面关注情况。
4.对错误请求的统计,可以更正有问题的页面。
二、Web挖掘根据所挖掘的Web 数据的类型,可以将Web 数据挖掘分为以下三类:Web 内容挖掘(Web Content Mining)、Web 结构挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)(也称为Web日志挖掘)。
①Web内容挖掘。
Web内容挖掘是指从文档的内容中提取知识。
Web内容挖掘又分为文本挖掘和多媒体挖掘。
目前多媒体数据的挖掘研究还处于探索阶段,Web文本挖掘已经有了比较实用的功能。
Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用Web文档进行趋势预测等。
Web文档中的标记,例如<Title>和<Heading>等蕴含了额外的信息,可以利用这些信息来加强Web文本挖掘的作用。
Web日志数据挖掘的数据预处理方法研究

Web日志数据挖掘的数据预处理方法研究张娥,郑斐峰,冯耕中(西安交通大学管理学院,陕西西安710048)摘要:主要介绍了Web用户访问日志数据挖掘数据预处理过程,综述了国际上的研究现状,流行的预处理方法。
在对用户访问行为的合理假定基础上,最后提出了基于综合最大前向参引模型和时间窗口模型的新方法。
关键词:Web用户访问日志数据挖掘;数据预处理方法中图法分类号:TP274+.2文献标识码:A文章编号:1001-3695(2004)02-0058-03Study on Web Usage Data Mining Preparation MethodsZHANG E,ZHENG Fei-feng,FENG Geng-zhong(School of Management,Xi’an Jiaotong Uniuersity,Xi’an Shanxi710048,China)Abstract:This paper introduces Web usage data mining preparation process.Summarize studies aIready did in this area.Based on the reasonaI hypothesis,it brought out a new method to set server session which based on time window moduIe and maximaI forward reference moduIe.Key words:Web Usage Data Mining;Data Preparation Method1Web日志数据挖掘数据预处理介绍由于互联网传输协议HTTP的无状态性、客户端和代理服务器端缓存的存在,用户访问日志分别存在于服务器、代理服务器和客户端。
同时,这分布在不同地方的访问日志数据集也分别记载了用户使用网络资源的不同模式,比如,客户端浏览器日志记录了单个用户访问多个网站的模式;Web服务器的日志则记录了多个用户访问一个网站的模式;代理服务器日志跟踪记录了多个用户访问多个网站的情况。
Web日志挖掘中数据预处理方法研究
Web日志挖掘中数据预处理方法研究陈红丽;李春生;张明【期刊名称】《科学技术与工程》【年(卷),期】2012(012)008【摘要】Data preprocessing plays a vital role in Web log mining process, it directly affects the quality and results of Web log mining. Main process of data preprocessing is analyzed, and the method of session identification through to use Website home page with dynamic time threshold is improved. The experimental results show that the method can identify more user real session.%数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果.分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进.实验结果表明,改进后的会话识别方法能更有效地识别出用户的真实会话.【总页数】4页(P1928-1930,1935)【作者】陈红丽;李春生;张明【作者单位】东北石油大学现代教育技术中心,大庆163318;东北石油大学现代教育技术中心,大庆163318;东北石油大学现代教育技术中心,大庆163318【正文语种】中文【中图分类】TP301.6【相关文献】1.Web日志挖掘数据预处理方法研究 [J], 柳胜国2.改进的Web日志挖掘数据预处理方法研究 [J], 黄翔3.Web日志挖掘数据预处理方法研究 [J], 张沛露;王建军4.Web日志挖掘中的数据预处理研究 [J], 黄宏涛5.Web日志挖掘中的数据预处理研究 [J], 于琦因版权原因,仅展示原文概要,查看原文内容请购买。
基于网络日志的数据挖掘预处理改进方法
第31卷 第12期系统工程与电子技术Vol.31 No.122009年12月Systems Engineering and Electronics Dec.2009文章编号:10012506X (2009)1222994204收稿日期:2008212210;修回日期:2009203221。
作者简介:孙宇航(19802),男,硕士研究生,主要研究方向为数据挖掘。
E 2mail :sunyuhang @基于网络日志的数据挖掘预处理改进方法孙宇航,孙应飞(中国科学院研究生院,北京100049) 摘 要:对网络日志数据挖掘预处理技术进行研究,针对Frame 页面过滤方法与超时阈值设定进行分析,提出了应用ID3算法改进Frame 页面过滤过程中丢失SubFrame 页面信息且需要进行站点提升步骤。
在超时阈值的设定方面采用动态修正方法,提高预处理技术对长时间会话的识别能力的改进方法。
通过实验验证,该方法有效地减少了预处理过程中的信息丢失,同时提高了挖掘结果的精度。
关键词:网络日志;数据挖掘;预处理;会话识别中图分类号:TP 311 文献标志码:AImproved method of data mining preprocessing based on Web logSUN Yu 2hang ,SUN Y ing 2fei(Graduate Univ.of Chinese A cadem y of Science ,B ei j ing 100049,China ) Abstract :Data preprocessing met hod of Web log mining is st udied.Frame pages filtering and overtime t hreshold value seting are analyzed.The improved met hod based on induction of decision tree (ID3)algorit hm and t hreshold value dynamic amendment algorit hm is proposed.This met hod deals wit h information loss by Frame pages filtering and t hreshold value fixing.Transaction session identification ability is also enchanced.The experiment about t his met hod shows that t his met hod is efficient in improving accuracy of mining result.K eyw ords :Web log ;data mining ;preprocessing ;transaction session identification0 引 言 互联网的迅速发展使得网络信息量变得十分庞大,用户在网络上使用简单的信息搜索己经不能满足其需要,因而数据挖掘技术被应用于网络数据分析研究中,用以发现隐藏在网络上的知识,以便更好地了解网络文档之间的相互关系、组织形式和用户对这此文档的使用状况,并以此为基础来优化网络内容以及组织结构[1]。
web应用会话管理的方式试题
web应用会话管理的方式试题Web应用会话管理的方式Web应用会话管理是指在Web开发中对用户的会话状态进行管理和维护的一种技术。
通过会话管理,Web应用可以跟踪用户的活动,保存用户的状态信息,并确保用户在一段时间内的连续访问都处于同一会话中。
在Web应用中,会话管理的方式有多种选择,每种方式都有其适用的场景和特点。
下面将介绍几种常见的Web应用会话管理方式。
1. 基于Cookie的会话管理Cookie是最常用的会话管理方式之一。
当用户访问Web应用时,服务器会将一个唯一的会话标识存储在Cookie中,并发送给客户端保存。
客户端在之后的请求中会携带该Cookie,服务器通过解析Cookie中的会话标识来识别用户的会话。
通过设置Cookie的过期时间,可以控制会话的有效期。
Cookie的优点是简单易用,但缺点是会暴露会话标识,存在安全风险。
2. 基于URL重写的会话管理URL重写是另一种常见的会话管理方式。
在URL中添加会话标识,服务器通过解析URL中的会话标识来识别用户的会话。
相比于Cookie,URL重写的方式不会暴露会话标识,安全性更高。
但URL重写需要对所有的URL进行处理,增加了开发和维护的复杂性。
3. 基于隐藏表单字段的会话管理隐藏表单字段是一种将会话标识存储在HTML表单中的方式。
当用户提交表单时,会话标识会随着表单数据一起发送到服务器,服务器通过解析隐藏表单字段中的会话标识来识别用户的会话。
这种方式对用户是透明的,但需要在每个表单中添加隐藏字段,增加了页面的复杂性。
4. 基于会话管理器的会话管理会话管理器是一种服务器端的会话管理方式。
服务器会为每个会话分配一个唯一的会话标识,并将会话数据存储在服务器端。
在客户端的每个请求中,会携带会话标识,服务器通过会话标识来获取会话数据。
会话管理器可以灵活地控制会话的存储和过期策略,适用于高并发的Web应用。
5. 基于数据库的会话管理基于数据库的会话管理是一种将会话数据存储在数据库中的方式。
改进的页面与时间阈值的会话识别法
河南省政府采购网上商城使用操作说明2016年5月27日目录1.网上采购流程网上商城采购的流程为:采购计划申报(协议供货类)、审批→采购人登陆网上商城(可根据单位的实际采购需求进行人员分派)→首先查询需求商品→确定意向产品品牌型号→系统自动显示各型号配置、价格等信息供采购人评比→采购人确定商品后放入购物车→登记送货地址和联系人,确认下单→协议供货商确认订单(自动生成合同)→供应商送货(采购人付款:可以使用公务卡支付或转账支付,按授权支付流程办理)→完成交易→采购人进行货物验收、付款(账期)及评价。
网上交易流程图如下:2.协议供货计划申报●点击计划管理->计划申报点击增加弹出计划申报基本信息页面●在‘采购内容’的地方选择‘货物’下的‘网上商城品目’如下图:采购方式选择‘协议供货’如下图:注意:采购人若要走网上商城采购,则必须在采购内容里选择‘货物’下的‘网上商城品目’●填写完基本信息之后保存,然后提交,流程与平常计划申报的流程一样。
3.网上采购●点击网上商城->电子商城●采购人查询计划的时候可以在搜索条件内输入相应条件查询网上采购计划。
● "待采购"中的计划就是采购人申报的协议供货计划● "已完成"中的计划是采购人把此申报计划内的商品数量采购完成3.1 商品选择及下单●点击"网上采购"进入网上采购页面如下图:●选择要买的商品●选择供应商弹出如下页面:点击"选择"选中确定的供应商。
●购买数量和供应商确认完之后点击"加入购物车"进入下单页面,如下图:1)未下单之前若要删除此订单,点击"删除"删除该订单。
2)未下单之前若要修改采购数量,点击""。
●选择要下单的商品,也可以多个商品同时下单●选择完商品之后点击"下单"●填写完订单信息之后点击"保存"保存的此信息还可以修改●填写完订单信息之后点击"保存"保存的此信息还可以修改点击"提交"之后,等待供应商确认订单。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
—49— 35卷 第7期 ol.35 No.7 2009年4月
A
Web日志预处理中优化的会话识别方法 方元康1,2,胡学钢1,夏启寿2 (1. 合肥工业大学计算机与信息学院,合肥 230009;2. 池州学院计算机中心,池州 247000 ) 摘 要:针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容及站点结构确定。实验数据显示,与对所有页面使用单一的先验阈值进行会话识别的方法相比较,该方法得到了真实性更强的会话集。 关键词:Web挖掘;数据预处理;阈值;Frame 页面;会话识别
Improved Method for Session Identification in Web Log Preprocessing
FANG Yuan-kang1,2, HU Xue-gang1, XIA Qi-shou2 (1. Computer & Information College, Hefei University of Technology, Hefei 230009; 2. Center of Computer, Chizhou College, Chizhou 247000)
【Abstract】Session identification is an important step in data preprocessing of Web log mining. This paper proposes an improved session identification algorithm. After identifying users, effective Web pages in experiment are reduced greatly by filtering frame pages, and the access time threshold is adjusted by the Web contents and site’s structure on this condition. Compared with the traditional method that defines a uniform threshold for all Web pages experimentally, the approach can decide the access time threshold more accurately. Experiments proves that the algorithm enhances the quality of transaction session. 【Key words】Web mining; data preprocessing; threshold; Frame page; session identification
计 算 机 工 程 Computer Engineering第
Vpril 2009
术与数据库· 文章编号:1000—3428(2009)07—0049—03文献标识码:A
中图分类号:TP393
·软件技
挖掘Web日志记录中最费时最重要的环节是Web日志记录的数据预处理,而影响Web数据预处理的关键因素就是构成会话识别的真实程度。本文主要研究在数据预处理中如何优化会话识别的算法。 1 传统的会话识别方法 会话(session)是指用户在一次访问网站期间从进入网站到离开网站所进行的一系列活动。在跨度时间段较大的Web服务器日志中,用户可能多次访问了该站点,会话识别的任务是把属于同一用户的同一次访问请求识别出来。目前,会话的构造主要是基于启发式的方法,如基于时间的、依据站点结构的、给予引用的。现在常用的算法有如下4 种: Hvisit:给用户在整个站点的停留时间一个上界,如果超过这个域值θ则认为新的会话开始[1-2]。设t0为会话初始页的时间戳,同一用户的一个URL请求的时间t如满足t-t0≤θ,则被加入当前会话,第1个满足t0+θ
以上4种会话识别方法的不足之处表现在2个方面: (1)可能使原本在同一个会话里的记录被划分到不同的会话中,也可能使原本不在同一个会话的记录被划分在同一个会话中;(2)由于用户会话产生的有效页面数比实际的有效页面
数明显增多,因此会话识别的效率大大降低。如果按上述方法生成的会话集中不真实的成分太多,挖掘出来的结果只有很小的理论价值,甚至失去理论价值。因此,本文提出了一种基于过滤框架网页与页面访问时间阈值相结合的会话识别方法。通过实验证明,该方法所得到的会话集更具真实性,同时也提高了会话识别的效率。 2 本文的会话识别方法 2.1 会话识别前的数据预处理 在会话识别前,Web日志挖掘的数据预处理主要包括数据清理和用户识别2个步骤。
2.1.1 数据清理 Web日志记录中包括用户IP地址、用户ID、用户请求访问的URL页面、请求方法、访问时间、传输协议、传输的
基金项目:国家自然科学基金资助项目(050504F);池州学院自然科学基金资助项目(XK0829) 作者简介:方元康(1968-),男,讲师、硕士研究生,主研方向:数据挖掘;胡学钢,教授、博士;夏启寿,讲师 收稿日期:2008-09-07 E-mail:fyk80@163.com 字节数、错误代码、用户代理等属性。数据清理根据需求对原始日志文件进行处理,删除Web服务器日志中与挖掘算法
无关的数据,这些数据有以下5类: (1)图片、视频等非用户显式请求的逻辑单位。对用户来说,一般显式请求的是后缀为.html 和.htm 的文本页面,所以应该将日志中文件后缀为gif, jpg, jpeg 等的记录删除。 (2)Web Robot 的浏览日志记录。 (3)状态域错误的日志。通过对协议状态域的检查,凡是代码值大于299 的日志记录都应该删除。 (4)用GET以外的方式完成的服务。 (5)后缀为cgi, js, js的脚本文件。这些文件对后面的分析处理不造成任何影响,应该删除。 可配置一个删除列表,凡是后缀名在删除列表中的记录数据均不收集。 2.1.2 用户识别 用户是指通过一个浏览器访问一个或几个服务器的个体。在实际使用中唯一确定一个用户很难,一个用户可以通过几个代理或机器访问服务器。Web日志挖掘工具最常用的技术是基于日志/站点的方法,可以使用一些启发式规则帮助识别用户。 (1)如果用户的IP地址不同,则认为是不同的用户。 (2)如果IP地址相同,而代理(Agent)日志中表明用户的浏览器或操作系统改变了,则可以假设为2个不同的用户。 (3)将访问日志、引用日志和站点拓扑结构结合,构造用户的浏览路径。如果当前请求的页面与用户已浏览的页面间没有链接关系,则认为存在IP地址相同的多个用户。 通过这3条规则,结合用户提交的查询信息便可以给不同的用户赋予不同的用户ID号。 2.2 过滤框架页面 HTML规范通过“Frame”标记支持多窗口页面,每个窗口里装载的页面对应一个URL,需要说明的是: Subframe 页面同时又可以是包含子窗口的Frame页面[5]。 当用户访问的URL 对应的是一个Frame页面时,浏览器通过解释执行页面源程序自动向Web服务器请求该Frame页面中包含的所有Subframe页面,这一个过程可以重复进行,直到所有的Subframe页面被请求。 在图1的例子中,如果用户请求A页面,其他5个页面(B, C, D, E, F)也一起被请求。由此导致对Frame页面与其Subframe页面的请求记录总是一起出现在Web日志中。在这样的用户会话文件上进行数据挖掘,Frame页面和其Subframe页面作为频繁访页组出现的概率很高,但Frame页面及其Subframe页面之间的关系在创建HTML文件时就是已知的,因此,Frame页面及其Subframe页面同时出现在挖掘结果中将使挖掘出的频繁访问页组的兴趣性下降。如果在会话识别后把Frame 页面及其Subframe页面作为一个整体考虑,即用户对Frame页面的请求就是请求多窗口页面。从全局上看,这样可以有效地消除Subframe对日志挖掘的影响,从而提高挖掘结果的兴趣性。 图1 多窗口页面示意图 2.3 基于访问页面时间阈值的会话识别 2.3.1 基于统计方法的页面停留时间t的生成 本文使用池州学院网站http://211.86.192.12的日志进行性能模拟实验,抽取日志中2007年10月24日~11月3日共10天的访问记录组成实验数据。通过假设检验证明,页面的访问时间t呈正态分布。在这个基础上,根据统计数据选择能覆盖94%的样本集的数据值t作为页面阈值δ的参考值,再乘以一定的平滑系数a后得到δ。选择94%这个较低的覆
盖率是为了尽量不考虑t中的极值点,选择一定的平滑系数是为可能删除一些合理的数据t而做的一种折中处理,实验时选择1.0~1.5作为平滑系数,实验表明选择a为1.25比较合理。 2.3.2 结合页面内容与站点结构的页面阈值δ的生成
目前为止,还是仅仅根据用户以往使用记录的统计来决定δ值,没有考虑页面的重要程度以及网站结构对阈值δ的
影响。 定义1 链接内容比(RLCR)是指页面链入链出数与页面内
容之比,记页面大小为SDS,一般情况下,一个页面的链入比链出重要,因此,要对两者进行加权调整,本文以黄金分割来假设链入与链出的权重之比,则RLCR计算公式为 RLCR=2(0.618LI+0.382LO)/SDS (1) 为了将RLCR值用于对阈值δ的调整,需要将RLCR值映射
到(0,1)之间,可以选用多种映射方式,例如RLCR值与所有RLCR
值中的最大值的比值即可映射到(0,1)之间,但这种方法容易
受到孤立点的影响,当某个页面的RLCR值很大时,会影响到
其他点。这里选择如下的映射方式,记RLCR对δ的影响因子为β。
定义2 β为页面RLCR对页面访问时间阈值δ的影响因子,其计算公式为 β=1-exp(-sqrt(sqrt(R
LCR))) (2)
综合上述调整过程,可以得出阈值δ的计算公式: δ=at(1+β) (3)
2.3.3 基于时间阈值δ的用户会话集生成 要设置每个页面的访问时间阈值δ,首先要获得统计后的页面访问时间t,并结合页面的RLCR影响因子β调整δ。统计后页面的访问时间t的集合记为St={t1,t2,…,tn},页面的影响因子β集合记为S
β={β1, β2, …, βn}。算法步骤如下: