Web日志挖掘的数据预处理研究

合集下载

Web日志挖掘中数据预处理技术的研究

Web日志挖掘中数据预处理技术的研究
NT . 5 0:I tr e p o e 6. n en tEx l r r 0”
的图片、 声音 和脚本代码一起被下载到了客户端。
当挖掘 的 目的是 用户 访 问模 式时 , 片和声 音文 件 图 显然 用 处 不 大 。可 以 把 后 缀 为 JE MP , I , P G, 3 GF WMV等 的记 录删除 。但是 , 当挖掘的 目的是 为 了进 行 网络 流量分析 时 , 些信息又会 显得非 常 的重要 , 这
典 型 的 日志 记 录形 式如 下 :
次客户 连接请求 完所 要 的 网页后 , 服务 器会 自动与 客户断开 连接 , 同时被 申请 的网页文 件 连 同文件 上
22 129 .6 一 [2:35 8620 ] 一 0 .9 .46 1 2 :52/ /06
“G T d y lg h l . t l / .1” 一 1 0 — E / r / o / e p h ml Hr TP 1 0 1 0 1 一 “ t / w w. e p e u c ” 一 “ i d ws 12 ht / w h l . d . n p: W no
理, 包括删除无关紧要的数据 , 合并某些记录 , 对用 户请求 页 面时发 生 错 误 的记 录进 行 适 当 的处 理 等 等。只有当服务器 日志 中的数据能够准确地反映 用户 访 问 We 点 的情 况 时 , 过 挖掘 得 到 的关 b站 经
联规 则才 是真 正有 用 的。 由于 H r 议 是一 个 面 向非 连接 的协议 , T P协 每
表 1 E L 日志格 式 CF
雷 H H H H簦H
图 1 We b日志挖 掘 的预 处 理过 程
2 1 数据 清理 .
数 据 预处理 的第 一 步 是 数据 清 理 , , 据清 ’数 ] 理是 指 根 据 实 际 需 求 , WE 日志 文 件 进 行 处 对 B

基于Web日志的数据预处理研究

基于Web日志的数据预处理研究
关键 。
③ 用户请求 页面 的 日期和具体 时间 ;
④用户请求的方法 、 用户所请求的页面以及传输
使用 的协议版本 :
⑤ 服务器状 态码 , 0 2 表示请求成 功 ; 0 ⑥ 发送 给客户端 的总字节数 : ⑦ 用户代理 。
1 数 据 的 来 源
We 用 记 录 的数 据 除 了服 务 器 的 日志 记 录 外 . b使 还 包 括 代 理 服 务 器 1志 、 览 器 端 1志 、 册 信 息 、 3 浏 3 注 用
0 引 言
数 据 预 处 理 是 We b 1 挖 掘 的 关 键 技 术 .其 主 3志 要 任 务 是 从 We 志 文 件 中 有 效 地 识 别 用 户 访 问 会 b1 3 话 。 预 处 理 的 输 入 是 原 始 1志 文 件 , 出 的 是 用 户 会 3 输
① 访 问用户 的 I 址或用户使 用 的代理服务 器 P地


基 于 We b日志 的数 据 预 处 理 研 究
金 述 强 . 蒋 外 文
( 南大学 信息科 学与工 程学 院 , 沙 4 08 ) 中 长 1 0 3

要 :详 细 介 绍 W e 日 志 挖 掘 的数 据 预 处 理 过 程 。 通 过 对 预 处 理 的 结 果 用 户 会 话 文 件 进 行 处 b
理 , 造 出 扩 展 有 向 树 模 型 , 从 每 个 用 户 会 话 文件 中发 现 该 用 户 所 有 的 最 大 向 前 g 用 构 并 l 路 径 , 实施 w e 志挖 掘 算 法提 供 数 据 基 础 。 为 b1 3 关 键 词 :数 据 预 处 理 ;用 户 会 话 ;扩 展 有 向 树 ;最 大 向 前 引 用 路 径

Web日志挖掘中的数据预处理研究

Web日志挖掘中的数据预处理研究

p er a me t r t t n .An u g ssa f ci emeh d f r e l g wi eal d p r , i e d t s n, a a ce n n , e d i s g e t n ef t t o ai t d t i a t l a af i t e v o d n h e s k u o d t la i g u e d ni c t n,s s in i e t c t n,ec s ri e t a i i f o e so d n i ai i f o t .T e v l i ft i t o s v r e y t e e p r n a a a h ai t o s me h d i e i d b h x e i d y h i f me t l t . d
ig n .Th s p p r c mp e ey c mb h oe p o e s o aa p e r ame ti e ms o b lg fl n n aa i a e o l tl o s t e wh l r c s f d t r te t n n t r fwe o - e mi i g S d t i
中 图分 类 号 : P 9 T 31 文献标志码 : A 文 章 编 号 :17 4 072 1 ) 1 0 8 — 5 6 3— 8 , 0 2 0 — 0 1 0 (
Da a pr pr c s i o e o fl i ng t e o e sng f r W b l g-i m ni e
Vo . 6 No 1 12 .
F b2 1 e .0 2
W e 日志 挖 掘 中 的 数 据 预 处 理 研 究 b
卢 健 ,刁雅静
( 江苏科 技大学 经济管理学 院, 江苏 镇江 22 0 ) ]03 ;

改进的Web日志挖掘数据预处理方法研究

改进的Web日志挖掘数据预处理方法研究

改进的Web日志挖掘数据预处理方法研究摘要Web日志挖掘中的数据预处理按处理流程,分为数据收集、数据清洗、用户识别、会话识别、路径补充、事务识别6步。

本文对会话的特点对预处理算法进行改进,直接由会话得到事务,不需要经过路径补充,从而简化处理过程,增强后期挖掘的正确性。

关键词Web日志挖掘;预处理;事务Web日志挖掘属于数据挖掘的一种,它是对用户访问Web时在服务器端留下的访问记录(即Web日志)进行分析处理,从中得到用户感兴趣的信息或模式。

并以此作为依据来改善网站结构,更好的满足不同用户的需求。

数据挖掘对数据的格式是要求严格的,而Web日志往往达不到该标准,直接处理会产生错误或无意义的工作,因此在挖掘前必须进行预处理,必须将Web日志转化为传统的数据挖掘方法能够处理的数据。

1 传统的方法Web日志挖掘的对象是Web日志,挖掘的主要目的是进行用户聚类,聚类的依据是页面访问序列,因此只考虑用户请求的页面,在请求方法当中只选取GET方法的。

日志中请求错误的、无用的信息记录在进行挖掘时都应该删除。

对数据整合,规范化,形成事务数据库,为挖掘做准备。

按处理的先后顺序,分6步来完成,它们分别是:数据收集、数据清洗、用户识别、会话识别、路径补充、事务识别。

2 改进的方法通过分析上述方法,同时结合实际情况:用户访问网站中的页面可以从网站根目录进来,也可能从历史纪录直接进入到某个页面,不难发现,能够反映用户真实兴趣的会话序列往往需要将路径补充完整,然后进行分割才能得到,过程较为复杂,而且补充路径的过程也比较费时。

若是简化过程,直接由会话序列得到事务则将大大提高算法的效率。

2.1 设计思想通过分析网站的结构,不难发现它是一棵有向树,为了处理方便可以看成一棵普通的树,而树中的一个结点就相当于一个页面。

当浏览到网站时就相当于从树根出发去遍历树中的结点,当到达分枝的叶子结点时,就认为已经浏览到了边界,这时要再访问别的页面就需要回退,即可认定新的会话开始了;或者当出现页面序列不连续,也可作同样的处理。

Web日志挖掘数据预处理研究

Web日志挖掘数据预处理研究

是 we b使用分析的一个基本先决条件 。
11 w b日志 文 件 . e
考虑 到普遍 性和代 表性 , 文那 仅 以 I 本 I 务 器 日志 文 S服 件 [为 例 , 论 W 3 2 ] 讨 C扩 展 日志 记 录 E F( xe d dL gF r L E t e o o— n
# Fil s e d :C— i t me C — me h d C - u i s e s - s a u p Da e Ti S to S r — t m c t t s
用 户 浏 览 的前 一 个 网址 ,
Uenme Sra meh d to ul tm r—se接 过 来 的 u e—a et Ye sr— gn s poo o rtc l sau tts b ts ye Ye s Ye s Ys e 客 户 所用 的浏 览 器 使 用 的 Itr e 协 议 , HT nent 如 TP, T FP 用 HT TP或者 F P术 语 所 描 述 的 动 作 状态 T 传 输 的 字节 数
微 型 电脑 应 用
20 07年 第 2 卷 第 1 期 3 0
We b日志挖 掘数 据预 处 理研 究
夏 成 文 , 韩 坚华 , 梁 乘 铭
摘 要 : 详 细 介 绍 E F 日志 文 件 格 式 的 基 础 上 定 义 了会 话 表 , 对 预 处 理 过 程 中 几 个 主要 步 骤 进 行 深 入 讨 论 , 结 已有 在 L 并 总
表 1 W 3 扩展 日志格 式部 分 域 C
域 标 识 符 是 否 需要 前 缀 描

d t ae t i me I p

N O NO Ye s Ye S Ye s Ye s

Web日志挖掘中的数据预处理技术研究

Web日志挖掘中的数据预处理技术研究

Web日志挖掘中的数据预处理技术研究杨玉梅【摘要】Preprocessing is the key of Web log mining, the result of preprocessing has a great influence on rules and pattern produced by mining algorithm, which is key ensuring the quality of Web mining. This paper presents DUI technology, enhance the preprocessing technology. It is proved by experiments, advanced data preprocessing technology may enhance the result quality of data preprocessing .%预处理是Web日志挖掘的重点,预处理的结果对挖掘算法产生的规则与模式有很大的影响,是保证 Web 日志挖掘质量的关键。

本文提出了DUI技术,增强了预处理技术。

并通过实验证明,先进的数据预处理技术可以提高数据预处理的结果质量。

【期刊名称】《科技视界》【年(卷),期】2014(000)012【总页数】3页(P24-25,20)【关键词】Web日志挖掘;数据预处理;用户识别【作者】杨玉梅【作者单位】川北医学院图书馆,四川南充 637000【正文语种】中文0 介绍Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。

Web使用挖掘能提供网站设计的支持,提供个性化服务和其他的商业决策等。

根据挖掘对象不同,大致有三个知识发现领域涉及到Web挖掘:Web内容挖掘、Web结构挖掘和Web使用挖掘,如图1所示。

Web日志数据挖掘的数据预处理方法研究

Web日志数据挖掘的数据预处理方法研究张娥,郑斐峰,冯耕中(西安交通大学管理学院,陕西西安710048)摘要:主要介绍了Web用户访问日志数据挖掘数据预处理过程,综述了国际上的研究现状,流行的预处理方法。

在对用户访问行为的合理假定基础上,最后提出了基于综合最大前向参引模型和时间窗口模型的新方法。

关键词:Web用户访问日志数据挖掘;数据预处理方法中图法分类号:TP274+.2文献标识码:A文章编号:1001-3695(2004)02-0058-03Study on Web Usage Data Mining Preparation MethodsZHANG E,ZHENG Fei-feng,FENG Geng-zhong(School of Management,Xi’an Jiaotong Uniuersity,Xi’an Shanxi710048,China)Abstract:This paper introduces Web usage data mining preparation process.Summarize studies aIready did in this area.Based on the reasonaI hypothesis,it brought out a new method to set server session which based on time window moduIe and maximaI forward reference moduIe.Key words:Web Usage Data Mining;Data Preparation Method1Web日志数据挖掘数据预处理介绍由于互联网传输协议HTTP的无状态性、客户端和代理服务器端缓存的存在,用户访问日志分别存在于服务器、代理服务器和客户端。

同时,这分布在不同地方的访问日志数据集也分别记载了用户使用网络资源的不同模式,比如,客户端浏览器日志记录了单个用户访问多个网站的模式;Web服务器的日志则记录了多个用户访问一个网站的模式;代理服务器日志跟踪记录了多个用户访问多个网站的情况。

一种WEB日志挖掘的数据预处理方法


1 引言
当前已经有很 多科研工作 者和研究机构发现 网站
日志数据具有很大的利 用价值 , 希望通过对 we b日志
挖掘算法的输入直接影响 日志挖掘的质量。一个 we b 服 务器是重要的数据来源 ,因为它明确记录 了所有访 问此网站的客户的浏览动作 。它记 录 了多个用户对一 个站点的访 问信息。We b使 用记录 的数据 除了服务器 的 日志记 录外 , 还包括浏览器端 日志代理服务器 日志、 代理服 务器 日志、注册 用户信息 、登录信 息 、用户会
s p lme t g p t .Af r te u e d n i c t n h r e o e p g e u e e e ce c f d t u pe ni a n h t s r i e t a i ,t e f e h i f o m a ft a erd c st f i y o a h h i n a
下 :
部分 ,将有价值 的模式提取 出来。数据预处理 是 w b e 日志挖掘的关键技术 , 主要任 务是从 we 其 b日志文件 中有效地 识别 用户访 问会话。数据预处理的结果作为
① 基于项目: 国家科技攻关计划(0 3 a 4 ) 20 bl c 0
话信 息、 交易信息 、 o ke中的信息 、 C oi 用户查询信息、
的研究来进一步改善 网站设计 ,使 用户在更短的响应 时间内找到他所需要 的资源 ,增进用户体 验 ,了解用 户的兴趣和真正动机等 。We b访 问 日志挖掘过程一般
分为三个步骤 :() 1数据预处理 :对原始 的 we 日志 b
Absr c : We o n n sa mpo tn s a c ie to bo t b mi n . t r p o e sn sak y tc n l g ta t b l gmii g i n i r t e e r h dr ci na u a r we nig Daap e r c s ig i e h o o y e i b o ii g n we l g m n n .Th ril e c i s te p e r c s ig f mii g lg n d t i e a tce d srbe h r p o e sn o n n o s i e l a .Daa p e o e sn t rpr c s i g icu e d t ce n ie tf n u e, r c g ii g e so , ce nig p h fa o e a e n n ld s a a la , d n i g s r e o n zn s s i n la n u t e l me f t p g a d yi h

Web日志挖掘中的数据预处理研究

1 We b日志 格 式
图1 We b日志 挖 掘 的 过 程
表 1
# F i e l d s : d a t et i me c  ̄ i p c s - u s e ma me s - i P s . p o r t c s * me t h o d - u l f - s t e m c s — u r l - q l l e r y s c - s t a t u s
Mo z i I l a 1 4 . 0 + ( c o np r a t i b l e ; + MS l E + 6 . 0 . + Wi n d o ws + N T + 5 . 0 )
ቤተ መጻሕፍቲ ባይዱ
2 扣1 4 — 0l - 1 2 0 1 : 2 0 : 3 4 1 7 2 . 1 6 . 6 2 - 3 - 2 1 i J 5 6 . 1 8 4 . 3 s 8 0 G E T / i n c e x . a s p - 2 0 0 Mo z i I l a 4. 1 O + ( c o mp a t i b l e MS l E + 6 . 0. + Wi n d o ws + N T + 5 . 1 )
c s ( U s e r - A g e n t )
1 加1 4 - 0 1 - 1 2 0 1 : 2 0 : 3 3 1 7 2 . 1 5 . g 4 . 4 4 — 2 l 1 . 6 6 . 1 8 4 . 3 5 8 0 G E T / i n d e x . a s p 一 2 0 0
信 息技 术
・ 1 9 5 ・
We b日志挖掘 中的数据预处理研究
黄宏涛 ( 广东外语 外贸大学 思科信 息学院, 广 东 广州 5 1 0 0 0 6 )

基于Web日志挖掘中的数据预处理


是 数 据 挖 掘 技 术 在 Wb e环 境 下 的 应 用 . 集 We 是 b技 术 、 据 挖 掘 技 环 节 的 任 务 、 在 的 主 要 问 题 和 实 现 技 术 展 开 分 析 。 数 存 术 、 息 科 学 等 多 个 领 域 的 一 项 技 术 。 We 信 b挖 掘 对 传 统 的 数 据 挖 掘
的 相 关 数 据 中 发 现 蕴 涵 的 、 知 的 、 潜 在 应 用 价 值 的 、 平 凡 的 模 日 志 文 件 : 未 有 非 式 . 访问 者 、 点经 营 者 以及基 于网 络 的商 务活 动提 供 决策 支 持 。 为 站 简单 的平 面 文本 文件 , 含 了一 些 不完 整 的 、 余 的 、 误 的数 据, 包 冗 错 需 的基 础 和实施 有 效挖 掘算 法 的 前提 。 We 志 挖 掘 首 先 要 对 挖 掘 数 据 进 行 预 处 理 。 始 1志 文 件 是 请 求 。 b1 3 原 3 2) 息 错 误 1 志 ( r rl , 取 请 求 失 败 的 数 据 , 如 : 失 信 3 E r o o g) 存 例 丢 3) 奇 1 志 ( okelg ) C ke是 由 We 曲 3 C oi os , o i b服 务 器 产 生 的 用 于 自 要 进 行 处 理 , 则 将 会 直 接 影 响 挖 掘 的 效 果 。 据 预 处 理 是 整 个 过 程 连 接 。 权 失 败 , 超 时 。 否 数 授 或 本 文 论 述 了 We 日志 挖 掘 基 本 概 念 、 骤 和 主 要 任 务 , 点 分 动 标 记 和 跟 踪 站 点 的 访 问 者 的 记 号 . oke由 客 户 端 持 有 , 务 器 方 b 步 重 Coi 服 析 了 We b 1 挖 掘 中 的 数 据 预 处 理 问 题 . 结 合 对 某 汽 修 网 站 We 可 采 用 C ke方 式 跟 踪 单 个 用 户 。 3志 b o i 日志 挖 掘 的 数 据 预 处 理 具 体 过 程 . 析 了 数 据 预 处 理 的 具 体 步 骤 和 剖
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

① 中间缓存保存了最 近从 w出 服务 器传 来的所有 页 面 ,
在一段时间 内, 这些缓 存的页 面可 以直 接下传 给多 个通 过代
理发 出 We 请 求的用户而 %b服务 器完全 不知道这 些行 为 , b
作者简介: 方成效(9m)男, 18 , 江西都昌人 , 华东交通大学信息工程学院硕士研究生, 研究方向: b We 挖掘; 袁可风( 4 , 1 5)男, 9
() 1本地缓存 。为了减少数据传输 量以提高 网络性 能 , 大 部分的浏览器都将 最近访 问 的页面缓 存在 本地 硬盘 上 , 以 所 当用户点击“ A K 按 钮 , 次访 问这些 已访 问 过的 页面 时 , BC ” 再 浏览器首先检查本 地是否存在该页面 , 如果有 , 就检 查 We 服 b 务器上对应的页面有没有更新 , 己经更新 , 若 则从 We 服务器 b
(colf 珊 o ni e n , at h aJ o n n e i , 日cag 30 3 C i ) Sho o I nEg erg Es C i at gU i rt N IIn 3 01 , h a n i n i o v sy J】 n
Ah  ̄ . h a e n ls sd t I ar T i p p ra ay e a Pqm)BB g删 s a o Bi n fr e o o W blgmiig po o e h n n , rp sst e嘲 i e t c t n ai me c b s d Ol o u t d n i ai r h t ae ilg q oe i f o t i
方成效 , 袁可风
( 东交通大学信 息工程 学院, 华 江西 南 昌 30 1 ) 30 3 摘要 : 分析 了 we b日志挖 掘的数据预 处理过程 , 出了基 于 日志引用页的用户识 别算法 , 提 并对其性 能进行 分析 , 最后给 出
了应 用实例 。
关键词: e 志挖掘; W b日 数据预处理; 用户识别算法
本传输协议 IT 及版本号、 回码 ( - P l f 返 请求 的状态 , 成
收 稿 日期 :050-3 20.61
上取回页面; 若没有更新 , 则直接从本地取出该页, 这时 W b e
服务器就不会记录本次请求 。 () 2 代理服务器。它为用户提供 了中间缓存 , 而产生 了 从
两方面的问题 :
讨的基础上 , 提出了基于 日 志引用页的用户识别算法。
1 We b日志 的不精确性
Wb e 服务器响应用户请求时, 在将请求的文件下 传给用户的同时把这次请求 的相关信息写入 日志。 典型的 W b e 服务器 日 志包括 以下信息 : 地址、 请求 时间、 方法( G T P s. 被请求文件 的 U L 超文 如 E 、o I、 ) R、
p gs aaye h e o m r o h r n e c a df a y vsaIntne. a e ,n lsstepf n  ̄ fteai n f ,n n l e ris c l f i i l a
Ke ywo d : e l rsW b 0 gmii g d t Ip n n ; aa p e 加啷 ig l rie t  ̄ t n aiu e i n ;t e d n i i r n t t l i f o d c
中图分类 号:P 1 .3 T3 1 1 文献标识 码 : A
Re e r h o t e r c s i g o e g M i i s a c n Da a Pr p o e sn fW b Lo n ng
F NG h n - io YU e fn A C e g xa , AN K -e g
维普资讯
计 算 机 与 现 代 化
2O O6年第 4期
文章编号 :0 6 4520 )407 -3 10 - 7 (0 60-090 2
Js A IU Ⅻ
Y X A D 咖 『 U IN A A
总第 18期 2
We b日志挖 掘 的数 据 预处 理 研 究
O 引 言
We 志挖掘 就是从 We 服务器的 日志中发现 b日 b
用 户的访 问模式 , 析站 点 的使 用情 况 。通过 对 We 分 b
功或错误码)传输字节数、 、 引用页 的 U L 指 向被请 R( 求的页面) 和代理( 用户使用 的浏览器和操作系统的 类型) 。 但是 , 由于以下一些 因素 的影 响, b We 服务器经 常不能精确地记录用户 的所有请求。直接对其挖掘 并不能反映用户 的实际浏览行 为。所 以 We b日志挖 掘必须对 日 志文件进行复杂的预处理 , 日志中分解 从 出一个个用户会话。导致 We b日志不准确 的因素有 以下几个方面 :
江西南 昌人 , 硕士生 导师 , 教授 。
维普资讯
8 O







20 年 第 4 06 期
导致多个用户的多次请求没有被记录下来。
②多个使用不 同 地址的用户通过代理服务器发 出 W b e 请求时 。 次请求 在 日志中记录 的都是相 同的标识符 , 每 即代理 服务器的 I 地址 。 日志文件失去 了正确的用户标识信息 。 P 使
日志的挖掘 , 可以发现用户访问页面的模式 , 改进 w b e l
站点的性能和结构, 提高查找信放性、 b 动态性及 瑚 协议 的
不确定性 , 使得丰 富的 We b日志信息用于挖掘必须
经过数据预处理 , 才能保证挖掘结果 的有效和准确。 所 以, b日 We 志挖掘过程中 , 数据 预处理是挖掘过程 的基础 , 它直接影响着挖掘成败 。 本文在对 We b日志挖掘预处理过程进行详细探
相关文档
最新文档