数据挖掘在Web中的应用案例分析
数据挖掘在Web中的应用研究

数据挖掘在Web中的应用研究摘要:web中的数据挖掘技术是一种新型的技术,web自身的特点,决定了web数据挖掘技术具有更多的特点,而且应用也非常广泛,不仅能够提取页面的信息,进行站点设计分析,而且在电子商务方面也具有非常广阔的应用前景。
本文对数据挖掘技术在web中的应用进行分析。
关键词:数据挖掘技术;web应用;网络技术中图分类号:tp352 文献标识码:a 文章编号:1007-9599 (2012)18-0000-02随着网络技术的快速发展,网络上数据资源的越来越丰富,人们迫切需要将这些数据转换成有用的信息和知识,进而促生了数据挖掘(data mining,dm)和知识发现(knowledge discovery,kd)领域。
信息技术的发展,对web应用提出更高了要求,为了能够满足人们对信息获取的要求,研究基于web的数据挖掘技术,以便人们能够更加智能、更加自动地抽取数据以及信息中的知识。
1 数据挖掘技术相关概述1.1 基本概念数据挖掘技术主要是指寻找隐藏在大量数据中有价值的信息,从中寻找其规律,揭示出隐含的、具有潜在价值的知识,从而为决策支持提供有力依据的过程。
数据挖掘的目标主要包括特征、趋势以及相关性等多个方面的信息。
随着网络应用的普及,网络中信息量迅速增加,传统的知识发现(kdd:knowledge discovery indatabases)技术和方法已经不能满足人们从web中获取信息的需要,基于网络技术提供对各类数据的深层次实时分析,提供决策支持服务,就使得基于web的数据挖掘技术应运而生,这种技术将传统的数据挖掘和web应用技术相互结合起来,实现高度自动化的分析和归纳性的推理。
图1为web数据挖掘原理流程:2.3 在购物网站的应用web数据技术采用web-dms系统可以构建一个基于web 的挖掘的购物网站和交易环境,还能够充分利用站点上积累的信息,从而更好地服务于企业和客户。
在购物网站中采用web 数据挖掘技术不仅能够通过了解购物者的行为习惯,选择提供最佳的服务方式、消费习惯,还能够分析购物者的个人爱好[3],从而提供更加贴切的商品推介。
数据挖掘在Web中的应用案例分析

[数据挖掘在Web中的应用]在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。
作为一个网站,你知道用户都在你的网站上干什么吗?你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦?什么地方出了安全漏洞?什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户?你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗?“知己知彼,才能百战不殆",你真的了解自己吗?挑战的背后机会仍存,所有客户行为的电子化(Click Stream),使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能.如何利用这个机会,从这些“无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。
[问题]:1.根据你所学的知识,思考从网站中所获取的大量数据中,我们能做哪些有意义的数据分析?基于WEB 使用的挖掘,也称为WEB 日志挖掘(Web Log Mining)。
与前两种挖掘方式以网上的原始数据为挖掘对象不同,基于WEB 使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。
这些数据包括:网络服务器访问记录、代理服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。
WEB 使用挖掘将这些数据一一纪录到日志文件中,然后对积累起来的日志文件进行挖掘,从而了解用户的网络行为数据所具有的意义。
我们前面所举的例子正属于这一种类型。
基于WEB 内容的挖掘:非结构化半结构化\文本文档超文本文档\Bag of words n—grams 词短语概念或实体关系型数据\TFIDF 和变体机器学习统计学(包括自然语言处理)\归类聚类发掘抽取规则发掘文本模式建立模式。
基于WEB 结构的挖掘:半结构化数据库形式的网站链接结构\超文本文档链接\边界标志图OEM 关系型数据图形\Proprietary 算法ILP (修改后)的关联规则\发掘高频的子结构发掘网站体系结构归类聚类。
基于web日志的数据挖掘技术在电子商务网站中的应用

基于 w b日 e 志的数据挖掘技术在电子商务网站中的应用
李 孟 ( 北 工程 大 学信 息 与 电 气 工程 学院 , 北 邯 郸 0 60 ) 河 河 5 0 0
摘 要 : 电子 商务平 台运营过程 中, 在 形成 了海量 we b日志信 息, 如何运 用数据挖掘技术挖掘有价值的信息用于电子 商务 平台的优 化 对 商 家 来说 非 常 重要 , 里将 进 行 研 究 O 这 f 关键 词 : 子 商务 ; 据 挖 掘 ; b 日志 电 数 we 1 电子商务及 电子商务网站 电子商务 就是在 网上开展 的商务活动 , 它作为一种新兴 的 经济形式随着 网络 的普及而得 以迅速发展 。电子商务网站则是 电子商务进行网上交易活动的重要载体 , 电子商务 网站按交易 模式可 以分为 B C,2 , 2 2 B B C C及 B G等几种类别 , 2 而无论哪种 类别的电子商务 网站 ,在网上运营过程 中都会 形成 大量 的 w b e 日志信 息 , 而对这些 w b日志信息进行数据挖 掘 , 对商家运 e 将 营好电子商务 网站起着非常重要 的作用。 2 数 据 挖 掘 及 we b日志挖 掘
一
1 1 91 02 一 一 『l a /0 1 : :1 5 . . .7 9 9 0 / n 1 : 0 2 J 2 1 3 7
—
00] 6 0
“ E /bcs bcl et t l H F/.” G T- aul / s e. m T P1 a eh h 0
20 22 0 1 0 7
一
作者简介 : 李孟, 河北工程 大学信息与电气工程学院计算机技 术专业研 究生。
信 息 产 业
・0 ・ 15
接应用 , 改变 网站的布局及进行个性化设计等 。 32w b日志记 录的内容分析 . e w b日志记录共包含 7个字段 ,下面我们通 过 e 个典型的 w b日志记 录对其进行说明。 e 例如一个 典型的 w b日志记录如下 : e
电子商务平台中的Web数据挖掘应用探讨

数据挖掘在基于web的智能教学系统中的应用

摘要本文首先讨论了基于WEB 的智能教学系统,它以学生为中心,探寻教师的教与学生的学的特征及模式,改变了传统的教学模式,其次研究了数据挖掘技术和人工智能教学系统的关系,为教师和学生建立起一个智能化、个性化的远程教育环境,最后对于基于数据挖掘和WEB 的智能教学系统的未来做出展望。
关键词数据挖掘知识平台Application of Data Mining in the WEB-based Intelligent Teaching System //Tian ZhuoAbstract First of all,this paper discusses the WEB-based intel-ligent teaching system,which focuses on students,explores the characteristics and patterns of teaching and student learning,and changes the traditional teaching model.Secondly,the relationship between data mining technology and artificial intelligence teach-ing system is studied,and an intelligent and individualized dis-tance education environment is established for teachers and stu-dents.Finally,the future of intelligent teaching system based on data mining and WEB is forecasted.Key words data mining;knowledge;platform智能教学系统是教育科学与人工智能算法等技术和计算机网络应用系统的结合,通过计算机来模拟人的大脑思考,搜索老师和学生之间的教学方式,让学生有选择性和针对性地学习需要的知识。
数据挖掘在Web中的应用研究

据挖 掘 的概 念 、 用技 术和 方 法 。 常 讨论 了数 据 挖 掘 技 术在 We 应 用 。 b的
【 关键词】 数据挖掘( M ; b挖掘 ; : D )We 知识发现(DD K )
0 引 言 .
基 于粗 糙 集 理论 的方 法 也 是 知 识 发 现 的 主 要 方法 之 一 由于粗 数据 挖 掘 就是 在 数 据 库 中 。 数 据进 行 一 定 的处 理 。 大量 糙集 方 法 中的 决策 表 可 以被视 为关 系数 据 库 中 的关 系 表 .因此 对 从 的 、 完 全 的 、 糊 的 、 机 的数 据 中提 取 隐 含 的 、 先 未 知 的 、 粗 糙 集 方 法 的 伸缩 性 较 强 ; 棒 性 和 抗 噪 音 能 力 较 强 : 识 的可 不 模 随 事 鲁 知
We b网站 上 的信息 也 可 以看 作 是 一个 数 据 库 .这 个 数 据库 很 大 、 复 杂 。We 的 每一 个 站 点 就是 一个 数 据 源 , 个 数 据 很 b上 每 源都 是 异 构 的 。 以每 一 个 站点 问 的信 息 和组 织 都 不 一样 。 所 这样 就 构 成 了一 个 巨大 的异 构 数 据 库 环 境 。 想 要 利用 网上 的这 些数 据 开 展数 据 挖 掘 . 要 先研 究 站 点 之 间 异 构数 据 的集 成 问题 。 就 只 有 将 这些 站 点 的数 据都 集 成 起 来 . 供 给 用 户 一 个 统 一 的视 图 。 提 才 有 可 能从 网络 这 个 巨大 的数 据 库 资 源 中抽 取 出有 用 的 东西 。 ( ) 结 构 化 的数 据 结 构 2 半 We b上 的数 据 与传 统 数 据 库 中 的数 据 不 同 .传 统 的数 据 库 都 有 一 定 的数 据 模 型 , 以根 据 模 型 来 具 体 描述 特 定 的数 据 。 可 而 We 上 的数 据 非常 复 杂 , 有 特定 的模 型 描 述 。 一站 点 的 数据 b 没 每 都 各 自独 立设 计 , 并且 数 据 本 身具 有 动 态 可 变性 。 因而 , b上 We 的数 据 虽具 有 一 定 的 结构 性 。 因 自述 层 次 的存 在 . 而 是 一 种 但 从 分析等。 非 完 全 结构 化 的数 据 。 也 被称 之 为 半 结 构 化数 据 。 结 构 化 是 这 半 1 . 据 挖 掘 的 常用 技 术 与 方法 2数 数 据 挖 掘 的常 用 技 术 与 方法 主 要 有 : 计 方 法 、 策 树 、 统 决 神 We b上数 据 的 最 大 特点 。 经网络方法 、 糙集方法 、 持向量机、 传算法 、 度计算 、 粗 支 遗 粒 可 面 向 It t ne me 的数 据 挖 掘 技 术 的实 现 首 先 要 解决 半 结 构 化 视 化 技术 等 。 数据 模 型 的抽 取 问 题 。 . b数 据 挖 掘 数 学 统 计 方法 是 最 基 本 的 数 据挖 掘 技 术 之 一 ,主 要用 于 完 3 We 成 总 结 知 识和 关 联 知 识 挖 掘 。使 用 这 种 方 法 一般 是 首 先建 立 一 We b数 据 挖 掘就 是 从 大 量 的 We b文 档和 We b活 动页 中发 抽 潜 事 潜 个 数 学模 型或 统 计 模 型 , 后 根 据 这 种模 型提 取 出有 关 的知 识 。 现 、 取 感 兴 趣 的 、 在 的有 用 模 式 和 隐 含 的 、 先 未 知 的 、 在 然 统计 方 法 的处 理 过程 可 以 分 为三 个 阶 段 : 集 数 据 、 析 数 据 和 的信 息 。 b挖 掘 是 对 数据 挖 掘 的 一 种新 的应 用 。 不 同 于传 统 搜 分 We 但 的数 据 挖 掘 . 主 要 区别 在 于 : 统 的数 据 挖 掘 的 对 象 局 限 于数 其 传 进 行 推理 。 并 而 决 策 树方 法 也 是 数 据 挖 掘 的 常用 方 法 之 一 .它 是 一 种 用 树 据库 中的 结 构 化数 据 。 利 用 关 系 表 等 存 储 结 构来 挖掘 知 识 。 状展 现数 据 受 各 变量 的影 响情 况 的分 析 预 测 模 型 ,根 据 对 目标 We b挖掘 的对 象 是 半结 构 化 或 非 结构 化 数 据 。 We b数 据 挖 掘 分 为 三 类 : b内 容 挖 掘 、 b结 构 挖 掘 和 We We 变量 产 生 效 应 的 不 同而 制 定 分 类 规 则 。它 是 建 立 在 信 息论 基 础 之 上 . 数据 进 行 分 类 的 一 种方 法 。 对 We t 挖掘 ( We bE志 或 b使 用记 录 的挖 掘 ) 。 . We 神 经 网络 是 一 种 模 拟 人 脑 神 经 元 结 构 的 数 据 分 析 模 式 。 是 31 b内容挖 掘 建 立 在 自学 习 的 数 学模 型 基 础 之 上,它 可 以对 大 量 复 杂 的 数 据 We b内容 挖 掘 的对 象 包括 文本 、 图像 、 音频 、 视频 、 多媒 体 和 进 行 分析 .并 能 完 成 对 人 脑 或 计 算 机来 说极 为 复 杂 的 模 式 抽 取 其他 各 种 类 型 的数 据 。 对无 结 构 化 文 本 进 行 的 We 掘 . 文 b挖 称 及趋 势 分 析 比较 典 型 的 学 习方 法 是 回溯法 。 本数 据 挖 掘 或 文 本 挖掘 ,是 We b挖 掘 中 比较 重 要 的技 术 领 域 。
数据挖掘在基于WEB的智能远程教育中的应用

步地深人, 一个个地解决, 最终实现一个完整的大任务。在实 用的需求下学, 学以致用, 更容易掌握学习内容。
任务驱动法使学生的学习目标十分明确。在某个学习阶 段, 紧紧围绕这一既定的目 , 标 了解相关的知识和操作方法, 其它的可以一概先不涉及。这样做可以大大提高学习的效率 和兴趣。 当然, 一个“ 任务” 完成了, 一个目 标达到了, 会产生新
参考文献 :
样做不仅知识掌握得牢固,而且可以培养学生的探索精神 和自 学能力。第三, 要向学生讲清楚, 掌握计算机的知识和
15 4
[1] 郭善渡.探究式教学模式与现代教育技术[J].人民教 育, , (2 ). 2000 [2]何克抗.建构主义学习环境下的教学设计【 电化教 J]. 育研究, , (3) , (4 ). 1997 [3 〕 赵增敏等主编.ASP动态网页设计【 M].北京: 电子工业 出版社, 2003.
Discovery in Databases) , 其中, 数据挖掘技术便是最为关键的
环节。基于WEB的智能远程教育系统将是当前和未来教育的 重要辅助系统。 作为教育技术工作者, 然要思考如何将数据 自 挖掘技术应用于这个系统 ,本文提出把数据挖掘技术应用于 基于WEB的智能远程教育系统。 二、 数据挖掘概述 数据挖掘就是从大量的、 不完全的、 有噪声的、 模糊的、 随
. . 瑙= .
2 06 9月 下 刊 0 年 号 旬 夫教货 才
-Hale Waihona Puke 数 据挖 掘 在 基 于W EB的 智 能远 程教 育 中的应 用
周云真‘ 舒建文“ 王平根‘
江西 南昌 330034 ) (1井冈山学院信息科学与传媒学院, 江西 吉安 343009 ;2南昌航空工业学院, 摘 要:本文主要介绍数据挖掘的处理过程、 主要任务等, 介绍和分析了基于WEB的智能远程教育系统的功能,探讨 了 数据挖掘技术在基于WEB的智能远程教育系统功能实现上的
Web数据挖掘技术及应用研究

(, 武汉理工大学: 2 . 南阳师范学院计算机与信息技术学院) 要: W e b 数据挖掘是目前信息技术中的研究热点,它是现代科学技术相互渗透与融合的结果。本文介绍了W e b 数据挖
文章编号: 16, 379 1(2007)05(b )一 5一 1 2一 冈, 0
李争 . , 艳,
1 引言 随着I t rne 的飞速发展, ne t Web 上的数 据资源空前丰富,在这些大量、异质的 W e b 信息资源中,除了丰富的各种文本、 图形图像、声音等煤体信息外,还包含了 大量的常被人们所忽视的链接结构信息以 及存在于服务器上的用户使用记录信息,
这些庞大的数据包含了非常丰富的有用信 息,构成了数据挖掘的巨大数据来源,蕴 藏着具有惊人潜在价值的知识. 数据挖掘就是从大量的数据中发现隐 含的规律性的内容,解决数据的应用质量 问题。充分利用有用的数据 ,废弃虚伪无 用的数据,是数据挖掘技术的最重要的应 用。相对于We b 的数据而言,传统的数据 库中的数据结构性很强,即其中的数据为 完全结构化的数据,而 W e b 上的数据最大 特点就是半结构化。显然,面向We b 的数 据挖掘比面向单个数据仓库的数据挖掘要 复杂得多。
在网站设计方面的应用,主要是通过对 网站内容的挖掘,特别是对文本内容的挖 掘,可以有效地组织网站信息,如采用自 动归类技术实现网站信息的层次性组织。 通过对用户访问日 志记录信息的挖掘,把 握用户感兴趣的信息,从而有助于开展网 站信息推送服务以及个人信息的定制服务, 吸引更多的用户。
3 2 在搜索引攀中的应用
1 丁技 术
20O7 NO . 1 4 义 〕 NC E & T〔 卜 汇 !E C 小 汇() 〕 INF 以刁 A T1 N Y M 0
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[数据挖掘在Web中的应用]
在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。
作为一个网站,你知道用户都在你的网站上干什么吗?你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦?什么地方出了安全漏洞?什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户?你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗?“知己知彼,才能百战不殆”,你真的了解自己吗?挑战的背后机会仍存,所有客户行为的电子化(Click Stream),使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能。
如何利用这个机会,从这些“无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。
[问题]:
1.根据你所学的知识,思考从网站中所获取的大量数据中,我们能做哪些有意义的数据分
析?
基于WEB 使用的挖掘,也称为WEB 日志挖掘(Web Log Mining)。
与前两种挖掘方式以网上的原始数据为挖掘对象不同,基于WEB 使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。
这些数据包括:网络服务器访问记录、代理服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。
WEB 使用挖掘将这些数据一一纪录到日志文件中,然后对积累起来的日志文件进行挖掘,从而了解用户的网络行为数据所具有的意义。
我们前面所举的例子正属于这一种类型。
基于WEB 内容的挖掘:非结构化半结构化\文本文档超文本文档\Bag of words n-grams 词短语概念或实体关系型数据\TFIDF 和变体机器学习统计学(包括自然语言处理)\归类聚类发掘抽取规则发掘文本模式建立模式.
基于WEB 结构的挖掘:半结构化数据库形式的网站链接结构\超文本文档链接\边界标志图OEM 关系型数据图形\Proprietary 算法ILP (修改后)的关联规则\发掘高频的子结构发掘网站体系结构归类聚类.
基于WEB 使用的挖掘:交互形式\服务器日志记录浏览器日志记录\关系型表图形\Proprietary 算法机器学习统计学(修改后的)关联规则\站点建设改进与管理销建立用户模式.
2.根据你所学的数据挖掘知识,谈谈哪些数据挖掘技术可以应用于Web中,以这些数据挖
掘技术可以完成哪些功能?
Web Mining 技术已经应用于解决多方面的问题,比如基于WEB 内容和结构的挖掘极大的帮助了我们从浩瀚的网络资源中更加快速而准确的获取所需要的资料,而基于使用的数据挖掘之威力,更是在商业运作上发挥的淋漓尽致,具体表现在:
(1)对网站的修改能有目的有依据稳步的提高用户满意度
发现系统性能瓶颈,找到安全漏洞,查看网站流量模式,找到网站最重要的部分,发现用户的需要和兴趣,对需求强烈的地方提供优化,根据用户访问模式修改网页之间的连接,把用户想要的东西以更快且有效的方式提供给用户,在正确的地方正确的时间把正确的信息提供给正确的人。
(2)测定投资回报率
测定广告和促销计划的成功度
找到最有价值的ISP 和搜索引擎
测定合作和结盟网站对自身的价值
(3)提供个性化网站
对大多数WEB 应用来说,让用户感到真个网站是完全为他自己定制的个性化网站,是WEB 站点成功的秘诀。
针对不同的用户完全按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式)向用户动态的提供要浏览的建议自动提供个性化的网站。
3.通过对问题(1)和(2)的回答,你认为用户和网站经营者分别可以得到什么好处?
Web数据挖掘在电子商务方面的应用Web挖掘这方面的应用可以为企业更有效的确认目标市场、改进决策获得更大的竞争优势提供帮助,从中可得到商家用于特定消费群体或个体进行定向营销的决策信息。
电子商务方面的Web挖掘功能主要是如下几个方面:首先,客户分类和客户聚类。
对Web的客户访问信息进行挖掘。
对客户进行分类分析。
应用聚类分析对客户进行分组,并且分析组中客户的共同特征,这样就可以让商家更好了解自己的客户,向客户提供更有针对性的服务。
其次是找到潜在的客户。
在对Web的客户访问信息的挖掘中,利用分类技术可在因特网上找到未来的潜在客户。
最后保留客户的驻留时间。
对于客户而言,在网上每个销售商对于客户来说都是样的,如何尽量使客户在自己的网上驻留更长的时间,这样对于商家才能有更多客户和更大的利润空间。
Web数据挖掘在网络教育中的应用
教育网络化的趋势不仅为学生提供了便利的学习方式和广泛的选择,也为学校提供了更加深入了解学生需求信息和学生行为特征的可能性。
由于受教育对象个体之间存在着极大的差异性,网络教学也必<优麦电子商务论文>须是一种适应个别化学习需求的个性化教学。
这种个性化教学的提供。
是通过将传统的数据挖掘M Web结合起来。
进行Web数据挖掘,即从Web文档和Web活动中抽取学生感兴趣的潜在的有用模式和隐藏的信息,作为对学生提供个性化教学服务的依据,协助管理者优化站点结构。
提高站点效率,更好地为网络教育服务。
在网站设计中的应用
在网站设计方面中的应用,主要是通过对网站内容的挖掘。
特别是对文本内容的挖掘,可以有效地组织网站信息。
如采用自动归类技术实现网站信息的层次性组织;通过对用户访问日志记录信息的挖掘,把握用户感兴趣的信息。
从而有助于开展网站信息推送服务以及个人信息的定制服务,吸引更多的用户。
附:Web数据挖掘中常用的技术:数据挖掘领域常用的分类聚类技术、关联
规则技术序列模式技术和Web特有的路径分析技术等。
分类聚类技术
数据分类技术可以通过挖掘数据中的某些共同特性从而对数据项进行分类。
在Web数据挖掘中,分类技术可以根据捕获的Web访问用户的个人信息或共同的访问模式得出访问某一服务器文件的用户特征。
常用的数据分类技术有:判定树归纳、贝叶斯分类和贝叶斯网络、神经网络、基于案例的推理、遗传算法、粗糙集方法和模糊集方法。
聚类是一个将物理或者抽象对象的集合分组成由类似的对象组成的多个类或簇的过程。
聚类分析技术能用于对Web上的文档进行分类,已发现信息。
聚类分析能作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对某些簇做进一步的分析。
常用的聚
类算法大体上可以划分为几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。
关联规则挖掘技术
关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则。
在Web挖掘中,关联规则挖掘就是要挖掘出用户在一个访问会话期间从服务器上访问的页面或文件之间的联系,这些页面之间可能并不存在直接的引用关系。
最常用的算法是Aprior 算法,它从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。
时间序列模式挖掘技术
时间序列模式数据挖掘就是要挖掘出交易集之间的有时间序列的模式。
在网站服务器日志里,用户的访问是以一段时间为单位记载的。
经过数据净化和事件交易确认得到一个间断的时间序列,这些序列所反映的用户行为有助于帮助商家印证其产品所处的生命周期阶段。
路径分析技术
用路径分析技术进行Web数据挖掘时,最常用的是图。
因为Web可以用一个有向图来表示,G=(V,E),V是页面的集合,E是页面之间的超链接集合。
页面抽象为图中的顶点,而页面之间的超链接抽象为图中的有向边。
顶点V的入边表示对V的引用,出边表示V引用了其它的页面。