Web数据挖掘研究_李国慧
基于Web的数据挖掘在电子商务中的研究与应用的论文

基于Web的数据挖掘在电子商务中的研究与应用的论文作者:靳书和,邢丽莉,申艳光1知如何能够投其所好,为用户实现主动推荐,提供个性化服务;这些都是电子商务成败的关键问题。
在这种新型的商务模式下,如何对网络上大量的信息进行有效组织利用,帮助海量数据的拥有者们找出真正有价值的信息和知识,以指导他们的商业决策行为,成为电子商务经营者关注的问题。
迅速发展的基于web的数据挖掘技术,为解决电子商务所面临的问题提供了有效途径。
2 web数据挖掘web数据挖掘概述数据挖掘(data mining)是从大量的、不完全的、有噪声的、模糊的和随机的数据中提取人们事先不知道的、潜在有用的信息和知识的非平凡过程。
web数据挖掘(web mining)是从web文档和web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息,是数据库、数据挖掘、人工智能、信息检索、自然语言理解等技术的综合应用,是在一定基础上应用数据挖掘的方法以发现有用的知识来帮助人们从/work/”>总结、分类、聚类、关联分析等。
web结构挖掘是指从web组织结构和链接关系中推导知识。
通过对web结构的挖掘,可以用来指导对页面进行分类和聚类,找到权威页面,从而提高检索的性能,同时还可以用来指导网页采集工作,提高采集效率。
使用记录挖掘是指从服务器端记录的客户访问日志或从客户的浏览信息中抽取感兴趣的模式。
基于web的数据挖掘技术的出现不仅为商家做出正确的商业决策提供了强有力的工具,也为商家更加深入地了解客户需求信息和购物行为的特征提供了可能性。
电子商务中web数据挖掘的步骤电子商务中web数据挖掘的步骤如下:①明确数据挖掘的对象—业务对象,确定商业应用主题,不能盲目地进行挖掘;②将与业务对象的各类原始数据收集起来作为挖掘的数据源泉;③对收集的数据进行预处理,一般包括数据净化、用户识别、会话识别、路径补充、事务识别和格式化等阶段,以提高挖掘效率,剔除无用、无关信息并对信息进行必要的④根据需要解决的问题建立合适的数据挖掘模型,然后利用已知数据对模型进行训练和测试,并应用该模型得到挖掘结果;⑤利用可视化技术,验证、解释挖掘的结果,并据此做出决策或丰富知识,即进行模式分析与应用。
基于知识图谱的大学生MOOC学习可视化分析

作者简介院李梦袁女袁信阳师范学院助教袁硕士袁研究方向为计算机教育应用尧教育信息化尧大学生思想政治教育遥 Science & Technology Vision 科技视界 115
Science & Technology Vision
科技视界
比较大袁 表明了国内学习分析及在线教育有必要依托 慕课实现进一步探索遥
0 引言
有 关 MOOC 研 究 的 文 献 量 迅 速 增 加 袁 实 践 和 探 索 日 益 深 入 袁 我 们 有 必 要 对 MOOC 文 献 加 以 梳 理 遥 之 前 有 学 者 用 定 性 研 究 的 方 法 对 2008 要 2012 年 MOOC 文 献 加以了系统性的综述遥 [1]定性研究方法容易出现主观 偏见袁 对一个问题可能会出现见仁见智的现象遥 教育 理论的研究方法中应引入野数字化科研冶的思路袁基于 当代教育研究中大数据的背景袁 结合量化和技术化的 方 法 对 大 学 生 MOOC 学 习 领 域 中 的 一 些 基 本 理 论 问 题
渊 2 冤 袁 后 MOOC 时 代 下 SPOC 模 式 的 研 究 高 频 关 键 网 络 词 中 的 SPOC 并 非 后 MOOC 时 代 一 种 竞 争 新模式袁 实质是慕课与传统的课堂教学的有效整合[7]遥 研 究 者 们 指 出 MOOC 与 SPOC 应 相 互 推 进 发 展 袁 共 同 作 用来提高实践课堂教学质量遥 通过检索发现袁国内目前
本 文 通 过 聚 类 分 析 法 和 可 视 化 分 析 软 件 Citespace 对 国 内 MOOC 中 的 研 究 热 点 以 及 发 展 趋 势 进 行 了 相 关 的 分 析 遥 现 如 今 MOOC 备 受 关 注 袁 国 内 有 关 MOOC 的 深 入研究要有的放矢遥 理清了国内慕课研究的现状及其 发 展 趋 势 袁 从 可 视 化 的 角 度 探 究 了 MOOC 本 土 化 的 发 展模式袁才能促使慕课服务于中国教育遥
浅谈web数据挖掘在电子商务领域中的应用

We b数据挖掘在电子商务中的研究 和应用 ,已经越来越受到 3 . 面对 一个非常广泛的形形色色 的用 户群 体 。不 同的用 户访 人们 的重 视和关 注, 它的前景广阔 , 势 头 良好 。并且经过各类 电子 问 We b的兴趣 、 爱 好和使用 目的千差 万别 , 面对一 个非常广 泛 的 商务网站 的实践 以及经验 的证 明, 电子商务的优点突 出, 它不仅价 形形 色色 的用户群体 , 能否使用 户根据 自己的爱好兴趣定制 网页, 格低廉 , 而且交易方便 , 它吸引着无数 的消 费者。对于电子商务 网 甚至能否 根据发现 的用户 , 自动为用户定制网页 , 从 而提供个 性化 站来 说 , 要 了解到顾 客的购买意 向 、 吸引顾 客的活动 、 了解顾 客 的 的信息检索和查询服务 。 购物行为心理 。 这些都是 当前需要研究 的问题。 通过数据的挖掘技 三 、 数 据 挖 掘 在 电子 商 务 中 的 应 用 术 的应用 ,我们就能够从海量的数据信息 当中提取 出那 些相对来 目前 对于 We b 挖 掘的对象和使用的方法层 出不穷 , 但 随着电 说 比较有用 的信息 , 来 帮助商家对 客户进行 进一步的理解 , 才能够 子商 务网站的兴起 , 电子 商务 将是未来 We b挖掘的主要发展 方向 推 出更多更为实惠 的商业服务 。 并且通过数据的挖掘 , 瞄准一个客 之一 , 因此它在各种商 业领域都存在广泛 的使用价值 。 当电子商务 户群体 , 通过一些比较特殊 的信息手段来进 行一次宣传工作 , 以此 在企业 中得到应用时 , 企业信息 系统将产 生大量数据 , 这些海 量数 来更大 的对广告的预算 以及增加收入进行减少 ,从 而让 这一切都 据使数据挖掘有 了丰富的数据基础 ,同时高性能计算机 和高传输 能 够 自行 完 成 。 速率 网络 的使用 , 也给数据挖掘技术提供 了坚实的保障 。 介绍以下
Web数据挖掘研究与探讨

Web数据挖掘研究与探讨作者:刘树超, 李永臣, 武洪萍, LIU Shu-chao, LI Yong-chen, WU Hong-ping作者单位:刘树超,武洪萍,LIU Shu-chao,WU Hong-ping(山东信息职业技术学院,潍坊,261041), 李永臣,LI Yong-chen(潍坊市社会保险事业管理中心,潍坊,261061)刊名:制造业自动化英文刊名:MANUFACTURING AUTOMATION年,卷(期):2010,32(9)参考文献(12条)1.R.Kosala;H.Blockeel Web Mining Research:A SLINey,SIGKDD Expioration 20002.马保国.侯存军.王文丰.钱方正Web数据挖掘技术及应用 2006(6)3.Kleinberg J Authoritative Sources in a Hyperlinked Environment 19984.张蓉Web挖掘技术研究 2006(15)5.刘晓鹏;邢长征基于Web文本数据挖掘的研究[期刊论文]-计算机与数字工程 2005(09)6.Web数据挖掘技术研究 2006(15)7.薛鸿民Web数据挖掘技术研究[期刊论文]-现代电子技术 2006(15)8.刘晓鹏.邢长征基于WEB文本数据挖掘的研究 2005(9)9.张蓉Web挖掘技术研究[期刊论文]-计算机工程 2006(15)10.Kleinberg J Authoritative Sources in a Hyperlinked Environment 199811.马保国;侯存军;王文丰;钱方正Web数据挖掘技术及应用[期刊论文]-计算机与数字工程 2006(06)12.R.Kosala.H.Blockeel Web Mining Research:A SLINey,SIGKDD Expioration 2000本文链接:/Periodical_zzyzdh201009050.aspx。
浅谈Web数据挖掘技术

浅谈Web数据挖掘技术作者:李晓玮来源:《电脑知识与技术》2013年第22期摘要:随着网络的快速发展与普及,大量有用的网络信息给人们生活、工作和学习带来了便利。
与此同时网络中还存在着许多无用的信息,如何从浩如烟海的数据海洋中,快速准确的查找数据,成为了当今社会不可忽视的问题。
Web数据挖掘技术,正是解决这一问题的关键。
该文从Web数据挖掘技术的角度,阐述Web数据挖掘的概念、分类、过程及常见的Web数据挖掘算法。
关键词: Web数据挖掘;PageRank算法;网络数据中图分类号:TP311.12 文献标识码:A 文章编号:1009-3044(2013)22-4992-021 概述当前,人们随时随地都在利用网络获取信息,不断利用网络进行着上传和下载的操作,这些信息数据在网络上传播和储存着。
因此,网络就形成了一个庞大的数据存储集散地。
如何从海量的网络数据中快速有效地对数据进行分析和检索,并在其中发觉潜在有用的信息,是当今社会需要解决的问题。
Web数据挖掘技术正是很好的解决了这个问题,以下将探讨一下Web 数据挖掘技术。
2 Web数据挖掘概念2.1数据挖掘Web数据挖掘是数据挖掘的一个分支,首先需要了解什么是数据挖掘。
数据挖掘(Data Mining, DM),是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的知识的过程。
在数据库系统中称其为知识发现(Knowledge Discovery in Database, KDD)。
Web 数据挖掘技术融合了数据库系统、统计学、信息科学、人工智能、机器学习等,是一个新兴的多学科交叉应用领域。
2.2 Web数据挖掘Web数据挖掘是在数据挖掘技术的基础上,针对网络数据主要是Web文档和服务日志文件进行的数据分析、归纳和汇总并在其中发现和提取潜在有用的信息及知识的技术。
3 Web数据挖掘的分类根据 Web 数据挖掘的对象,可将 Web 数据挖掘划分为三种类型。
Web数据挖掘在智能选课系统中的应用研究

l引 言
随着 教育信息化得发展 ,越来越多的高校开始使用智能
系 统 对数 据 库 进 行 管 理 ,有 利 于 实现 对 蕴含 在 数 据 里 的信 息 进 行 挖 掘 ,为相 关 工 作 提 供理 论 依 据 。传 统 的 选课 系 统 是教
图 l 据 挖 掘 步骤 数
师按照专业进行划分 ,学生只能在专业相关的层 次上对学习 的课程进行选择 。而智 能选课系统改变 了传统的选课模型,
能 根据 学生 的 不 同 兴趣 和 特 点 提供 相 应 的 学 习课 程 选择 ,能 充 分 体现 出 因人 施 教 。文 章把 we 据挖 掘技 术 应 用到 智 能 b数 选 课系 统 的 模 型 构建 中 ,利用 关 联 规 则发 现 学 生 的学 习 兴趣 和 特 点 , 出相 应 的 学 习课 程 选择 , 将 为高 校 针对 性 的 对人 给 这
We b数据挖 掘的系统 框图如 图 2所示 , 系统 大致 可分 为 四个模块 :数据 收集 模块 ( 服务器 端数据 、客户 登记信
息) 数据 预处理模块 、 、 模式规则选 择模块和应用 接 口模块 。
模 式收集 模块 负责收 集服务 器端 的数据和 客户 登记 资料 , 然 后 以文本 的方式将 收集的结 果返回 ;数据预 处理模块 对 返 回的信息进行预处理 , 除信 息冗余 : 去 模式规 则选择模块
则 是 从 各 个 站 点 或 站 点 间获 取 通 用 模 式 ,同 时 还 对 获 取 的 模 式 负 责解 释 。
高数据挖掘 所获模 式知识 质量的 目的 数据挖 掘首先要确
定 挖 掘 的 任 务 和 目的 , 定 挖 掘 任 务 后 , 要 决 定 用 什 么 样 确 就 的 挖 掘 算 法 。选 择 算 法 有 两 个 考 虑 的 因素 :一 是 不 同 的 数 据 有 不 同 的特 点 , 此 要 用 与之 相 关 的 算 法 来 挖 掘 ; 是 要 因 二
基于web日志的数据挖掘技术在电子商务网站中的应用

基于 w b日 e 志的数据挖掘技术在电子商务网站中的应用
李 孟 ( 北 工程 大 学信 息 与 电 气 工程 学院 , 北 邯 郸 0 60 ) 河 河 5 0 0
摘 要 : 电子 商务平 台运营过程 中, 在 形成 了海量 we b日志信 息, 如何运 用数据挖掘技术挖掘有价值的信息用于电子 商务 平台的优 化 对 商 家 来说 非 常 重要 , 里将 进 行 研 究 O 这 f 关键 词 : 子 商务 ; 据 挖 掘 ; b 日志 电 数 we 1 电子商务及 电子商务网站 电子商务 就是在 网上开展 的商务活动 , 它作为一种新兴 的 经济形式随着 网络 的普及而得 以迅速发展 。电子商务网站则是 电子商务进行网上交易活动的重要载体 , 电子商务 网站按交易 模式可 以分为 B C,2 , 2 2 B B C C及 B G等几种类别 , 2 而无论哪种 类别的电子商务 网站 ,在网上运营过程 中都会 形成 大量 的 w b e 日志信 息 , 而对这些 w b日志信息进行数据挖 掘 , 对商家运 e 将 营好电子商务 网站起着非常重要 的作用。 2 数 据 挖 掘 及 we b日志挖 掘
一
1 1 91 02 一 一 『l a /0 1 : :1 5 . . .7 9 9 0 / n 1 : 0 2 J 2 1 3 7
—
00] 6 0
“ E /bcs bcl et t l H F/.” G T- aul / s e. m T P1 a eh h 0
20 22 0 1 0 7
一
作者简介 : 李孟, 河北工程 大学信息与电气工程学院计算机技 术专业研 究生。
信 息 产 业
・0 ・ 15
接应用 , 改变 网站的布局及进行个性化设计等 。 32w b日志记 录的内容分析 . e w b日志记录共包含 7个字段 ,下面我们通 过 e 个典型的 w b日志记 录对其进行说明。 e 例如一个 典型的 w b日志记录如下 : e
Web信息提取技术的研究及其在CSCW中的应用

子 节 点 的 一 条 路 径 ( 如 . 户 指 定 需 要 查 找 D M 树 例 用 O 中数 值 为 “ 星 E 3 ” 叶 子 节 点 . 是 很 容 易 办 到 三 68 的 这 的 。 过 D M 规 范 中定 义 的方 法 即可 ) 这 条 路 径 就 是 通 O 。
一
个 规 则 我 们 把 这 条 规 则 存 进 一 个 规 则 集 合 中 ( 始 初
现代计算机
2 1 .8下 0 20
开 发 案 例
— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — 一 — — — — — — — — — — — — — — — — — — . ...
言 . 结 构 化 文 本 没 有 严 格 的 格 式 . 如 电 报 的 报 文 半 例
在 半 结 构 化 文 本 里 存 在 着 一 些 结 构 化 的 信 息 .我 们 可
协 同 编 著 和 电子 会议 等领 域 随 着 我 国社 会 经 济 的 发 展 和 各 行 各 业 信 息 化 程 度 的 不 断 深 入 .S W 研 究 迎 CC
做 过 滤 的设 计 模 式 在 这个 设 计 模 式 中 . 理 过 程 包 括 处
一
机有关 的信 息 以下是某款手机 信息在浏览器 页面上
的显示 :
尺 重 皆 相 寸 量 幂 僬 憧卡 遁
待 横 鼋 池 馥 色 鼋磁波
: 0 5 1 1 35 1 2 x X 9mm : 3g 9 : 4 3 0p e 、 2 菖 色 21 时 T T 2 0 2 i l x x s 6 .2 F : 0 蓖像索 C S 30 MO :mir ̄ co D :2 0分篷 0
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据库与信息管理本栏目责任编辑:闻翔军Web数据挖掘研究李国慧(潍坊学院数学与信息科学学院,山东潍坊261061)摘要:基于Web的数据挖掘是一个结合数据挖掘和WWW的热门研究主题,它是现代科学技术相互渗透与融合的必然结果。
本文阐述了Web数据挖掘的定义、分类和过程,并对Web数据挖掘的应用与发展前景进行了探讨。
关键词:Internet;数据挖掘;Web数据挖掘中图分类号:TP302文献标识码:A文章编号:1009-3044(2008)04-10592-03TheReasearchofWebDataMiningLIGuo-hui(SchoolofMathematicsandInformationScience,WeifangUniversity,Weifang261061,China)Abstract:DataMiningbasedontheWebisapopularresearchtopicthatjoinsthedataminingandWWWtogether.Itistheinevitableoutcomethatthemodernsciencetechniquepermeatesmutuallywithfusion.Thisarticlehavesetforthdefinition,classificationandprocessthattheWebdatamining,andhavecarriedoutinvestigationanddiscussionontheapplicationthattheWebdataminingwithdevelopingaprospect.Keywords:Internet;DataMining;WebDataMining1引言伴随着网络和通信技术的飞速发展,作为全球最大的信息服务平台的Internet正在以前所未有的速度渗入到人类的生产和生活的各个方面。
Internet的普及同时推动了WWW(WorldWideWeb万维网)的迅猛发展,据统计每2个小时就有一个新的WWW服务器产生,WWW作为信息发布和交流的全球性媒体,它的内容涵盖了包括科研、教育、商业、金融、军事等各个领域。
Web已发展成为一个跨国界的巨大信息空间,Web页面的数量以惊人的速度增长,正是由于Web上包含巨大的信息量使得越来越多的用户感觉到在WWW上寻找自己想要的信息犹如“大海捞针”一样困难。
据说,99%的Web信息相对99%的用户来说都是无用的。
用户关心的其实只是Web信息中极少的一部分,而且大量的无关信息会干扰甚至淹没用户感兴趣的内容。
所以如何快速、准确且高效地从浩瀚的Web信息资源中搜寻和发现用户感兴趣的信息和知识己经成为一个迫切需要解决的问题。
而将传统的数据挖掘技术与Web有机地结合在一起,进行Web挖掘是解决这些问题的一个有效的途径。
Web数据挖掘是对已有Web资源的有效利用,其主要目标是从分散在Internet上的半结构化的HTML页面中挖掘用户所需信息,形成结构化数据,且结构化的结果数据可用于数据库挖掘、文本生成等后续Web信息处理。
2Web数据挖掘概念在国内对于Web挖掘众说纷纭,有学者将网络环境下的数据挖掘归入网络信息检索与网络信息内容的开发,也有的在信息服务的角度上提出“信息挖掘”,指出其有别于传统的信息检索,能够在异构数据组成的信息库中,从概念及相关因素的延伸比较上找出用户需要的深层次的信息,并提出信息挖掘将改革传统的信息服务方式而形成一个全新的适合网络时代要求的信息服务组合。
Web数据挖掘(WebDataMining)简称Web挖掘,是数据挖掘技术在Web环境下的应用,它将数据挖掘技术应用在Web上,从大量的Web文档集合和在站点内进行浏览的相关数据中发现蕴涵的、未知、有潜在应用价值的、非平凡的模式(Pattern)的过程。
它所处理的对象包括:静态网页、Web数据库、Web结构、用户使用记录等信息[1]。
通过对这些信息的挖掘,可以得到仅通过文字检索所不能得到的信息。
基于Web的数据挖掘和传统的基于数据仓库的数据挖掘有着不同的含义。
根据W.J.Frawley和G.P.Shapiro等人的定义,一般的数据挖掘指从大型数据库的数据中提取人们感兴趣的知识,而这些知识是隐含的,事先未知的、潜在的有用信息,它侧重在于从己有的信息中提取规律性的知识[2]。
而Web挖掘的研究对象是以半结构化和无结构文档为中心的Web,这些数据没有统一的模式,数收稿日期:2008-01-12作者简介:李国慧,潍坊学院数学与信息科学学院教师,硕士研究生,研究方向:计算机技术。
本栏目责任编辑:闻翔军数据库与信息管理据的内容和表示互相交织,数据内容基本上没有语义信息进行描述,仅仅依靠HTML语法对数据进行结构上的描述。
为了对这种半结构化数据进行分析和处理,Web挖掘必须和其研究手段结合起来。
由于涉及到很多的知识领域,Web挖掘现在是多个研究方向的交汇点,包括数据库、信息获取、人工智能、机器学习、模式识别、统计学、自然语言处理等。
3Web数据挖掘的分类在数据挖掘领域,如果面对的数据类型不同就会采用不同的挖掘算法。
因此,根据所挖掘的Web数据的类型,可以将Web挖掘分为以下三类:Web内容挖掘(WebContentMining)、Web结构挖掘(WebStructureMining)、Web使用挖掘(WebUsageMining)[3]。
如图1所示:图1Web挖掘结构3.1Web内容挖掘Web内容挖掘可以看作是Web信息检索(IR)和信息挖掘(IE)的结合,是指对Web上大量文档集合的“内容”进行总结、分类、聚类、关联分析以及利用Web文档进行趋势预测等,是从Web文档内容或其描述中抽取知识的过程,主要分为文本信息的挖掘和多媒体信息的挖掘。
目前的研究主要集中在利用词频统计、分类算法、机器学习、元数据(MetaData)、部分HTML结构信息发现、数据间隐藏的模式发现并生成抽取规则(ExtractionRule),并从页面中分离出概念(Concept)和实体(Entity)数据。
由于文本仍是信息传递的主要方式,而且文本处理技术相对比较成熟;因此文本数据的挖掘,在研究和应用上都比较普遍。
文本的知识发现最早是由Feldman和Dagan首先提出来的。
文本挖掘不仅指的是单独文档中的信息提取,同时也包括分析文档集合的模式和趋势。
3.2Web结构挖掘Web结构挖掘是从Web组织结构和链接关系中推导知识,它分为Web文档内部结构挖掘(Intra-DocumentStructure)和文档间的超链结构挖掘(Inter-DocumentStructure)。
根据科学引文分析理论,文档之间的互连数据中蕴涵着丰富有用的信息。
在通常的搜索引擎中没有考虑到结构的复杂性,仅将Web看作是一个平面文档的集合,忽略其结构信息。
挖掘页面的结构和Web结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。
同时还可以用来指导网页采集工作,提高采集效率。
其中比较有代表性的工作是PageRank和CLEVER,它们正是利用了文档间的链接信息查找相关的Web页。
有关这方面研究的算法有:PageRank、HITS(Hyperlink-InducedTopicSearch)及改进的HITS(将内容信息加入到链接结构中)和Hub/Authority。
PageRank是典型的Web结构挖掘算法,其核心思想在于发现权威性页面[4]。
PageRank算法是Web超链接结构分析中最成功的代表之一,是评价网页权威性的一种重要工具。
PageRank是一种静态的链接分析算法,每个URL有一个确定的PageRank值,该值不随查询关键字的不同而改变。
Kleinberg提出了一种与查询有关的HITS算法,HITS中最重要的两个概念是Hubs和Authority。
Hub/Authority方法的基本思想:现实中当我们搜索某个给定话题的Web页面时,不仅希望得到相关的Web页面,而且希望检索到的Web页面是权威Web页面。
3.3Web使用挖掘Web使用挖掘是Web挖掘中与传统数据挖掘技术交叉点最多的领域。
一般数据挖掘的基本方法如聚类、分类等算法在这里都可以得到应用。
现在的Web使用挖掘一般都是指Web日志的挖掘。
Web访问日志,是登陆某个Web站点的用户经过一系列的站点浏览后,系统自动记录的用户浏览行为数据,诸如用户的IP、用户的访问时间、浏览过页面的URL、请求方法、请求的字节数、客户端的操作系统和浏览器版本号等。
Web日志挖掘过程大体分为四个阶段:数据预处理、挖掘算法实施、模式分析、可视化。
Web日志挖掘系统的体系结构如图2所示。
4Web数据挖掘的过程Web数据的特点决定了对其进行有效数据挖掘具有极大的挑战性。
根据Web数据的特点,结合数据挖掘的一般过程,可以将Web数据挖掘流程描述如图3所示的5个功能模块,即数据采集、数据预处理、数据挖掘、分析与评估和知识表述模块。
各模块的功能如图3。
4.1数据采集图2Web日志挖掘系统的体系结构图3面向Web的数据挖掘功能模块按照主题相关的原则,数据采集模块完成从外部的Web环境中有选择地获取数据,为后面的数据挖掘提供素材和资源。
Web环境所提供的数据源包括Web页面数据、超链接数据和记录用户访问情况的数据等。
根据数据源形式的不同可以将Web数据挖掘分为基于内容的挖掘、基于结构的挖掘和基于用户使用的挖掘3种,每一种数据挖掘类型在数据采集过程中会使用不同的方法和技术,但它们都有共同的基本过程。
通常,数据采集由数据搜索、数据选择和数据收集等3个相对独立的过程组成。
4.2数据预处理数据预处理模块主要对数据采集所获得的源数据进行加工处理和组织重构,构建相关主题的数据仓库,为下一步的数据挖掘过程创建基础平台。
数据预处理是为数据挖掘所做的前期准备,它主要包括数据清理、数据集成、数据变换、数据约简等。
4.3数据挖掘数据挖掘模块是数据挖掘系统的核心部分[6],它的主要功能是运用各种数据挖掘技术,从海量的经过预处理的数据中提取出潜在的、有效且能被人理解的知识模式。
概括地讲,数据挖掘的最终目标只有描述和预测两个,所谓描述就是用可理解的模式表达数据所包含的属性和特征信息;而预测则是指根据属性的现有数据值找出其规律性,进而推测出其在未来可能出现的属性值。
数据挖掘过程一般由3个主要的阶段组成:数据准备、挖掘操作、结果表达和解释。
数据挖掘算法对数据有一定的要求,如数据冗余性小,数据属性之间的相关性小,数据出错率小等。
而现实世界所采集到的数据通常具有杂乱性、冗余性、小完整性等特点,为此数据挖掘必须经过数据准备阶段以提高数据挖掘质量。