Web数据挖掘技术

合集下载

电子商务中Web数据挖掘的应用

电子商务中Web数据挖掘的应用

电子商务中Web数据挖掘的应用[摘要] 本文介绍了web数据挖掘的概念及其分类,探讨了电子商务中web数据挖掘的过程,研究了web数据挖掘在电子商务方面的应用。

[关键词] 电子商务数据挖掘 web挖掘搜索引擎中图分类号:f407.63 文献标识码:a 文章编号:网络的发展带动了电子商务市场的繁荣,大量的商品、信息在现有的网络平台上得以交易,大大简化了传统的交易方式,节约了时间,提高了效率,但电子市场繁荣背后隐藏的问题,也成为人们关注的焦点,突出表现在海量信息的有效利用上,如何更加有效的管理利用潜在信息,使他们的最大效用得以发挥,成为人们现在研究的重点,数据挖掘技术的产生,在一定程度上解决了这个问题。

一、电子商务与web数据挖掘电子商务是利用计算机技术、网络技术和远程通信技术,实现电子化、数字化和网络化的整个商务过程。

无论是b2b、b2c还是b2g 电子商务模式,商品的采购者都需要通过web方式与商品的供应商及其合作者之间建立信息流的交互,那么,一方面通过web方式与购买者主动、方便、快捷的获得期望主题的信息;另一方面供应商与合作伙伴们如何通过他们的集成信息系统,运用知识把访问者、网上购买者的访问数据从潜在的、隐含的、事先不知的状态,经过提取、洗涤、加工变为潜力巨大的价值信息,从而提高企业的核心竞争力。

web数据挖掘(web data mining)是利用数据挖掘从web文档及web服务中自动发现并提取用户感兴趣的、潜在的、有用的模式和隐藏信息。

web数据挖掘的主要目标就是从web的访问记录中抽取用户感兴趣的模式,www服务器中的访问日志,记录了关于用户访问和交互的信息,通过web数据挖掘,就可以根据用户的访问兴趣、访问频度、访问时间动态地调整页面结构,改进服务,开展有针对性的电子商务活动,以更好地满足客户的需求。

二、web挖掘的分类电子商务web数据挖掘一般可分为三个部分:内容挖掘、结构挖掘、用法挖掘。

刍议数据挖掘技术在Web中的应用

刍议数据挖掘技术在Web中的应用

的模 型,并且 各个 站点之间都是 独 自设计 的,所以 We b站 和 w b相 互结合起 来,能够 从大量的信息数据选取有价值的 点中对 数据 的处 理是 不断变化 的【 e 。 隐含信息。下图 l We 为 b数据挖掘原理流程: ( )异构数据库环境。在数据库 环境 中每 一个 We 点 3 b站
( )数据量 巨大。网络 能够将 分布在世 界不同位 置的 电 1
脑连接在一起 ,并且每一个 电脑都存在丰 富的数据 , 因为连 又
标 主要包括特 征、 趋势 以及 相关性等 多个 方面的信 息。随着 计
接在 网络上 电脑 的数量非 常巨大,所 以 We b数据挖掘技术 能 算机 的普及 ,信息 时代 的到 来,网络 中信息量迅速增加 , 统 够处理 的数据也 非常大 。 传 的知识发现 ( D:K o e g i oeyi aaae)技术 KD n wl eD s vr D tbss d c n ( )半结构化 的数据结构 。传统 的数据库 中的数据结构 2 和方法 已经 不能满 足人们从 We b中获取信 息的需要,并且现 具有一 定的模 型, 以根据数据模型进行对 网络 中的数据进行 可 实也要求 对互联 网上 的信息进行 深层 次实时 的分 析[。所 以 1 ] We 的数据挖掘技术 油然而 生,这种技术将传 统的数据 挖掘 b 描述 ,与传 统的数据 结构相比,在 We b站点中的数据 没有 统
1 数 据挖 掘技 术
1 数据 挖掘技术 的概念 . 1价值 的信
息,从而 为决 策支持 提供有 力的依据 的过程 。 数据挖 掘的 目
直接或者间接的应用到 We b数据 挖掘 中,但是 因为 We b技术
自身的特点 ,从而使 We b中的数据 挖掘技术和传 统的数据 挖 掘具有很大 的不 同。

基于Web的数据挖掘技术

基于Web的数据挖掘技术

义 , 称 为 半 结 构 化 (e —t c rd 的数 据 。所 谓 半 结 构 化 是 如 图 11 例 。 图 中箭 头 的方 向 表示 访 问 被 Smisu t e ) r u .示 相 对 于 完全 结 构 化 的传 统 数 据 库 的 数 据 而 言 .半 结 构 化 是 We 路径 从 图 中可 以确 定 最频 繁 的访 问 路径 。 b
数 据 的最 大 特 点 由 于 We b是 Itme 上 非 官 方联 结 的 资 源 集 通 过 路径 分 析 .可 以 改进 页 面 及 网站 结 构 图 11访 问模 式 示 例 ne t . 合 。 b数 据缺 乏 结 构 和 规 范 。 目前 . b上 数 据 主 要 由静 态 的 的设 计 。 We We H ML表 达 。 据 庞 大 。 据 具 有 多 样 性 。 态 性 强 , 成 了一 个 2 T 数 数 动 构 . 联 规 则挖 掘 技 术 2关
息 。We b挖 掘 可 以广 义 地 定 义 为从 WWW 中 发 现 和 分析 有 用 的 图来 表 示 , = ,)其 中 V 是 页面 的集 合 , G E, E是 页 面 之 间 的 超链 信息。 接 的集 合 . 面 定 义 为 图 中 的顶 点 , 页 面 页 而 1 b上 的数 据特 点 . We 2 之 间 的超 链 接 定 义 为有 向边 。顶 点 V 的 入 We b中有 大量 丰 富 的数 据 : 本 、 片 、 音 、 文 图 声 图像 等 , 些 边 表 示 对 页 面 V 的 引 用 . 这 出边 表 示 V 引 用 数 据 多存 在 于 H ML超 文本 文件 中 .没 有 严 格 的结 构 及 类 型定 了 其 它 的 页 面 , 样 就形 成 了 网站 结 构 图 。 T 这

Web文本数据挖掘技术及其在电子商务中的应用

Web文本数据挖掘技术及其在电子商务中的应用

析、 文本 分 类 、 文本聚 类 等方 面对 We 本 数据 挖 掘 技 术 在 电子 商务 中的应 用 作 了探 讨 , 略述 了 We b文 并 b文 本 数据 挖掘 技术 的应 用 现状及 其发 展 趋势 。
关键 词 : 数据 挖 掘 ; b数据 挖 掘 ; b文本 数据 挖掘 We We 中 图分类 号 :P3 1 1 T 1.3 文献 标识 码 : A
从 技 术角 度来 看 , 据 挖 掘 ( a ii , M) 数 dt m ln D a lg 是 从 大量 的 、 不完全 的 、 有噪声 的 、 模糊 的 、 随机 的实
际应用 数据 中 , 提取 隐含 在其 中 的 、 人们 事先 不 知道 的但又 是 潜 在 有用 的 信 息 和知 识 的 过 程 … 。 该 定 义 主要 包 括 以 下 几 层 含 义 : ) 据 源 必 须 是 真 实 1数 的 、 量 的 、 噪声 的 ; ) 大 含 2 发现 的是 用 户感 兴 趣 的 知
些 数据 的微观 特性 发 现 有 普遍 性 的 、 高层 次 概 念 更
潜 在价 值 的信 息 。结 合 着 数 据 库 技术 的快 速 发 展 ,
数 据挖 掘 技 术诞 生 了 。 由于 We b上 面 的 信 息 绝 大 多数是 非 结构化 的或 者 半 结构 化 的 , 采用 传 统 的数
要 的标 志 。但是 , 电子商 务给我 们 带来 方便 、 在 快捷
的 同时 , 它也 给我 们 带 来 了一 个 很 大 的 困惑 。 那 就
是如何 从 大量 的 、 纷杂 的 w b信息 中找 出有用 的 、 e 有
1 广义 知 识挖 掘 广 义 知识 是 指 描 述 类 别 特 征 ) 的概括 性 知识 。该模 式挖 掘 的 主要 目的就是 根 据这

Web数据挖掘研究与探讨

Web数据挖掘研究与探讨

Web数据挖掘研究与探讨作者:刘树超, 李永臣, 武洪萍, LIU Shu-chao, LI Yong-chen, WU Hong-ping作者单位:刘树超,武洪萍,LIU Shu-chao,WU Hong-ping(山东信息职业技术学院,潍坊,261041), 李永臣,LI Yong-chen(潍坊市社会保险事业管理中心,潍坊,261061)刊名:制造业自动化英文刊名:MANUFACTURING AUTOMATION年,卷(期):2010,32(9)参考文献(12条)1.R.Kosala;H.Blockeel Web Mining Research:A SLINey,SIGKDD Expioration 20002.马保国.侯存军.王文丰.钱方正Web数据挖掘技术及应用 2006(6)3.Kleinberg J Authoritative Sources in a Hyperlinked Environment 19984.张蓉Web挖掘技术研究 2006(15)5.刘晓鹏;邢长征基于Web文本数据挖掘的研究[期刊论文]-计算机与数字工程 2005(09)6.Web数据挖掘技术研究 2006(15)7.薛鸿民Web数据挖掘技术研究[期刊论文]-现代电子技术 2006(15)8.刘晓鹏.邢长征基于WEB文本数据挖掘的研究 2005(9)9.张蓉Web挖掘技术研究[期刊论文]-计算机工程 2006(15)10.Kleinberg J Authoritative Sources in a Hyperlinked Environment 199811.马保国;侯存军;王文丰;钱方正Web数据挖掘技术及应用[期刊论文]-计算机与数字工程 2006(06)12.R.Kosala.H.Blockeel Web Mining Research:A SLINey,SIGKDD Expioration 2000本文链接:/Periodical_zzyzdh201009050.aspx。

XML与Web数据挖掘技术

XML与Web数据挖掘技术
作 ,从关注产业链安全 的角度看 ,此举减少了对农产 品破坏性的 抽查 ,降低 了农产品出 口的成本 间接收益方面表现为 :使生产 ~ … … ~一 …一 ~ … 内容 -解决 数据的应用质量 问题 。 ~ ~ ~
标和 品种混杂等 的工作难度 ,农产品标准 的实施也 无法彻底贯彻
速度慢的问题 . 二是可利用 的信 息多 . 但难 以找到 自己需要的那 此 它给开发者和用户 带来 了许 多好处 。由于基于 X L的数据是 M
部分信 息的问题 。 ML X 能增加结构 和语义信 息 . 可使计算 机和服 自我描述 的 .数据不需 要有 内部描述 就能被交换 和处理 。利用 务器 即时处理多种形式的信息 。因此 .运用 X ML的扩展 功能不
XM L

用户可 以方便地 进行本地计算 和处理 . ML X 格式 的数据发
仅能从 We 服务器下载 大量的信息 . b 还能大大减 少网络 业务量 。 送给客户后 . 客户可 以用应 用软 件解析数据并对数据进行编辑和 X 中的标志 (AG 是没有预 先定义的 . ML T ) 使用者必须要 自定 处理 。使用者可 以用不 同的方法处理数据 .而不仅仅是显示 它。 义需要 的标志 . M 是能够进 行 自解释 ( e eciig 的语言 。 X L X L S l D sr n ) f b M 文档 对象模式 (O 允许用脚本或 其他 编程语言处理数据 . D M) X 使 用 D D( ou n T p ei t n ML T D cme t y e D f io 文档 类型定 义 ) 显示 数据计算 不需要 回到服务器就 能进 行。 ML ni 来 X 可以被用来分离使用 这些 数据 .X Le tn il Sye h e Ln ug ) S (X esbe tl et a g ae 是一 种来 描述 者观看 数据的界面 .使 用简单灵活开放 的格式 .可 以给 We 创 S b 这些 文档如何显 示的机 制 , 它是 X L M 的样式表描述语 言。X L S 包 建 功 能 强 大 的应 用 软 件 。 括两部分 :一个 用来 转换 X ML文档 的方法 ;另一个用来格式化 X L文档 的方法。X L X 连接语言 .它提供 X 中的连接 . M L 是 ML ML 息 . 以它就能使 用户轻松地 找到他们需要 的信 息。利 用 X . 所 ML 义 的多层次 、 相互依存 的系统 、 元数据 、 超链 接结构和样式表等 。 2 X 在 We . ML b数据挖掘 中的应用 X L已经成 为正式 的规范 .开发人 员能 够用 X M ML的格式标 法。使用可升级 的三层模 型 ,XM L可 以从存在 的数据 中产 生出 来 .使用 X L结构化的数据可 以从商业 规范和表现形式 中分 离 M

数据挖掘在Web中的应用研究

数据挖掘在Web中的应用研究摘要:web中的数据挖掘技术是一种新型的技术,web自身的特点,决定了web数据挖掘技术具有更多的特点,而且应用也非常广泛,不仅能够提取页面的信息,进行站点设计分析,而且在电子商务方面也具有非常广阔的应用前景。

本文对数据挖掘技术在web中的应用进行分析。

关键词:数据挖掘技术;web应用;网络技术中图分类号:tp352 文献标识码:a 文章编号:1007-9599 (2012)18-0000-02随着网络技术的快速发展,网络上数据资源的越来越丰富,人们迫切需要将这些数据转换成有用的信息和知识,进而促生了数据挖掘(data mining,dm)和知识发现(knowledge discovery,kd)领域。

信息技术的发展,对web应用提出更高了要求,为了能够满足人们对信息获取的要求,研究基于web的数据挖掘技术,以便人们能够更加智能、更加自动地抽取数据以及信息中的知识。

1 数据挖掘技术相关概述1.1 基本概念数据挖掘技术主要是指寻找隐藏在大量数据中有价值的信息,从中寻找其规律,揭示出隐含的、具有潜在价值的知识,从而为决策支持提供有力依据的过程。

数据挖掘的目标主要包括特征、趋势以及相关性等多个方面的信息。

随着网络应用的普及,网络中信息量迅速增加,传统的知识发现(kdd:knowledge discovery indatabases)技术和方法已经不能满足人们从web中获取信息的需要,基于网络技术提供对各类数据的深层次实时分析,提供决策支持服务,就使得基于web的数据挖掘技术应运而生,这种技术将传统的数据挖掘和web应用技术相互结合起来,实现高度自动化的分析和归纳性的推理。

图1为web数据挖掘原理流程:2.3 在购物网站的应用web数据技术采用web-dms系统可以构建一个基于web 的挖掘的购物网站和交易环境,还能够充分利用站点上积累的信息,从而更好地服务于企业和客户。

在购物网站中采用web 数据挖掘技术不仅能够通过了解购物者的行为习惯,选择提供最佳的服务方式、消费习惯,还能够分析购物者的个人爱好[3],从而提供更加贴切的商品推介。

Web数据挖掘技术及其在旅游电子商务的应用


V16 o o2 N. . 4
A g2 1 u.00
We b数 据 挖 掘 技 术 及 其 在 旅 游 电 子 商 务 的 应 用
辛 海 涛
( 哈尔滨商业大学 计算机 与信息工程学 院 , 哈尔滨 10 2 ) 5 0 8 摘 要: 分析 了数 据挖掘技 术 , We 录挖掘 过程 , 用 We 及 b记 利 b记 录挖 掘技 术和推 荐 引擎技 术 , 帮助
第2 卷 第4 6 期
2 1 年 8月 00
哈 尔 滨 商 业 大 学 学 报 (自然科 学版 )
J u n l fHabnUnv ri fC mme c ( au a ce c s dt n o r a r i i s yo o o e t re N t rl in e io ) S E i
旅 游 电子 商务 建 立 个 性 化 的 旅 游Байду номын сангаас网络 , 旅 游 者 推 荐 旅 游 计 划 , 高 网 络 旅 游 的 预 订 率 。 而 使 旅 游 为 提 从
企 业 更 多地 获 利 .
关键 词 : b数据挖掘 ; We ; 电子 商务 ; 用 应 中 图 分 类 号 :P 1 T 33 文 献 标 识 码 : A 文 章 编 号 :6 2— 9 6 2 1 )4— 4 3— 3 17 0 4 (0 0 0 0 8 0
随着现 代 信息 技术 的迅 猛 发展 , 全球 内掀 起 在
据 中发现 模 型和 数据 间 关 系的过 程 , 些 模型 和关 这
了信 息化 浪潮 . 息 产 生 的渠 道 越 来 越 多 , 息 更 信 信 新 的频 率 日益 加快 , 各行业 均 产生 了数 以万计 的数
系可 以用来 做 出预 测. 据挖 掘 的第 一步 是 了解数 数 据、 描述 数据 , 计算 统 计 变 量 ( 比如 平 均 值 、 均方 差 等 ) 再 用 图 表 或 图 片直 观 地 表 示 出 来 , 而 可 以 , 进 看 出一 些 变 量 之 间 的相 关 性 ]选 择 正确 的 数 据 . 源对 整 个数 据挖 掘项 目的成 败至 关 重要 . 然后 我们

大数据的常用算法(分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘)

⼤数据的常⽤算法(分类、回归分析、聚类、关联规则、神经⽹络⽅法、web数据挖掘)在⼤数据时代,数据挖掘是最关键的⼯作。

⼤数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的⼤型数据库中发现隐含在其中有价值的、潜在有⽤的信息和知识的过程,也是⼀种决策⽀持过程。

其主要基于,,模式学习,统计学等。

通过对⼤数据⾼度⾃动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、⽤户调整市场政策、减少风险、理性⾯对市场,并做出正确的决策。

⽬前,在很多领域尤其是在商业领域如、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、危机等。

⼤数据的挖掘常⽤的⽅法有分类、回归分析、聚类、关联规则、⽅法、Web 数据挖掘等。

这些⽅法从不同的⾓度对数据进⾏挖掘。

数据准备的重要性:没有⾼质量的挖掘结果,数据准备⼯作占⽤的时间往往在60%以上。

(1)分类分类是找出数据库中的⼀组数据对象的共同特点并按照分类模式将其划分为不同的类,其⽬的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。

可以应⽤到涉及到应⽤分类、趋势预测中,如淘宝商铺将⽤户在⼀段时间内的购买情况划分成不同的类,根据情况向⽤户推荐关联类的商品,从⽽增加商铺的销售量。

分类的⽅法:决策树——是最流⾏的分类⽅法特点:a、它的每次划分都是基于最显著的特征的;b、所分析的数据样本被称作树根,算法从所有特征中选出⼀个最重要的,⽤这个特征把样本分割成若⼲⼦集;c、重复这个过程,直到所有的分⽀下⾯的实例都是“纯”的,即⼦集中各个实例都属于同⼀个类别,这样的分⽀即可确定为⼀个叶⼦节点。

在所有⼦集变成“纯”的之后,树就停⽌⽣长了。

决策树的剪枝:a、如果决策树建的过深,容易导致过度拟合问题(即所有的分类结果数量基本⼀样,没有代表性);b、剪枝通常采⽤⾃上⽽下的⽅式。

每次找出训练数据中对预测精度贡献最⼩的那个分⽀,剪掉它;c、简⾔之,先让决策树疯狂⽣长,然后再慢慢往回收缩。

互联网(WEB)数据挖掘中XML技术的应用

We b的数据挖掘 .
1 互联 网数据挖掘
K D 基于数据库的知识发现) D ( 是指从大量数据中提取有效的、 新颖的、 潜在有用的 、 最终可被理解
的模式 的非平凡过程¨. J这是如今比较公认 的基 于数据库 的知识发现 的定 义. 而基于 We b知识发现 的
定义则有很多, 但首先应当肯定的是, b We 数据挖掘技术是数据挖掘技术 在网络信息 处理 中的应用. 因 此, 可以将各种数据挖掘的方法应用到 We 上 , b 比如定性归纳 、 关联规则和聚类分析等. 其次 , b数据 We
维普资讯
第2 7卷 第 2期 20 0 6年 4月






Vo. 7 No. I2 2 Ap . 0LAN UNl R T I VE SIY
互联 网 ( B) 据挖 掘 中 X WE 数 ML技 术 的应 用
侯 刚, 张桂 芸
( 天津师范大学 计算机 与信息工程学院 , 天津 3 0 8 ) 0 3 4

要: 针对 当前互联网发展的高度动态性和复杂性 , 阐明并 分析 了 We b数据 挖掘 中存 在的 问题 , 并在
此基础上主要探讨了 X L在 W b M e 数据挖掘中所起的作用. 结合 X L的可扩展性以及可被结构化等特 M 点, 从几个方面对基于 H M T L网页挖掘所遇到的困难 , 诸如链接信息分析、 数据信息集成等, 都提出了相
作者简介 : 侯
刚(9 8一) 男 , 17 , 天津师范大学计算机与信息工程学 院硕士研究生 , 主要研究方 向 : 计算机应用
维普资讯
第 2期
侯 刚等 : 互联 网( E ) W B 数据挖掘 中 X M/技术 的应用
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Web数据挖掘技术
【摘要】文章主要描述了Web挖掘的原理、分类、数据挖掘的关键技术和数据挖掘的方法。

针对Web数据的复杂性和特殊性,Web的数据挖掘必须对Web 页做必要的数据处理,使之达到结构化数据的挖掘要求,或使用XML技术来构造半结构数据模式再进行数据挖掘。

【关键词】Web挖掘;内容挖掘;结构挖掘;使用挖掘
0引言
随着Internet/Intranet技术的发展,尤其是Web的全球普及使得Web上信息量无比丰富,Web已经成为人们获取信息的重要途径,但最先进的搜索引擎也只能找到Web网页上面很少的网页,而且无论怎么选择关键词都会返回大量并不需要的结果。

如何从非格式化数据信息中有效地挖掘出有用的信息是对数据挖掘领域的一个新挑战。

Web上的数据信息不同于数据库。

它主要是些大量的、异质的Web信息资源,文档结构性差,其数据多为半结构化或非结构化,信息不能清楚地用数据模型来表示。

因此在Web的数据挖掘需要用到很多不同于单个数据仓库挖掘的技术。

1Web数据挖掘概述
1.1 Web数据挖掘概念
Web数据挖掘是一项综合技术,是利用数据挖掘技术从WWW数据资源中抽取信息的过程,结合了数据挖掘、信息处理、可视化、数理统计等领域的成熟技术,是对Web数据资源中蕴含的未知的有潜在应用价值的模式的提取。

1.2 Web数据挖掘原理
通常Web挖掘过程可以分为以下几个处理阶段:资源发现、数据抽取及数据预处理、数据汇总及模式识别、分折验证。

目标数据集根据用户需求,从Web 数据源中提取的相关数据,Web数据挖掘主要从这些数据通信中进行数据提取;预处理过程从数据中去除明显错误或冗余的数据,并将数据转换成为有效和易于理解的形式;模式分析对发现的模式进行解释和评估;最后将发现的知识以用户能理解的方式提供给用户。

1.3 Web数据挖掘分类
根据挖掘对象的不同,Web挖掘可以分为三类,Web内容挖掘(WCM)、Web结构挖掘(WSM)和Web使用挖掘(WUM)。

1.3.1 Web 内容挖掘
Web内容挖掘实际上是从Web文档及描述中获取知识,具体来说就是对Web 上大量的文档集合的内容进行摘要、分类、聚类、关联分析、以及利用Web文档进行趋势预测等。

Web内容挖掘的对象包括文本、图像、音频、视频、多媒体等各种类型的数据。

其中聚类是事先没有确定类别,但要求把相似度高的文档归于相同的类。

1.3.2 Web结构挖掘
Web结构挖掘是从WWW的组织结构和链接关系中推导知识的过程。

主要是通过对Web 站点的结构进行归纳、分析和变形,将Web页面进行分类,以利于信息搜索。

HTML页面所包含的知识不仅存在于各个页面的内容中,也存在于这些页面之间的相互链接中。

利用这方面的知识可以对页面进行排序以发现重要的页面。

1.3.3 Web使用挖掘
Web使用挖掘就是对用户访问Web时在服务器留下的访问记录进行挖掘,也叫网络使用挖掘。

挖掘对象是在服务器上的日志信息,也称Web日志挖掘。

它通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,发现潜在用户,增强站点的服务竞争力。

Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。

2Web数据挖掘的关键技术
Web数据挖掘中常用的技术有Web使用的特有路径分析技术和数据挖掘领域常用的关联规则、序列模式、分类聚类技术以及中文分词处理和词频统计技术等。

2.1 路径分析技术
使用路径分析技术进行Web数据挖掘时,最常用的是图。

图最直接的来源是网站结构图,网站上的页面定义为节点,页面之间的超链接定义为图中的边。

基于Web的数据挖掘,就是从图中确定最频繁的路径访问模式。

2.2 关联规则挖掘技术
关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则。

在Web数据挖掘中,它负责挖掘出用户在一个访问期间从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引关系。

2.3 序列模式挖掘技术
序列模式数据挖掘负责挖掘交易集之间的有时间序列的模式。

例如,最出名的尿布与啤酒,这种信息对于电子商务网站非常有用。

2.4 聚类分类技术
分类规则可以挖掘某些共同的特性。

这个特性可用来对新添到数据库里的数据项进行分类。

2.5 中文分词处理技术
中文信息处理的一大障碍是词与词之间没有物理的分隔符。

因此在进行词频统计等处理前先要进行词条切分处理。

中文文本的分词方法有很多种,一般采用较为简单的基于词典的正向匹配遍历分词方法。

词典的选取通常根据挖掘目标建立专业的分词词典,以提高系统的运行效率。

3Web数据挖掘的方法
3.1 Web数据的半结构化
3.1.1异构数据库环境
从数据库研究的角度出发,Web网站上的信息也可以看作一个更大、更复杂的数据库,每个站点之间的信息和组织都不一样。

如果想要利用这些数据进行数据挖掘,首先必须要研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取信息。

其次还要解决Web上的数据查询问题,因为如果不能有效地得到所需的信息,则对这些数据进行分析、集成、处理就无从谈起。

3.1.2半结构化的数据结构
Web上的数据与传统的数据库中的数据不同,Web上的每一站点的数据都各自独立设计,数据没有特定的模型描述,并且数据本身具有自述性和动态可变性。

因而,Web上的数据这也被称之为半结构化数据。

3.2 用XML技术进行Web数据挖掘
针对Web上的数据半结构化的特点,XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确的查询与模型抽取。

XML是一种中介标示语言,可提供描述结构化资料的格式。

XML解决了两
个Web问题,即Internet发展速度快而接入速度慢的问题,以及可利用的信息多,但难以找到自己需要的信息的问题。

运用XML的扩展功能不仅能从Web服务器下载大量的信息,还能大大减少网络业务量。

3.3 具体实现
其实现过程可以由以下四个步骤来实现:第一步得到XHTML格式的源信息,即确定了信息源,将数据从HTML转换成XML,目前在高级语言中例如JA V A、VC等都有专门的函数或类来实现;第二步查找数据的引用点,完成这一任务的最简单的办法通常是,检查Web页面,然后使用XML。

只需要看一下页面,记下观察到的内容,考虑页面所生成的XHTML,并将把记录的信息作为引用点;第三步将数据映射成XML,找到了这个引用点,就可以创建实际抽取数据的代码;第四步合并与处理结果,需要反复执行抽取过程,把结果合并到单个XML数据文件中。

可以再次使用XSL执行,也可以创建类的方法把在当前抽取中获得的数据合并到包含以前抽取数据的文档中。

4总结
基于WWW技术的应用正以惊人的速度向社会生活的方方面面渗透,人类交互信息不可避免地电子化和海量化,从这些大量数据中发现有用的重要的知识是数据挖掘与知识发现的是一个重要研究和应用领域。

本文讨论了Web数据挖掘的一些基本知识、方法、技术。

Web挖掘是一项综合技术涉及多个领域,目前随着XML技术的成熟,研究利用XML技术进行Web的数据挖掘必将越来越深入。

【参考文献】
[1]王志明,沙莎.Web数据挖掘技术及其应用.软件导刊,2006,10.[2]李健.Web的数据挖掘.电脑知识与技术,2006.
[3]原娇杰,赵杰文.基于Web 的数据挖掘.软件导刊,2006,10.
[4]于升峰.Web 使用挖掘的模式发现.情报学报,2006-10-25.
[5]崔建群,何炎祥.基于XML的Web数据挖掘关键技术的研究.计算机工程,2006-10-32.。

相关文档
最新文档