Web挖掘技术
浅析Web内容挖掘技术

浅 析 We b内容 挖 掘 技 术
崔 敏
( 东 营 职业 学 院 教 师 教 育 学 院 , 山东 东 营 2 5 7 0 9 1 )
摘 要: 随着因特 网的飞速发展 , 各种信息可以以非常低的成 本在 网络 上获得 , 这样 因特 网的迅 速 发 展 对 万维 网信 息 的查 找 与 发 现提 出 了巨大的挑 战 。对 于大 多数 用户提 出的与主题 或领 域相 关 的查询 需求 , 传统 的通 用搜 索 引 擎往 往 不 能提 供令 人 满 意 该 词 汇 现的位 置和 卜 下 文环境 、属忡 t J ‘ 以是 布尔 型 , 根据 词 汇是 否 在 文档 中出 现而 定 , 也口 r 以有 频 度 , 即 该词 汇在 文档 中 的出现 频 率 。这种 方 法 可 以扩 展 为选 择 终 结符 、 标点 符号 、 不常用 词 汇的 属性 作 为 考察 集 合 。词 汇袋 方 法 的 一 个 弊端 是 自由文 本 中的数 据 丰 富 , 词 汇 量 非常 大 , 处理 起 来很 困难 , 为解 决这个 问题 人们 做 r 相应 的研 究 , 采取 了 不 同技 术 , 如信 息增 益, 交叉 熵 、 差异 比等 , 其 目的都是 为 了减少 属性 。另 外 , …・ 个 比较 有意 义 的方法 是潜在 语 义索 引 ( L a t e n t S e m a n t i c I n d e x i n g ) , 它 通过 分析 不 同文档 中相 同主题 的共 享词 汇 , 找 到他们 共 同 的根 , 用 这个 公共的根代替所有词汇 , 以此来减少维空问。例如: “ i n f o r m i n g ” 、 “ i n f o r m a t i o n ” 、 “ i n f o r m e r ” 、 “ i fo n r m e d ” 可 以用 他 们 的根 “ i n r f I l ” 来 表示 , 这样可以减少屙l 生集合的规模。其他的属性表示法还有词 汇在 文档 中的 出现位 置 、 层 次关 系 、 使 用短语 、 使用 术 语 、 命 名 实体 等, 目前还 没有研 究 表明一 种表 示法 明显 优于 另一种 。 4 用 资 源查 找 ( I fo n r m a t i o n R e t r i e v a 1 ) 的观 点 挖 掘 半 结 构 化
基于web数据挖掘技术——-web内容挖掘设计与实现

摘要WWW"是个丌放的全球性资源,它是世界上最丰富和最密集的信息来源。
随着WWW上信息的爆炸性增长,在如此海量的数据中发现有用的信息变得越来越困难。
数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。
充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术撮重要的应用。
因此,采用数据挖掘技术从WWW上提取隐含的、未知的、非平凡的及有潜存心用价值的信启、,具有十分重要的现实意义和广泛的应用前景。
本文首先简要论述了WWW发展的基本现状以及当前存在的一些问题。
随后,简要介绍了数据挖掘技术的基本概念、原理,接着,概要的介绍了本文对于Web数据挖掘所用到的技术一Java和XML技术,在此基础上研究了数据挖掘技术在WWWL的应用,针对Web数据内容挖掘进行了详细地论述。
文中通过一个具体的案例详细论述了实现Web数据内容挖掘的一种方法以及对该方法的分析。
最后,对全文进行了总结。
关键词:WWW,Web数据挖掘,XMLAbstractTheWorldWideWebisadistributedglobalinformationresourcecontainingalargeamountofdatarelevanttoessentiallyalldomainsofhumanactivity.GiventhehjghrateofthevolumeofdataavailableontheWWⅥifindingusefulinformationinsuchalargeamountofdatabecomesamoredifficultprocesseveryday.DataMiningisthetermgiventOtheautomateddiscoveryofnon—obvious,potentiallyusefulandpreviouslyunknowninformationfromlargedatasources.SoobtainingvaluableinformationbyDataMiningtechniquesintelligentlyandautomatically,improvingefficiencyoftheWWWhastremendousapplicationvalues.Inthispaper,wefirstgenerallyintroducetheimprovementofWWWandsomeproblemsunsolved.Andthenwedescribethebasicconceptsandtheoriesofdatamining.ThefollowingisdissertatedtheapplicationofdataminingtechniquestotheWoi’ldWideWeb,anddiscussindetailthecontent、characteristic、problemsunsolvedotlwebconteNminingandwebusagemining.Andthen,wegenerallyintroducethetechniquesofuseforDataMininginthepaper勺aVaandxml.Throughaconcretesample,wedescribeindetailoneofthemethodthatrealizeWebDataMining.Finallywemakeaconclusionofthepaper.Keywords:∥烀?彤WebDataMining,XML独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。
Web数据挖掘技术

半结 构化的数据模型 ,可 以很容 易地将 X ML的文档 描述 与 关 系数据库 中的属性一一对应起 来 , 实施精 确的查询与模 型 抽取 。 X ML是一种中介标示 语言 , 可提供描述结构化资料 的格 式。XM L解决 了两个 We b问题 , It nt 即 ne e 发展速度快而 接 r 入速度慢 的问题 , 以及可利用 的信息多 , 难 以找 到 自己需 但 要 的信息 的问题。运用 X ML的扩展 功能不仅 能从 We b服务 器下载大量的信息 。 还能大大减少网络业务量 。 3 具体实现 I 3
1 We . 2 b数据挖掘原理
器上的 日志信息 , 也称 We 志挖掘。它通过分析 日 b日 志记录
中的规律 。 以识别用户 的忠实度 、 可 喜好 、 满意度 , 发现潜在 用户 。 强站 点的服务竞争力 。We 增 b使用记录数据除 了服务 器的 日志记录外还包括代理服务器 日志 、浏览 器端 日志 、 注 册信息 、 用户会 话信 息 、 易信 息 、 oke中的信 息 、 交 Coi 用户查 询、 鼠标点击流等一切用户 与站点之间可能的交互记录 。
We b内容挖掘 的对 象包括文本 、 图像 、 音频 、 视频 、 体等 多媒
各种类 型的数 据。其中聚类 是事先没有确定类别 , 但要求把 相似度高 的文档归于相同的类 。 1. .2 3 We b结构挖掘
We b结构 挖掘是从 wWw 的组织结构 和链接关 系中推
异质的 We 信息资源 , b 文档结构性差 , 其数据多 为半 结构化
S in e& Te h o y Vi o ce c c n  ̄g s n i
I 坛 T论
科 技 视 界
21 年 8 01 月第 2 期 3
Web数据挖掘技术及应用

2 We b数 据 的特 点
We 术 做 为 l|I"飞速 发 展 的 产 物 , 信 b技 iR r' t ll 对 息 在社 会 中 的传播 起 刘 J很重要 的 作J . 佰于各 f分 ] W 点上 的数 据 f j 1 的特 点_I。 的可 以 b站 1 ’ [身 2.t
We 数据挖掘 b
T3 1 P 1
三类 , 自有其 相关技术 , 各 随着 It e 的发展 , b 据挖掘有着越来越广 泛的应用 。 nmt e We 数 关键词 分类 相关技术
中 图分 类 号
The Te h o o y a c n l g nd App ia i n o e t i I lc to fW b Da a M nig l
Wi e d v lp e to ne t t t e eo m n fl tme ,We aam n n i e u e r n r n df rn ed . hh b d t ig wl b s d mo a d mo i i e t ls i l e e e f i Ke r s We aa m nn ,kn ,c r lt e tc n lg y wo d b d t i g id or a v e h oo y i e i
维普资讯
2 0
汁算 机 与 数 字 工 程
第 3 卷 4
We 据 挖 掘 技 术 及 应 用 b数
马保国 侯存 军 王文丰 钱 方正
武汉 40 7 ) 300 ( 武汉理工大学硅酸盐材料工程教育部重 点实验室
摘
要
We 数据挖掘是数据挖掘技术在 We b b信息集合上 的应 用 , b数据 具有本身的特点 , b数据 挖掘可 以分 为 We We
Web使用挖掘技术的研究

3.Web使用挖掘(Web Usage Mining)
Web使用挖掘又叫Web 日志挖掘或Web用户访问模式挖 掘, 挖掘的对象是Web服务器上的信息, 包括服务 日志、 用户 注册信息等内容, 也有人通过客户端代理收集用户的行为, 这 些记录更准确更详细, 但是有可东西方文化交流与传播的不平 衡, 而且随着东西方文化交流的不断加强, 强势文化势必会逐 渐取得优势, 弱势文化则存在因失去 自 身特点而被同化的危 险。 如果没有构筑起坚实的人文素质基础, 当学生面对巨大的 文化差异时, 就极有可能承受不住文化冲击而发生认识偏差, 其极端的表现形式就是产生民族 自卑感或者盲 目排外 的意 识。所以, 英语教学应结合实际适当介绍我国文化 、 历史 、 地 理、 人文与 自然景观和各地风俗人情及我国改革开放的当代 成就, 有意识地引导学生了解我国源远流长的优秀文化传统、 悠久的灿烂文明史, 培养学生的民族 自尊心, 激发学生的民族
档, 并且是以某种格式(如HTM L(Hypertext M arkup Language, 超文本标识语言)或XM L(Extensible M arkup Language, 可扩展 性标识语言 ))呈现的 非结构化或半结构化数据, 这些数据的 特 点是结构不规则或不完整, 模式信息量大, 模式变化快, 大量
自豪感 。
听、 读、 说、 写的语言能力, 如何在中专英语教学中开展好人文
素质教育 , 既是一道重大的理论课题 , 更是一个迫切的实践课
题。广大中专英语教师不仅要有扎实的专业水平, 也要不断提 高人文素养, 觉对传统中专英语教学进行纠编, 要自 切合实际 在中专英语教学中积极开展人文素质教育, 促进学生素质全
的文档并没有任何排列次序, 也没有分类索引。 这些特征决定 了Web信息处理的难度相当大。
Web数据挖掘在搜索引擎中的运用

Web数据挖掘在搜索引擎中的运用摘要:随着互联网技术的不断发展,在网络中数据与信息不断增多的背景下,就需要利用数据搜索引擎的方式来寻找出用户想要查询的信息,进而达到收集信息的目的。
本文主要探讨的是web挖掘技术在搜索引擎中的应用,首先分析了web挖掘的概念及其内容,在此基础上阐述了搜索引擎存在的不足,最后叙述了web挖掘技术在搜索引擎中的应用。
关键词:数据挖掘;互联网;搜索引擎中图分类号:tp391.31 web挖掘的概念及其内容对于web挖掘来说,经过了几年的发展我们并不陌生,但是对于不同人来说web挖掘都有着不同的理解方式,而现阶段的web挖掘内容主要包含着三个方面。
1.1 web内容挖掘web内容挖掘是整个web数据挖掘技术的核心,对互联网中的信息进行分析后我们可以看出,其主要是通过互联网中的各种类型的服务、数据源以及信息源组成的,例如ftp、telnet和www等。
由于web内容挖掘具有很多优势,因此数字图书馆、政府办公和电子商务等都是采用web的方式来对数据库进行访问的。
同时web内容挖掘所涉及的范围也是非常广泛的,除了图像和文本外,还包含了视频、音频以及多媒体等。
1.2 web结构挖掘对于web结构挖掘来说主要是针对web中的文档结构进行分析,从组织之间的结构模式来获取有价值的信息。
web的结构挖掘技术具体来说就是在互联网中的超链接之间的关系和web文档自身的结构综合到一起而推导出的一种超出web以外的信息。
1.3 web行为挖掘所谓web行为挖掘技术,就是通过互联网中的web服务器所包含的日志文件以及互联网中用户的信息进行统计与处理进而获取有用的信息反馈给查询者。
具体的工作模式是在www服务器中用户登录的信息进行后台备份后进行归类并分析,最终达到获取用户行为的目标。
2 现阶段搜索引擎的不足由于在互联网中主要是通过html语言规范来对信息进行描述的,并且对互联网中的信息进行包装、传输以及发布也都是经过web的方式来处理的。
Web数据挖掘技术综述

中图分类号 :T P 3 1 1文献标识码:B 文章编号:1 0 0 9 - 4 0 6 7 ( 2 0 1 3 ) 1 5 . 3 2 . 0 2
一
、
We b数据挖掘的难点
下特点:
we b上有海量的数据信息 ,怎样对这些数据进行复杂的应用成了现 今数据库技术 的研究热点。数据挖掘就是从大量的数据 中发现隐含 的规 律性 的内容 , 解决数据的应用质量问题。充分利用有用 的数据 , 废弃虚 伪无用的数据 ,是数据挖掘技术的最重要 的 应用 。相对 于 We b的数据而
因为如果所需 的数据不能很有效地得到,对这些数据进行分析 、 集成 、
处理就无从谈起。.
( 二 )半结构化 的数据结构
搬用于数据库的数据挖掘技术。
l 、We b 挖掘技术 的分类
一
We b上的数据与传统 的数据库 中的数据不同 , 传统的数据库都有一 定 的数据模型 ,可以根据模型来具体描述特定的数据。而 We b 上 的数据 非常复杂 ,没有特定 的模型描述 ,每一站点的数据都各 自 独立设计 ,并
we b 内容挖掘有两种策略 : 直接挖掘文件的 内容,或在其他工具搜 索的基础上进行改进 。采取第 1种策 略的有锁定网络的查询语言 We b L o g 、W e b S h o y 等 ;采 取第 2种策略的方法 主 要是对查找引擎的查询结果进行进一步的处理 ,
1 、庞大性。由于 we b的开放性 ,使得 we b 上的信息与 臼俱增 ,呈
爆炸性增长。网上的网页数量达到 l 0亿 ,而且正在以每月近千万的速度 增长。
2 、 动态性 。 we b 不仅以极快的速度增长 , 而且其信息还在不断地发 生更新。新 闻、 公 司广告、股票市场 、We b服务中心等都在不断地更新
浅谈Web数据挖掘技术

浅谈Web数据挖掘技术作者:李晓玮来源:《电脑知识与技术》2013年第22期摘要:随着网络的快速发展与普及,大量有用的网络信息给人们生活、工作和学习带来了便利。
与此同时网络中还存在着许多无用的信息,如何从浩如烟海的数据海洋中,快速准确的查找数据,成为了当今社会不可忽视的问题。
Web数据挖掘技术,正是解决这一问题的关键。
该文从Web数据挖掘技术的角度,阐述Web数据挖掘的概念、分类、过程及常见的Web数据挖掘算法。
关键词: Web数据挖掘;PageRank算法;网络数据中图分类号:TP311.12 文献标识码:A 文章编号:1009-3044(2013)22-4992-021 概述当前,人们随时随地都在利用网络获取信息,不断利用网络进行着上传和下载的操作,这些信息数据在网络上传播和储存着。
因此,网络就形成了一个庞大的数据存储集散地。
如何从海量的网络数据中快速有效地对数据进行分析和检索,并在其中发觉潜在有用的信息,是当今社会需要解决的问题。
Web数据挖掘技术正是很好的解决了这个问题,以下将探讨一下Web 数据挖掘技术。
2 Web数据挖掘概念2.1数据挖掘Web数据挖掘是数据挖掘的一个分支,首先需要了解什么是数据挖掘。
数据挖掘(Data Mining, DM),是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的知识的过程。
在数据库系统中称其为知识发现(Knowledge Discovery in Database, KDD)。
Web 数据挖掘技术融合了数据库系统、统计学、信息科学、人工智能、机器学习等,是一个新兴的多学科交叉应用领域。
2.2 Web数据挖掘Web数据挖掘是在数据挖掘技术的基础上,针对网络数据主要是Web文档和服务日志文件进行的数据分析、归纳和汇总并在其中发现和提取潜在有用的信息及知识的技术。
3 Web数据挖掘的分类根据 Web 数据挖掘的对象,可将 Web 数据挖掘划分为三种类型。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本挖掘是Web内容挖掘的基础
文本挖掘(TD)的方式和目标是多种多样的,基 本层次有:
关键词检索:最简单的方式,它和传统的搜索技术类似。 挖掘项目关联:聚焦在页面的信息(包括关键词)之间
的关联信息挖掘上。 信息分类和聚类:利用数据挖掘的分类和聚类技术实现
页面的分类,将页面在一个更到层次上进行抽象和整理。 自然语言处理:揭示自然语言处理技术中的语义,实现
对中文页面来说,还需先分词然后再进行以上两步处理。
17
Web页面内多媒体信息挖掘
多媒体挖掘是一个大研究分支,总的挖掘过程是 先要应用多媒体信息特征提取工具,形成特征2 维表,然后就可以采用传统的数据挖掘方法进行 挖掘。
在特征提取阶段,利用多媒体信息提取工具进行特征 提取。一般地,信息提取工具能够抽取出image和 video的文件名、URL、父URL、类型、键值表、颜色向 量等。对这些特征可以进行如下挖掘操作:
信息检索可能经常被说成是Web挖掘的初级阶段, 是为了强调Web挖掘不是简单的信息索引或关键 词匹配技术,而是实现信息浓缩成知识的过程, 它可以支持更高级的商业决策和分析。
7
Web挖掘与信息抽取
Web上的IE的研究目的是希望从众多的Web文挡 中抽取可供分析的信息,与Web挖掘的关系也有 不同的观点:
Web访问信息挖掘(Web Usage Mining):Web访问信息 挖掘是对用户访问Web时在服务器方留下的访问记录进 行挖掘。通过分析日志记录中的规律,可以识别用户的 忠实度、喜好、满意度,可以发现潜在用户,增强站点 的服务竞争力。
Web结构挖掘(Web Structure Mining):Web结构挖掘 是对Web页面之间的链接结构进行挖掘。在整个Web空间 里,有用的知识不仅包含在Web页面的内容之中,而且 也包含在页面的链接结构之中。对于给定的Web页面集 合,通过结构挖掘可以发现页面之间的关联信息,页面 之间的包含、引用或者从属关系等。
通过个性化,基于用户所关心内容的广告会被发送到 潜在的用户。当一个特别的用户访问一个站点时,会 有一个特别为它定制的广告出现,这对那些可能购买 的用户来说是一个极大的诱惑。
Web内容挖掘的目的之一是基于页面内容相似度进行用 户分类或聚类的,个性化的建立是通过用户过去的检 索内容分析而建立起来的。自动的个性化技术可以通 过过去的需要和相似用户的需要来预知特定用户将来 的需要。
4
七 Web挖掘技术
Web挖掘的意义 Web挖掘的分类 Web挖掘的含义 Web挖掘的数据来源 Web内容挖掘方法 Web访问信息挖掘方法 Web结构挖掘方法
5
Web挖掘的含义
WeB挖掘是一个看宽泛的概念,可以简单地描述 为:
针对包括Web页面内容、页面之间的结构、用户访问信 息、电子商务信息等在内的各种Web数据,应用数据挖 掘方法以帮助人们从因特网中提取知识,为访问者、站 点经营者以及包括电子商务在内的基于因特网的商务活 动提供决策支持。
16
Web页面内文本信息挖掘
挖掘的目标是对页面进行摘要和分类。
页面摘要:对每一个页面应用传统的文本摘要方法可以得到相应 的摘要信息。
页面分类:分类器输入的是一个Web页面集(训练集),再根据页 面文本信息内容进行监督学习,然后就可以把学成的分类器用于 分类每一个新输入的页面。
在文本学习中常用的方法是TFIDF向量表示法,它是一种 文档的词集(Bag-of-Words)表示法,所有的词从文档中 抽取出来,而不考虑词间的次序和文本的结构。这种构造 二维表的方法是:
七 Web挖掘技术
Web挖掘的意义 Web挖掘的分类 Web挖掘的含义 Web挖掘的数据来源 Web内容挖掘方法 Web访问信息挖掘方法 Web结构挖掘方法
1
Web挖掘的价值
从大量的信息中发现用户感兴趣的信息 :因特网上蕴藏着 大量的信息,通过简单的浏览或关键词匹配的搜索引擎得 到的是孤立而凌乱的“表面信息” ,Web挖掘可以发现潜 在的、丰富的关联信息。
将Web上的丰富信息转变成有用的知识:Web挖掘是面向 Web数据进行分析和知识提取的。因特网中页面内部、页 面间、页面链接、页面访问等都包含大量对用户可用的信 息,而这些信息的深层次含义是很难被用户直接使用的, 必须经过浓缩和提炼。
对用户进行信息个性化:网站信息的个性化是将来的发展 趋势。通过Web挖掘,可以达到对用户访问行为、频度、 内容等的分析,可以得到关于群体用户访问行为和方式的 普遍知识,用以改进Web服务方的设计,提供个性化的服 务。
客户端代理服务器:代理服务器记录了多个用户对多个站点的访 问行为,同时代理服务器内部的Cache记录了多个用户对多个站点 的访问内容。
21
Web访问信息挖掘的预处理
Web访问信息挖掘的基础和最烦琐的工作是数据 的预处理。预处理用户访问信息是整个数据准备 的核心工作,也是开展下一阶段Web访问信息挖 掘的基础。预处理阶段主要的工作是识别用户访 问事务和访问片断。
11
Web内容挖掘的主要方法
一种Web内容挖掘的分类方法是分为代理人方法 和数据库方法。
代理人方法使用软件系统(代理)来完成内容挖掘。 数据库方法将所有的Web数据描述为一个数据库系统。
意味着Web是一个多级的异构的数据库系统,可以通过 多种查询语言来获得Web的信息来完成信息的抽取。
IE是Web挖掘整个过程的一部分:这是因为Web上的数据 一般是半结构化或无结构的,因此需要进行规格化的信 息抽取这样的预处理。
Web挖掘是IE的一个特殊技术:既然IE是希望把Web蕴藏 的信息抽取出来,那么Web挖掘或者文本挖掘只不过是 达到这个目的的特殊技术手段。
信息抽取经常被说成是Web挖掘的一个预处理阶 段,那是因为在数据挖掘领域,Web挖掘的更广 义的理解应该是一个知识提取的完整过程。
MLDB提供一个被称为VMV(Virtual Web View) 的视图机制,Web中的感兴趣的结构被浓缩在这 个视图中。
等级概念(近意词组、词汇和语义联系等)将帮 助归纳过程来架构更高层的MLDB。
15
个性化与Web内容挖掘
通过个性化,网页的内容和组织将更加适合用户 的需要。个性化服务是Web挖掘技术的重要目标 之一。
Web Usage Mining在预处理阶段主要的工作有:
数据清洗 识别用户访问事务
22
在Web访问挖掘中的常用技术
1.路径分析 路径分析最常用的应用是用于判定在一个Web站点中最频
繁访问的路径,这样的知识对于一个电子商务网站或者信 息安全评估是非常重要的。 2.关联规则发现 使用关联规则发现方法可以从Web访问事务集中,找到一 般性的关联知识。 3.序列模式发现 在时间戳有序的事务集中,序列模式的发现就是指找到那 些如“一些项跟随另一个项”这样的内部事务模式。 4.分类 发现分类规则可以给出识别一个特殊群体的公共属性的描 述。这种描述可以用于分类新的项。 5.聚类 可以从Web Usage数据中聚集出具有相似特性的那些客户。 在Web事务日志中,聚类顾客信息或数据项,就能够便于 开发和执行未来的市场战略。
念。 用户对页面存在不同的访问时长,访问长代表了用户的访问兴趣。
20
Web访问信息挖掘的数据源
由于Web世界的分布性,用户访问行为被广泛地分布记录 在Web服务器、用户客户端,和代理服务器中。在各个分 布地点的不同的用户访问信息表征了不同类型的用户访问 行为。挖掘工作必须针对数据的特点来决定相应的挖掘任 务。用户访问信息的分布简单归结为:
关联规则发现:例如,如果图像是“大”的而且与关 键词“天空”有关,那么它是蓝色的概率为68%。
分类:根据提供的某种类标,针对特征集,利用决策 树可以进行分类。
18
七 Web挖掘技术
Web挖掘的意义 Web挖掘的分类 Web挖掘的含义 Web挖掘的数据来源 Web内容挖掘方法 Web访问信息挖掘方法 Web结构挖掘方法
通过对搜索结果进行关联分析或聚类等,对结果进行清 洗和浓缩。
面向主题进行搜索,即只检索与某一主题有关的页面。 聚焦用户感兴趣的页面,在有限的资源下使有效内容挖
掘力度提高。
14
虚拟的Web视图
一个有效的解决在Web中大量无结构数据的方法 是在这些数据之上建立一个MLDB(Multiple Layered Database)。这个数据库是多层次的, 每层索引都比它下一层要小。对于最底层来说, 需要了解Web文档结构,而最高层则有着完善的 结构并可以通过类似SQL的查询语言进行访问或 挖掘。
服务器方:一般地,在一个Web服务器上,服务器日志记录了多个 用户对单个站点的用户访问行为。
客户方:一般地,在客户端计算机上,客户端的代理记录了单个 用户对单个站点或单个用户对多个站点的用户访问行为。客户端 的Cache记录了用户访问内容。客户端的BookMark也记录了单个用 户对单个站点的访问偏好。
6
Web挖掘与信息检索
两种截然不同的观点:
Web上的信息检索是Web挖掘的一个方面:Web挖掘旨在 解决信息检索、知识抽取以及更宽泛的商业问题,是 Web上IR技术的延伸。这种观点大多来自于数据挖掘研 究领域。
Web挖掘是智能化的信息检索:对于IR领域的研究人员 来说, Web挖掘是IR研究向着智能化的方向发展的结果。
由于这些对象的数据形式及含义的差异,其挖掘 技术会不同。一些比较有代表性的数据源有:
服务器日志数据:Web访问信息挖掘的主要数据源。 在线市场数据 Web页面 Web页面超链接关系 其他信息
10
七 Web挖掘技术
Web挖掘的意义 Web挖掘的分类 Web挖掘的含义 Web挖掘的数据来源 Web内容挖掘方法 Web访问信息挖掘方法 Web结构挖掘方法