Web数据挖掘系统的设计及关键技术研究

合集下载

一种Web数据挖掘系统的设计和研究

一种Web数据挖掘系统的设计和研究

一种Web数据挖掘系统的设计和研究
李健;徐超;谭守标
【期刊名称】《计算机技术与发展》
【年(卷),期】2009(19)2
【摘要】Web数据挖掘是指从众多的Web网站、网页上挖掘出有用数据和知识的过程,因其具有广泛的应用前景而成为当前IT研究的热点之一,同时它也是一个具有挑战性的研究领域,存在很多问题亟待解决.针对一个案例,设计一个系统(或模型)实现Web数据的挖掘,是一次实践性研究.系统采用当前流行的软件工具(VS2005和SQL2000数据库)和编程语言(C#)进行开发设计,主要由数据的下载、预处理、后处理和前台检索等模块组成,基本达到Web数据挖掘的目的.
【总页数】4页(P70-73)
【作者】李健;徐超;谭守标
【作者单位】安徽大学,电子科学与技术学院,安徽,合肥,230039;安徽大学,电子科学与技术学院,安徽,合肥,230039;安徽大学,电子科学与技术学院,安徽,合肥,230039【正文语种】中文
【中图分类】TP311
【相关文献】
1.Web数据挖掘系统体系结构的研究与设计 [J], 金晓霞;刘路明
2.基于Web数据挖掘的购书推荐系统研究与设计 [J], 席朝琼
3.一种基于Web数据挖掘的ICRM系统设计与实现 [J], 王仁武;陈家训
4.Web数据挖掘技术在远程教育系统设计中的应用研究 [J], 陈国栋
5.网络信息安全防范与Web数据挖掘系统的设计与研究 [J], 王小君
因版权原因,仅展示原文概要,查看原文内容请购买。

基于Web搜索的数据挖掘系统的研究与实现

基于Web搜索的数据挖掘系统的研究与实现
搜索算 法基本 都 是 使用 模 糊 匹 配 , 难 搜 索 到所 很 有符合要 求 的信息 。 另外 , 如何 从 非格 式 化数 据 信 息 中有 效地 挖
( . co l f o ue 1 Sh o mptr&Ifr t nE g er gChn z o stt fT cn lg C a ghu23 0 ; oC noma o ni en , a ghuI tueo eh ooy,h n zo 10 2 i n i ni
2 Y nigSho , hn zo ntueo ehoo , hn zo 10 2 . a l colC agh uIstt f c lg C agh u2 30 ) n i T n y
收 稿 日期 :0 00 —7 2 1 -72 基 金 项 目 : 州 工 学 院基 金 项 目( 0 1 ) 常 YN 7 1 作 者 简 介 : 志 琴 (9 8 查 16 一 )女 , 士, , 硕 副教 授 。

的结果 : ①搜索结果很多, 往往有许多页, 信息太 过庞大 ; ②搜索到的数据信息大部分是无用信息 , 属于垃圾信息 , 且搜到信息的准确率不能保证 ; ③
第2 4卷第 1期 21 0 1年 2月
常 州 工 学 院 学 报.
J u a fCh n h u I tt t fTe h ol y o r l o a gz o nsiu e o c n og n
V o . 4 No. 12 1
R . 01 2 1
基 于 We 索 的数 据挖 掘 系统 的研 究 与实 现 b搜
W e ie W e g s ec De l g wih te e da sa c mpl ae r c s . e C l a q ie u e u a n b sts, b pa e , t . ai t s t i o n h a i td p o e s W al c u r s f ld t a d c a i f r to y me n f d t n n Thi a rma e a r s ac n s a c i g a n n ft e W e a n o mai n b a so a mi i g. a sp pe d e e h o e h n nd m i g o h b d t r r i a n v lpe e fs se ih p ro a d de eo d a s to y t mswh c e f r e e c n a o t e I tm e nd d t nng a d c e td m d s a h g d t f m h n e ta aa mi r i ar i r ae n

基于Web的数据挖掘技术研究及其应用

基于Web的数据挖掘技术研究及其应用

基于Web的数据挖掘技术研究及其应用一、引言Web是一个包含海量数据的庞大世界,但是这些数据的大部分都是没有被充分利用的,因此,如何以更高效的方式搜索、分类、过滤这些数据,变得尤为重要。

数据挖掘技术正是一个能够应对这一问题的解决方案。

通过应用数据挖掘技术,可以使得Web上的数据从未被发现或者被忽视的价值实现挖掘和应用,使得其能够为Web用户提供更优质的服务。

本文将会针对基于Web上的数据挖掘技术进行研究,并探讨其在各个领域中的应用。

二、Web上的数据挖掘技术数据挖掘,又称知识发掘,是建立在计算机技术、多领域复杂数据理论、人工智能等多学科的交叉领域。

而基于Web的数据挖掘则是指通过网络数据挖掘技术去实现对Web上的数据进行发掘,主要应用于Web搜索引擎、电子商务、社交媒体等领域中。

基于Web的数据挖掘技术大致分为以下几种:1.信息检索信息检索是一种常用的Web数据挖掘技术,它能够快速找到用户所需要的信息。

主要有以下几种方式:(1)关键词模式:通过用户输入的关键词来匹配网页信息的模式,目前大多数搜索引擎采用的模式。

(2)语义匹配:在信息检索中,语义(即单词与单词之间可能的相互关系)是非常重要的,因此,该方法是通过分析说法意图进行检索。

2.文本挖掘文本挖掘是一种能够自动提取大量数据内部的结构、模式和趋势的技术。

具体的,在Web中,文本挖掘主要应用于网络新闻、社交媒体等领域,通过深入文本分析和挖掘,能够快速发现用户所需的信息。

3.主题建模主题建模是一种用于和解释复杂数据的技术,主要的目的是发现文本中存在的隐式主题和意见。

它应用于Web搜索引擎和社交媒体中,通过对文本内容进行建模,来寻找用户所需要的信息。

4.搜索引擎搜索引擎是指互联网上创建,存储、排序、查询和展示内容的计算机程序。

搜索引擎的基本功能是在用户提供的关键词与Web 中所存储的信息进行计算,通过域名、标题和正文内容匹配,最终展示用户所需的信息。

Web文本数据挖掘关键技术及其在网络检索中的应用

Web文本数据挖掘关键技术及其在网络检索中的应用

Web文本数据挖掘关键技术及其在网络检索中的应用宋瑞祺(太原高新区新闻信息中心,山西太原030006) [摘 要]W eb挖掘采用数据挖掘信息处理技术,从Web信息资源中发掘用户所需信息。

本文在分析Web文本信息特征的基础上,揭示了W eb文本数据挖掘的目标样本的特征提取、分词处理与Web文本分类等关键技术,以G oog le为例讨论了该技术在网络信息检索中的应用。

[关键词]Web文本;数据挖掘;网络检索 数据挖掘(Date M ining)是指从大量的数据(结构化和非结构化)中提取有用信息和知识的过程。

数据挖掘起始于数据库知识发现(K now ledge Discovery in Database,简称K DD),这种技术的形成和完善缘于人们对从海量信息中全面、准确、有效获取有用信息的需要。

数据挖掘包括数据库挖掘、文本挖掘和W eb挖掘。

一、W eb文本信息的特征Web挖掘是采用数据挖掘信息处理技术,从W eb信息资源中挖掘用户所需信息的过程。

W eb文本信息是半结构化文本,其中的标签(T ag)为W eb挖掘带来便利。

如:<h tm l><head><title>G oogle桌面搜索<title><meta h ttp-equiv=“content-ty pe”content=“tex t/html;charset=ut f-8”><tr><td><a hre f=“/&s=S9Y-F077GG kiG9M pt JAZY9Pt-p I”><I MG b ord er=0height=110alt=“G o og le桌面搜索”src=“h p-log o.g if”width=276></a></td></tr></table><BR><FOR M name=f meth od=G ETaction=’/search&s=06C-qjY bHY6m6iPTE spcf d5s f G I’><T A BLE cellSpacing=0cellPadd ing=4b order=0><tr>color=#000000><B>桌面</B></fon t></font></td>……</tr></tab le></FORM><p>搜索您自己的计算机</p>……</b ody></htm l>在加了<html>、<title>和<meta>、<table>等标签后,W eb文件可提供一些附加信息,提高了数据挖掘的精度,增加了数据挖掘的知识含量。

web数据挖掘技术分析与研究

web数据挖掘技术分析与研究

web数据挖掘技术分析与研究1Web数据挖掘面临的问题目前面向Web的数据挖掘面临的问题,主要有两个方面:1.1数据库环境的异构型Web上的每个站点就是一个数据源,数据源之间是异构的,外加上各个站点的信息和组织的不同,Web网站就构成了一个巨大的异构数据库环境。

要对这些数据进行挖掘,首先,要解决各个站点之间的异构数据集成,提供用户统一界面,从复杂的数据源中取得所需的有用的信息知识。

其次,有关Web上的数据查询。

1.2数据结构的半结构化Web上的数据比较复杂,各个站点的数据都独立设计,具有动态可变性。

虽然Web上的数据形成半结构化数据。

这些问题是进行Web数据挖掘所面临的最大困难。

2XML技术在Web数据挖掘中的优势Web数据的异构使Web数据挖掘变得十分困难,通过XML可以解决这个问题。

因为XML文档具有很好的自我描述性,他的元素、子元素、属性结构树可以表达极为丰富的语义信息,能够很好的描述半结构化的数据,因此在网络数据集成、发送、处理和显示的方面。

开发人员能够用XML的格式标记和交换数据。

XML在三层架构上为数据的处理提供了有用的途径。

利用XML,Web设计人员能够构建文档类型定义的多层次互相关联的系统、元数据、数据树、样式表和超链接结构。

基于XML的Web数据挖掘技术,能够使不同的结构化的数据很容易地结合在一起,解决Web数据挖掘的难题。

2.1XML技术在Web数据挖掘中具体作用利用XML技术我们在Web数据挖掘中可以完成以下几点:2.1.1集成异构数据源XML是一种半结构化的数据模型,可以完成和关系数据库中的属性一一对应,从而实施精确地查询与模型抽取。

XML可以搜索多个不同数据库的问题,以实现集成。

2.1.2和异构数据进行交换在Web数据挖掘程中,用户需要和异构数据源进行数据交换,XML通过自定义性及可扩展性来标识各种数据,从而描述从各站点搜集到的Web页中的数据。

XML的出现解决了数据查询的统一接口。

Web日志挖掘系统研究及设计_赵海峰

Web日志挖掘系统研究及设计_赵海峰

146
信息与电脑 / 2014 / 0 8
Web 日志挖掘系统的总体结构如下图 1 所示:
/zs/index.html->/departs/index.html 55% 结果分析及建议: 依据系统运作生成的结果显示,进行招生板块页面浏览的超过六 成用户是浏览留言版单元,同时有超过五成用户浏览专业信息以及招 生简章单元。 通过 Web 日志挖掘,可以在下述方面对网站进行优化: 1)依据系统运作生成的信息资料,总结归纳使用者的浏览习惯及 需求,并且找出访问多个网页之间的关联性,对网页的页面设计优化 完善,使页面板块的选择更加方便高效。同时根据系统给出的结果, 对初始设定的页面链接进行优化改进,例如一个板块存在两个网页链 接,然而用户大多选择访问其中一个网页,而另一个网页则鲜少有人 访问, 表明两者没有存在一定程度的联系, 此时便可以将这一链接取消。
Systems Engine统 Apriori 算法的优劣势进行分析,对劣势进行弥补来提高算法的运 算速率。把改进的 Apriori 算法应用到网站日志挖掘中,建立了一个 Web 站点挖 掘操作系统——WebLogMiner,将其应用到实际工作当中,展开操作实验,得 到了较为理想的结果。
结束语
综上所述,结合挖掘出的关联规则,通过发现不同用户的频繁访 问路径,网站设计者和维护者能够轻松的改变 Web 页面的链接结构、 增强 Web 服务器的性能,并为用户提供个性化的服务。
(北京现代职业技术学院)
注释
① H.Toivonen.Sampling Large Databases for Association Rules.In VLDB96,Morgan Kaufman,September 2008:134-145. ② J.S.Park,et al.Efficient parallel data mining for association rules.Proc.Fourth int'l conf. information and Knowledge management,Baltimore,Nov.2009. ③易彤 , 徐宝文 , 吴方君 . 一种基于 FP 树的挖掘关联规则的增量 更新算法 ,2009(4):102-104. ④ 冯 玉 才 , 冯 剑 琳 . 关 联 规 则 的 增 量 式 更 新 算 法 [J]. 软 件 学 报 ,2008(4):202-205.

基于Web数据挖掘技术研究

基于Web数据挖掘技术研究

基于Web数据挖掘技术研究摘要:基于Web的数据挖掘是采用数据挖掘技术对网页资源进行挖掘的一个热门研究方向,此文分析了了网页数据挖掘的概念、分类、挖掘原理以及相关技术。

关键词:数据挖掘;Web数据挖掘;分类;挖掘技术Abstract: Web based data mining is a hot research direction of Webpage mining resources using the technology of data mining, this paper analyses the Webpage the concept of data mining, classification, mining principle and related technology Key words:data mining; web data mining; classification; mining technology互联网的不断得到发展,网页中数据量迅速增加,如何从这么多的网页信息中获取有用的数据已经成功数据挖掘领域的一个热门的研究方向,数据挖掘是近几年来迅速发展的进行信息获取的一个重要渠道,尤其大量运用与社会和科学的方方面面。

一般来说数据挖掘主要利用计算机和相关的信息技术,把有用的数据从海量的网页数据中挖掘出来,为我们从事其他方面的运用。

基于网页的数据挖掘是一门技术的综合研究方向,它的思想是从Internet中提取网页中的大量数据,也就是从网页的数据结构中发现隐含的模式[1]。

1 数据挖掘的特点1)数据挖掘的特点之一就是半结构化,这个特别算是网页数据挖掘的最大特点[2],因为网页上的数据分布没有规律,非常复杂,没有任何固定的模式能够很好的描述它的特点。

因此称它为半结构化。

2)数据挖掘的特点之二是网页中的数据比较分散,这些网页数据存在世界各地的很多服务器上,因此是一种数据源分散的结构。

面向Web的数据挖掘技术

面向Web的数据挖掘技术

面向Web的数据挖掘技术[摘要] 随着internet的发展,web数据挖掘有着越来越广泛的应用,web数据挖掘是数据挖掘技术在web信息集合上的应用。

本文阐述了web数据挖掘的定义、特点和分类,并对web数据挖掘中使用的技术及应用前景进行了探讨。

[关键词] 数据挖掘web挖掘路径分析电子商务一、引言近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。

数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。

可以发现有用的知识,从而为决策支持提供有力的依据。

web目前已成为信息发布、交互和获取的主要工具,它是一个巨大的、分布广泛的、全球性的信息服务中心。

它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和其他许多信息服务。

面向web的数据挖掘就是利用数据挖掘技术从web文档及web服务中自动发现并提取人们感兴趣的、潜在的有用模型或隐藏的信息。

二、概述1.数据挖掘的基本概念数据挖掘是从存放在数据库、数据仓库、电子表格或其他信息库中的大量数据中挖掘有趣知识的过程。

数据挖掘基于的数据库类型主要有: 关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、internet 信息库以及新兴的数据仓库等。

2.web数据挖掘web上有少量的数据信息,相对传统的数据库的数据结构性很强,即其中的数据为完全结构化的数据。

web上的数据最大特点就是半结构化。

所谓半结构化是相对于完全结构化的传统数据库的数据而言。

由于web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为web挖掘所要解决的一个难点,也使得用于web的挖掘技术不能照搬用于数据库的挖掘技术。

因此,开发新的web挖掘技术以及对web文档进行预处理以得到关于文档的特征表示,便成为web挖掘的重点。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Web 数据挖掘系统的设计及关键技术研究刘敏钰,薛鸿民(陕西教育学院计算机系,陕西西安710061)收稿日期:2004-11-27作者简介:刘敏钰(1964-),女,陕西合阳人,副教授,主要研究方向为信息技术教育及计算机网络。

摘 要:Web 数据挖掘是一种新兴的边缘科学技术,它涉及到机器学习、数据挖掘、信息检索、自然语言处理、数据库以及人工智能等技术,可用于网络检索、网站建设以及电子商务等方面。

本文在对Web 数据挖掘技术详细研究的基础上,提出了一个Web 数据挖掘的通用系统框架,并对信息收集、信息选择和预处理、模式的提取和用户接口等各个组成部分所使用的技术和存在的问题及解决的方法进行了讨论。

本文结合Web 自身的特点,提出了一个智能网页收集器WebCrawier ,它除具有一般Web Robot 的基本功能外,还采用了一种既考虑文本重要性又考虑链接结构的URL 排序方法,从而确保收集的Web 页面是Web 比较优秀的部分。

关键词:信息检索;数据挖掘;Web中图分类号:TP274+.2 文献标识码:A 文章编号:1671-654X (2005)01-0059-04引言Internet 及WWW (Worid Wide Web )的出现极大地改变了人们的工作、学习和生活。

Web 上巨大的信息使人们处于Rich Data Poor Information 的境地。

人们获取信息的主要手段———搜索引擎存在着搜索范围比较窄、搜索结果不准确、基于句法的查询接口、不能提供多媒体搜索服务等缺点,所以无法满足人们需求,而Web 数据挖掘的出现能部分解决此类问题。

Web 数据挖掘(Data Mining )就是利用数据挖掘技术从网络文档和服务中发现和提取信息。

数据挖掘也称为KDD ,是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程[1]。

1 发展现状及面临的问题Web 数据挖掘有两种方法———直接对Web 文档进行挖掘和构造Web 数据仓库进行挖掘。

传统的从Web 上提取信息的搜索引擎和近来的从Web 上智能提取信息的搜索工具都是直接对Web 文档进行挖掘。

Web 是一个没有标准、没有结构的异构系统,可以将其转换并看作一个多层数据库,用数据库技术进行管理和挖掘。

IBM ,NEC 等机构对Web 数据挖掘进行了大量的研究,并取得了一定的成果[2]。

S.Charkrabarti [3]对超文本数据挖掘进行了研究,并指出基于知识的算法将会在Web 数据挖掘中扮演重要的角色;B.Pinkerton [4]对信息的收集和评价方法进行了讨论并引入了结构挖掘来评价查询结果;Osmar.R.Zaiane 等还对Web 多媒体数据挖掘进行了研究,并提出了一个多媒体数据挖掘的系统原型。

1998年,S.Brin 和L.Page [5]提出了PageRank 算法并将其应用到Googie 。

与国外相比,国内对数据挖掘的研究稍晚,主要开始20世纪90年代中期。

对数据挖掘的研究要在1998年以后。

南京大学、北京大学、中科院计算技术研究所等等对Web 内容挖掘进行了一定的研究,国防科技大学、上海交通大学、西安交通大学、复旦大学等对Web 访问信息挖掘进行了大量研究。

邹涛[6]、王继成[7]、王实[8]、高文[8]、张卫丰[9]等对Web 内容挖掘以及Web 信息检索的技术进行了研究。

国防科技大学、上海交通大学、西安交通大学等对用户访问站点的路径访问模式进行了初步研究。

此外,一些数据挖掘和智能信息检索的学术团体也十分活跃,如数据挖掘讨论组、南京大学BBS 的数据挖掘版和智能信息检索论坛等。

但是国内的科研力量和研究水平与国外有一定差距,还没有提出独到而又新颖理论和方法。

本文在对Web 数据挖掘技术详细研究的基础上,提出了一个Web 数据挖掘的通用系统框架,并对信息收集、信息选择和预处理、模式的提取和用户接口等第35卷 第1期2005年3月航空计算技术Aeronauticai Computer TechnigueVoi.35No.1Mar.2005各个组成部分所使用的技术和存在的问题及解决的方法进行了讨论。

2 WEB 数据挖掘及分类“Web 数据挖掘(Web Mining )”一词是由0.Etzi-oni 在1996年提出的,他指出Web 上的信息已经“结构化”,从而能够方便有效地进行Web 数据挖掘,同时将Web 数据挖掘分为三个过程———资源发现(Source Finding )、信息提取(Information Extraction )和概括(Generalization )。

2.1Web 数据挖掘的定义Web 数据挖掘就是利用数据挖掘技术从网络文档和服务中发现和提取信息。

它的一般处理过程可用图1来表示:图1 Web 数据挖掘的处理过程图1中,资源发现(Resource Finding )是指从Web 获取并返回文本资源的过程。

文本资源最常见的是HTML 文档,其他的还有电子邮件,新闻组,BBS 等。

信息的选择和预处理(Information Selection and Pre -processing )是对第一步所返回的资源进行的各种形式的处理过程,如去掉HTML 文档中的标签(tags )。

模式提取是从各个站点或站点间获取通用模式,它常用机器学习和传统的数据挖掘技术。

最后一步的模式分析验证(Analysis )是对获取模式的解释。

从以上四步的处理过程可以看出:Web 数据挖掘是从Web 数据中发现获取潜在有用信息的整个过程,它包含了传统的知识发现(KDD )处理过程,可以将Web 数据挖掘看成是KDD 技术在Web 数据上的应用与扩展。

2.2Web 数据挖掘的分类Web 上各种形式的文档和用户访问信息就构成了Web 数据挖掘的对象。

Web 包括三种类型的数据:Web 页面数据、Web 结构数据和Web 日志文件。

根据数据挖掘对象的不同可以将Web 数据挖掘分为Web 内容挖掘(Web Content Mining )、Web 结构挖掘(Web Structure Mining )和Web 访问信息挖掘(Web Usage Mining )三类。

Web 内容挖掘是指从Web 的文档中发现提取有用信息;Web 结构挖掘是指对HTML 页面间的链接结构进行挖掘;Web 访问信息挖掘是从网络访问者的交谈(session )或活动(behavior )中提取信息,如图2所示。

图2 Web 数据挖掘的分类3 Web 数据挖掘系统的设计Web 数据挖掘系统划分为四个大的子功能模块:信息资源的收集、信息选择和预处理、模式提取和用户接口(模式评价),如图3所示。

图3 Web 数据挖掘的功能结构图信息资源的收集是从Web 获取并返回资源的整个过程,首先要确定一个起始URL 集合,然后Crawler 根据这些URL 再从Web 上进行新的收集。

信息的选择和预处理是对返回资源的各种形式的预处理。

模式提取就是从Web 页中发现模式,系统的目标就是找到与用户查询相关的文档(现将对用户输入的预处理包括在内)。

模式的分析验证的方法有二:一是通过用户的评价,二是用通用的评价参数。

以下就分别对上面的各个部分进行详细的研究和讨论。

3.1用户接口用户接口给用户提供了一个查询接口,用户可以通过接口来加强对挖掘内容以及质量的控制。

它为用户提供两个级别的选择:!宁缺毋滥,"一网打尽。

根据用户不同的选择做相应的处理。

宁缺毋滥就是保证搜索的质量而不追求数量,这样的查准率较高而查全率较低;而一网打尽可以说是追求数量这样的查准率较低而查全率较高。

此外查询的可视化也属于这一部分。

它以简单直观的方式列出查询的结果。

此外用户接口还应该支持高级用户,支持布尔操作,特定域或类的查询等。

3.2网页的收集网页的收集一般是通过Crawler 来实现的。

其基本思想是把Web 看作一个有向图,然后再根据深度优先或广度优先算法进行遍历.Crawler 模块收集Web 上的网页以便索引模块进・06・ 航空计算技术 第35卷 第1期行进一步的分析。

Crawier以一个或一组URL为起点,对相应的Web进行访问并下载其HTML源码,从中抽取新的URL,Crawier从新的URL开始重复以上处理过程。

重复这一过程直到满足一定的条件终止Crawier。

由于Web自身的巨大容量以及动态性,在实际的实现过程中可能会出现许多问题,以下是在设计时几个重要的考虑因素:3.2.l 页面的选取任何一个Crawier都不能将整个Web上的所有页面下载下来,现在即使是最综合的搜索引擎也只能索引Web的一小部分。

从而Crawier应仔细的选择要访问的Web页面,通过对访问队列中的URL进行优先级排序以便首先访问重要的页面。

使得Crawier访问的那部分Web是最有价值的部分[4]。

3.2.2 页面的更新Web是一个动态异构的数据环境,Crawier下载页面以后,应该重新访问下载的文件以探测网页的变化并更新下载的文档集。

但是Web页的变化速度是不同的,Crawier就需要考虑重新访问页面的策略。

理想的情况是根据各个页面的更新速度Crawier进行同步地更新。

在实际实现过程中应该对页面进行更新预测,如果某一页面很少改变,Crawier重新访问的时间间隔就长一些,在较短的时间内访问那些改变更快的页。

这样既保持了页面的新鲜性又节约了网络资源。

3.2.3 并行工作由于Web的巨大容量,Crawier通常是在多台机器上运行并且并行地下载页面。

在有限的时间内下载大量的页面这种并行处理是必需的。

显然这些并行的Crawier应该很好地协调以避免多次访问同一个Web站点。

Crawier应严格执行采用的收集策略、协调可能会导致通信过载。

从而限制了同时工作的Crawier的数目。

3.3页面的存储和索引页面存贮器是一个管理大量的由ROBOT收集到的Web页面的大规模页面存贮器。

它应该为ROBOT 提供一个接口使得ROBOT能够很方便地进行页面的存贮,同时它还要为索引器提供接口使得在进行页面索引和查询时能够很容易地访问到所需的页面。

考虑到Web上信息量巨大的特征,一个有效的页面存贮器应该能够将分布在多台计算机上的存贮设备有效地组织起来。

它要提供页面的随机访问和流访问两种方式,随机访问主要用于查询,当终端用户需要某一页面时,它应该能够很容易地从存贮器中得到。

流访问主要用于页面的管理,如页面更新。

Web页面变化相当快,存贮器应该能够快速地更新以保持与Web的同步。

但存贮器的更新策略要依赖于ROBOT的运行方式和更新策略,一个一直运行的从不停止的ROBOT应该采用直接更新策略,将访问到的页面直接与旧的页面合并,并替换已经存在的页面。

相关文档
最新文档