主题爬虫的搜索策略研究

合集下载

基于遗传算法的主题爬行技术研究

基于遗传算法的主题爬行技术研究

( c o lo mp t rS i n e h a x r a i e s y,Xi n 7 0 6 ) S h o fCo u e c e c ,S a n iNo m l Un v r i t ’ 1 0 2 a
A s r c I r e o o e c me t e d f i n y o o i e r h sr t g ,a f c s d c a i g a p o c e e i l o b ta t n o d r t v r o h e i e c f t p c s a c t a e y o u e r wl p r a h g n t a g - c n c rt m sp o o e .Th t o n r a e h r wl g c a c ft e we a e f l wi g t e we a e wi o c ntn — i h wa r p s d e me h d i c e s s t e c a i h n e o h b p g o l n h b p g t l w o e t n o h r l v n e n r a e st e r l v n —e r h n c p f c a e s ee a c ,a d b o d n h ee a ts a c i g s o e o r wl r .M e n i ,we u e a t p c fle i g s r t g a e n a wh l e s o i i rn ta e y b s d o t c n e tf r p g ee a c n lss o c p o a e r lv n e a a y i.Ex e i n a e u t n ia e t a r wl r b s d o e e i l o i m a t r r p rme t lr s l i d c t h t c a e a e n g n tc a g rt s h c p u e mo e t p c c re a iiy p g s n f we c o s e s n b e s e o lc i n,c a e s c n c p u e a l r e n mb r o ih t p c o i o r ltv t a e ,a d i h o e r a o a l e d c l t e o r wlr a a t r a g u e f h g o i c reaii a e . o r lt t p g s v y Ke o d f c s d c a e s e e i lo i m ,t p c c r e a i i y w r s o u e r wl r ,g n t a g rt c h o i o r l t t v y,o t l g —e n i — n l s n o o y s ma tc a ay i s

基于遗传算法的主题爬虫搜索策略研究

基于遗传算法的主题爬虫搜索策略研究

湖北工业大学硕士学位论文基于遗传算法的主题爬虫搜索策略研究姓名:梁云静申请学位级别:硕士专业:计算机应用技术指导教师:邵雄凯20100301摘要传统的搜索引擎需要对互联网上的信息进行广泛的收集和分析处理,随着互联网的急剧膨胀,传统的搜索引擎需要处理的网络信息也越来越多,同时也就不可避免的为用户提供了或多或少的无关信息。

在专业化需求日益增长的今天,主题搜索引擎以其分类细致精确、数据全面准确的特点迅速流行起来,而主题搜索引擎的关键技术——主题爬虫的搜索策略就成为了近几年的研究热点。

本文将遗传算法应用在主题爬虫的搜索中,引入遗传算法来改进爬虫的搜索策略,利用遗传算法高效、并行、全局寻优的特点,提高爬虫的搜索效率。

本文的研究内容主要有以下两个方面:根据网络特点改进传统的遗传算法;通过实验验证改进后的效果。

基于遗传算法的主题爬虫搜索策略,是将待检索的问题提交给通用搜索引擎,对其返回的结果集进行处理,选择一定数目的URL作为初始群体;通过交叉操作,提取初始群体中URL对应页面包含的所有超链,产生出大量新的个体,再对所有超链进行相似度预测,选出相关度高的种子作为交叉结果;通过变异操作,引入目录型网页,扩大搜索范围;通过选择操作,对遗传之后的结果进行处理,选出相关度高的个体作为新一代的种子进入新一轮的遗传;通过爬虫终止搜索条件,来结束爬虫的搜索。

本文在构造初始群时,将待检索的问题提交给通用搜索引擎Google,对其返回的结果集选择前n个URL,再扩展、去重、计算Authority和Hub值,重点是引入了Alexa排名,然后依据综合排名值选择初始种子集合。

在交叉过程,根据超链的锚文本有效地预测对应的页面与主题的相似度。

在变异阶段,根据目录型网页包含的大量链接和详细的分类来寻找相关网页。

本文设计了一个实验,来验证遗传算法在爬虫搜索中应用的可行性以及改进后的遗传算法的效果。

在实验中,本文采用GA、HITS、Best-First三种算法分别对给定主题进行搜索,将搜索到的网页根据向量空间模型算法计算其与主题的相关度,再分别统计三种算法搜索到的相关的网页数。

基于VSM主题爬虫爬行策略的研究

基于VSM主题爬虫爬行策略的研究
2 0 1 4年第 2期 ( 总第 1 3 4 期)
信 息 通 信
I NF OR M ATI ON & C0M MUN I CAT 1 0NS
2 O1 4
( S u m .N o 1 3 4 )
基 于 VS M 主题爬虫爬 行策 略 的研 究
张 锦, 罗 钊
( 兰州交通大学 电信学院 , 甘肃 兰州 7 3 0 0 7 0 )
块和 U R L 主题相 关度 评价模块 。对主题爬虫进行 的研 究大
部分都是针对这两个模块进行 的 对于如何控制抓取 的网页是和主题相关的, 常用的解 决思 路有 四种 。第一种最简单, 通常指一些行业搜 素。例如机票搜 索, 抓取的是各大航 空公司网站和代理人网站上面的数据, 而
航 空 公司 和 代 理 人 的数 量 是 有 限 的 , 因此 抓 取 的时 候 可 以根 据

这些网站做定制抓取 。这种方法适合小型的行业搜索 引擎 。 第 二种是根据得到的网页 内容 ,判断 网页 的内容和主题 是否相关 。如果一个网页和主题是相关的 , 在 网页中的标 题、 正文、超 链接 中通常会有一些与主题相关 的关键词 。可 以给 每个 关键 词设定一个权重 , 再优 先访问与主题相关的 U R L。 对 于关键 词权 重的设置有两种 : 一是人 工经验手 工设置 ; 二是 对样 例网页进行特征提取 。 第三种思路是针对网页链接进行评分 。 该方法 只根据之前 爬虫爬取的信息对当前UR L进行评分, 不涉及当前网页的内容。 第四种链 接描述文本分析 。 当爬 虫处理 当前网页的时候, 会遇 到 许 多 描 述 文 本 。 由于 描 述 文 本 通 常 与 所 指 向 的 网页 相 关 。因此 , 处理描述文本 需要频繁切换 当前处理 页面, 从而影 响到爬 虫速度 。

基于改进Hits算法的多主题爬虫研究与实现

基于改进Hits算法的多主题爬虫研究与实现
8 8



脑 21 0 ຫໍສະໝຸດ 年第 5期 基于改进 Ht算法的多主题爬 虫研究与实现 i s
曾水 香 .罗林 波
(海南 大 学 信 息科 学 技 术 学 院 海 南 海 口 50 2 7 2 8)
【 要l 摘 :本文依据主题爬 虫原 理, 分析 了现有的 Hi 算法的不足 , 而提 出了一种新 的多主题爬 虫算 法: - i t s 从 MT H  ̄算 法, 并进 行 了实现 。 实验表 明 , 于 MT H t算 法的 主 题爬 虫查 询 收 获 率 比基 于 Hi 算 法 主 题 爬 虫收 获 率 有 了进 一 步提 高 。 基 -i s t s
关 系 的 We b挖 掘 算 法 的通 病 .包 括 H t PgR n i 、 ae ak等 在 内 的 现 最 高 的链 接 , 载 该 链 接 并计 算 其 主题 相关 性 : 着 对其 进 行 扩 s 下 接 有 主题 精 选算 法 或 多或 少 都 有 ” 题 偏 移 ” 象 。 主 现 展 , 展 的原 则 是 把 该 网 页包 含 的 所 有链 接都 扩 展 进 基 集 中 。 扩 把 目前 主题 爬 虫 只 是针 对 某 一个 领 域 抓 取 . 比如 计 算机 、 机 最 多 5 个 指 向该 网 页 的链 接 扩 展 进 基 集 中 . 计 算 每个 链 接 锚 手 O 并 领 域 等 .那 么 主题 爬 虫 就 只 下载 与 计 算 机 有 关 的 网页 或 手 机领 文 本 以及 锚 文本 附近 文 字 的 主题 相 关 度 :接 着 又 获 取下 一 个 得 域 相 关 的 网页 .如果 要 想 让此 主 题 爬 虫 抓 取 财经 方 面 的 网 页则 分最 高 的链 接 . 算该 网 页 内容 、 文 本 以及 锚 文本 附近 文字 的 计 锚 必 须更 改 后 台 。 重新 定 义 主 题 向量 等 , 可移 植 性较 差 。

爬虫技术实现策略与思路

爬虫技术实现策略与思路

爬虫技术实现策略与思路爬虫技术是指利用计算机程序自动化地抓取互联网上的信息,因其高效和可扩展性被各行各业广泛应用。

而爬虫的实现离不开相应的策略和思路,本文将从以下几个方面进行探讨。

1. 网站选择和分析在开展爬虫任务前,必须先对目标网站进行选择和分析。

对于大型网站,我们应该考虑使用搜索引擎等工具找到对应的 API 接口,并通过调用接口实现数据的获取。

对于常规的网站,我们需要了解网站的结构和规则,以便准确定位目标页面并提取所需信息。

此外,还要留意网站的反爬虫机制,如IP 封禁、验证码识别、动态数据加载等,避免被封杀或数据抓取失败。

2. 数据存储和处理爬虫获取到的数据需要进行存储和处理,以便后续数据分析和挖掘。

目前主流的存储方式包括关系型数据库和 NoSQL 数据库。

关系型数据库如 MySQL、Oracle 等,主要用于存储结构化数据,可进行事务控制和 ACID 特性保障,但对海量非结构化数据的存储和查询效率较低。

NoSQL 数据库如 MongoDB、Cassandra 等,则更适合存储分布式、非结构化数据,可支持大规模并发和高速读写,但对数据一致性的要求较低。

除此之外,还可以考虑使用分布式存储系统如 Hadoop、Spark 等,以实现数据的可伸缩性和容错性。

3. 爬虫实现技巧在进行爬虫实现时,还需要注意以下技巧:(1)爬虫伪装:为防止被网站识别为爬虫而导致封杀,我们可以设置 User-Agent 字段,模拟浏览器的身份进行访问。

此外,还需要注意请求频率和时间间隔,以避免对网站造成过大的负载压力。

(2)页面解析:为实现目标数据的提取,必须对原始页面进行深度解析。

常用的页面解析方式包括正则表达式、XPath、CSS Selector 等,其中 XPath 语言可实现较为精准的页面定位和提取。

(3)数据清洗:获取到的数据常常存在噪声和冗余信息,并需要进一步的清洗和过滤。

这可以通过正则表达式、字符串处理、机器学习等技术实现。

主题信息搜索系统中的搜索策略研究

主题信息搜索系统中的搜索策略研究

关键词 : 搜 索引擎 ; 搜 索策略 ; 遗传 算法; 空 间 向 量模 型
中 图分 类 号 : TP 3 1 9
文献标识码 : A
文章编号 : 1 6 7 2 — 7 8 0 0 ( 2 0 1 4 ) 0 0 1 — 0 0 8 9 — 0 4 步 ] 。在 大 规 模 文 本 处 理 中 , 向量 空 间 模 型 _ 7 是 一 种 效 率
摘 要 : 针 对主题 搜索引擎反馈信 息主题相 关度低的 问题 , 提 出了将 遗传算 法与基 于内容的空 间向量模 型相 结合的
搜 索策 略 。 利 用 空 间 向 量 模 型 确 定 网 页 与 主 题 的 相 关 度 , 并将 遗传 算法应 用于相 关度判 别, 提 高 主 题 信 息 搜 索 的 准
分 别 对 应 坐标 的值 , 这 样
方 面提 高 了网 页 的 搜 索 质 量 , 另 一 方 面也 扩 大 了搜 索 范
D= ( T , W。 , T 2 , W2 , T 3 , W …, ,W M )被 视 为 一 个
围。
1 向量 空 间模 型 及 相 似 度 计 算
确 率和 查 全 率 。 在 He r i t r i x 框 架基 础 上 , 利用 E c l i p s e 3 . 3实 现 了相 应 功 能 。 实验 结 果 表 明 , 搜 索 策 略 改 进 后 的 系统
抓 取 主 题 页 面 所 占比 例 与 原 系 统相 比提 高 了约 3 O 。
文 本 的 内容 简 化 处 理 后 , 生 成 在 向量 空 间 中 的 向 量 运 算 , 并利用在空 间 中的某 种 关系 来表 达语 义上 的相似 程度 。 当某 一 文 档 被 确 定 为 空 间 向量 模 型 时 , 通 过 计 算 向量 的相 似 度 来 衡 量 文 档 之 间 的相 似 性 。 向量空 间模 型 的基本 要素包 括 : ① 文本 内容 ( D o c u — me n t ) : 通 常指 某个 网页 中所有 文 字信 息 内容 ; ② 项 ( Te r m) : 指 字、 词 语、 词 组等 基 本 单位 要 素 ; ③ 权 重

网络爬虫技术探究毕业论文

网络爬虫技术探究毕业论文

毕业论文题目网络爬虫技术探究英文题目Web Spiders Technology Explore信息科学与技术学院学士学位论文毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。

尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。

对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。

作者签名:日期:指导教师签名:日期:使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。

作者签名:日期:信息科学与技术学院学士学位论文学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。

除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。

对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。

本人完全意识到本声明的法律后果由本人承担。

作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。

本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名:日期:年月日信息科学与技术学院学士学位论文导师签名:日期:年月日信息科学与技术学院学士学位论文注意事项1.设计(论文)的内容包括:1)封面(按教务处制定的标准封面格式制作)2)原创性声明3)中文摘要(300字左右)、关键词4)外文摘要、关键词5)目次页(附件不统一编入)6)论文主体部分:引言(或绪论)、正文、结论7)参考文献8)致谢9)附录(对论文支持必要时)2.论文字数要求:理工类设计(论文)正文字数不少于1万字(不包括图纸、程序清单等),文科类论文正文字数不少于1.2万字。

网络爬虫技术的研究

网络爬虫技术的研究

网络爬虫技术的研究一、概述随着信息技术的飞速发展,互联网已成为全球信息交换和共享的主要平台,蕴含着海量的、多样化的数据资源。

如何有效地从互联网中提取和整合这些信息,以满足日益增长的数据需求,成为当前计算机科学研究的重要课题。

网络爬虫技术就是在这样的背景下应运而生,它不仅能够自动地、批量地从互联网上抓取数据,还能对这些数据进行清洗、整合和分析,从而为各类应用提供高效、准确的数据支持。

网络爬虫,又称为网络蜘蛛、网络机器人,是一种按照一定的规则,自动抓取互联网信息的程序或者脚本。

它可以从一个或多个初始网页出发,通过模拟人类用户的浏览行为,如点击链接、填写表单等,遍历互联网上的网页,并将这些网页的内容抓取下来,保存到本地或者数据库中。

网络爬虫技术的应用范围非常广泛,包括但不限于搜索引擎、数据挖掘、舆情监测、个性化推荐等领域。

网络爬虫技术也面临着一些挑战和问题。

随着互联网规模的迅速扩大,网页的数量和内容日益丰富,如何设计高效的爬虫算法,以在有限的时间内抓取到尽可能多的有用信息,成为亟待解决的问题。

互联网上的网页结构复杂多变,如何准确地识别网页中的有效信息,避免抓取到无用或者错误的数据,也是爬虫技术需要解决的关键问题。

爬虫行为可能对目标网站造成一定的负载压力,如何合理控制爬虫的行为,避免对目标网站造成过大的影响,也是爬虫技术需要考虑的重要因素。

对网络爬虫技术的研究不仅具有重要的理论价值,也具有广泛的应用前景。

本文将从网络爬虫的基本原理、技术实现、应用领域以及未来发展趋势等方面进行深入探讨和研究,以期为推动网络爬虫技术的发展和应用提供有益的参考和借鉴。

1. 爬虫技术的定义与背景网络爬虫,又称为网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种自动化程序,它按照预设的规则,遍历互联网上的网页,收集、整理并存储信息。

爬虫技术就是研究和实现这种网络爬虫所涉及的一系列技术、方法和策略的统称。

随着大数据时代的来临,信息量的爆炸性增长使得从海量的网络资源中高效、准确地提取有价值的信息成为了一个迫切的需求,而爬虫技术正是解决这一问题的关键。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
针对网站级别的算法,主要考虑网站之间的链接关系,按 照 一 定 的 模 型 计 算 链 接 的 权 重 ,关 键 之 处 在 于 站 点 的 划 分 和 站点等级 (SiteRank) 的计算[7-8]。Wu 和 Aberer 讨论了在分布式 情况下,通过对同一个域名下不同主机、服务器的 IP 地址进 行站点划分,构造站点图,计算出站点的 SiteRank。实验表明 能 有 效 减 少 运 算 的 代 价 ,间 接 说 明 了 网 页 的 重 要 性 ,另 外 还 可 避 免 针 对 网 页 统 计 算 法 的 欺 骗 行 为[7]。
基于链接结构评价的搜索策略,考虑了链接的结构特征, 对 主 题 相 关 网 站 搜 索 时 使 用 效 果 较 好 ,但 由 于 忽 略 页 面 内 容 与主题的相关性,容易出现搜索偏离主题的“主题漂移”问题, 另外在搜索过程中需要迭代计算 PageRank 值或 Authority 及 Hub 权重,当页面和链接数量不断增长时计算复杂度也呈指 数级增 长 。 [3] 2.2 基 于 网 页 内 容 的评 价 算 法
Survey on searching strategies of focused crawler
LIU Han-xing, LIU Cai-xing (College of Informatics, South China Agricultural University, Guangzhou 510642, China)
页面的结构化特征,很难反映 Web 的整体情况,存在“近视”
的缺点 。 [10]
Web 页面是一种含有丰富链接结构的半结构化文档,其 中 链 接 结 构 是 爬 虫 工 作 的 基 础 。链 接 分 析 是 基 于 这 样 一 个 前 提:把超链接看作是对它所指的页面的赞许。当页面 A 通过 超链接指向页面 B 时说明两点:①页面 B 与页面 A 是相关联 的;②页面 B 是值得关注的质量较好的页面。通过网页之间 的 链 接 结 构 ,来 评 价 与 网 页 有 直 接 或 间 接 链 接 关 系 的 对 象 ( 网 页 或 网 站 ) 的 算 法 ,本 文 称 为 基 于 网 络 拓 扑 结 构 的 搜 索 策 略 。
- 3160 -
(a) 通用搜索引擎搜索顺序 (b) 主题搜索引擎搜索顺序
图 1 两类搜索引擎爬虫搜索顺序
即一个站点倾向于说明一个或多个主题;②Hub 特征,Hub 页 面 是 指 该 页 面 不 但 含 有 许 多 指 出 链 接 ,并 且 这 些 链 接 趋 向 于 同一主题;③Linkage/Sibling Locality 特征,Linkage Locality 是指 页面倾向于拥有链接到它的页面的主题,Sibling Locality 是指 对 于 一 个 链 接 到 某 个 主 题 页 面 的 页 面 而 言 ,它 所 链 接 指 向 的 其它页面也倾向于和这个主题相关;④Tunnel 特征,在不同的 主 题 页 面 之 间 ,往 往 是 通 过 许 多 主 题 无 关 链 接 连 接 在 一 起 。由 此 ,网 页 评 价 算 法 可 归 纳 为 不 同 类 型 。 2.1 基 于 网 络 拓 扑 结构 的 评 价 算 法
基于网页内容的分析算法指的是利用网页内容(词条等) 特征进行的网页评价。网页的内容由最初静态的 Html 页面 (surface web),发展到以动态页面(Deep Web 或 Hidden Web)为 主 的 页 面 分 布 情 况[9],相 对 于 可 以 被 搜 索 引 擎 直 接 处 理 的 前 者
*
,=
=1
(1)
2
2
=1
=1
式中:, ——主题向量和页面向量, , ——主题和页面的
特 征 项 的 权 重 ,M—— 维 数 。
以上算法都考虑以文本的内容与主题的相似度来评价链
接 价 值 的 高 低 ,从 而 决 定 其 搜 索 策 略 。优 点 是 计 算 简 单 ,在 距
离相关页面较近的地方搜索时性能较好,但由于忽略了 Web
第 29 卷 第 12 期 Vol. 29 No. 12
计算机工程与设计
Computer Engineering and Design
2008 年 6 月 June 2008
主题爬虫的搜索策略研究
刘汉兴, 刘财兴 (华南农业大学 信息学院,广东 广州 510642)
摘 要:主题爬虫 收集主题相关信 息时,需要评 价网页的主题 相关度,并优 先爬取相关度较 高的网页,在 决定了搜索路 径的 同时 也决定了主题爬 虫的搜索效率 。针对不同的网 页评价算法,对现 有的主题爬虫的 搜索策略进行 分类,指出了各类 搜索 策略 的特点和优缺点 ,总结了能够提 高主题爬虫搜索 效率的几方面 内容。 关键 词:主 题爬虫; 搜索策 略; 页面评价; 搜索引擎; 优 化 中图 法分类号:TP391 文献标 识码:A 文章编号:1000-7024 (2008) 12-3160-03
Abstract:While focused Crawler collect information, it needs to evaluate the relevance of web pages, and process firstly pages which have higher relevance, thus deciding the search path and efficiency of crawler. Web crawler's searching strategies based on the way they evaluate the web page is categorized. The character of each class of searching strategy is described and the advantage and disadvantage is discussed, several ways to improving the efficiency of web crawlers are summed up. Key words:focused crawler; searching strategy; page evaluating; search engine; optimization
针对网页级别的分析算法中,典型的有 PageRank [3] 和 HITS [3],两 者 都 是 通 过 对 网 页 间 链 接 度 的 递 归 和 规 范 化 计 算 , 得到每个网页的重要度评价。PageRank 算法的“用户冲浪”模 型 考 虑 了 用 户 访 问 行 为 的 随 机 性 ,但 忽 略 了 用 户 访 问 行 为 目 的性,即网页和链接与查询主题的相关性。针对这个问题, HITS 算法计算页面的 Authority 权重和 Hub 权重,并以此决定 页面中链接的访问息 ,为 一 般 用 户 提 供 检 索 服 务 ,可 以 称 为 通 用 搜 索 引 擎 。但 对于专业用户及研究人员来说,他们的查询往往是针对某 个领域或面向特定主题,使用通用搜索引擎进行检索效果 不 理想 ,准确 率和 召回 率都很 低,因此 就出现 了主 题搜 索引 擎(topic-specific search engine,又称专业搜索引擎)。
主题搜索引擎索引的内容只限于特定主题或专门领域, 因而在搜索的过程中无须对整个 Web 进行遍历,如图 1 (b) 所 示 ,它 只 需 选 择 与 主 题 页 面 相 关 的 页 面 进 行 访 问 。
网络爬虫对网页的抓取策略分为广度优先和最佳优先两 种,主题爬虫主要采用后者 。 [1-2] 广度优先能较快找到高质量 的 网 页 ,同 时 页 面 覆 盖 率 较 高 ,但 随 着 爬 虫“爬 行”的 深 入 ,抓 取 页 面 的 相 关 度 也 随 之 降 低 。最 佳 优 先 策 略 的 基 本 思 想 是 按 照 一 定 的 网 页 评 价 算 法 ,计 算 网 页 与 主 题 的 相 关 性 ,选 取“价 值”最 高 的 网 页 中 的 链 接 进 行 抓 取 。因 此 ,如 何 评 价 页 面 价 值 成为研究主题爬虫搜索策略的关键。
2 网页评价算法研究
Web 上的页面分布表面看似杂乱无章,但主题页面的分 布却有一定的规律,可总结为 4 个特征 :① [3,6,10] 站点主题特征,
收稿日期:2007-06-25 E-mail:liuhx666@ 基金项目:国家 863 高技术研究发展计划基金项目 (2006AA10Z246)。 作者简介:刘汉兴 (1971-),男,湖北鄂州人,硕士,讲师,研究方向为智能检索、自然语言处理; 刘财兴 (1962-),男,副教授,研究方向 为无线传感器网络、计算机网络。
不同,Deep Web 主要是由结构化的数据源动态生成,搜索引擎 只能覆盖大约 1/3 的页面。根据网页组织形式的不同,将基于 网页内容的分析算法,分为两类:一类主要针对 Surface Web, 以分析直接可见的文本和超链接为主的网页;另一类针对 Deep Web,主要分析动态生成的网页。 2.2.1 基 于 Surface Web 的 网 页 评 价 算 法
网络爬虫 (Crawler,或 Spider 程序) 是一个自动下载 Web 网 页 的 程 序 ,是 搜 索 引 擎 的 基 础 与 核 心 。 主 题 搜 索 引 擎 中 的 主题爬虫,首先需要定义“主题概念”,明确“主题”的范围和内 容 ,即 对“主 题”进 行 描 述 或 定 义 。 主 题 概 念 可 以 用 主 题 词 集 来 表 示 ,也 可 以 表 示 为 示 例 文 档 ( 由 用 户 选 定 的 种 子 样 本 ),也 可来源于某一领域概念。主题爬虫在工作时,只抓取与主题 相关的网页或内容。为了保证采集到的信息的主题相关性, 以何种策略来决定访问 Web 的搜索路径,是主题爬虫研究的 焦点 。该 [1-4] 文根据网页评价算法的不同,对比分析了主题爬虫 的几种搜索策略,总结了提高主题爬虫搜索效率的几个方面。
相关文档
最新文档