浅析图书馆如何搭建小型搜索引擎

合集下载

图书馆的信息搜索与检索工具应用案例

图书馆的信息搜索与检索工具应用案例

图书馆的信息搜索与检索工具应用案例在当今信息爆炸的时代,图书馆作为知识的宝库和学习的场所,起着至关重要的作用。

为了更好地满足读者的信息需求,图书馆采用了各种先进的信息搜索与检索工具。

本文将通过案例分析的方式,介绍几种常见的图书馆信息搜索与检索工具的应用。

一、在线公共图书馆目录在线公共图书馆目录是一个基本而又常见的图书馆信息搜索与检索工具。

以某市公共图书馆为例,该图书馆的网站上提供了在线目录的搜索功能。

读者可以通过输入关键词或者作者名进行搜索,系统会自动列出相关的图书信息。

读者可以查看图书的题目、作者、出版社、索书号等详细信息,以便更好地选择自己需要的图书。

二、电子数据库电子数据库是另一种重要的图书馆信息搜索与检索工具。

以某高校图书馆为例,该图书馆提供了多个学术数据库的访问权限,包括文献数据库、期刊数据库、专利数据库等。

读者可以通过在数据库中输入相关关键词,快速找到自己需要的文献或者期刊论文。

同时,数据库还提供了筛选和排序的功能,读者可以根据自己的需求进行精准的检索。

三、参考书目目录参考书目目录是一种特殊的图书馆信息搜索与检索工具。

以某大学图书馆为例,该图书馆制作了一份参考书目目录,列出了各个学科领域的重要参考书目。

读者可以根据自己的研究方向,在目录中找到相关书籍的信息,并借阅或者购买。

该目录还提供了书目的分类和索引,方便读者按照学科或者主题进行检索。

四、数字图书馆数字图书馆是一种新兴的图书馆信息搜索与检索工具。

以某国家图书馆为例,该图书馆建立了一个数字图书馆平台。

读者可以通过平台在线阅读和下载数字化的图书、期刊和报纸等文献资源。

平台还提供了全文检索的功能,读者可以通过输入关键词,找到所需的文献资源。

数字图书馆不仅方便读者,还能保护珍贵的文献资源不受损坏和遗失的影响。

五、社交化图书馆服务社交化图书馆服务是一种创新的图书馆信息搜索与检索工具。

以某市图书馆为例,该图书馆推出了一项社交化服务,通过建立在线读书社区,鼓励读者分享读书心得和推荐书目。

数字图书馆信息检索技术及搜索引擎简介

数字图书馆信息检索技术及搜索引擎简介

3数字 田书 馆擅 索 引擎简 介 3 1文 本搜 索 引擎 简介 .
数 字 图 书馆 数据 库 8% 0 以论 文数 据 库 、期 刊 数据 库 、 知识 库 组成 ,其 结 构 以文本 形式 存在 ,数 字 图书馆 文本 搜索 引擎 加载 40 万词汇 大 词典 , 0多 拥有 5 0 级动 态更 新术 语库 ,在 对文 本 结构文 件搜 索 时 ,文本搜 索 引擎对 0万 文本 进行 总 结、 分类 、关 联、文 摘 、索 引等 。 32 Wb 索 引擎介 简 . e搜 Wb 息 内容 无 比丰 富 ,包 含 大量 网上 公 开但 正式 出版 物未 发 表 的有 e信
'2 专辑导 航 . 专 辑 导航 也称 内容 导航 ,专 辑 导航将 期 刊分 为几 大 专辑 ,各 大专 辑 有 若干 小专辑 ,如 农业D 包括 农艺 学 、园 艺、林 业等 ,由于各 学 科交叉 、渗 辑 透 ,从属 关系 知识 层 次树 形排 列 , 同级 关系 知 识层 次并 列排 列 ,数据 库 网 页 导航 系统 逐 级 引导 ,直 到 点击知 识 的最 小 单元 , 例 :专辑 、专题 、 一级
柴丽英
( 青岛科技大学 图书馆 山东 青岛 264) 602

要 : 概述 数字 图书馆信息检 索基本技 术 阐述 期刊 导航 、初级 检索、 高级检索 的操作方法 ;诠释 数学 图书馆 信息导航 、信息 检索 的工 作原理 ;简介数字
图书馆搜 索引擎。 关键词 : 信息检索 :期刊导航 ;搜索 引擎 中图分 类号:G 5 文献标识码 :^ 文章编 号 1 71— 759 (2 1 11 0057 O1 2 6 7 0 0) 1 一
对 呈 爆炸 的 ,繁 杂 的 、纷 乱的 网络 信 息进 行分 析 、整 合 、 引用 ,使 之成 为 完 整 的 、系统 的 、有价值 的的信 息 。 3 3工 作 日志搜 索 引擎 介简 . 工 作 日志搜 索 引擎 具有 智 能化信 息 推送 功 能 ,提供 个性 化信 息服 务 。 工 作 日志 搜索 引 擎 的 日志分 析器 ,提取 用户 学 习 内容 ,分 析用 户 偏好 、 兴

图书馆网站建设浅析——以中南大学图书馆网站为例

图书馆网站建设浅析——以中南大学图书馆网站为例
导航功能 ,引导用户有针对性 地查找资料 。
维普资讯
TUS UGUANXUEKAN H No. 2 6 4。 0o
建 立资源导航 系统 、 科导航 系统 , 学 将分散 的网上资源进行
南 、 的图书馆 、 我 新书报导 、 电子图书馆 、 息服 务站内导 航 、 信 网络导航、 中外 文数据库 、 色数据库等栏 目。在网络导航 一 特 栏中, 提供 了国内主要 大学 、 国部分 大学 、 国教 育科研 美 中 网、 中科院文献情报 中心 等站点 的链接 。在 电子 图书馆一栏
1 缺 乏 长远 规 划 与 及 时 维 护 。 . 2 出现 空 页 面与 死 链接
每个 图书馆由于所处地域 、 业特点 、 专 服务对 象与范 围 不同而形成各 自不同的特点 。图书馆 网站建设应该反映出这

特色, 在资 源数 字化过程 中, 其选题要 具备地 区或馆藏特
色, 强化站点的资源优势。
1 网站 建设 的误 区
11 内容 资源 贫乏 、 . 分散 . 缺乏特 色资源 目前来看 , 图书馆网站的内容主要 是介绍本 馆的概况与
2 网站 建设 原 则
21 特 色化 原 则 .
服务 , 便于用户 了解利用图书馆 ; 提供 书 目检索 , 显示 馆藏情
况 与流 动情况 ; 提供 电子资源 信息 , 括 电子 图书 、 包 电子 期 刊、 特色数据库等 。与国外图书馆网站相比 , 国图书馆网站 我 明显 的差距在 于数字化资 源太少 , 馆藏数字化程度 太低 。有 的图书馆甚 至只是对本馆 与本馆各职 能部 门作 了简单 的介 绍, 根本谈不上其他的服务。大部分图书馆网站内容资源都 贫乏 、 分散 , 同一内容的资源得不到很好地整合 , 自建的特色 数据库更是缺少 。

如何建立自己的搜索引擎

如何建立自己的搜索引擎

如何建立自己的搜索引擎搜索引擎对网站的影响一个网站的命脉就是流量,而网站的流量可以分为两类。

一类是自然流量,一类就是通过搜索引擎而来的流量。

如果搜索引擎能够更多更有效的抓取网站内容,那么对于网站的好处是不言而喻的。

所以,SEO也应运而生了。

在百度和谷歌两大搜索引擎的工作中,百度的工作周期相对来说短一些,百度大约在10天左右重新访问网站一次,Google大约在15天左右重新访问一次网站。

由于一天之内不能游历全球所有的网站,如果推广网站时,能到更多的网站上提交相应的网站信息,也是加快蜘蛛收录网站内容的重要环节。

搜索引擎作用搜索引擎是网站建设中针对“用户使用网站的便利性”所提供的必要功能,同时也是“研究网站用户行为的一个有效工具”。

高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略具有重要价值。

1、从网络营销的环境看,搜索引擎营销的环境发展为网络营销的推动起到举足轻重的作用2、从效果营销看,很多公司之所以可以应用网络营销是利用了搜索引擎营销3、就完整型电子商务概念组成部分来看,网络营销是其中最重要的组成部分,是向终端客户传递信息的重要环节。

搜索引擎的技术发展趋势搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展。

搜索引擎的最新技术发展包括以下几个方面:提高搜索引擎对用户检索提问的理解为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。

用户可以输入简单的疑问句,比如“how can kill virus of computer?”。

搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。

自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。

图书馆智慧空间建设方案

图书馆智慧空间建设方案

图书馆智慧空间建设方案随着数字化时代的到来,图书馆作为一种知识传递和学习的场所也开始向智慧化转型。

智慧空间建设方案涉及到硬件设施建设、软件系统构建和管理模式变革等方面,下面将从这三个方面具体介绍。

一、硬件设施建设图书馆智慧空间的建设需要充分利用先进的硬件设施以满足用户的需求,包括网络、计算机、数据储存、物联网设备、智能终端等各种设备。

1、网络设施:图书馆的智慧化建设需要一个强大的网络基础设施,可以利用无线网络技术实现随时随地的无线上网服务,使用云计算和大数据技术实现数据的快速传输和存储。

2、计算机:在图书馆的智慧化建设中,计算机是不可或缺的工具,可以利用计算机提供各种搜索、阅读和学习的软件程序,还可以通过计算机提供各类文献管理和数据统计工具,方便读者查阅和使用文献资源。

3、数据储存:图书馆需要一个可靠的数据储存设备,以保证文献和学习资源的安全性和便携性,可以考虑采用云存储技术,使读者可以随时随地对图书馆资源进行访问和使用。

4、物联网设备:物联网设备如智能桌面、智能显示屏等可以为用户提供更加便利的学习环境,定制化信息发布和展示。

5、智能终端:智能手机、平板电脑、笔记本电脑等智能终端设备可以让用户随时随地的连接图书馆的信息资源,并享受智慧化服务。

二、软件系统构建1、知识库和数字资源平台:通过建立知识库和数字资源平台,把图书馆的纸质资源数字化,增强信息资源的可用性,同时帮助读者更好地利用和管理图书馆的资源,并强化知识创新与传播的效果。

2、电子阅读室:基于数字化资源平台,建立电子阅读室,为读者提供在线阅读和下载服务,并提供智能检索服务,以便更方便地获取需要的学术资源。

3、个性化推荐服务:针对用户需求与兴趣爱好,图书馆的智慧空间还需要提供个性化的推荐服务,方便用户推荐相关资源,如阅读、研学、数据库、论文等等,涵盖学术、科研、生活、职业规划等多个领域。

4、机器学习技术与知识图谱:通过机器学习技术建立知识图谱,可帮助读者理解对于了解某个课题的知识向度和深度,能够根据用户的行为及兴趣提供智能化推荐。

图书馆的信息检索与检索工具

图书馆的信息检索与检索工具

图书馆的信息检索与检索工具随着信息时代的到来,图书馆作为知识的宝库,起到了极其重要的作用。

然而,图书馆的实际使用过程中,如何高效地进行信息检索成为了一个亟待解决的问题。

本文将介绍图书馆的信息检索方法以及常见的检索工具,帮助读者更好地利用图书馆资源。

一、图书馆的信息检索方法信息检索是图书馆用户获取所需信息的过程,下面主要介绍常用的两种信息检索方法:主题式检索和关键词检索。

主题式检索是指根据文献的主题进行检索的方法。

用户需要明确自己想要了解的主题,然后通过查找相关的主题词或者主题分类号等信息来检索相关文献。

这种方法适用于用户对所需信息有一个明确的理解和需求的情况下。

关键词检索是指用户通过输入与所需信息相关的关键词来进行检索的方法。

这种方法相较于主题式检索更加便捷,用户可以根据自己的需要自由选择关键词进行检索。

关键词检索方式更加灵活,对用户的了解要求相对较低。

二、图书馆的常见检索工具1. 馆藏目录检索系统馆藏目录检索系统是图书馆提供的一种便捷的检索工具。

用户可以通过系统中的关键词检索或者主题式检索来查找图书馆中所收藏的图书、期刊、论文等信息。

这种检索工具通常提供书名、作者、出版社等多个检索字段,使用户能够准确地找到自己需要的资料。

2. 在线数据库随着互联网的发展,图书馆也开始提供在线数据库来帮助用户进行信息检索。

在线数据库涵盖了各个领域的文献和研究成果,用户可以通过关键词检索或者主题式检索来获取所需信息。

在线数据库通常提供全文下载和摘要预览功能,用户可以根据需要选择具体的功能。

3. 数字图书馆数字图书馆是以数字化形式存储和展示图书馆资源的平台。

用户可以通过数字图书馆来进行信息检索和阅读。

数字图书馆通常提供电子书籍、学术论文、期刊文章等各类资源的检索和访问服务。

用户可以在数字图书馆中进行关键词检索或者主题式检索,获取所需信息并进行在线阅读或下载。

三、信息检索的技巧与方法为了更好地利用图书馆的信息检索工具,下面给出一些技巧与方法供读者参考:1. 明确信息需求:在开始信息检索之前,要明确自己所需信息的主题或者关键词,这样能够更加有针对性地进行检索。

图书馆文献检索与资源利用

图书馆文献检索与资源利用

图书馆文献检索与资源利用图书馆是一个汇集了大量的图书、期刊和其他学术资源的场所,对于学生和研究者来说,图书馆是他们获取资料、进行文献检索和进行学术研究的重要之地。

然而,对于一些初次进入图书馆的人来说,如何进行文献检索和资源利用可能是一项具有挑战性的任务。

本文将介绍图书馆文献检索的基本方法和资源的利用技巧,以帮助读者更好地利用图书馆资源。

一、文献检索的方法文献检索是指通过一定的方法和工具,从图书馆的资源中筛选出与研究主题相关的文献。

在进行文献检索时,有以下几个基本的方法和步骤可以参考:1.明确研究主题:首先需要明确自己的研究主题或者需要查找的信息。

这有助于我们更加有针对性地进行文献检索。

2.选择合适的检索工具:图书馆提供了多种文献检索工具,如OPAC(图书馆目录)、图书馆数据库(如万方、维普、知网等)、国际学术数据库(如PubMed、ScienceDirect、IEEE Xplore等)等。

根据自己的需要选择合适的检索工具。

3.构建检索策略:在搜索引擎或数据库的检索界面上,根据自己的研究主题构建检索策略。

可以使用关键词、主题词、作者等信息进行检索,也可以使用布尔运算符组合多个关键词进行检索。

4.筛选检索结果:根据检索结果的相关性、出版时间等因素进行筛选,选择与自己研究主题最相关的文献。

二、资源的利用技巧除了文献检索外,图书馆提供了丰富的资源供读者利用。

以下是一些资源的利用技巧,帮助读者更好地利用图书馆资源:1.图书借阅:图书馆的核心资源之一就是图书,读者可以通过借阅图书来获取所需的信息。

在借阅图书时,要注意图书的借阅期限和借阅规则,及时归还以免产生逾期费用。

2.期刊阅览:图书馆还提供了大量的期刊资源,读者可以前往期刊阅览区浏览最新的学术期刊。

对于一些需要获取最新研究成果的研究者来说,期刊阅览是非常重要的。

3.电子资源利用:随着科技的发展,图书馆也提供了丰富的电子资源,如电子书籍、电子期刊、学位论文数据库等。

搜索引擎概述

搜索引擎概述
按其工作方式可分为三种: 全文搜索引擎(Full Text Search Engine) 目录索引搜索引擎 (Search Index/Directory) 元搜索引擎(Meta Search Engine)
四川建院图书馆 信息检索技术
全文搜索引擎
从互联网上提取的各个网站的信息而建立的数据库中,检索与用户查 询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。 从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有 自己的检索程序,并自建网页数据库,搜索结果直接从自身的数据库 中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜 索结果,如Lycos引擎。 优点:是查询全面、充分,用户能够对各网站的每篇文章中的每个词 进行搜索,检索直接、方便,而且可使用布尔逻辑检索、短语检索等 高级功能。 缺点:繁多而杂乱的感觉。 代表性的全文搜索引擎是Google、。.rtf富文本文件
.swf
Shockwave Flash
搜索引擎
指定文件类型
四川建院图书馆 信息检索技术
搜索引擎
–检索语法
• 搜索的关键词包含在URL链接中:inurl: • 搜索的关键词包含在网页标题中:intitle: • 搜索的关键词包含在网页的“锚”中: inanchor: 或allinanchor: • 搜索所有链接到某个URL的网页:link:
四川建院图书馆 信息检索技术
全文搜索引擎
(Full Text Search Engine)
• • • • • • • Google Sogou Soso Youdao () Bing () 即刻()
四川建院图书馆 信息检索技术
目录式搜索引擎
用户通过浏览层次类型目录来寻找所需信息。 分类一般按主题分类,并辅之以年代、地区等分类。 网站多以此方式组织。例如:新浪>分类目录>计算机 与互联网> 硬件>行情报价。 优点:使用户清晰方便地查找到某一大类信息,尤其 适合那些希望了解某一范围内信息,并不严格限于查 询关键字的用户。 缺点:搜索范围较全文搜索引擎要小许多,尤其是当 用户选择类型不当时,可能遗漏某些重要的信息源。 代表性的目录式搜索引擎是Yahoo、搜狐、新浪网站
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
s als ac n i e m l e r he g n Ke ywo d : iia ir r S ac ngn S a c r sD g t lb ay; e rh e ie;e rh l
引 言 随着 网络 的兴起 ,搜索 引擎逐渐 被广泛 使用 。 索引擎 技术是 搜 网络 与计算机 技术结 合的产物 ,它 的发展决 定于 网络 技术 的发展 。 对 于 图书馆来 说 ,用户 的文献 检索 需求 越来 越 强 ,专业 覆盖 面 广而 专业 性细 分 ,所 购专 业 性数 据库 越来 越 多 ,信 息量 也越 来 越 大 ,为 了给 读 者提供 快速 、方便 的检 索 ,使读 者 能够 自网上 即 时获 取所 需要 的文 献资 料 ,更好 的整 合 相关 的课题 、科研 研究 信 息等 , 图书馆 可 以考虑 建设 覆盖 某些 行业 领 域或 者某 些专 业 的小 型搜 索 引擎 。 本文 尝试 着从 基本 技术 的 角度来 阐述 如何 搭 建搜 索 引擎 ,大 致可 以从 :信 息搜 集 、构建 索 引、检 索三 个 部分 来 了解 现 有开 发

爬 虫所抓 取 的页 面都 存放 在 网页库 中 ,为 了减 少所 需 的存 储 空 间 ,经 常 需要 对页 面进 行压 缩存 储 。页 面通 常都存 放 在数 据库 中,但是 对 于小 型 的搜索 系统 来 说可 以简 单地 把页 面存 成文 件 的 形式 。索 引处 理下 载 的 网页并 为搜 索提 供服 务 。索 引把每 一个 文 档记 录成 词组 和词 组在 文档 中出现 的位 置 , 同时通过 词 组出现 频 率等 计算 文档 得分 , 以便用 于 查询 结果 的排 序或 者更 进 一步 的处
Li r r w oBu l ma l e r h En i e b a y Ho t i a S d l S a c gn
Xin o h o a g Ga c a
(i ayo h n sa o tc n ,h n s a 5 8 0 , ia Lb r f o g h nP le h i Z o g h n 2 4 4Ch ) r Z y c n
计 算机 光盘 软件 与应 用
2 1 年第 7期 00 C m u e DS f w r n p lc to s o p t rC o t a ea dA p i a in 软件设计 开发
浅析图书馆如何搭建小型搜索引擎
向 高潮 பைடு நூலகம்
( 中山职业技术 学院 图书馆 ,广 东中山 5 80 ) 2 4 4
理。
( )构建 搜 索 三
查询 引擎 接 收来 自用 户 的查 询提 问并在 索 引 中进 行 查询 。 然 后 查 询 引擎 还 要 通 过 各 种 内容 和 链 接 分 析 权值 对 结 果 进行 排 序 。一 些搜 索 引擎 的查 询 引擎还 要储 备 一些 常见 的查询 请求 。最 后, 查询 引擎 把查 询 结果组 织成 一个 H M 页 面并通 过用 户接 口呈 TL 现 给用 户 。用户 通过 用 户接 口提 交查 询请 求 并查看 查询 结果 。当 用 户通 过接 口提 交查 询 请求 后 ,请求 被提 交给 查询 引擎 ,由查询 引擎在 索 引数据 库 中找到 查询 结果 并反 馈给 用户 。
Absr c : i pe n lz st e fa i lt ir r e r h e giea d p i a i x ane t e b sc tc noo O b l t a tTh spa ra ay e h e sbi y oflb a y s ac n n ,n rm rl e pli d h a i e h lgy t ui a i y d
摘 要 :文章 分析 图书馆 建设搜 索引 擎的可行 性 ,并 主要 阐述构 建 小型搜 索 引擎 的基本 技 术 关键 词 :数 字 图书馆 ;搜 索引 擎 ;检 索 中图分类号:T 3 P1 1 文献标识码:A 文章鳊号 :10 - 59( 00) 7 04 - 1 07 99 2 1 0 - 19 0
( )现 有 的工 具 四 除 了上 面讨 论 的爬虫 和 索引 工具 ,还有 很 多免 费 的软件 工具 可 以用 于搜 索引 擎 的各个 部 分 。如 网页抓 取 、索 引、查 找 、索引 存储 结 构 、和用 户接 口等 。用 户 可 以通 过 这些 工具 建立 自己的搜 索 引擎 。一 些常 用 的搜索 引擎 开发 工具 如 W b lm s、h :/ g eG ip e t/ d 、 Ge n tn 和 Ak ln 。 些工 具从 用户 获得 一列 网址 作为种 子 r eS oe la ie 这 站点 开始 抓取 网 页,对 抓取 的网页 进行 索 引 ,并 建立 用户 接 口。 用户 可 以通 过这 些 工具 集来 构建 自己的专业 搜 索 引擎 。 三 、结束 语 对 于我 国图书 馆业 来说 , 随着信 息技 术 领域 里 的各 种新 理论 、 新技 术 、新方 法用 于数 字 图书馆 搜 索引 擎 的研 究 与应 用 ,数 字 图 就 是一 个早 期 的个人 网络 蜘蛛 例子 。通 过 T e oa c 户可 以输 书馆 建设 必将 有更 好 的发展 ,我 们 希望 有更 多更 好 的搜索 引擎 能 uM s i 用 入 关键 词 ,设 定抓 取深 度 和 宽度 ,只抓 取 首 页等 。W b ip r eR pe 、 开发 出来 ,从而 促进 图书 馆事 业 的快速 发展 。 Wb ie eM nr和 T lp r ee ot这些 软件 工具 允许 用户 从在给 定站 点 的具 参 考文 献 : 有 特殊类 型或 者属 性 的网页 。 最近 几年 也 出现 了一些 开源 的工 具 , 『 张敏 . 于 It t 个性 化信 息检 索 关键技 术研 究. 山大学 工 1 1 基 ne 的 me 燕 如 Hr t i,这 是一 个互 联 网档案 馆工 程 的爬 虫 ,从 网上 即可 下 学硕士 学位论 文 e irx 载 的到 。 『赵 志荣 . 化搜 索 引擎 的研 究 、设 计 与 实现. 大 学硕 士 学 2 】 个性 四川 还 有 一 些 蜘 蛛 设 计 的 能 提 供 附 加 功 能 , 如 C m e iie op tt v 位 论 文
( )建设 索引 二
搜索 引 擎 的 内容 建设 好 了,接 下 来就 要为 内容 数据 库建 设索
引了。
技术 ,文章 还 提到 了一些 现有 的搜 索 引擎 开发工 具 。
二 、基 本技 术
( )信 息搜集 一 对 于 图书馆 来 说所要 搜集 的信 息包 括 各 图书馆 站 点、 学者个 人 主页 、学 术研 究论 文 、在线 会议 资源 、专业 数据 库 等等 。 因为 网页 是通过 超 链接 (y e ln s Hp r ik )互 相连 接 , “ 蜘蛛 ” 程 序被 用来 在 网络上 搜集 网页 。这个 “ 蛛 ”程序 也被 叫做 网络 蜘 机 器人 ( e o o ) WbRb t 、网页代理 (e gn s 、爬 虫 (rw es 、 Wb et) a c a lr ) 蠕 虫 (om ) w r s或者 漫步 者 (ad rr ) ,它遵 守标准 的 H T 协 w n ee s等 TP 议 ,通 过 网页 间的超 链接 (R s U L )来爬 取 网页 。首先 ,爬 虫读 取 列种 子站 点 的 U L 并 且下载 这 些 UL Rs R s的页 面 。然后 处理这 些 页 面 ,提 取其 中含 有 的新 的 U L地址 并加 入到 下载 队列 中 。然 后 R 爬 虫选 择队 列 中的下一 个 U L进 行抓取 ,直到抓 取 了指 定数 目的 R 页 面 或者 硬 盘 没 有 空 间 了 。这 个 网络 页面 收 集 过程 常常 被 称 为 “ 取 ”或 “ 爬 抓取 ”。为 了提 高抓 取速度 ,可 以同 时使用 几个 爬 虫 去平行 爬取 不 同的站 点 ,使 用 多线 程或 者异 步输入 / 出 。 输 另外 ,一 个设 计 良好 的 “ 礼貌 ”的爬 虫应 该避 免在 短 时间 有 内向一个 W b 务器 发送 重复 的请 求 ,这样 会导 致该 站 点重复 下 e服 载 。网站 管理 员 同时应 该 知道他 们 的站 点不想 被那 些 特定 的爬 虫 爬 取 。有 两种方 法可 以拒 绝爬 虫 。第一 种是 使用 R bt协 议 ,在 oo 站 点的 根 目录 下放 置 “ oo .x ”文 件 来 告诉 爬 虫 该站 点 的 哪 r b ttt 些部分 不要 下载 。 二种 方 法是 使用 r b t 标 签 ,网页代码 中注 第 oo s 明该 网页 是否可 以被 索 引或者 提取 更多 的链接 。 在 网络 发展 的早 期就 已经 开发 除 了爬 虫 下载 工具 ,u M s i T eo a c


It lie c pd r 能进 行广 度优 先抓 取 ,并 可 以对 结 果进行 n e lgn eS ie 语 义 分析和 聚类 。te hb r iu ae ne ln p dr 能 h y id sm lt da na ig s ie 够 在 网上进 行 “ 全球 ”搜 索 。 通 过爬 虫工 具抓 取各 图书馆 站 点、学 者个 人 主页 、学术 研 究 论 文 、在线 会议 资源 、专 业 数据 库等 等 资源 ,这样 就 构建好 了一 个 图书 馆搜 索 引擎 的资源 了 。
相关文档
最新文档