第三章网络信息检索工具

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第三章网络信息检索工具

【知识框架】

信息检索的一般流程

网络经贸信息资源的概念与类型

网络资源查询方法及检索工具

▪按检索机制分：

目录型(Subject directory, catalogue)

索引型：搜索引擎(Search Engine)

混合型（Hybrid tools）

▪按检索内容分：

综合型

专题型

特殊型

▪按包含检索工具数量分：

单一型（Singular search tools）

集合型（Collective search tools）：元搜索引擎

(Metasearch Engine或Megasearch Engine 目录型检索工具(Subject directory catalogue)

搜索引擎(Search Engine)

▪单一搜索引擎

▪集成搜索引擎

检索工具的工具——指南类检索工具和元搜索引擎

▪（一）网络资源指南（Resource Guide）

也称学科门户SIG

▪（二）元搜索引擎

集合式搜索引擎、索引式搜索引擎

▪（三）手工检索工具的“工具书指南”、网址簿

网络版参考咨询工具（Reference Tools）

智能搜索代理和搜索软件

补充教材第二章：

检索工具与语言

检索策略

【主要内容】

1、信息资源检索的一般流程

分析问题

▪问题分类

▪分析已知和欲知信息

▪分析需求主题

▪广泛利用文献

▪选择检索范围

选择检索工具

▪熟悉各种检索工具

从检索工具中查找所需信息

获取原文

2、网络信息资源的概念和类型

1）按传输方式分：

●WWW

●FTP

●Usenet/Newsgroup

●LISTSERV/Mailing List

●Telnet

●Gopher

●WAIS

2）按内容加工

一次加工信息

▪网上图书、期刊、报纸、专利、政府出版物、会议资料等二次加工信息

▪文摘索引数据库、搜索引擎、网站导航等

三次加工信息

▪百科全书、手册指南等参考型网站

3）格式与后缀

3、网络检索工具的分类

按检索机制分：

▪目录型(Subject directory, catalogue)

▪索引型：搜索引擎(Search Engine)

▪混合型（Hybrid tools）

按包含检索工具数量分：

▪单一型（Singular search tools）

▪集合型（Collective search tools）：元搜索引擎(Metasearch Engine或Megasearch Engine

4、目录型检索工具(Subject directory catalogue)

1）网络资源目录

这是一种独立型检索工具，网站自身包含可检索的数据库。网络资源目录又称网站目录、分类站点目录、专题目录或主题指南、站点导航系统、主题词典型检索工具等。这是一种将网络资源搜集后，按某种分类法进行组织整理，并和检索法集成在一起的信息检索方式。

特点：

▪人工设计和编制的、供检索的等级结构式目录(指南、导航系统)

▪所收录资源经过鉴选和组织

▪减少了检索中的噪音，提高了检索的准确性

▪数据库的规模相对较小

▪新颖性不强，(会有“死链接”dead link)

▪用户要熟悉其分类体系

目录型检索工具比较适合于查找综合性、概括性的主题概念，或对检索准确度要求较高的课题

原理：

网络资源目录一般：

▪采用人工方式采集网络信息；

▪通常以某种分类体系为依据，将网络信息资源分为若干领域的主体范畴，然后再细分为各学科专题目录。

网络资源目录的分类通常采用主题分类法、学科分类法、体系分类法。一个网络资源目录包括许多层，第一层是总目录，将网络资源分成若干领域的主题范畴，然后链接到第二层专题目录，再链接到第三层子目录，依次而下，直至具体的信息资源，形成一个由信息链组成的树状结构。

有代表性的目录型检索工具：Yahoo 分类目录检索；开放目录项目（Open Directory Project ，简称ODP）；

5、搜索引擎(Search Engine)

特点：

-收录、加工信息的范围广、速度快;

-检索功能强，一般可称为网络资源的关键词索引;

-检索时直接输入关键词或词组、短语，无需判断类目归属，比较方便;

-标引过程缺乏人工干预，准确性较差

-检索误差(噪音)较大

搜索引擎适合于检索特定的信息，及较为专、深、具体或类属不明

确的课题

工作过程：

单一搜索引擎的结构一般由三部分构成：信息采集、索引数据库、用户检索。用户所熟悉的只是占搜索引擎很小部分的人机交互界面——用户通过这一界面输入需要检索的信息，系统则反馈给用户相关的信息。构成搜索引擎主要内容的是不为用户熟悉的后台部分，即作为搜索软件程序的“Robot”、“Crower”、“Spider”。这类程序能自动地在网上漫游，从一个或一组URL开始访问，并进行本地索引，同时记录该URL所指的HTML文件中所有的新的URL链接，不停地以找到的URL为起点进行本地索引，直到再没有满足条件的新的URL地址或超出了某些限制。

自动采集信息是搜索引擎的主要功能。自动索引程序要对HTML文档中的超文本标记进行分析，提取出符合用户需要的主要内容，并存放在信息库中。这些软件会定期或不定期地拷贝所访问的国际互联网主机的内容，然后由提供检索服务的公司或单位统一进行标引和组织。

自动索引程序将采集和标引的信息汇集成索引数据库，并随时顺着链接跟踪网上新加入的主页，为其建立索引，这是搜索引擎提供检索服务的基础。