第三章网络信息检索工具

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章网络信息检索工具

【知识框架】

信息检索的一般流程

网络经贸信息资源的概念与类型

网络资源查询方法及检索工具

▪按检索机制分:

目录型(Subject directory, catalogue)

索引型:搜索引擎(Search Engine)

混合型(Hybrid tools)

▪按检索内容分:

综合型

专题型

特殊型

▪按包含检索工具数量分:

单一型(Singular search tools)

集合型(Collective search tools):元搜索引擎

(Metasearch Engine或Megasearch Engine 目录型检索工具(Subject directory catalogue)

搜索引擎(Search Engine)

▪单一搜索引擎

▪集成搜索引擎

检索工具的工具——指南类检索工具和元搜索引擎

▪(一)网络资源指南(Resource Guide)

也称学科门户SIG

▪(二)元搜索引擎

集合式搜索引擎、索引式搜索引擎

▪(三)手工检索工具的“工具书指南”、网址簿

网络版参考咨询工具(Reference Tools)

智能搜索代理和搜索软件

补充教材第二章:

检索工具与语言

检索策略

【主要内容】

1、信息资源检索的一般流程

分析问题

▪问题分类

▪分析已知和欲知信息

▪分析需求主题

▪广泛利用文献

▪选择检索范围

选择检索工具

▪熟悉各种检索工具

从检索工具中查找所需信息

获取原文

2、网络信息资源的概念和类型

1)按传输方式分:

●WWW

●FTP

●Usenet/Newsgroup

●LISTSERV/Mailing List

●Telnet

●Gopher

●WAIS

2)按内容加工

一次加工信息

▪网上图书、期刊、报纸、专利、政府出版物、会议资料等 二次加工信息

▪文摘索引数据库、搜索引擎、网站导航等

三次加工信息

▪百科全书、手册指南等参考型网站

3)格式与后缀

3、网络检索工具的分类

按检索机制分:

▪目录型(Subject directory, catalogue)

▪索引型:搜索引擎(Search Engine)

▪混合型(Hybrid tools)

按包含检索工具数量分:

▪单一型(Singular search tools)

▪集合型(Collective search tools):元搜索引擎(Metasearch Engine或Megasearch Engine

4、目录型检索工具(Subject directory catalogue)

1)网络资源目录

这是一种独立型检索工具,网站自身包含可检索的数据库。网络资源目录又称网站目录、分类站点目录、专题目录或主题指南、站点导航系统、主题词典型检索工具等。这是一种将网络资源搜集后,按某种分类法进行组织整理,并和检索法集成在一起的信息检索方式。

特点:

▪人工设计和编制的、供检索的等级结构式目录(指南、导航系统)

▪所收录资源经过鉴选和组织

▪减少了检索中的噪音,提高了检索的准确性

▪数据库的规模相对较小

▪新颖性不强,(会有“死链接”dead link)

▪用户要熟悉其分类体系

目录型检索工具比较适合于查找综合性、概括性的主题概念,或对检索准确度要求较高的课题

原理:

网络资源目录一般:

▪采用人工方式采集网络信息;

▪通常以某种分类体系为依据,将网络信息资源分为若干领域的主体范畴,然后再细分为各学科专题目录。

网络资源目录的分类通常采用主题分类法、学科分类法、体系分类法。一个网络资源目录包括许多层,第一层是总目录,将网络资源分成若干领域的主题范畴,然后链接到第二层专题目录,再链接到第三层子目录,依次而下,直至具体的信息资源,形成一个由信息链组成的树状结构。

有代表性的目录型检索工具:Yahoo 分类目录检索;开放目录项目(Open Directory Project ,简称ODP);

5、搜索引擎(Search Engine)

特点:

-收录、加工信息的范围广、速度快;

-检索功能强,一般可称为网络资源的关键词索引;

-检索时直接输入关键词或词组、短语,无需判断类目归属,比较方便;

-标引过程缺乏人工干预,准确性较差

-检索误差(噪音)较大

搜索引擎适合于检索特定的信息,及较为专、深、具体或类属不明

确的课题

工作过程:

单一搜索引擎的结构一般由三部分构成:信息采集、索引数据库、用户检索。用户所熟悉的只是占搜索引擎很小部分的人机交互界面——用户通过这一界面输入需要检索的信息,系统则反馈给用户相关的信息。构成搜索引擎主要内容的是不为用户熟悉的后台部分,即作为搜索软件程序的“Robot”、“Crower”、“Spider”。这类程序能自动地在网上漫游,从一个或一组URL开始访问,并进行本地索引,同时记录该URL所指的HTML文件中所有的新的URL链接,不停地以找到的URL为起点进行本地索引,直到再没有满足条件的新的URL地址或超出了某些限制。

自动采集信息是搜索引擎的主要功能。自动索引程序要对HTML文档中的超文本标记进行分析,提取出符合用户需要的主要内容,并存放在信息库中。这些软件会定期或不定期地拷贝所访问的国际互联网主机的内容,然后由提供检索服务的公司或单位统一进行标引和组织。

自动索引程序将采集和标引的信息汇集成索引数据库,并随时顺着链接跟踪网上新加入的主页,为其建立索引,这是搜索引擎提供检索服务的基础。

相关文档
最新文档