信息检索技术 (3)

合集下载

计算机复习信息检索

计算机复习信息检索

计算机复习信息检索信息检索是指通过计算机技术,根据用户的需求,在大规模的信息资源中准确、快速地找到相关的信息。

在当今信息爆炸的时代,信息检索的重要性不言而喻。

本文将介绍信息检索的基本概念、技术和应用,并附带答案和解析。

一、信息检索概述信息检索是指通过计算机对大规模信息资源进行全文检索、关键词检索等方式,根据用户需求提供相关信息的过程。

其目标是提高检索准确性和检索效率,帮助用户快速获取所需信息。

信息检索系统由信息资源、检索模型、检索方法和用户界面等组成。

其中,信息资源包括数据库、文档集合等;检索模型包括向量空间模型、布尔模型等;检索方法包括倒排索引、词频统计等;用户界面提供检索接口供用户输入查询词,并显示检索结果。

信息检索的基本流程包括:用户输入查询词->检索系统进行查询处理->检索系统返回相关文档。

二、信息检索技术1. 关键词检索关键词检索是最常见的信息检索方式,用户通过输入关键词,检索系统根据关键词在信息资源中进行匹配,并返回相关文档。

关键词检索常用的算法有向量空间模型、TF-IDF算法等。

全文检索是指对文档集合中的全部文本进行检索,而不仅仅是关键词。

全文检索主要通过分词、建立倒排索引等技术来实现。

用户输入的查询词可以是一个短语或一句话。

3. 自然语言查询自然语言查询是指用户使用自然语言进行查询,而不是像关键词查询那样只输入几个词。

自然语言查询需要将用户的自然语言转化为计算机可处理的查询语言,如SQL语句。

4. 语义检索语义检索是一种基于语义理解的检索方法,通过对查询词的语义进行分析,实现更精准、准确的检索。

语义检索常用的技术有词义消歧、词向量模型等。

三、信息检索应用1. 搜索引擎搜索引擎是信息检索的最常见应用之一,在互联网上广泛使用。

搜索引擎通过爬虫程序对互联网进行爬取,建立庞大的索引库,并通过用户输入的查询词返回相关页面。

2. 文献检索在学术界和科研领域,文献检索是非常重要的工作。

第4章 信息检索技术

第4章  信息检索技术

如:?经济 则数据库中含有经济、工业经济、农业经济 等方面的文献均为命中文献。
3、中截断 (通用字符法或屏蔽)
是把截断符号置于一个检索词的中间,对词中 间出现变化的字符数加以限定。一般中截断仅允许 有限截断。
应用:用于英美单词的不同拼写方式或单复数的 特殊变化。
例如: defence defense
作用:扩大检索范围,增加命中文献量;提高检 索结果的查全率。3、逻辑“非”———————————————A
逻辑运算符: 逻辑表达式为: B
“not”或“-” A not B 或 A-B
其含义为:检索记录中含有检索词A,但不能
含有检索词B的文献,才算命中文献。
例如,在EI COMPENDEX(1998)文档中 检索提问式 SS PATENT NOT GERMAN 所得结果为: S1 S2 S3 110 325 108 PATENT GERMAN PATENT NOT GERMAN
1. 后截断 将截词符号放在一个字符串的右方,满足截词符左 方所有字符的记录都为命中记录。 无限截断:是在检索词词干后面加一个截词符,表 示不限制词尾可变化的字符位数,即查找词干相同的所有 词。例: comput* 表示允许其后可带有任何字符且数 量不限,相当于查找compute、 computed、 computes、 computing、 computer、 computers、computerize、 computerized、computation、 computations、 computational、 computationally 等词。
主题字段 (基本字段)
标题、叙词、关键词、文摘、 分类号等
字段 非主题字段 (辅助字段)
作者、作者工作单位、连续 出版物编号、使用语言、出版 者等

信息检索技术

信息检索技术

信息检索技术信息检索技术是一种用于从大量数据中获取所需要的信息的方法。

随着互联网的快速发展,信息检索技术变得越来越重要。

本文将介绍信息检索技术的定义、基本原理以及在实际应用中的重要性。

一、定义信息检索技术是一种通过对数据进行分类和组织,然后根据用户的需求来获取所需信息的方法。

它可以帮助人们快速、准确地找到所需的信息,并提高信息的利用效率。

信息检索技术广泛应用于搜索引擎、大数据分析等领域。

二、基本原理信息检索技术的基本原理包括文档处理、索引构建和查询处理三个步骤。

1. 文档处理文档处理是指将原始数据转化成计算机可识别的文本形式。

这一步骤包括数据采集、数据清洗、数据分析和文本预处理等过程。

通过文档处理,可以将原始数据转化为高质量、可供检索的文档集。

2. 索引构建索引构建是指将文档集中的信息进行分类和组织,生成用于检索的索引结构。

常见的索引结构包括倒排索引、正排索引等。

通过索引构建,可以提高信息的存储效率和检索效率。

3. 查询处理查询处理是指根据用户的查询请求,在索引结构中查找并返回与查询相关的文档。

这一步骤包括查询解析、查询优化和查询执行等过程。

通过查询处理,可以实现准确、高效的信息检索。

三、在实际应用中的重要性信息检索技术在今天的社会中扮演着重要的角色,具有以下几方面的重要性。

1. 提高信息获取效率信息检索技术能够帮助人们快速、准确地获取所需的信息,提高信息获取的效率。

通过搜索引擎,用户可以方便地找到所需的资料,而无需耗费大量的时间和精力。

2. 支持决策和分析信息检索技术可以为决策者提供可靠的数据和信息支持。

在大数据分析中,信息检索技术可以帮助分析师从庞大的数据中提取有价值的信息,进而为决策和分析提供参考。

3. 促进科学研究和知识传播信息检索技术对科学研究和知识传播起到了重要的推动作用。

科学研究者可以通过检索相关文献和研究成果,快速了解最新的研究进展;而知识传播者可以通过搜索引擎等渠道将自己的知识广泛传播。

《信息检索》试题与答案

《信息检索》试题与答案

《信息检索》试题与答案一、选择题1. 以下哪个不是信息检索的基本过程?A. 需求分析B. 检索策略制定C. 检索结果评价D. 信息编码答案:D2. 信息检索的核心技术是?A. 检索算法B. 检索系统C. 信息组织D. 用户界面答案:A3. 以下哪个不是信息检索的评价指标?A. 检索速度B. 检索结果的相关性C. 检索系统的稳定性D. 检索结果的数量答案:D4. 以下哪个不是信息检索的分类?A. 文本检索B. 图像检索C. 音频检索D. 数据库检索答案:D二、填空题5. 信息检索的目的是为了满足用户对信息的______。

答案:需求6. 信息检索的三个基本过程是______、______和______。

答案:需求分析、检索策略制定、检索结果评价7. 信息检索的评价指标包括______、______和______等。

答案:检索速度、检索结果的相关性、检索系统的稳定性8. 信息检索可以分为______检索、______检索、______检索等。

答案:文本检索、图像检索、音频检索三、判断题9. 信息检索的目的是为了获取用户感兴趣的信息。

()答案:正确10. 信息检索的评价指标只包括检索结果的相关性。

()答案:错误11. 信息检索的过程中,需求分析是非常重要的环节。

()答案:正确12. 信息检索的分类只包括文本检索和图像检索。

()答案:错误四、简答题13. 简述信息检索的基本过程。

答案:信息检索的基本过程包括以下三个环节:(1)需求分析:分析用户的信息需求,明确检索目标。

(2)检索策略制定:根据需求分析的结果,制定相应的检索策略,包括检索词、检索范围、检索方式等。

(3)检索结果评价:对检索结果进行评价,判断是否满足用户需求,并对检索策略进行优化。

14. 简述信息检索的评价指标。

答案:信息检索的评价指标包括以下三个方面:(1)检索速度:指检索系统在给定的时间内返回检索结果的能力。

(2)检索结果的相关性:指检索结果与用户需求的相关程度。

信息检索技术

信息检索技术

第一章信息检索概述1,什么是信息检索?它有哪些主要类型?信息检索指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。

有目的和组织化的信息存取活动,其中包括“存”和“取”两活动。

旧分类方法:文献检索、事实检索、数据检索新分类方法:文本检索、数值检索、音/视频检索2,试分析阐述信息检索的基本原理,信息集合、需求集合、匹配与选择,信息检索三阶段及期特点?答:即信息集合与需求集合的匹配与选择。

(1)信息集合是指有关某一领域的,经采集、加工的信息的集合。

形成可供用户访问与检索的对象,在某种意义上说,它是以一种公共知识结构,它有可能弥补某个特定用户的知识结构缺陷,即可以向用户提供所需要的知识或信息,或是获取知识的线索,或者提供某种信息区激活人脑中存储的知识。

(2)需求集合:用户的信息需求是在社会实践活动中产生的。

众多用户不同形态的信息需求的汇集,就形成了需求集合的存在。

信息需求的产生与满足,是实施信息检索行为的前提与基础,也是实施信息检索行为的目的所在。

(3)选择与匹配:面对信息集合与需求集合,如何在两者之间建立起了解与沟通的桥梁,以便能够从信息集合中快速获取用户所需要或所缺少的信息与知识呢?这就需要信息检索提供一种“匹配”机制。

它的主要功能在于:能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。

这里,我们要求匹配机制至少包括两个要素:一是匹配标准,即相似性标准;二是执行匹配的动因。

3,信息检索主要经历了哪些不同的发展阶段?各阶段有何特点?(1)手工检索阶段,主要特点可以概括为印刷文献(图书、期刊、会议、专利、学位论文)为主要检索对象;以各类文摘、题录、和目录性工具书为可利用的主要检索工具;以图书馆的参考咨询部门为开展信息检索服务的中心机构。

(2)计算机化检索阶段(脱机批处理检索时期、联机实时检索时期、联机网络化与多元化检索时间),主要特点:以各类机读数据库为检索对象;各类信息中心,联机服务中心作为新兴的信息服务部门而存在;信息检索用户逐渐由专业检索人员(检索中介)向个人终端用户转移和扩散。

信息检索心得体会(3篇)

信息检索心得体会(3篇)

信息检索心得体会信息检索是指根据用户需求,在海量的信息资源中快速准确地获取所需信息的过程。

在如今信息爆炸的时代,信息检索技能变得越来越重要,对于个人和组织来说,能够高效地从海量的信息中获取所需的信息,将会带来巨大的优势。

在我个人的信息检索学习过程中,我积累了一些心得体会,下面将就这些方面展开阐述。

首先,明确需求是信息检索的关键。

在进行信息检索时,首先要明确自己的需求,确定所需信息的具体内容和范围。

只有明确了需求,才能选择合适的检索方法和工具,提高检索效果。

为了明确需求,我通常会先将问题进行拆解,将复杂的问题分解成更具体、更明确的子问题,从而更好地找到相关的关键词和检索方向。

同时,我还会加强与他人的沟通和交流,借助他人的经验和知识,帮助我在需求的明确上更加准确。

其次,选择合适的检索工具和方法也是非常重要的。

目前,有各种各样的信息检索工具和方法可供选择,如搜索引擎、学术数据库、图书馆资源等。

在选择合适的检索工具和方法时,我通常会考虑以下几个因素:资源的可靠性、覆盖面的广泛性、检索效率和操作的便捷性。

根据自己的需求和情况,进行综合考量,选择最适合自己的工具和方法。

同时,我也会不断学习和了解新的检索工具和方法,保持对信息检索技术的更新和了解,以提升自己的检索能力。

另外,合理的关键词选择对于信息检索的效果也有很大的影响。

关键词是进行信息检索的核心,关键词的选择是否合理和准确,直接影响到检索结果的质量。

在选择关键词时,我通常会采用以下几种策略:使用描述性的词语,尽量选择具体、精确的关键词;使用同义词和近义词扩展关键词的检索范围,增加检索结果的全面性;使用逻辑运算符组合关键词,缩小或扩大检索的范围;根据检索工具的功能,调整关键词的顺序和组合方式。

通过不断的尝试和调整,我逐渐锻炼出了一种合理选择关键词的方法,能够更快速地找到所需信息。

此外,保持查询记录和总结经验也是很有必要的。

查询记录可以帮助我回顾整个检索过程,找到自己的不足之处,并改进错误的地方。

网络信息检索技术

网络信息检索技术网络信息检索中,基本的检索技术有布尔逻辑检索、截词检索、位置检索、限制检索等。

一、布尔逻辑检索逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。

布尔逻辑检索就是采用布尔关系运算符来表达检索词与检索词之间逻辑关系的检索方法,目前最常用的布尔逻辑运算符主要包括逻辑“与"(AND)、逻辑“或"(OR)、逻辑“非”(NOT)。

(一)逻辑“与”逻辑“与”,也称为逻辑乘,用AND表示,是用来组配不同含义检索词之间的限定关系。

检索词A、B以AND (或“*")相连,即A AND B (或A*B),表示同时包含A、B两词的文献才是命中记录,因而逻辑“与”运算用于对检索词进行限定,从而缩小检索范围,提高检索结果的查准率。

例如,要查找children education (儿童教育)方面的文献,检索逻辑式可表示为“children * education”或者“children AND education” o运算的结果是同时含有检索词children和检索词education的文献才被检索出来。

(二)逻辑“或”逻辑“或”,也称为逻辑加,用OR或者"+”表示,是用来组配同义或者同族检索词之间的并列关系。

检索词A、B若以OR或“+”相连,即A OR B(或A+B),表示只要含有A、B之一或者同时包含A、B的文献都是命中记录。

因而逻辑“或” 运算可用于扩大检索范围。

例如,要查找“汽车”方面的文献,因为汽车在英语中可以用car或者automobile表示,所以为了将有关汽车的文献全部检出,避免漏检,检索逻辑式就可表示为“car OR automobile”或者“car + automobile” o运算的结果是含有car或者automobile任意一个或者同时两个的文献均被检索出来。

(三)逻辑“非”逻辑“非”用NOT或者"-”来表示,是用来组配概念的包含关系,可以从原检索范围中排除一部分,因而使用逻辑“非”运算可以缩小检索范围。

文献检索方法与技术3 第三节

检索策略的调整方法: A .减少记录总数以提高查准率 查准率 将检索词的检索范围限定在篇名和叙词字段;利用逻辑非(NOT)去掉与 需求无关的字段;利用逻辑与进一步限定主题概念的相关概念;利用辅助索 引字段限定。 B. 扩大命中文献数量,以提高查全率 查全率 选择文摘字段检索,甚至是全文;在检索式中,将近义词、同义词和相关词 用逻辑或组配;利用截词检索;减少辅助索引字段限定。
检索实例
课题名称:氧化法处理工业废水 目的:了解国内该课题最新动态
1.分析研究课题,明确检索需求
主题: 主题:氧化 处理 废水 检索年代: 检索年代:2004-2007 学科: 学科:化学工程 语种: 语种:中文
关键词: 关键词:直接从文献的篇名或文摘或全文中抽取出来的非规范化检索词 如:《分子农业—— 一个大有发展前途的农业领域》 《分子农业 一个大有发展前途的农业领域》 关键词:分子农业;转基因植物;医用蛋白质;生物多聚体 关键词:分子农业;转基因植物;医用蛋白质;
3、作者检索 、
作者检索是从文献的作者姓名出发来检索其文献。 “作者” 作者检索是从文献的作者姓名出发来检索其文献。 作者” 广义上还应包括:汇编者、编者、主办者、译者等,此外, 广义上还应包括:汇编者、编者、主办者、译者等,此外,还有 代表机构、单位的团体作者,包括作者所在单位。 代表机构、单位的团体作者,包括作者所在单位。
4、名称检索 、 名称检索点是从各种事物的名称出发来检索文献信息。 名称检索点是从各种事物的名称出发来检索文献信息。 这些名称包括:书名、刊名、资料名、出版物名、出版社名、 这些名称包括:书名、刊名、资料名、出版物名、出版社名、会议 物质名称等等,也包括人名和机构名。 名、物质名称等等,也包括人名和机构名。 书名目录、馆藏目录普遍使用书名、 书名目录、馆藏目录普遍使用书名、刊名等出版物名称作为其检索 而论文、文章篇名一般不用作检索点。 点,而论文、文章篇名一般不用作检索点。 而在一些期刊全文数据库中,刊名,文章篇名都是检索点。 而在一些期刊全文数据库中,刊名,文章篇名都是检索点。

信息检索技术

评价信息检索系统的一个核心因素即: 相关性
两个最常用的相关性指标是:精确度和 召回率
一、信息检索技术综述
3、信息检索系统的评价
精确度:是检索获取的相关数据记录个数 与检索获得的所有数据记录个数的比值。 它反映了系统能够返回与用户查询相关数 据记录的能力。
召回率:是检索获取的与用户查询相关的 数据记录个数与数据全集中所有与用户查 询相关的数据记录个数的比值。反映了系 统能够找到全部相关数据记录的能力。
插入内容:倒排索引
aaa 1 bbb 1,2 ccc 1 ddd 1,2 yyy 2 当建好了上面所示的倒排索引后,一旦我们要 查找哪些文章中含有某个关键字时,只需取出 该关键词所对应的文章号就行了。 比如我们查找aaa,返回1.查找ddd,返回1,2
一、信息检索技术综述
2、信息检索系统
数据库管理模块:将文档以数据库的格 式存储、管理和访问,
二、信息检索的统计模型
(1)词频与倒文档频度法 该方法将一个索引词在单个文档中的重要性和在 整个数据全集中的重要性结合起来,成为一个统 一度量。 一个词在文档中出现的频度是该词重要性的标志 之一,wi,j=TFi,j=freqi,j(索引词Ki在文档dj中的频度)
一个索引词的权重还应该与该词所在的文档总数
信息检索技术
一、信息检索技术综述 二、信息检索的统计模型 三、信息检索中的自然语言处理方法
一、信息检索技术综述
1、信息检索系统的定义与术语 2、信息检索系统 3、信息检索系统的评价 4、信息检索简史
一、信息检索技术综述
1、信息检索系统的定义与术语
信息检索,最早是1952年由Calvin N.Mooers提出 的,其原义包括海量信息的存储和查找两个方面的内 容。

信息检索技术习题答案

《信息检索技术》(第三版)书后习题及参考答案(部份)第1章绪论【综合练习】一、填空题1.文献是信息的要紧载体,依照对信息的加工层次可将文献分为_________文献、__________文献、___________文献和___________文献。

2.追溯法是指利用已经把握的文献末尾所列的__________,进行一一地追溯查找_________的一种最简便的扩大情报来源的方式。

3.用标准化词语来表达文献信息__________的辞汇叫主题辞。

主题途径是依照文献信息的主题内容进行检索的途径,利用能代表文献内容的主题辞、关键词、叙词、并按字顺序列实现检索。

4.运算机信息检索进程事实上是将___________与____________进行对照匹配的进程。

5.不管是手工检索仍是运算机检索,都是一个通过认真地试探并通过实践慢慢完善查找方式的进程。

检索进程通常包括以下几个步骤_________、__________、__________、__________、_________。

6.检索工具按信息加工的手腕能够分文__________、____________、___________。

7.《中国图书馆图书分类法》共分___________个大体部类,下分________个大类。

8.索引包括4个大体要素:索引源、___________、___________、和出处指引系统。

答案1.零次,一次,二次,三次2.参考文献,引文3.内容特点4.检索提问词,文献记录标引词5.分析课题,选择检索工具,确信检索途径及检索式,进行检索,获取原文6.手工检索工具,机械检索工具,运算机检索工具7.五,228.索引款目,编排方式二、判定题1.在检索信息时,利用逻辑符“AND”能够缩小收缩范围。

()2.逆查法是由近及远地查找,顺着时刻的顺序利用检索工具进行文献信息检索的方式。

()3.按编制方式划分,信息检索工具能够分为:工具、机械检索工具、运算机检索工具。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(3)逻辑“非”:(NOT) 或 “-”表示
(1)逻辑“与”(AND或*)
逻辑“与” (AND) 是用来组配具有相互交叉限定关系的检 索概念。逻辑“与”有时也用“*”代替,其含义是检出的记录中
同时含有“AND”前后两个检索词。如:查找有关“纳米”和
“材料”方面的文献时,其检索式为: ●Nano AND Materials
会涉及医学方面的信息资源,所以要考虑跨学科的问题。
(3)选择哪些语种的信息源:是中文还是西文?还是两者兼顾。
(4)信息源覆盖的年限是否符合要求。大多数数字信息资源覆盖的
年限都是近20年的内容,如果课题需要更早的资料,就要考虑手工检 索的问题;还有些数据库由于更新速度的原因,无法提供最新的信息
,也是要考虑的因素,考虑用其它相关资源来予以补充。
2.2 选择相关信息资源
通过检索需求的目的的分析,有针对性的选择相关信息源,主要
确定以下几个方面: (1)是否要对所有与检索课题相关的资源进行检索,如果是,则
不但要考虑检索一次文献和二次文献的数据库,而且对于网上其
它资源;如搜索引擎、学科导航专题BBS等也要进行查询。 (2)究竟要选择哪些信息源;如查找生物学方面的信息,则可能
如:学生 * 互联网
(2)逻辑“或”:用“OR”或“+”表示
在检索中,你也可以用逻辑“或”(OR)连接关键词。检索 式(A OR B )可以检索到包含A或者B或者A和B同时出现的文 献。OR最好用于针对一个概念的同义词检索。很显然,使用 OR可以扩大检索范围。
例如 Internet OR Web
●Nano * Materials
当你希望所找的文章中包含两个或两个以上的检索概念时,你可以在检索 式中用“AND”将这些关键词连接起来,表示这些关键词必须同时出现在记 录中的某处。使用“AND”将缩小检索范围。 如: students AND Internet 输入上面这个检索式,会找到关于students和internet同时出现的文 章,只包含其中一个词的文章是不会被检索到的。因此, 在连接不同概念 的检索词时,AND是非常有用的。在一个检索式中,AND可以被使用多 次。 如: students AND Internet AND assignments 有的中文数据库用“*”来代替AND,就象下面的这个例子。当然,不是所有 的中文数据库都支持这种用法,你可以查看帮助文件加以确认。
输入comput* 可以检出 computer,computus,computing,computative,computator等
截词符用来对检索词(干)进行扩展。在不同的检索系统中,截词符有 不同的表示方法,通常用 “?”或者“*”来表示。 截词方式: 按截断的位置来分共有三种:后截断、中间截断、前截断; 按截断的字符数量来分:有限截词(limited truncation)、无限截词( unlimited truncation)。 平时用得较多的是后截断(无限截词和有限截词)和中间截断(仅允许 有限截词)。
(5)信息源的特点及针对性如何:要了解自己已选信息资源的查询 特点,是否与自己的信息需求相吻合。例如要查询某个机构或公司的 网页,使用搜索引擎是最好的;查询新闻时事,可登录到一些新闻网 站;查找学位论文,就一定要使用学位论文数据库或直接登录到大学 的网站上查询或申请提供相关的服务。
需要注意的是,有的中文数据库在使用NOT时需用“-”来代替,就象下面的 例子。当然,不是所有的中文数据库都支持这种用法,你可以查看帮助文 件加以确认.
如:
计算机 - 软件
上述检索式用于查找只出现计算机而不出现计算机软件的文献,用于连 接排除关系的检索词,即排除不需要的和影响检索结果的概念。用NOT
smokes等进行检索。对于最多允许添加一个字符的情况, 则用 ? ? 的形
式表示。如:smok? ?;将只对 smoke , smoky进行检索。
(2)中间截断 中间截断是把截词符号放在一个检索词的中间。一般中间 截断只允许有限截断。中间截词符也称通配符,是在一词中
间用若干个?号,表示可插入若干个字符。
检索结果的记录一定比用关系较松的算符检出的记录数少。
以下用electron和device 两词为例,在Ei Compendex数据库检 索,其结果如下表所示。
位置算符按照限制程度的大小排序为:(W)、(nW) 最强,(N)、(nN)次之,(S)再次之,(F)最弱。
2.检索策略 执行一个课题的检索是有过程、分步来 完成的,检索步骤的科学安排称为检索策 略(search strategy) ,它是为实现检索
如:silicon(2W)sensor;命中的记录中出现的匹配词除上例的外
,还可能会有:silicon angular rate sensor , silicon-based
chemical sensor等等。
(2)(N)与(nN)算符
(N):N是near的缩写。(N)表示其连接的两个检索词的词序可变,但两
系统将找出 “behave, behaviour,behavioural”等等。 ◐后截断有限பைடு நூலகம்词
说明具体截去字符的数量,截词符是在一个词尾加有限个 ?号,n个 ?
号表示其后可添加的字符数少于等于n个。 如:smok?? ;系统 将对smoke , smoky , smoked , smoker ,
NOT(非),下面的篇幅将向你展示连接词的用法
1.1布尔逻辑算符
布尔逻辑算符是规定检索词之间逻辑关系的算符, 利用布尔逻辑算符进行检索词或代码的逻辑组配,是
计算机信息检索系统中最常用的一种检索方法,也称
布尔检索。 布尔逻辑算符通常包括以下三种: (1)逻辑“或”:(OR) 或“+”表示 (2)逻辑“与”:(AND) 或“*”表示
Comput*er
截词符就是用一个符号来代替单词的一部分或某个字母。截词符只用 于英文检索。 截词检索的作用是减少检索词的输入而保证相关检索概 念的涵盖,同时也方便解决语言文字拼写方面的差异(如美式英语和 英式英语),避免漏检。这样可以扩大检索范围,提高查全率,节省 检索时间。 看看下面这些例子:
输入wom?n 可以检出woman,women
连接检索词A和检索词B,
检索式为:A NOT B (或A—B) 表示检索含有检索词A而不含检索词B的信息,即将包含检索词B的信息
集合排除掉。
如:查找“动物的乙肝病毒”的文献的检索式为: hepatitis B virus(乙肝病毒) not human(人类)
图(a)
图(b)
图(c)
1.2 截词算符( truncation )
(5)(F) 算符 (F): F是Field 的缩写。(F)表示其连接的两个检索词必须出现在 同一字段中,字段不限,词序不限。 如:pollution(F)control 可检出:
control and management of industrial pollution
不同算符的比较:两个词由不同的算符连接组成不同的检索式,其检 索结果显然不同。比如同样两个词用关系较紧的算符其
第三节 信息检索技术
The Information Retrieval Technology
1.检索算符 2.检索策略
3.检索评价
第三节 信息检索技术
1.检索算符
用一个关键词检索可能比较简单容易,但通常检索题目会 用到不止一个关键词。下面就讲一下有效组合多个检索概念的 方法和技巧。 数据库是有高度的组织结构性的,因此,要有效地进行检索 需用到一些特殊的技术。当你要用多个词表达你的检索意图时, 检索词的输入必须通过数据库能够"理解"的方式才行。 例如: 互联网对青少年的影响
首先列出相关的检索词:互联网、青少年、影响。要
注意的是,通常名词比形容词、介词、代词更适合作
为检索的主题词,你知道吗?有些没有实际意义的虚 词在检索中被称为禁用词(stopword),禁用词在检索 时通常会被忽略掉;接下来试着把这些检索词组配起 来:“互联网”和“青少年”和“影响”
常用到的连接词有AND(与)、OR(或)和
词间不允许插词。
(nN): (nN)中的n表示允许插词量少于或等于n个。
如:internet(1N)accessing 命中记录中除上例的外,还会可能有: accessing the internet , internet /intranet accessing等。
(3)(L)算符 (L):L是limit的缩写。(L)表示其连接的两个检索词之间有主副关 系,前者为主,后者为副,可用来连接主、副标题词。它们出现在记录 的规范词字段。 如:television(L)high definition 命中记录的规范词字段(de)中出现的匹配词是:TELEVISION-High definition。 (4)(S)算符 (S):S是Subfield的缩写。(S)表示其连接的两个检索词必须出现在同一 子字段中。子字段是指字段中的一部分,如一个句子、一个词组、短语 。字段不限,词序不限。 如:silicon(S)sensor 命中记录出现的匹配情况如: A vacuum magnetic sensor(VMS) using a silicon field emitter tip was fabricated and demonstrated.
中间截断主要用于英式和美式单词的不同拼写方式,以及有 些词在某个元音位置上出现单复数不同。 如:organi?ation 将对organisation和organization进行检索。
如:wom?n
系统将找出 "woman" , "women“;
中文数据库截词一般只能用在词尾,英文数据库则3种方式 都可以。 (3)前截断 前截断 用? 或 *来表示 把截词符放在字根的左边。如:*Computer,系统在检索时, 索引词Microcomputer算命中
相关文档
最新文档