信息检索2

合集下载

信息检索(2)

信息检索(2)

信息素质
• 信息素质(Information Literacy 简称IL),又
称信息素养,简单地讲,信息素养是指个人“能认 识到何时需要信息,和有效地搜索、评估和使用 所需信息的能力”。 • 它包含了三个层面:
信息意识、信息能力、信息道德。
信息素质的内涵:
信息意识——对各种信息自觉的心理反映
信息能力——信息技术的应用能力搜索引擎 、Google搜索引擎 分类目录( Directory )
雅虎中国、搜狐、新浪、网址之家、 网易分类目录等 • 三大系列中文网站 • 四次文献 • 五大多媒体技术 • 十大文献信息资源
• 一个原则 • 两类搜索引擎 • 三大系列中文网站: • 三大中文门户网站—新浪、搜狐、网易 • 三大中文期刊数据库—清华库、维普库、万方库 • 三大中文数字图书馆—超星、方正、书生之家 • 四次文献 五大多媒体技术 十大文献信息资源
Company
LOGO
课程性质
《文献信息检索》课就其实质来说,是一门方 法课, 即通过讲授信息检索基础理论、信息检索 方法和各种中外文数据库的使用,提高同学们获 取信息的能力,主要是培养学生的情报信息意识 和提高检索技能。
Company
LOGO
一、信息素质
信息素养的概念
• To be information literate, a person must be able to recognize when information is
二、信息源
• 信息的来源叫做信息源。 • 信息源可按不同的方法分类描述,比较常见的分
类方法有如下三种:
• 1、按信息的载体形式划分(电子文献等); • 2、按信息加工的级别划分(四次文献); • 3、按信息的发布形式划分(十大文献信息源等)

信息检索2-词典

信息检索2-词典

San Francisco: 到底是一个还是两个词条?
如何判断是一个词条?
现代信息检索
词条化中数字的处理
3/20/91 Mar. 12, 1991 20/3/91 55 B.C. B-52 【B-52轰炸机,美国的一种轰炸机】 PGP 密钥:324a3df234cb23e 【PGP是一个基于RSA 公匙加密体系的邮件加密软件】 (800) 234-2333
简单的布尔检索 vs. 结果的排序
简单的布尔检索只返回匹配上的文档,不考虑结果顺序 Google和其他大部分精心设计的布尔引擎均对结果进行排序, 以使好的结果排在差的结果的前面
13
现代信息检索
本讲的内容
索引构建过程(特别是预处理) 如何对索引文档进行处理来得到词典
理解文档(document)的概念 词条化(Tokenization),理解词条(token)的概念 词项生成,理解词项(term)的概念
每个布尔表达式都能转换成上述形式(合取范式)
获得每个词项的df (保守)通过将词项的df相加,估计每个OR表达式 对应的倒排记录表的大小 按照上述估计从小到大依次处理每个OR表达式.
11
现代信息检索
一个布尔搜索引擎Westlaw: 例子
需求:有关对政府侵权行为进行索赔的诉讼时效(What is the statute of limitations in cases involving the federal tort claims act?) 查询: LIMIT! /3 STATUTE ACTION /S FEDERAL /2 TORT /3 CLAIM /3 = within 3 words, /S = in same sentence

计算机信息检索2

计算机信息检索2

22
2.4 信息检索系统的基本概念
二次文献(检索工具)的类型
索引(index) 是对一组信息集合的系统化的指引, 通常依附于其他检索工具。
2019/5/3
23
2.5 文献信息检索的步骤
1. 明确检索要求,分析课题涉及的概念
明确检索要求就是要搞清楚需要查找的课题属于 什么学科,所需情报的文献类型及语种,查找文 献的年代,所需文献的最佳篇数,允许支配的检 索费用。 分析课题所涉及的主要概念,找出能代表这些概 念的若干个词或词组,这些词或词组将作为检索 词在检索中使用。
篇目按照一定的排检方法编排而成 的,供人们查找篇目出处的检索工 具。
2019/5/3
21
2.4 信息检索系统的基本概念
二次文献(检索工具)的类型
文摘 (Abstracts) 是以精练的语言把文献信息的重要
内容摘录下来,并按一定的著录规则 与排列方式编排起来,供读者查阅使 用的一种检索工具。
2019/5/3
5
2.3.1 检索语言种类
按构成原理
⑴分类语言:体系分类语言 ⑵主题语言
①叙词语言—概念组配是叙词语言的最主要 特征.
②关键词语言—不加规范化处理是关键词 语言的主要特征.
2019/5/3
6
2.3.2 分类检索原理与检索方法
分类检索原理:
⑴分类法(表)的定义:按照文献信息的内容和形
式等, 根据科学学科之间的逻辑归属关系, 采用 层次型或树杈型结构, 列举人类所有的知识类别, 并对每一种知识门类分别标以相对固定的代码, 从而形成的类表。
2019/5/3
33
2.6 会议馆藏信息
《1976-1978年西文科技会议 录联合目录》 《西文科技学术会议录联合目 录(续编)》 图书馆的OPAC系统

2017第二讲(1)-信息检索概述 二

2017第二讲(1)-信息检索概述 二

6. 输出检索结果
根据检索系统提供的检索结果输出格式,选择需要的 记录以及相应的字段(全部字段或部分字段),将结果显 示在屏幕上、存储到磁盘或直接打印输出,网络数据库检 索还可以提供电子邮件发送,整个检索完成。
第三节 检索效果的评价
• 检索效率 检索效率是衡量检索效果好坏的指征,一般通 过查全率和查准率两方面来反映。 查全率:指系统在进行某一检索时检索出的相关文 献与系统文献库中的相关文献总量之比率。 查准率:指系统在进行某一检索时,检索出的相关 文献量与检索出的文献总量之比率。 与查全率和查准率相对应的指标是漏检率和误检率。
检索效果的评价公式


查全率=被检出相关文献量/相关文献总量 =(a/a+c)×100%
例如:查有关“雷尼替丁的含量测定”的文献
运用布尔逻辑技术的检索式可写成: 雷尼替丁 AND 含量测定
其作用是缩小检索范围,提高查准率。
逻辑或:是一种具有概念并列关系的组配
用OR(or)或 +算符表示 A OR B:表示让系统查找含有检索词A或B,或同时包 括检索词A和检索词B的信息。
如:查有关 “维生素C”的文献 (“维生素C”: vitamin C 又称 L-ascorbic acid抗坏血酸)
例: 自行车(模糊) 扩展概念:脚踏车、单车等
精确检索
也称精确匹配或完全匹配,结果中包含与检索词完全相同的内容。
提示
目前计算机数据系统除了提供专业检索要 写检索表达式检索外,更多的会提供其他 检索途径如基本检索、高级检索等,其检 索界面以检索输入框及检索条件限定框的 格式让用户根据已知条件一步步构建检索 表达式来检索文献(构建原理是一致的)
trace elements not zone 微量元素 not 锌

《信息检索》 第2讲 信息检索的基本知识2

《信息检索》 第2讲 信息检索的基本知识2

19
2013-8-1
(2)自然语言和受控语言的一体化发展趋势
在网络环境下自然语言和受控语言的融合或称一体化是检索
语言未来发展的必然趋势。这方面比较前沿的、有代表性的 理论研究和实践是国内张琪玉先生提出的学科——事物概念 组配型检索语言和美国国家医学图书馆所创建的UMLS系统 。 学科——事物概念组配型检索语言具有的特点是:通过学 科聚类和事物聚类的结合、号码标识和词语标识的结合以及 系统序列和字顺序列的结合,实现分类系统和主题系统的完 全一体化。用户从自然语言词汇、分类号和主题词任一途径 入口检索,都能获得相应的文献。这种检索语言具有开放性 ,可不断增补新概念。目前该模式正处于理论研究阶段。 UMLS模式即一体化医学语言系统。UMLS由超级叙词表、语 义网络、情报源图谱和专家词典四个相互联系的部分组成。
13
2013-8-1

用主题法查找文献,要注意以下几点:
注意利用词表
选择主题词要把握概念的含义 要利用概念之间的属种关系和相关关系增加检索线索
14
2013-8-1
注意利用词表
主题词是检索系统使用的专门的规范化语言,用这
种语言表述的概念,只有一种解释,不允许一词多 义、多词一义,这是规范化检索语言的单义性所规 定的。而一般用户的提问用的是自然语言,自然语 言并不遵守特定事物具有特定概念用特定语言表达 这一原则。
10
2.2 关键词语言
关键词语言是适应目录索引编制过程自动化的需要而产
生的。关键词是文献的篇名、摘要、正文中出现的具有 实质意义并能表达文献主题内容的词语。以关键词作为 标识的检索系统就叫做关键词语言。 由于关键词是未经规范的自然语言,一个概念可以用几 个词义相同或相近的词来表达,因此关键词语言没有固 定的词表,只有一个停用词词表,用以识别词语的词性 ,方便计算机自动抽取实质性语词。 关键词语言十分适于计算机编制索引,检索入口多,编 制速度快,但缺点是容易造成漏检。 例如:“国际联机检索概论”中的“国际联机检索”、 “国际联机”、“联机”、“检索”都是能描述这篇文 献主题的关键词,都可以作为检索词。

《信息检索基础2》

《信息检索基础2》

《信息检索基础2》一、单项选择题1、手稿、私人笔记等属于文献,辞典、手册等属于文献。

a一次,三次b零次,二次c零次,三次d一次,二次2、分类途径是按照文献信息所属的学科门类,利用进行检索的途径。

a学科名称b专业名称c分类号da、b、c均可3、如果希望查找“对用后均法进行数据处理的讨论”这个课题相关的文献,较好的检索词应该是。

数据处理,讨论a后均法,进行,数据处理b后均法,数据处理c后均法,进行,d用,后均法,进行,数据处理4、文献数据库中字段的基本内容是。

库属性的描述a对记录属性的描述d对文档属性的描述b对记录某一方面具体属性的描述c对数据5、以文献线索为检索对象的书目检索,是属于。

息检索a文献信息检索b事实信息检索c数据信息检索d全文信6、信息检索提问一般要从文献的和内容特征进行提问。

a分类号b外部特征c主题词d索书号7、布尔逻辑是用于从某一检索范围中排除不需要的概念。

a与b或c非d8、类型的专业文献出版周期最短、发行量最大、报道最迅速及时。

a报纸b期刊c会议文献d专利9、用来查找某一范围的基本知识、重要资料和数据的参考工具书是a年鉴b手册c字典与百科全书d表谱与图谱10、专利文献提供技术信息具有以下特点a内容专深、全面、可靠,不公开b新颖、可靠、实用,公开c新颖、可靠、成熟,是从事生产的依据d新颖、可靠、专深,解密后公开11、以下文献中,哪种是二次文献a《全国报刊索引》b《中国大百科全书》c《说文解字》d《新华字典》12、在我国核心期刊的评价体系中,影响最大的是。

刊》(cscd)二、多项项选择题1、有关截词的叙述中,是正确的。

a截词符要紧接在词干前后,截词符和词之间不能有空格c截词符是用于规定检索词之间位置关系的算符b不论什么词d避免将检索词a《中文社会科学引文索引》(cssci)c《中文核心期刊要目总览》b《中国科学引文数据库来源期d《中国科技论文统计源期刊》13、在《中图法》的22个大类中,"s”类表示:a生物科学b医药、卫生c农业科学d天文学、地球科学14、以下哪个属于截词检索技术中的截词符a。

信息检索试题2

信息检索试题2

一、单项选择题•1、一次文献、二次文献、三次文献是按照( )进行区分的。

• A 加工的层次 B 原创的层次 C 印刷的次数 D 评论的次数•2、根据文后参考文献信息区别图书和会议文献,主要依据是判断有无( )特征词,有则为会议。

• A 出版社 B 会议 C 题名 D 出版年•3、根据布拉德福文献分散定律,阅读( )文献是一种有效的情报获取方法。

• A 相关期刊 B 边缘期刊 C 核心期刊 D A、B、C三项•4、概念( )之间属于上下位关系。

• A 词典与辞典 B 薪俸与工资 C 小说与故事 D 古代与汉代•5、如果希望查找“玻璃复合薄膜的研究”这个课题相关的文献,较好的检索词应该是( )。

• A 玻璃,复合,薄膜,研究 B 玻璃,复合,薄膜 C 复合,薄膜,研究 D 玻璃,薄膜,研究•6、记录是对某一实体的全部属性进行描述的结果,在全文数据库中一条记录相当于( ),在书目数据库中,一条记录相当于()• A 一条文摘,一篇完整的文献 B 一条文摘,一条题录 C 一篇完整的文献,一条题录或文摘 D 一条题录,一条文摘•7、若想排除某概念,以缩小检索范围,可使用( )算符。

• A 逻辑“与” B 逻辑“非” C 逻辑“或” D 位置•8、ISBN是哪种文献特有的标识?• A 图书 B 期刊 C 科技报告 D 专利文献•9、下面不是布尔逻辑算符的是• A NOT B 0R C AND D NEAR•10、利用google进行检索时,将输入的关键词用引号引起来的检索技术可称为:• A 布尔检索 B 短语检索 C 原文检索 D 截词检索•11、利用baidu搜索信息时,要将检索范围限制在网页标题中,应该使用的语法是:• A site: B intitle: C inurl: D info:•12、信息检索根据检索对象不同,一般分为( )• A 二次检索、高级检索 B 分类检索、主题检索 C 数据检索、事实检索、文献检索 DSSReader计算机检索、手工检索•13、如果检索结果过少,查全率很低,需要扩大检索结果,此时,调整检索策略的有效方法有( )等。

文献检索,信息检索(2)第二章 信息检索原理

文献检索,信息检索(2)第二章  信息检索原理
优点:可以检索到某学科或专业的所有文献,有较高 的查全率。
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(1/30)、下列不属于十通的是()(2分)
▪A、《历代会要丛书》
▪B、《文献通考》
▪C、《通志》
▪D、《通典》
(2/30)、()是我国历史上收字多、解释最全面的大型历史性详解汉语字典。

(2分)
▪A、《辞海》
▪B、《汉语大字典》
▪C、《康熙字典》
▪D、《新华字典》
(3/30)、如果要查找“四色定理”的所有PPT幻灯片演示文档,正确的检索式为()(2分)
▪A、四色定理site:pdf
▪B、四色定理site:ppt
▪C、四色定理intitle:ppt
▪D、四色定理filetype:ppt
(4/30)、在百度的搜索框中,用户也可以做度量衡转换。

格式:换算数量换算前单位=()换算后单位。

如1USD=?RMB,可以换算出即时的美元与人民币之间的汇率。

(2分)
▪A、@
▪B、#
▪C、*
▪D、?
(5/30)、()不属于公开出版物。

(2分)
▪A、会议文献
▪B、专利文献
▪C、标准文献
▪D、档案文献
(6/30)、目录搜索引擎处理和提供的信息主要面向()(2分)
▪A、音像
▪B、数据
▪C、网页
▪D、网站
(7/30)、以下说法不正确的是()(2分)
▪A、可以修改正在浏览的页面
▪B、可以将你正在浏览的网站地址保存下来,只要单击工具栏上的“收藏”即可
▪C、浏览的内容可以打印出来
▪D、可以保存浏览的网页
(8/30)、中国古代最常用的四部分类法是()(2分)
▪A、东、西、南、北、
▪B、1、2、3、4
▪C、经、史、子、集
▪D、一、二、三、四
(9/30)、在Google中,输入检索词后单击()按钮,直接转到Google推荐的最常被查询的最佳网站,省时方便。

(2分)
▪A、二次检索
▪B、相关检索
▪C、百度一下
▪D、手气不错
(10/30)、查找网页标题中含有金墉的网页,正确的检索式是()(2分)
▪A、intitle:金墉
▪B、site:金墉
▪C、intext:金墉
▪D、金墉filetype:ppt
(11/30)、目录搜索数据库的内容是()(2分)
▪A、程序自动处理网页的结果
▪B、程序自动处理网站的结果
▪C、人工对网页的描述结果
▪D、人工对网站的描述结果
(12/30)、布尔逻辑检索中检索符号“OR”的主要作用在于()(2分)
▪A、减少文献
▪B、排除不必要的信息
▪C、提高查全率
▪D、提高查准率
(13/30)、()是记录一批或一种图书、报刊等所载的文章篇名、著者、主题、人名、地名、名词术语等,并标明出处,按一定排检方法组织起来的一种检索工具。

(2分)
▪A、目录
▪B、名录
▪C、手册
▪D、索引
(14/30)、在天网Maze中,检索词包括多个关键词时,不需要使用“AND”语法,只要用()隔开关键词就可以了,搜索引擎会自动运行“AND”语法进行检索,提供符合查询条件的网址列表。

(2分)
▪A、逗号
▪B、分号
▪C、空格
▪D、回车
(15/30)、访问中国法学会网站(),判断其性质属于()(2分)
▪A、论坛博客网站
▪B、专业协会网站
▪C、学科门户网站
▪D、学科资源网站
(16/30)、就整体而言,网上信息资源的特点之一是()(2分)
▪A、良莠混杂
▪B、权威性高
▪C、可靠性高
▪D、学术性高
(17/30)、下列属于资料性工具有的是()(2分)
▪A、题录
▪B、目录
▪C、文摘
▪D、名人录和机构名录
(18/30)、主题搜索引擎数据库内容是()(2分)
▪A、程序自动处理网页的结果
▪B、程序自动处理网站的结果
▪C、人工对网页的描述结果
▪D、人工对网站的描述结果
(19/30)、关于WWW的说法,不正确的是()(2分)
▪A、必须通过拨号网络连接方式访问
▪B、可以访问多媒体信息
▪C、采用HTML协议进行通信控制
▪D、需要Web浏览器访问信息
(20/30)、东汉许慎编撰的()是我国第一部正规字典。

(2分)
▪A、《康熙字典》
▪B、《四库全书》
▪C、《说文解字》
▪D、《新华字典》
(21/30)、多元搜索引擎的特点是()(2分)
▪A、A、B、C三项
▪B、主要起检索中介作用
▪C、使用多个单元搜索引擎
▪D、没有自己的索引数据库
(22/30)、P2P是peer-to-peer的简写,意为(),P2P是C/S相对应的网络运作模式,其显著特点是整个网络不存在的中心节点(或中心服务器),其中的每一个节点(peer)大都同时具有信息消费者、信息提供者和信息通信三方面的功能。

(2分)
▪A、局域网
▪B、对等网络
▪C、以太网
▪D、中心网络
(23/30)、百度网页搜索内嵌的( )功能,则能快速高效的解决用户的计算需求。

(2分)
▪A、相关搜索
▪B、翻译
▪C、计算器
▪D、度量衡转换
(24/30)、在公开出版物中,当前的()反映的信息内容可能最新。

(2分)
▪A、报纸文献
▪B、期刊论文
▪C、标准文献
▪D、学位论文
(25/30)、在百度检索文本输入框中分别输入中国银行和“中国银行”,其检索结果为()(2分)
▪A、前者类似于字段检索,后者类似于示截词检索
▪B、前者类似于词组检索,后者类似于位置检索
▪C、前者少,后者多,后者的结果包含前者
▪D、前者多,后者少,前者的结果包含后者
(26/30)、网页标题通常是对网页内容提纲挈领式的归纳。

在百度或谷歌搜索引擎中,把查询内容限定在网页标题中,有时能获得良好的效果,使用文方式是把查询内容特别关键的部分,用()引出。

(2分)
▪A、filetype
▪B、intitle
▪C、intext
▪D、site
(27/30)、查找“康思本”关于反竞争情况的PDF的学术论文,正确的检索式是()(2分)
▪A、康思本反竞争情报site:edu
▪B、康思本intext:反竞争情报
▪C、康思本intitle:反竞争情报
▪D、康思本反竞争情报filetype:pdf
(28/30)、查找我国人口数字等统计资料的检索属于(),应使用()来获取这类信息。

(2分)
▪A、数据和事实检索,百科全书
▪B、事实检索,手册
▪C、数据检索,中国统计年鉴
▪D、文献检索,年鉴
(29/30)、用户如果知道某个站点或某种类型的站点中有自己需要找的东西,就可以把搜索范围限定在这个或某种类型的站点中,提高查询效率,实现算途径是利用()语法。

(2分)
▪A、site
▪B、intitle
▪C、书名号
▪D、双引号
(30/30)、逻辑“与”算符是用来组配()(2分)
▪A、相近检索概念,缩小检索范围
▪B、不同检索概念,用于缩小检索范围
▪C、相近检索概念,扩大检索范围
▪D、不同检索概念,用于扩大检索范围
多选题
(1/10)、下列哪些属于文献三要素()(4分)
▪A、记录方式
▪B、知识
▪C、载体
▪D、信息
(2/10)、选集是根据一定标准选录一个或若干个作者的著作编成的书,它有以下特点()(4分)
▪A、重复出版
▪B、可读性强
▪C、导向性强
▪D、收录的内容精深
▪E、收录的内容非常齐全
(3/10)、二次文献又称检索工具,包括()(4分)
▪A、索引
▪B、书目
▪C、百科
▪D、文摘
(4/10)、可以从以下几个方面()不评价信息检索工具。

(4分)
▪A、检索效率
▪B、收录范围
▪C、检索功能
▪D、用户界面设计
▪E、检索结果处理
(5/10)、网络信息资源的特点有()(4分)
▪A、动态发展
▪B、数量巨大
▪C、内容丰富,形式多样
▪D、传播范围广
▪E、结构复杂,分布广泛
▪F、具有交互性
(6/10)、下列哪些手段会达到缩小检索范围,提高查准率的作用?()(4分)
▪A、短语检索如检索词加上双引号或括号
▪B、字段检索
▪C、限制检索
▪D、使用上位词
(7/10)、期刊因子具有()特点。

(4分)
▪A、动态性
▪B、学科性
▪C、学术性
▪D、娱乐性
(8/10)、常见的垂直搜索引擎有()(4分)
▪A、论坛搜索引擎:
▪B、比价购物搜索引擎:,
▪C、博客与RSS搜索引擎:,
▪D、商业搜索引擎:
▪E、图像搜索引擎:
▪F、百度:
(9/10)、《中国大百科全书》主要检索途径有()(4分)
▪A、内容分析索引
▪B、条目分类目录
▪C、条目的汉语拼音顺序
▪D、人名排序
(10/10)、利用Google搜索引擎检索时,当输入关键词过长时,检索系统会自行将检索词分解成若干独立的检索词,进行不限顺序匹配。

在检索词中添加()可以禁止拆分检索词,提高查准率。

(4分)
▪A、空格
▪B、双引号
▪C、书名号
▪D、逗号
▪E、句号
F、分号。

相关文档
最新文档