信息检索2-词典
信息检索(2)

信息素质
• 信息素质(Information Literacy 简称IL),又
称信息素养,简单地讲,信息素养是指个人“能认 识到何时需要信息,和有效地搜索、评估和使用 所需信息的能力”。 • 它包含了三个层面:
信息意识、信息能力、信息道德。
信息素质的内涵:
信息意识——对各种信息自觉的心理反映
信息能力——信息技术的应用能力搜索引擎 、Google搜索引擎 分类目录( Directory )
雅虎中国、搜狐、新浪、网址之家、 网易分类目录等 • 三大系列中文网站 • 四次文献 • 五大多媒体技术 • 十大文献信息资源
• 一个原则 • 两类搜索引擎 • 三大系列中文网站: • 三大中文门户网站—新浪、搜狐、网易 • 三大中文期刊数据库—清华库、维普库、万方库 • 三大中文数字图书馆—超星、方正、书生之家 • 四次文献 五大多媒体技术 十大文献信息资源
Company
LOGO
课程性质
《文献信息检索》课就其实质来说,是一门方 法课, 即通过讲授信息检索基础理论、信息检索 方法和各种中外文数据库的使用,提高同学们获 取信息的能力,主要是培养学生的情报信息意识 和提高检索技能。
Company
LOGO
一、信息素质
信息素养的概念
• To be information literate, a person must be able to recognize when information is
二、信息源
• 信息的来源叫做信息源。 • 信息源可按不同的方法分类描述,比较常见的分
类方法有如下三种:
• 1、按信息的载体形式划分(电子文献等); • 2、按信息加工的级别划分(四次文献); • 3、按信息的发布形式划分(十大文献信息源等)
第二章 文献信息检索基本知识(2).概要

(2)截词检索表达式
用截词符号“*”、“?”或“$”加在检索词 的前后或中间,以检索一组概念相关或同一词根 的词。 按截断的位置可分为:
前截断、中间截断、后截断 按截断的字符数量可分为: 有限截断(?)、无限截断(*)
如:输入检索式“Comput*”,将检出包含 Computer、Computing、Computed、 Computerization 等词汇的结果。
第二章 信息检索基础知识
2.3 文献信息检索的工具
1、文献信息检索工具概述 检索工具是将大量分散无序的文献资料经过加 工整理,按照一定的规则和方法编制起来,用来 报道、存储和查找文献的工具,是附有检索标识
的某一范围文献条目的集合。
传统的检索工具是人们利用手工方法编制的
工具书,有字典、词典、目录、百科全书、名录、 类书、政书、表谱、图录等。这些工具书是人们
题录示例
(3)索引(引得) 索引是将书刊内容中所论及的篇名、语词、主 题等项目,按照一定的排检方法加以编制,注明出 处,供读者查检使用的检索工具。 索引与目录的根本区别就在于著录的对象不同, 目录所著录的是一个完整的出版单位,索引所著录 的则是完整的出版物的某一部分、某一观点、某一 知识单元,提高文献检索的深度和检索效率。
完全一致(精确匹配)、任意一致(模糊匹配)
等。
讨论1: 我馆书目查询系统共有多少种检索方式?其基 本检索有多少个检索字段?
讨论2: “中国学术期刊网络出版总库”有哪些检索方式?
?
? ? 中国科技期刊数据库初级检索界面
2、 信息检索方法
(1)常用法 ①顺查法 ②倒查法 ③抽查法 (2)回溯法 (3)循环法
信息检索

2、 报刊 报刊是一种以印刷形式或其它形式逐次刊行的,通常 有数字或年月日顺序编号的,并打算无限期地连续出 版下去的出版物。 报刊特点:数量大、品种多、内容丰富多样;出版周 期短,报道速度较快;发行、流通广泛、连续性强, 伴随着相应的学科领域发展而发展。 在检索工具的文摘中,往往有卷、期、页的标志(如 Vol. 10, No. 2, 201-209 )
信息检索(Information Retrieval):是指将信息按一 定的方式组织、存储起来,并根据用户的需要找出有 关信息的过程。它的全称又叫做“信息存储与检索” (Information Storage and Retrieval),这是广义的 信息检索。狭义的信息检索仅指该过程的后半部分, 从信息集合中找出所需信息的过程。
4、一、二、三次文献之间的关系 一次文献带有创造性;二次文献是在一次文献基础上 形成的,具有选择性、浓缩性;三次文献是在一、二 次文献基础上经过分析、提炼、总结形成的,具有概 括性。从一次文献到三次文献,是一个由分散到集中、 由无序到有序的过程。
三、按信息的表现形式划分
1、 文献型信息源 存储语言文字形式信息的各种载体的集合。 2、 非文献型信息源 数值型信息源、 声像型信息源、 多媒体信息源、 实物及口头信息源。
三、文献
1.文献的含义 在《文献情报术语国际标准(草案)》 (ISO/DIS5127)中对文献是这样定义的,即“为 了把人类知识传播开来和继承下去,人们用文字、 图形、符号、声频、视频等手段将其记录下来,或 写在纸上,或晒在蓝图上,或摄制在感光片上,或 录到唱片上,或存储在磁盘上。这种附着在各种载 体上的记录统称为文献”。 在《信息与文献术语》(GB/T4894— 2009)中对文献是这样定义的,即“文献,在 文献工作过程中作为一个单位的记录信息或实物对 象”。这里文献工作指的是为了存储、分类检索、 利用或传递而对记录信息所进行的连续和系统的汇 编和处理。
信息检索2-词典

San Francisco: 到底是一个还是两个词条?
如何判断是一个词条?
现代信息检索
词条化中数字的处理
3/20/91 Mar. 12, 1991 20/3/91 55 B.C. B-52 【B-52轰炸机,美国的一种轰炸机】 PGP 密钥:324a3df234cb23e 【PGP是一个基于RSA 公匙加密体系的邮件加密软件】 (800) 234-2333
简单的布尔检索 vs. 结果的排序
简单的布尔检索只返回匹配上的文档,不考虑结果顺序 Google和其他大部分精心设计的布尔引擎均对结果进行排序, 以使好的结果排在差的结果的前面
13
现代信息检索
本讲的内容
索引构建过程(特别是预处理) 如何对索引文档进行处理来得到词典
理解文档(document)的概念 词条化(Tokenization),理解词条(token)的概念 词项生成,理解词项(term)的概念
每个布尔表达式都能转换成上述形式(合取范式)
获得每个词项的df (保守)通过将词项的df相加,估计每个OR表达式 对应的倒排记录表的大小 按照上述估计从小到大依次处理每个OR表达式.
11
现代信息检索
一个布尔搜索引擎Westlaw: 例子
需求:有关对政府侵权行为进行索赔的诉讼时效(What is the statute of limitations in cases involving the federal tort claims act?) 查询: LIMIT! /3 STATUTE ACTION /S FEDERAL /2 TORT /3 CLAIM /3 = within 3 words, /S = in same sentence
信息检索重点

1.信息检索(information retrieval) 定义(1)广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关的信息的过程和技术。
所以它的全称又叫信息存储与检索(information storage and retrieval).(2)狭义的信息检索:指广义的信息检索的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们的所说的信息查寻。
(information search)2.检索工具定义:检索工具是人们用来存储、报道和查找文献的工具。
因此,它具有存储和检索的功能。
存储是把分散、无序的文献,采用一定的检索语言使其集中,组织起来,成为有规律的检索系统,变成检索工具。
检索是人们按照有关检索语言,采用一定的方法和途径,检出自己所需的文献。
3.检索策略的定义陈光祚:所谓检索策略就是在弄清用户情报需求实质的前提下,选择检索途径、检索用词以及明确各词之间逻辑关系和查找步骤的科学安排。
赖茂生:所谓检索策赂,是指为实现检索目的而制定的全盘计划和方案,是对整个检索过程的谋划和指导。
4.信息资源:是人类存储与载体(包括人脑)上的已知或未知的可利用的信息。
信息中的载体信息和主体信息是使信息资源的最基本的组成部分。
填空一.检索工具的功能(1)报道功能。
(2)标识功能。
(3)辅助检索功能。
二.检索工具的类型1 按检索方法划分检索工具可以划分为手工检索和机械检索工具两大类型,机械检索工具主要是指计算机检索。
2 按收录范围划分检索工具可分为综合性检索工具、专业性检索工具、单一性检索工具3种。
综合性检索工具收录范围广,涉及多门学科。
专业性检索工具收录的范围仅限于某一学科领域。
单一性检索工具只收录某一特种类型的文献,但学科范围可广可窄。
3 按出版形式划分检索工具又可分为书本式、卡片式、磁带式和缩微制品等形式,书本式又包括书刊式、单卷式和附录式3种。
4 按收录文献的对象和揭示方式来划分⑴目录目录是一批图书或其他单独出版的资料的系统化记载及内容的揭示。
《信息检索》 第2讲 信息检索的基本知识2

19
2013-8-1
(2)自然语言和受控语言的一体化发展趋势
在网络环境下自然语言和受控语言的融合或称一体化是检索
语言未来发展的必然趋势。这方面比较前沿的、有代表性的 理论研究和实践是国内张琪玉先生提出的学科——事物概念 组配型检索语言和美国国家医学图书馆所创建的UMLS系统 。 学科——事物概念组配型检索语言具有的特点是:通过学 科聚类和事物聚类的结合、号码标识和词语标识的结合以及 系统序列和字顺序列的结合,实现分类系统和主题系统的完 全一体化。用户从自然语言词汇、分类号和主题词任一途径 入口检索,都能获得相应的文献。这种检索语言具有开放性 ,可不断增补新概念。目前该模式正处于理论研究阶段。 UMLS模式即一体化医学语言系统。UMLS由超级叙词表、语 义网络、情报源图谱和专家词典四个相互联系的部分组成。
13
2013-8-1
用主题法查找文献,要注意以下几点:
注意利用词表
选择主题词要把握概念的含义 要利用概念之间的属种关系和相关关系增加检索线索
14
2013-8-1
注意利用词表
主题词是检索系统使用的专门的规范化语言,用这
种语言表述的概念,只有一种解释,不允许一词多 义、多词一义,这是规范化检索语言的单义性所规 定的。而一般用户的提问用的是自然语言,自然语 言并不遵守特定事物具有特定概念用特定语言表达 这一原则。
10
2.2 关键词语言
关键词语言是适应目录索引编制过程自动化的需要而产
生的。关键词是文献的篇名、摘要、正文中出现的具有 实质意义并能表达文献主题内容的词语。以关键词作为 标识的检索系统就叫做关键词语言。 由于关键词是未经规范的自然语言,一个概念可以用几 个词义相同或相近的词来表达,因此关键词语言没有固 定的词表,只有一个停用词词表,用以识别词语的词性 ,方便计算机自动抽取实质性语词。 关键词语言十分适于计算机编制索引,检索入口多,编 制速度快,但缺点是容易造成漏检。 例如:“国际联机检索概论”中的“国际联机检索”、 “国际联机”、“联机”、“检索”都是能描述这篇文 献主题的关键词,都可以作为检索词。
《信息检索基础2》

《信息检索基础2》一、单项选择题1、手稿、私人笔记等属于文献,辞典、手册等属于文献。
a一次,三次b零次,二次c零次,三次d一次,二次2、分类途径是按照文献信息所属的学科门类,利用进行检索的途径。
a学科名称b专业名称c分类号da、b、c均可3、如果希望查找“对用后均法进行数据处理的讨论”这个课题相关的文献,较好的检索词应该是。
数据处理,讨论a后均法,进行,数据处理b后均法,数据处理c后均法,进行,d用,后均法,进行,数据处理4、文献数据库中字段的基本内容是。
库属性的描述a对记录属性的描述d对文档属性的描述b对记录某一方面具体属性的描述c对数据5、以文献线索为检索对象的书目检索,是属于。
息检索a文献信息检索b事实信息检索c数据信息检索d全文信6、信息检索提问一般要从文献的和内容特征进行提问。
a分类号b外部特征c主题词d索书号7、布尔逻辑是用于从某一检索范围中排除不需要的概念。
a与b或c非d8、类型的专业文献出版周期最短、发行量最大、报道最迅速及时。
a报纸b期刊c会议文献d专利9、用来查找某一范围的基本知识、重要资料和数据的参考工具书是a年鉴b手册c字典与百科全书d表谱与图谱10、专利文献提供技术信息具有以下特点a内容专深、全面、可靠,不公开b新颖、可靠、实用,公开c新颖、可靠、成熟,是从事生产的依据d新颖、可靠、专深,解密后公开11、以下文献中,哪种是二次文献a《全国报刊索引》b《中国大百科全书》c《说文解字》d《新华字典》12、在我国核心期刊的评价体系中,影响最大的是。
刊》(cscd)二、多项项选择题1、有关截词的叙述中,是正确的。
a截词符要紧接在词干前后,截词符和词之间不能有空格c截词符是用于规定检索词之间位置关系的算符b不论什么词d避免将检索词a《中文社会科学引文索引》(cssci)c《中文核心期刊要目总览》b《中国科学引文数据库来源期d《中国科技论文统计源期刊》13、在《中图法》的22个大类中,"s”类表示:a生物科学b医药、卫生c农业科学d天文学、地球科学14、以下哪个属于截词检索技术中的截词符a。
文献检索,信息检索(2)第二章 信息检索原理

缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
30
现代信息检索
中文分词
解决歧义和未登录词识别的基本方法:
规则方法:分词过程中或者分词结束后根据规则进 行处理;
统计方法:分词过程中或者分词结束后根据统计训 练信息进行处理。 规则+统计
德语中复合名词连写
Lebensversicherungsgesellschaftsangestellter ‗life insurance company employee‘ 【人寿保险公司员工 】 德语检索系统往往要使用一个复合词拆分的模块,而 且该模块对检索结果的提高有很大帮助(可以提高15%)
San Francisco: 到底是一个还是两个词条?
如何判断是一个词条?
现代信息检索
词条化中数字的处理
3/20/91 Mar. 12, 1991 20/3/91 55 B.C. B-52 【B-52轰炸机,美国的一种轰炸机】 PGP 密钥:324a3df234cb23e 【PGP是一个基于RSA 公匙加密体系的邮件加密软件】 (800) 234-2333
索引量太大,查全率百分百,但是查准率低,比如查“明天” 这句话也会出来
词:李明 天天 都 准时 上班
索引量大大降低,查准率较高,查全率不是百分百,而且还会 受分词错误的影响,比如上面可能会切分成:李 明天 天都 准 时 上班,还有: 他和服务人员照相
字词混合方式/k-gram/多k-gram混合 一般原则,没把握的情况下细粒度优先
31
现代信息检索
中文分词和检索
以下是当前某些研究的结论或猜测,仅供参考 并非分词精度高一定检索精度高
评价标准不同 分词规范问题: 鸡蛋、鸭蛋、鹌鹑蛋…… 目标不同
检索中的分词:
查询和文档切分采用一致的分词系统 速度快 倾向细粒度,保证召回率 多粒度并存
搜索引擎中的分词方法
每个布尔表达式都能转换成上述形式(合取范式)
获得每个词项的df (保守)通过将词项的df相加,估计每个OR表达式 对应的倒排记录表的大小 按照上述估计从小到大依次处理每个OR表达式.
11
现代信息检索
一个布尔搜索引擎Westlaw: 例子
需求:有关对政府侵权行为进行索赔的诉讼时效(What is the statute of limitations in cases involving the federal tort claims act?) 查询: LIMIT! /3 STATUTE ACTION /S FEDERAL /2 TORT /3 CLAIM /3 = within 3 words, /S = in same sentence
词条流
Countrymen
Linguistic modules
修改后的词条
语言分析工具 roman countryman 2 1 13 4 2 16
friend Indexer friend roman
倒排索引
countryman
现代信息检索
文档分析
文档格式处理
pdf/word/excel/html?
26
现代信息检索
中文分词
中文分词是很多中文文本处理的第一步
我国科学家近日研制出一套水下反恐监控系统 我国 科学家 近日 研制 出 一 套 水下 反恐 监控 系统
分词方法
基于是否使用词典:
基于词典的方法:给出一部词典,根据这部词典进行匹配 无词典的方法:不需要词典,根据某种人工构词规则或者 统计规则从字生成词。
倒排记录表
更快的合并算法: 跳表法(skip list) 短语查询的处理及带位置信息的倒排索引
提纲
❶ ❷
上一讲回顾 文档
❸
词项
通常做法+非英语处理
英语
❹
跳表指针
❺
短语查询
15
现代信息检索
词典
回顾倒排索引构建
待索引文档
Friends, Romans, countrymen.
Tokenizer 词条化工具 Friends Romans
TOKENS AND TERMS
现代信息检索
词条化(Tokenization)
输入: ―Friends, Romans and Countrymen‖ 输出: 词条(Token)
Friends Romans Countrymen
词条 就是一个字符串实例
词条在经过进一步处理之后将放入倒排索引中的 词典中
通常中间有空格 早期的IR系统可能不索引数字
但是数字却常常很有用:比如在Web上查找错误代码 (一种处理方法是采用n-gram: 见第三讲)
元数据是分开还是一起索引
现代信息检索
语言问题:法语和德语
法语
L‗ensemble 【全部】 到底是一个还是两个词条?
L ? L‘ ? Le ? 但是常常希望 l‘ensemble 能和un ensemble 【一组】匹配 至少在2003年以前,Google没有这样处理 国际化问题!
词项-文档(term-doc)的0-1关联矩阵
Antony and Cleopatra
Julius Caesar
The Tempest
Hamlet
Othello
Macbeth
Antony Brutus Caesar Calpurnia Cleopatra mercy worser
1 1 1 0 1 1 1
12
现代信息检索
Google中是否使用布尔模型?
Google默认是与(AND)操作,输入查询[w1 w2 . . .wn]意味着 w1 AND w2 AND . . .AND wn
当返回文档不包含某个词wi 时,可能是如下情形:
指向该页面的锚文本包含wi 页面包含 wi 的变形(不同形态的同一词,拼写校对,同义等等) 长查询 (n large) 布尔表达式返回的结果少
1 1 1 1 0 0 0
0 0 0 0 0 1 1
0 1 1 0 0 1 1
0 0 1 0 0 1 1
1 0 1 0 0 1 0
Brutus AND Caesar AND NOT Calpurnia
若某剧本包含某单 词,则该位置上为1, 否则为0
现代信息检索
词项-文档矩阵太大
对于某个文档集,大小为6GB,但是词项-矩阵中 的元素个数为500G,其中只有1G个元素非零 (0.2%非零),矩阵极度稀疏
因此,只需要存储所有的非零元素,于是得到所 谓的倒排索引(Inverted Index) 原始文档集词项-文档矩阵倒排索引
现代信息检索
倒排索引
对每个词项t, 保存所有包含t的 文档列表
词典(dictionary)
倒排记录表( postings)
7
现代信息检索
倒排记录表的合并(求交集)
规则或者统计方法:
基于规则的方法:通过某种判定规则,确定是否为词 统计方法:基于语料库统计+机器学习
27
现代信息检索
中文分词
正向最大匹配(基于词典的方法)
假设只考虑一元和二元词项 二元词典{的确,确实,实在,在理}
0 1 2 3 4 5 6
他 说 的 确 实 在 理
指针位置
剩余词串
首字
最大匹配词条
0
他说的确实在理
他
他
1
2
说的确实在理
的确实在理
说
的
说
的确
4
6
实在理
理
实
理
实在
理
28
现代信息检索
中文分词
逆向最大匹配(基于词典的方法)
二元词典{的确,确实,实在,在理}
0 1 2 3 4 5 6
他 说 的 确 实 在 理
指针位置 6 4 2 1 0
剩余词串 他说的确实在理 他说的确实 他说的 他说 他
尾字 理 实 的 说 他
最大匹配词条 在理 确实 的 说 他
29
现代信息检索
中文分词
分词中遇到的两大难题:
未登录词问题(Out of Vocabulary, OOV):出现词典 中没有的词,如:人名、地名、机构名、一些新词 等等 歧义问题(Ambiguition):同一句子有多种可能的分 词结果
ቤተ መጻሕፍቲ ባይዱ
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/
现代信息检索
提纲
❶ ❷ ❸
上一讲回顾 文档
词项
通常做法+非英语处理
英语
❹
跳表指针
❺
短语查询
2
提纲
❶ ❷
上一讲回顾 文档
简单的布尔检索 vs. 结果的排序
简单的布尔检索只返回匹配上的文档,不考虑结果顺序 Google和其他大部分精心设计的布尔引擎均对结果进行排序, 以使好的结果排在差的结果的前面
13
现代信息检索
本讲的内容
索引构建过程(特别是预处理) 如何对索引文档进行处理来得到词典
理解文档(document)的概念 词条化(Tokenization),理解词条(token)的概念 词项生成,理解词项(term)的概念
法语邮件中带一个德语的pdf格式附件
如何确定索引的单位?
文件为单位? 邮件为单位? 如果邮件带有5个附件,怎么办? 一组文件? (比如采用html格式写的某个PPT文档)