第4章信息检索语言、途径、方法和步骤

合集下载

第4章 信息检索技术

第4章  信息检索技术

如:?经济 则数据库中含有经济、工业经济、农业经济 等方面的文献均为命中文献。
3、中截断 (通用字符法或屏蔽)
是把截断符号置于一个检索词的中间,对词中 间出现变化的字符数加以限定。一般中截断仅允许 有限截断。
应用:用于英美单词的不同拼写方式或单复数的 特殊变化。
例如: defence defense
作用:扩大检索范围,增加命中文献量;提高检 索结果的查全率。3、逻辑“非”———————————————A
逻辑运算符: 逻辑表达式为: B
“not”或“-” A not B 或 A-B
其含义为:检索记录中含有检索词A,但不能
含有检索词B的文献,才算命中文献。
例如,在EI COMPENDEX(1998)文档中 检索提问式 SS PATENT NOT GERMAN 所得结果为: S1 S2 S3 110 325 108 PATENT GERMAN PATENT NOT GERMAN
1. 后截断 将截词符号放在一个字符串的右方,满足截词符左 方所有字符的记录都为命中记录。 无限截断:是在检索词词干后面加一个截词符,表 示不限制词尾可变化的字符位数,即查找词干相同的所有 词。例: comput* 表示允许其后可带有任何字符且数 量不限,相当于查找compute、 computed、 computes、 computing、 computer、 computers、computerize、 computerized、computation、 computations、 computational、 computationally 等词。
主题字段 (基本字段)
标题、叙词、关键词、文摘、 分类号等
字段 非主题字段 (辅助字段)
作者、作者工作单位、连续 出版物编号、使用语言、出版 者等

信息检索教程第四章 文本信息检索技术与方法

信息检索教程第四章 文本信息检索技术与方法
由于用户查询往往忽略大小写, 而使用小写, 因此, 所有字母转换成小写有助于用户的查询。
中文的分词
中文IR系统有两种主要检索方案
基于字的检索,按照字建立索引,需要在检索时进行逻辑运算。
基于词的检索,按照词建立索引,检索时直接命中。优点:检 索速度快、准确率高。
中文分 词( Chinese•Word•Segmentation):中文文本中 词与词之间没有空格,为了获 取词语信 息,需 要 对 词语进行自动的词语切分。
②对照停用字表,从正文或者文摘中删除高频的语法功能词(如a,the 等);
③对保留词的词干进行加工,去掉后缀(或前缀),将每个词还原
到其词根; ④先分析词根在正文中出现的频率,再按加权函数导出各词根
的权值;
⑤将权值大于特定阀值的词选作标引用的关键词。
在自动赋词标引过程中,标引词不是来自文献本身,而是来 自受控词表,所以需要人工预先编制好高效率的受控词表。
基于理解的分词方法
通过让计算机模拟人对句子的理解,达到识别词的效 果。其基本思想就 是在分词的同时进行句法、语义分 析,利用句法信息和语义信息来处理歧义现象。
4.2.2 停用词去除
在信息检索中,为节省存储空间和提高搜索效 率,在处理自然语言数据(或文本)之前或之 后会自动过滤掉某些字或词,这些字或词即被 称为Stop Words(停用词)。
标引深度:衡量标引详尽性,标引词对每条记 录各方面内容表达和识别的详尽程度
标引专指度:衡量标引词对记录特定内容描述 的精细程度。
标引方式:人工标引和自动标引
抽词标引和赋词标引
Document indexing
Goal = identify the important meanings and create an internal representation

第4章国内常用信息检索工具(系统)

第4章国内常用信息检索工具(系统)
中国标准服务网等
22
4.1 文献检索-标准文献查找示例
23
4.1 文献检索-标准文献查找结果
24
4.1 文献检索-科技报告
❖ 科技报告:关于某科研项目或活动的正是报告或记 录
❖ 科技报告在内容上具有一定保密性,往往以内部资 料的形式交流,或在一定时期后公开发表
发现网络平台(简称KDN) /help/AssistDocument/KDN/ht ml/main.htm ❖ 知网概览:资源、导航、数字化学习研究以及个人 /机构图书馆
27

4.2 常用系统-中国知网期刊全文数据库简介
❖ 收录国内7000多种重要期刊,以学术、技术、 政策指导、高等科普及教育类为主,同时收 录部分基础教育、大众科普、大众文化和文 艺作品类刊物
❖ 根据授予学位级别的不同,一般分为学士论 文、硕士论文、博士论文。其中博士学位论 文有较高的学术参考价值
❖ 如何查找学位论文?学位论文的一般检索途 径?
11
4.1 文献检索-查找学位论文
❖ 综合性检索系统 ✓ 中国学位论文文摘数据库(万方) ✓ 中国优秀博/硕士论文全文数据数据库 ❖ 收录国内公开发行的414种重要报纸 ❖ 提供报纸导航
31
4.2 常用系统-中国知网专利、标准、古籍 ❖ 中国知网收录专利、标准和古籍类数据库
32
4.2 常用系统-中国知网年鉴全文数据库简介
❖ 目前年鉴总计2000种 ❖ 按行业分成二十一类行业,同时按照地方年
❖ IPC类似等级体系分类法,将专利分成部、分 部、大类、小类、主组和小组等体系结构
18
4.1 文献检索-中国专利文献样式
思 考 : 专 利 的 主 要 检 索 途 径 ?
19

信息检索

信息检索

中文书本式的检索工具
《国内总书目》--《全国新书目》《科技新 书目》:查找国内出版的图书目录 《外文新书通报》:查找国外新书目录 《全国报刊索引》:查找国内期刊论文的工 具 科技 文献书目型数据库检索系统 事实型数据库检索系统 数值型数据库检索系统 全文数据库检索系统
“逻辑或”的组配种类
同义词 同一个人多个姓名 通用的英文缩写 化学物名称 Eg:CAD
逻辑非
用于排除含有不需要概念的信息,可缩小所 检索信息的范围。 逻辑运算符:“NOT”、“-” 逻辑表达式:“A NOT B ”“A-B” 语义表示:被检索文献中含有A而不含有B
4字段(限制)检索
在检索系统中,数据库设置的可供检索的字 段通常有两种: 表达文献主体内容特征的基本字段 表达文献外部特征的辅助字段 基本字段包括篇目(TI)、文摘 (AB)…… 辅助字段包括作者(AU)、语种 (LA)……
4字段(限制)检索
为了缩小检索范围,可利用字段代码来限制检索词 出现的字段,以提高检索速度和命中率。 如: economic models in ti(表示只在题 目字段中查找文献) economic models in de(只在主题词中 查找) economic models in ab(只在文摘中查 找) au = Smith,J.C (查作者为Smith,J.C 的 文章) py = 1998(只查1998年的文章) la =Chinese (只查语种为中文的文献)
位置算符检索即运用位置算符表示两个检索 词间的位置。 如果说布尔逻辑算符是表示两个概念之间的 逻辑关系的话,位置算符表示的是两个概念 在信息中实际物理位置关系。
检索时会经常遇到这样的问题?

信息检索与应用第四章 中文数据库检索

信息检索与应用第四章 中文数据库检索

文献太少怎么办


方法一:减少检索词 方法二:重新选择检索字段 方法三:知网节帮你解决 用不同的检索字段,逐步扩大检索范围:
篇名 < 关键词 < 文摘 < 主题 < 全文
检索实践

检索文章名称中包含“管理学”的期刊文章。 检索“老年性糖尿病”有关的医学文献。 检索“中医药治疗乙肝”方面的文献。
高级检索


高级检索可以在所有的字段中进行检索、 构建布尔检索式 检索词之间的逻辑组配关系为

不同字段之间:并且、或者、不含 同一字段中:并含、或含、不含 词频:检索词在相应检索字段中出现的频率 匹配:检索词命中方式(精确查询、模糊查询) 检索结果排序

可以对检索条件进行限定


检索小技巧
中文数据库检索
CNKI期刊、学位论文检索

中国知网数据库(简称CNKI)、中文科技 期刊数据库(简称维普)、万方数据库 (简称万方)是我国三大权威数据库。
CNKI简介


CNKI即是中国知识基础设施工程(China National Knowledge Infrastructure)。 CNKI工程是以实现全社会知识资源传播共享与 增值利用为目标的信息化建设项目,由清华大 学、清华同方发起,始建于1999年6月。 《中国知识资源总库》的全球最大的中文知识 门户网站, CNKI 亦可解读为“中国知网” (China National Knowledge Internet )的 英文简称。
按基金分组
按基金检索,细 化检索方向
检索结果处理——结果排序
排序浏览:可根据主题排序、发 表时间、被引频次、下载频次等 条件查看相关文献信息

信息检索知识点

信息检索知识点

信息检索知识点信息检索考点整理 1 、信息检索的概念广义的信息检索就是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储与检索两个过程; 而狭义的信息检索仅指有序化信息的检索查找。

2. 信息检索的原理就就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡就是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就就是初步命中检索所需的信息。

3 、为什么说信息存储与检索就是两个不可分割的有机体?检索的全过程包括存储与检索两个过程,存储与检索就是相辅相成、不可分割的。

存储过程主要就是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要就是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。

检索过程就是存储过程的逆过程。

因此,检索者只有在全面了解存储者就是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。

4 、信息检索的方法 (1)顺查法 (2)倒查法 (3)抽查法(4)追溯法 (5)循环法 5 、信息检索的途径 (1)内部特征途径a) 分类途径 b) 主题途径 (2)外部特征途径 a) 题名途径 b) 著者途径 c) 文献编号途径 d) 检索途径 e) 机构检索法 f) 引文检索途径 6 、布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2) 可操作性强,应用广泛;(3) 构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4) 能处理结构化提问。

缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7 、概率排序原则: 如果一个检索系统对用户的每个检索提问的反应就是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果就是最好的。

3信息需求及其表达4信息检索基础


中国图书馆分类法的体系结构
大类( 22 个):
A 马克思主义、列宁主义、 毛泽东思想 B 哲学 C 社会科学总论 D 政治、法律 E 军事 F 经济
一个字母表示一个大类,称为一级类目
O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医学、卫生 S 农业科学 T 工业技术 TH 机械、仪表工业 TM 电子技术 TN 无线电电子学、电 讯技术 TP 自动化技术、 计算技术 TQ 化学工业 TS 轻工业、手工 业
结论:做科研、发明之前,应利用信息检索来避免重复的研究,从而少走弯 路。
2. 检索语言
2.1 定义
检索语言是文献信息存储和检索过程中共同使用
的一种专门语言,用于描述检索系统信息的内部及外
部特征和表达用户信息需求,是编制检索工具的依据。
2.2 类型——按照描述文献的基本特征划分
不同的检索语言构成不同的标目及索引系统,提供各种检索点(即检索途径)
查阅文献 计划思考 实验研究 书写报告
计划思考 15%
科 研 人 员 时 间 分 配 表
1.5 信息检索的意义
提高信息查询的效率
全世界每年出版的图书有80万种以上,科技期刊8万种以
上,发表期刊论文大于600万篇以上;公开的专利说明书100多
万件;国际会议文献1万多件;美、英、德、日等国产生的科 技报告达20万件左右。 具备一定的信息检索能力,才能在浩如烟海的文献中,快 速、有效地查找出有用的信息。
明确的因素:一个月内 不明确的因素:外观、用途、厂商品牌; 不十分明确的因素:①价格在15万元左右多大幅度(是10万-20万, 还是14万-16万);②较高的性价比是指在一定价格前提下哪些主要部 件的技术含量及其指标。

信息检索技术第4章专利与标准文献检索简明教程PPT课件


第4章 专利与标准文献检索 2)中国专利分类表 中国国家知识产权局是我国专利法的最高执行机构,负责我国专利的申 请、审批及专利文献的出版、发行及报道工作。国家知识产权局出版的专 利文献除利用IPC进行分类外,还同时给出相应的中国专利范畴分类号。中 国专利范畴分类表共设有33个大类、230多个小类。 3)检索途径 印刷型的专利文献检索费时、费力、效率较低。现在通常利用光盘检索、 联机检索以及网络专利信息的检索。不论哪种形式,查找专利的途径基本 相同,主要有号码途径、名称途径、主题途径、分类途径和优先项途径。 4)专利文献结构 专利说明书记载了发明成果的详细内容,是专利文献的核心部分。20世纪 50年代后,各国的专利说明书正逐渐趋向统一化。一份专利文献通常包含 三部分: 专利文献的分类方法及检索途径 1)国际专利分类法 国际专利分类(IPC)系统于1968年诞生于欧洲。世界知识产权组织 (WIPO)是管理国际分类法的唯一机构,分别用英文、法文两种文字出版, 每5年修订一次。与其他文献的不同之处是专利文献按分类方式进行标引。 其分类方法从上到下依次是:部、大类、小类、主组和分组。专利文献共 分8个部、118个大类、620个小类,类目总数达6.4万个。
第4章 专利与标准文献检索 3. 专利申请的条件 1) 新颖性 新颖性指发明在申请专利前,世界上既没有相同的发明,又无相同的 声明,即该发明未在国内外公开出版,未曾公开使用或以其他形式为公众 所知。公知公用是能否申请专利的标准。 2) 先进性 先进性指发明或设计比现有技术水平先进,有突出的、实质性的创新, 对于本技术领域的专业技术人员来说非显而易见或不是很容易设计出来, 因而是先进的。 3) 实用性 实用性指发明具有明显的实用特点,能够在工农业生产和科研上制造 使用,并产生积极的社会效果。对于科学发现、智力活动的规则和方法、 疾病的诊断和治疗方法、动物和植物品种、用原子核变换方法获得的物质 《专利法》第25条规定不授予专利权。

信息检索基本知识


T
TB TG TH TE …… TU TV
TB1
TB2
TB3
TB4
…… TB48 …… TB488
……
TB482
TB489
T—工业技术类中图法举例
以T-工业技术大类下的TP类展开下位类如下: T 工业技术 TP 自动化技术、计算机技术 TP3 计算技术、计算机技术 TP39 计算机应用 TP393 计算机网络 TP393.0 一般性问题 TP393.01 计算机网络理论 TP393.02 计算机网络结构与设计
二、文献信息源类型
文献可按不同的方法分类描述,比较常见 的分类方法有如下三种: 按信息的载体形式划分(印刷、胶片、 电子文献等); 按信息加工的级别划分(四次文献); 按信息的发布形式划分(十大文献信 息源等)
1、按文献的载体形式划分
• 印刷型(Printed form):以纸张为载体 • 缩微型(Microform):以感光材料为载体:胶片 • 声像型(Audio-Visual form):以声像记录材料为 载体:磁带 • 电子型(Machine Readable form):以计算机信息 存储设备为载体 :软磁盘、光盘、硬盘等
叙词
•叙词是主题语言的高级形式。是以较正规和正式的 科学名称为基础组织而成一种主题法检索标识系统。 •由在概念上不可再分的基本概念单元词汇组成,检 索时可以利用这些单元词进行组配,以表达一个复杂 的概念。
•如课题: 太阳能热水器研究 汉语主题词表中正式主题词是太阳能利用、太阳 能加热等代替。
标题词
• 国际十进分类法(UDC: UDC(Universal Decimal Classification)
又称为通用十进制分类法。是世界上规模最大、用户 最多、影响最广泛的一部文献资料分类法。原由比利 时人P.-M.-G.奥特莱和H.-M.拉封丹在《杜威十进分类 法》第6版的基础上编成。近百年来,UDC已被世界 上几十个国家的10多万个图书馆和情报机构采用。 UDC目前已成为名符其实的国际通用文献分类法。

第四章 信息检索模型


向量空间模型
➢ 向量空间模型(Vector Space Model,VSM) 是由G·Salton等人在1958年提出的
➢ 代表系统
SMART( System for the Manipulation and Retrieval of Text)
➢ 这一系统理论框架到现在仍然是信息检索 技术研究的基础
D={d1, d2 , … , dm} 为了满足检索匹配所要求的快速与便利,文档di通常由
从文档中抽取的能够表达文档内容的特征项(如索引 项/检索词/关键词)来表示 设K={k1, k2 , … , kn} 为系统索引项集合 则di ={ωi1,ωi2 , … ,ωin} (ωij≥0) ωij→索引词kj在文档di中的重要性(权值weight)
相当于识别包含了一个某个特定term的文档
➢ 经过某种训练的用户可以容易地写出布尔查询 式
➢ 布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型”
布尔模型存在的问题
➢ 布尔模型被认为是功能最弱的方式,其主要问题在于不支 持部分匹配,而完全匹配会导致太多或者太少的结果文档 被返回 非常刚性: “与”意味着全部; “或”意味着任何一 个
模型中的问题
➢ 怎样确定文档中哪些词是重要的词?(索 引项)
➢ 怎样确定一个词在某个文档中或在整个文 档集中的重要程度?(权重)
➢ 怎样确定一个文档和一个查询式之间的相 似度?
索引项的选择
➢ 若干独立的词项被选作索引项(index keys) or 词表 vocabulary
➢ 索引项代表了一个应用中的重要词项 计算机科学图书馆中的索引项应该是哪些呢?
例如:文档的统计特性 ➢ 用户规定一个词项(key)集合,可以给每个词项附加权重
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第4章信息检索语言及其途径、方法和步骤
重点与难点:信息检索语言职能,信息检索途径与方法
1 信息检索语言及其职能
1.1 信息检索语言
信息检索语言是根据信息检索需要创建的一种人工语言,又称信息检索标识。

如果从反映信息特征的角度来看,那些代表了信息外表特征的著者姓名、题名、报告号、标准号、专利等信息检索标识和代表了信息内容特征的类号、叙词、标题词和关键词都是信息检索语言。

但从信息检索标识规范化的角度来看,信息检索语言可分为自然语言检索标识和规范语言检索标识。

前者包括著者姓名、题名、会议名称、机构号、标牌号、专利号和关键词,后者则指分类号、类名、标题词和叙词。

规范化检索语言是存取信息的依据。

在编制检索工具时,标引人员要对各种信息进行内容分析,把它们所包含的内容要点都分析出来,使之形成若干能代表信息内容的概念,并用规范化的语言如叙词、标题词或分类号把这些概念标示出来,纳入检索系统中。

当检索时,检索人员也要对提问进行主题分析,使之形成能代表信息需求的概念,并把这些概念转换成系统能接受的语言,然后才能从系统中得到用这些规范化语言所标引的信息。

因此,将信息需求者的自然语言转化成系统规范化的信息检索语言,对信息检索的成功至关重要。

1.2 信息检索语言的职能
信息检索语言的职能主要包括以下三个方面:
(1)信息检索语言可以表示文献内容、数据或其他信息形式。

(2)有专用概念表示用户的信息提问。

(3)能够指示计算机执行查询与检索。

2 文献信息检索的途径
在进行文献检索时,人们可以利用文献存贮时按其内容特征或外部特征进行排序的方法进行检索。

文献的内容特征是指文献所论及的事物、所提出的问题,涉及的基本概念,即主题以及文献内容所属的学科范围。

文献的外部特征是指题名、作者、作者单位以及某种特殊文献具体的标识。

2.1 内容特征途径
(1)主题途径
这是根据文献内容的主题特征进行检索的途径。

(2)分类检索
这是一种按照文献资料所属学科(专业)类别进行检索的途径。

2.2 外部特征途径
(1)著者途径
(2)题名途径
(3)序号途径
(4)引文途径
3 文献信息检索的方法
(1)顺查法
顺查法是指按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。

(2)倒查法
倒查法是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献信息检索的方法。

(3)抽查法
抽查法是针对检索课题的特点,选择有关该课题的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。

(4)追溯法
追溯法是指不利用一般的检索工具,而是利用已经掌握的文献(信息)末尾所列的参考文献,进行逐一地追溯查找“引文”的一种最简便的扩大情报来源的方法。

(5)综合法
综合法又称循环法,它是把上述两种方法加以综合运用的方法。

4信息检索的步骤
(1)分析研究信息检索课题
(2)选择信息检索工具
(3)确定信息检索方法
(4)掌握获取原文的线索
(5)获取原文
思考题:
(1)什么是信息检索语言?
(2)信息检索语言有哪些职能,
(3)信息检索途径与方法包括哪些内容?
(4)信息检索分为哪几步?。

相关文档
最新文档