第三章信息检索系统

合集下载

第三章 信息检索基本知识

第三章 信息检索基本知识


信息论的奠基人 申农在《通信的数学 理论》中把信息定义 为:“信息是用来消 除不确定的东西。”
控制论创始人
维纳在《信息控制论》 一书中指出:“信息是 人与外界相互作用过程 中相互交换的内容和名 称。”
―信息”的定义之所以呈现多样化,主要有三方 面的原因 : 第一,信息本身的复杂性。它是一个多元化、 多层次、多功能的综合物; 第二,信息科学是一门新兴学科,是一门“大” 学科,它有许多分支学科,它的内涵与外延 不很确切,而且随着社会、经济和科学技术 的发展处于不断发展之中; 第三,人们出于不同的研究目的或使用目的, 从不同的角度或层次出发,对“信息”必然 作出不同的理解与解释。
4.从信息观的角度理解,知识是人类通过信息 对自然界、生物界、人类社会运动规律的认识 和概括,是一种特定的人类信息,它是对信息 进行提炼、深化、抽象化、系统化的结果,是 信息中最有价值的部分。知识是信息的一部分。 知识必须要有充分、可靠的经验性证据, 并且要经过理性的合理加工。
(二)知识的特性 1.实践性 社会实践是一切知识产生的基础和检验知 识的标准,科学知识对实践有重大指导作用。 2.规律性 人们对事物的认识是一个无限的过程,人 们获得的知识在一定层面上揭示了事物及运动 过程的规律性。 3.渗透性 随着知识门类增多,各种知识可以相互渗透, 形成许多新的知识门类,形成科学知识的网状 结构体系。
四、文献 (一)文献的定义 1.国际标准化组织《文献情报术语国际标准》: 文献是存储、检索、利用或传递记录信息的过 程中,可作为一个单元处理的、在载体内、载 体上或依附载体而存储有信息或数据的载体。 2.国家标准《文献著录总则》:文献是记录有知 识的一切载体。 北大教授王子舟《图书馆学是什么》:是指专门 记录、传播有知识的一切载体。 南大教授沈固朝《信息检索(多媒体)教程》: 记录有人类精神信息的、且便于存贮或传递的 人工固态附载物

第三章 信息检索的基本知识

第三章 信息检索的基本知识

1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,

检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。

第三章图书信息的检索

第三章图书信息的检索

Company Logo
【期刊论文】王健等.金生宝胶囊治疗22例HIV感
染者的临床研究[J].中国中医基础医学杂志,
2000,6(7):33-35.
斜体字代表论文的篇名,“[J]”是文献类型标识符, journal代表期刊论文。该论文发表在《中国中医基础医学杂志》 上。“2000,6(7):33-35.”则表明论文所登载的卷期号和页 码,表示为:2000年出版的第6卷第7期第33-35页。
电子图书、电子期刊、学位论文检索
网络信息资源检索(搜索引擎)
前面课程回顾
信息的来源叫做【信息源】。信息源可按 不同的方法 分类描述,比较常见的分类方法
有如下【三种】:
1、按信息的【载体形式】划分(电子文献 等); 2、按信息【加工的级别】划分(四次文献); 3、按信息的【发布形式】划分(十大文献信 息源等)
有电子化)。
电子图书还有一部分只有电子版,没有纸本版,
在网上大家可以用搜索引擎找到这样的电子图 书。 电子图书正在逐步发展成为比较主要的数字信 息资源。
图书馆的电子图书资源
书生之家电子图书
超星数字图书馆
方正阿帕比电子教参书
“读秀”学术搜索
什么是读秀?
读秀是由海量全文数据及资料基本信息组成的
【优先算符】
例如:( ,在实际查 询时,真正的关键字是“知识经济”或“信息经济”。 以上四种操作符可互相结合使用,但有一定的执行先后次序,其 【优先顺序】依次为:括号、NOT、AND、OR
知识or信息)and经济
布尔逻辑(语言)检索
布尔逻辑语言的应用,是文献信息检索的一个重要方法。其【运 算符有三种】1.AND(逻辑与),指两个概念的交集;2.OR(逻 辑或),指两个概念的并集;3.NOT(逻辑非),指两个交叉概念 中去除交叉的部分。

信息检索 第3章 中文主要信息资源检索系统

信息检索 第3章 中文主要信息资源检索系统

轻工 纺织
建筑 建材
环境 《环境科学文摘》
《馆目:环境污染与保护》
《汽车文摘》 《公路运输文摘》 《水陆运输文摘》 《造船文摘》 《中目:船舶工程》 《外目:造船工程》 交通 《中目:公路、水陆运输》 《铁道文摘》 运输 《中目:铁路》 《专利文献通报:汽车 》 《专利文献通报:包装、搬运、储存》 《外目:航空与航天》 《航空发动机文摘》 航天 《馆目:交通运输、航空航天》
WEB版(网上包库)、镜像站版、光盘版、流量计费。
四川农业大学图馆网站简介

点击
各种类型的电子文献资源: 中外文期刊、图书及特种文献
读者查询 点击:
四、中国期刊全文数据库信息检索
1. 登录检索系统
鼠标接触
点击: 外网或本地镜像
CNKI中国知识资源总库
点击
选择单一数据库 或选择多个数据库进行跨 库检索
《电工文摘》 《中目:电力电工、原子能》 水利 《外目:电力》 《中目:水利水电》 电力 《外目:水利水电》 《中文电子科学文摘》 《电子科技文摘》 电子 《中国无线电电子科技文摘》 《计算机应用文摘》 学 《国外电子科学文摘》 《专科文献通报:电子技术》 《馆目:无线电电子学与自动化技术》
计算 《专利文献通报:计算机和信息存储》 机 《计算机应用文摘》 《中国纺织文摘》 《纺织文摘》 《皮革文摘》 《造纸文摘》 《中目:轻工、纺织》 《外目:轻工业》 《外目:粮油食品》 《外目:制糖工业》 《馆目:轻工、纺织》 《专利文献通报:纺织》 《专利文献通报:生活日用》 《专利文献通报:造纸、印刷、装帧》 《建筑机械文摘》 《中目:建筑工程》 《中目:建筑材料》 《外目:建筑材料》 《外目:建筑水利工程》 《馆目:建筑水利工程》 《城市文献通报》

第三章 二次文献信息检索

第三章  二次文献信息检索

美国《工程索引》
一、概述
美国《工程索引》(The Engineering Index ,简称 Ei )是世界 著名的有关工程技术领域的检索工具。由美国工程信息公司(The Engineering Information Inc.)编辑出版,创刊于1884年,至今已
有100多年的历史。《Ei》概括报导工程技术各个领域的文献,还穿
AGRICOLA 引文存取号
HD1.A3
Drainage and tion
1614813(22054832)
题名
Multicriterion decision making in irrigation planning. Raju , K. S . ;
NAL 索取号 作者 页码
Kumar, D. N . Agric. syst. p.117-129.
三、《中国农业文摘》
简介:
1981年创刊,双月刊。由中国农业科学院文献信息中心编辑出版。以文摘
的形式报道我国公开发行的200多种农业及与农业相关的科技期刊上选出的重
要文献。是报道和检索我国农业科技最新成就和发展水平的重要检索工具。
《中国农业文摘》系列刊物

《中国农业文摘——粮食与经济作物》 《中国农业文摘——植物保护》
正文著录格式
①文摘号 ②著者
① ② ④ ⑦ ⑧ ⑤ ⑥

姓在前用全称,名在后用首 字母缩写。姓、名之间用 “,”分开。
期 刊 论 文
③英文题目(黑体印刷)
非英文文献其英译题名外加[ ]
④原文题目
若原文为中、日、俄等非 拉丁语系语种,无原文题 目。
⑤文献出处
(刊名(年)卷(期)起止页码)
⑥出版地、出版者 ⑦文种及辅助资料 ⑧摘要

第3章-搜索引擎及网络信息检索

第3章-搜索引擎及网络信息检索

3.2 典型的搜索引擎
• • • • 1. Google 2)Google的搜索语法 Google的基本检索算符是:空格、减号和大写英文“OR”。 逻辑“与”(and)用空格表示。用减号“-”表示逻辑 “非”。注意:这里的“+”和“-”号,是英文字符,而不 是中文字符的“+”和“-”。此外,操作符与关键字之 间,不能有空格。 • Google不支持通配符,如“*”、“?”等,关键字后面的 “*”或者“?”会被忽略掉。Google对英文字符大小写不 敏感,“GOD”和“god”搜索的结果是一样的。Google的 关键字可以是词组(中间没有空格),也可以是句子,但 是,用句子做关键字,必须加英文引号。
• • • • • le检索题目含有“清华大学”、“研究生”的doc格式的文件,应该 输入___: A. intitle:清华大学 研究生 site: filetype:doc B. ti=清华大学 研究生 site: filetype:doc C. intitle=清华大学* 研究生*site=*filetype=doc D. intitle:(清华大学 研究生) site: filetype:doc 8.同样检索式(例如输入:玉米 提取 乙醇)分别用本章介绍的科技信境外中国古典诗词的网上英文资料。提示:参考和比较下列方法的查 询结果: (1)在Yahoo中选择分类目录Arts & Humanities(艺术与人文科学)〉 Literature(文学),输入关键词classical Chinese Poetry检索。 (2)在Google输入:中国古典诗词的网上英文资料 (3)在Google输入:(中国 古 诗词 英文)or classical.3 搜索引擎的检索技巧
• • • • 3.3.1常规的检索技巧 1.分类查询 2.关键词查询 一般来说,首次检索时不要把条件限制得 过于严格,最好是检索出一些结果后再使 用其

第三章 信息检索教程

第三章 信息检索教程
22
举例:期刊2
23
期刊著录格式
24
期刊的著录
写出下面期刊文献著录:
25
小节练习1
1. 什么是文献著录? 2.文献著录的结果是—— 3. 既著录主要项目,还著录全部选择项目的著录级次称为—— 4. 既著录主要项目,还著录部分选择项目的著录级次称为——
26
3.2 机读目录与元数据
3.2.1 机读目录
43
3.2.3 都柏林核心元数据和机读目录的比较
1. 著录的对象不同
DC与 MARC的 3. 著录的主体不同 比较 4. 著录的详简程度不同
5. 标识的方法不同
2. 数据的形式不同
44
小节练习2
1、什么是机读目录,一条CNMARC机读目 录的组成? 2、头标区数据元素: 00123cbm1#2200277###52## 其中c、b、m、1分别表示什么? 3、什么是元数据?
12
图书的著录(参考文献著录规则)
13
14
图书著录中的文献类型标志
常用文献类型用单字母标识,具体如下: (1)期刊[J](journal) (2)专著[M](monograph) (3)论文集[C](collected papers) (4)学位论文[D](dissertation) (5)专利[P](patent) (6)技术标准[S](standardization) (7)报纸[N](newspaper article) (8)科技报告[R](report)
CNMARC记录
记录头标区
地址目次区
数据字段区
记录分隔符
注:各字段数据元素及其标准详细情况参见教材P83-87
33
ISO-2709的机读目录标准

文献信息检索 第三章

文献信息检索 第三章

The end
A
B
运算顺序:先算“ 然后是“ 运算顺序:先算“与”和“非”、然后是“或” 混合运算, 电脑) 混合运算, (计算机 OR 电脑) AND 软件 NOT 硬件
二、计算机信息检索技术-6
2.截词检索
前截词(后方一致)。 :?computer )。例 computer, ① 前截词(后方一致)。例:?computer, 可检索出computer mirocomputer, computer, 可检索出computer,mirocomputer, 后截词(前方一致)。 )。例 instruction? ② 后截词(前方一致)。例:instruction? 可检索出instruction instructions, instruction, 可检索出instruction,instructions, instructional 中间截词。 wom? 可检索出woman woman, ③ 中间截词。 例:wom?n,可检索出woman, women。 women。 colo???? ????r 可检索出colour colour, colour, colo????r,可检索出colour,colour, colonizer。 colonizer。 前后截词。 :?Plane Plane? ④前后截词。 例:?Plane? 可检索出 airoplane,planes, “airoplane,planes,plane
4.限制检索 为提高查全率和查准率, 为提高查全率和查准率,需要一些缩小或 约束检索结果的方法, 约束检索结果的方法,称之为限制检索 用这种方法可将检索过程限定在特定的范 或字段)中进行。 围(或字段)中进行。 前缀写法: JN=,LA= TI= =,LA (1)前缀写法:例:JN=,LA= TI= 后缀写法: /DE,/DF—叙词 叙词; (2)后缀写法:例:/DE,/DF 叙词;/ID, /IF—标引词;/TI――题目;/AB――文 标引词;/TI――题目;/AB―― /IF 标引词;/TI――题目;/AB――文 摘。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

D2 {(comput, 0.1), (network, 0.5), …}
Inverted file:
comput {(D1,0.2), (D2,0.1), …} Inverted file is used during retrieval for higher efficiency.
19
(4)术语数据库:这是一种专门存储 名词术语信息、词语信息以及术语工 作和语言规范工作成果的源数据库, 如名词术语信息库、各种电子化辞书 等。
(5)图像数据库:这是一种用来存储 各种图像或图形信息及有关文字说明 资料的源数据库,主要应用于建筑、 设计、广告、产品、图片或照片等资 料类型的计算机存储与检索。
1信息检索系统的类型 2信息检索系统的构成 3标引处理 4 数据库的文档结构 5倒排文档的检索技术
3.1信息检索系统及其类型
3.1.1信息检索系统的概念
(1)定义:具有信息存储和信息查询功能的一 类信息服务设施或者工具
(2)构成要素: 明确的目标 信息资源 技术装备 方法与措施 功能
重要程度的一种方法,最早有卢恩提出。基本原理 给定一个由N篇文档组成的文档集合,计算出每篇文档中
每个不同的词的出现次数。 把每个不同的词在N篇文档的出现次数相加,得到词K的集
合频率。 按集合频率递减顺序排列这些词,并确定高频词和低频词
的阈值。挑选剩下的中频词作为标引词,并按照他们在相 应文档的出现频次确定权重。 缺点是什么?
(6)物理记录:硬件设备上一个基本存储单 位,块,block。
(2)文档的类型
若干个逻辑记录构成的信息集合称为文档 (file)。
文档是书目数据库和文献检索系统中数据组织 的基本形式。
(2)文档的类型
顺序文档 顺序文档(sequential file)是文档在计算机存储
df = document frequency
no. of documents containing the term distribution of the term
idf = inverse document frequency
the unevenness of term distribution in the corpus the specificity of term to a document The more the term is distributed evenly, the less it is specific to a document
What is the best representation of contents?
Char. string (char bigrams): not precise enough Word: good coverage, not precise Phrase: poor coverage, more precise Concept: poor coverage, precise
信息检索系统的逻辑构成
(3)建库子系统。该功能模块的任务是建立和维 护可直接用于计算机检索的数据库。主要工作包括 数据录入、错误检查与处理、数据格式转换、生成 和更新各种文档、建立各种索引数据库等。 (4)词表管理子系统。该功能模块的任务是建立 和管理维护系统中的主题词表和分类表,并使它们 和标引、建库等子系统相连接,支持用户的各种词 汇查询操作。该系统可以独立存在,也可以和建库 子系统中的词典文档合并在一起。
Document indexing
Goal = identify the important meanings and create an internal representation
Factors to consider:
Accuracy to represent meanings (semantics) Exhaustiveness (cover all the contents) Facility for computer to manipulate
Keyword selection and weighting
How to select important keywords?
Simple method: using middle-frequency words
Frequency/Informativity
frequency
informativity
3.4数据库的建立和维护
3.4.1数据库的类型
参考数据库 源数据库
参考数据库(Reference databases)
是指引用户到另一信息源以获得原文或其 他细节的一类数据库。它包括
书目数据库(Bibliographic databases) 指南数据库(Referral database或
源数据库(Source databases)
是指能直接提供原始资料或具体数据的数据库,用户 不必再查阅其他信息源。它可以分为: (1)数值数据库:这是一种专门提供以数值方式 表示的数据的源数据库,如统计数据库、财务数据库 等。 (2)文本-数值数据库:这是一种能同时提供文 本信息和数值数据的源数据库,如企业信息数据库、 产品数据库等。 (3)全文数据库:这是一种存储文献全文of indexing
Each document is represented by a set of weighted keywords (terms):
D1 {(t1, w1), (t2,w2), …}
e.g.
D1 {(comput, 0.2), (architect, 0.3), …}
3.1.2信息检索系统的类型
(1)按设备划分 书本式检索系统 卡片式检索系统 穿孔卡片检索系统 缩微胶卷检索系统 计算机检索系统 光盘检索系统 多媒体检索系统
3.1.2信息检索系统的类型
(2)按照功能划分 文献检索系统:狭义的信息检索系统 数据库管理系统:面向结构化数据 自动问答系统:自然语言处理、事实检索 管理信息系统:面向管理人员 决策支持系统:数据分析
nk the number of documentsin C that contain Tk
idfk

log
N nk

3.3标引处理
3.3.4中文自动标引
中文和西文(英文)的不同 中文标引关注词语切分,对于词语加权关
注较少。 词语切分方法 (1)词典切分法 (2)单汉字法
3.3标引处理
3.3.1基本概念
标引:indexing,对信息资源的各种检索 特征进行分析并使之显性化。
标引深度:衡量标引详尽性,标引词对每 条记录各方面内容表达和识别的详尽程度
标引专指度:衡量标引词对记录特定内容 描述的精细程度。
标引方式:人工标引和自动标引 抽词标引和赋词标引
3.2 信息检索系统的构成
3.2.1 计算机检索系统的物理结构
计算机检索系统由计算机硬件、软件、数据库和通讯网络构成。
(1)硬件:是包括具有一定性能的主计算 机、外围设备以及与数据处理或数据传送 有关的其他设备。
(2)软件:由系统维护软件与检索软件构 成。检索效果。
(3)数据库:在计算机存储设备上按一定 方式存储的相互关联的数据集合。
8
信息检索系统的逻辑构成
(5)用户接口子系统。它的全称为“系统-用
户接口”(system-user interface),简称 用户接口。它的任务是承担用户与系统之间的 通信功能,通常由用户模型、信息显示、命令 语言和反馈机制等部分构成。
(6)提问处理子系统。该功能模块的任务是负 责处理用户输入的提问式,并将它们与数据库 存储的数据进行比较运算,然后将运算结果输 入给用户。该模块主要由检索程序构成,包括: 接收提问、提问校验、提问加工和检索。
子字段(subfield)是字段的下一级数据单位。在有些 字段中,它们的值往往由多个子项构成。例如,作者 字段可能含有多个作者,出版字段含有出版者、出版 地和出版年,主题词字段含有若干个主题词。
(4)文档:若干个逻辑纪录构成的信息集合。
(5)逻辑记录:某些逻辑上相关联的数据组 织在一起的数据集合称为逻辑记录。
Directory database)两种
参考数据库
(1)书目数据库是指存储某个领域的二次 文献(如文摘、题录、目录等书目数据)的 一类数据库,如中国机械工程文摘数据库, 属于此类型数据库。
(2)指南数据库也称指示性数据库,是指 存储关于某些机构、人物、出版物、项目、 程序、活动等对象的简要描述,指引用户从 其他有关信息源获取更详细的信息的一类数 据库。如产品目录、机构名录、研发项目、 基金项目等数据库均属于此类型。
2020/3/3
5
3.2 信息检索系统的构成
3.2.2检索系统的逻辑结构
信息源选择与采集子系统 标引子系统
词表管理 子系统
提问处理子系统 用户接口子系统
建库子系统
2020/3/3
6
信息检索系统的逻辑构成
(1)信息源选择与采集子系统。该功能模块的任务主要 是根据系统需要,采取人工或者计算机自动方式,从众 多信息源中选择和采集符合需要的信息资源。在有些计 算机检索系统中,此部分还承担转换数据格式的任务。 (2)标引子系统。该功能模块的任务主要是对收集的信 息资源进行内外部特征分析,并借助词表系统,对每条 数据进行标引。目前,主题标引和分类标引主要是靠人 工标引,而抽词标引主要是由计算机完成。
Max.
Min. 123…
Rank
14
3.3标引处理
3.3.3自动标引中的词语加权方案
(2)逆文档频率法 英文Inverse Document Frequency,基于以下假设:
相关文档
最新文档