计算机信息检索基础知识.共46页
信息检索技术PPT课件

2021/4/4
.
19
信息检索的统计模型
一个信息检索模型IRM 是一个三元组
D是文档的集合;
Q是用户需求的集合;
R:D×Q→ R R是集合D与Q的笛卡尔乘积到实数集R的一个 映射,对每个用户查询 q∈Q,每个文档d∈D ,映射R将 (q d)映射为一个实数,称为用户查询q与文档d的相关度。
2021/4/4
1996年正式提出“超链分析”概念并发表了相关文章 ,1997年2月申请了专利——“超链分析技术”(Hypertext document retrieval system and method,专利号5,920,859 )。超链分析技术的发明,一改互联网搜索杂乱无章、信 息冗余的局面,使搜索效果大幅提升。
PXY1,… … ,Yn
该条件概率表示该节点与其父节点 Y1,……,依Yn赖关系
的强度,在贝叶斯网络中,一个节点仅条件依赖于它的父 节点。
2021/4/4
.
28
概率模型
索引词节点 k i
文档节点 d j
用户查询 q
边有2种类型: 贝叶斯网络的3个层次
2021/4/4
.
29
概率模型
可见:
2021/4/4
2021/4/4
.
13
信息检索中的系统的评价
精确度-召回率曲线分析
2021/4/4
.
14
信息检索系统中的评价
许多用户对信息检索系统精确度要求较高,他们希望尽快 查到相关的文档,而不把时间浪费在无关的文档上。另外 一些用户则认为召回率更加重要,他们认为相关文档占检 索返回的文档比例越高,系统效果则越好。
.
38
搜索引擎
2021/4/4
信息检索考试重点

1. 按物质载体和记录形式划分,信息可分为印刷型、缩微型、声像型、机读型和手写型。
2. 文献是指“记录有知识的一切载体”,情报是“作为交流对象的有用知识”3. 内容、符号系统、物质载体、记录方式是构成文献的四个基本要素。
4. 按出版形式和内容的不同,信息可分为图书、期刊、报纸和特种信息。
特种信息也叫做灰色信息,包括:专利信息、学位论文、标准信息、会议信息、科技报告、政府出版物、产品样本资料和档案。
5. ISBN是国际标准书号,由13位数字组成,分成四段:组号(国家、区域、语言的代号);出版者号;书序号;检验码。
ISSN号是国际标准出版物号,由8位数字组成,分两段:分序号、校验码。
6. 图书按用途可分为3种类型:阅读用书,参考工具书,检索用书7. 按检索方法划分,检索工具可分为手工检索工具、计算机和网络检索工具。
8. 知识产权范围主要包括专利权、著作权和商标权9. 知识产权具有两大功能:保持功能和公开功能10. 广义的检索包括信息的存储和检索两个过程。
11. 检索方法分为常规法、引文法(追溯法和检索引文法)和交替法三种12. 检索途径可以分为主题途径、分类途径、责任者/著者途径、号码及其它途径13. 手工检索工具中的著录项目在数据库中称为字段,字段的集合称为记录。
14. 文献数据库内英文段码Abstract对应的中文段码名称是文摘。
Keyword对应的中文段码名称是关键词。
15. 按国际上通用的分类法,数据库分为参考数据库、源数据库和混合型数据库。
16. 中国现行主要的图书分类方法是《中国图书馆分类法》,它属于体系分类语言。
17. 《中图法》第四版将图书分为5部,22大类,L.M.W.Y没有,计算机属于TP类, 属于二级类目。
18. 索书号主要由分类号和著者号组成。
19. 在因特网中,政府机构和商业组织的二级域名分别是GOV、COM。
域名.hk所指的国家或地区是香港;.org的含义是非营利组织.20. 公告号为8510961的专利是发明专利,专利号为200420011414.6的专利是实用新型专利;申请号为99322746.5的专利是外观设计专利。
第三章 信息检索教程

举例:期刊2
23
期刊著录格式
24
期刊的著录
写出下面期刊文献著录:
25
小节练习1
1. 什么是文献著录? 2.文献著录的结果是—— 3. 既著录主要项目,还著录全部选择项目的著录级次称为—— 4. 既著录主要项目,还著录部分选择项目的著录级次称为——
26
3.2 机读目录与元数据
3.2.1 机读目录
43
3.2.3 都柏林核心元数据和机读目录的比较
1. 著录的对象不同
DC与 MARC的 3. 著录的主体不同 比较 4. 著录的详简程度不同
5. 标识的方法不同
2. 数据的形式不同
44
小节练习2
1、什么是机读目录,一条CNMARC机读目 录的组成? 2、头标区数据元素: 00123cbm1#2200277###52## 其中c、b、m、1分别表示什么? 3、什么是元数据?
12
图书的著录(参考文献著录规则)
13
14
图书著录中的文献类型标志
常用文献类型用单字母标识,具体如下: (1)期刊[J](journal) (2)专著[M](monograph) (3)论文集[C](collected papers) (4)学位论文[D](dissertation) (5)专利[P](patent) (6)技术标准[S](standardization) (7)报纸[N](newspaper article) (8)科技报告[R](report)
CNMARC记录
记录头标区
地址目次区
数据字段区
记录分隔符
注:各字段数据元素及其标准详细情况参见教材P83-87
33
ISO-2709的机读目录标准
信息检索考题及答案

一、单选1、报道范围主要为能源方面的科技报告为(D、DOE)。
2、(C报纸)是出版周期最短的定期连续出版物。
3、(A学术论文)是高校或科研机构的毕业生为获取学位而撰写的。
4、了解各个国家政治、经济、科技发展政策的重要信息源是(B政府出版物)5、年鉴属于下列哪一类别(D三次信息)6、下列哪种文献属于一次文献(A图书)。
7、下列文献中属于一次信息的是(A专利说明书)8、以下各项属于二次信息的是(A索引)21、(D 漏检率)是指未检出的相关信息量与检索系统中实际与课题相关的信息总量的比率。
22、《四级英语阅读与完型填空》这本图书在中图法体系中的分类号可能是(D、H319 )。
23、布尔逻辑表达式:在职人员NOT(中年AND教师)的检索结果是(A检索出除了中年教师以外的在职人员的数据)24、布尔逻辑检索中检索符号“OR”的主要作用在于(B提高查全率)。
25、根据一定的需要,将特定范围内的某些文献中的有关知识单元或款目按照一定的方法编排,并指明出处,为用户提供文献线索的一种检索工具是(C索引)。
26、将存储于数据库中的整本书、整篇文章中的任意内容查找出来的检索是(A全文检索)27、截词检索中,“?”和“*”的主要区别在于(A 字符数量的不同)。
28、尽管不同的检索系统对截词符的定义不尽相同,一般而言,多数用(C* )表示无限限检索。
29、尽管不同的检索系统对截词符的定义不尽相同,一般而言,多数用(A?)表示有限检索。
30、利用截词技术检索“?ake”,以下检索结果正确的是(D take)31、利用图书末尾所附参考文献进行检索的方法是(D追溯法)。
32、位置运算符号(W)和(N)的主要区别在于(D 检索词是否出现在同一文献中)。
33、我国最早的分类法是(B 《七略》)34、要查找吴敬琏所发表的文章,首选途径为(C责任者途径)。
I)主题较复杂、研究范围较大、研究时间较久的科研课题适用的检索方法为(A顺查法)II)《科学引文索引》是基于(B追溯法)检索方法而编制出来的检索工具:III)下列检索工具哪个不属于事实数据检索工具(A词典):IV)按检索手段分,搜索引擎属于(C网络检索工具)64、Adobe Reader可以阅读(D、PDF )格式文件。
2019信息检索课件第6章

? University of California, Los Angeles, College Library, Thinking Critically about World Wide Web Resources
? </libraries/college/instruct/web/critical.htm>
? 信息数量庞杂而无序
导致网络信息分布范围广、网络信息的类型多样、信息污染严重
? 信息的不稳定性强
网络的动态性、内容可靠性降低
? 网络安全存在隐患
计算机病毒的破坏
2020/3/26
4
据第25次中国互联网络发展状况统计报告(2019.1 )显示,绝大多数网络信息 来自商业网站,来自教育、科研、政府机构的网络信息仅占总量的1.9%
2020/3/26
5
网络炒作增加网络信息的不真实性
2020/3/26
6
6.2 网络信息选择与评价的客体
? 对网站的选择与评价 (IT)
? Website
? 定量为主
? 存在作弊行为
? 对网络信息内容的评价 (LIS)
? Information on the web ? 定性为主,辅之以定量 ? 不易操作
2020/3/26
LOGO
图书馆参考咨询部 2019.7
第六章 网络信息的选 择与评价
2020/3/26
22
目录
6.1网络信息选择与评价的必要性 6.2网络信息选择与评价的客体 6.3网络信息选择与评价的主体 6.4网络信息选择与评价的标准 6.5各类型网络信息的评价
2020/3/26
3
信息管理学基础教材(PPT 46页)

1.1.4 信息链中的
数据、信息与知识
数据是载荷或记录信息的按照一定规则排列组合 的物理符号。它可以是数字、文字、图像,也可以是 声音或计算机代码。人们对信息的获取只能通过对数 据背景和规则的解读。背景是接收者针对特定数据的 信息准备。
信息是数据载荷的内容,对于同一信息,其数据 表现形式可以多种多样。
信息管理学基础
前言
信息管理的实践虽然源远流长,可以追溯到遥远的古 代,但作为一门学科的信息管理则是现代计算机和通 信技术广泛应用于人类信息活动各环节的基础上发展 起来的新兴学科领域,这个领域年轻同时又极具活力。
前言
课程内容简介
本书从人类社会信息过程出发考察信息管理活动,重 点介绍和讨论了信息和信息管理的内容及特征,信息 的交流传递,信息分布,信息获取,信息组织,信息 检索,信息系统,信息服务,信息机构及其管理,信 息政策与信息法律等方面的内容;同时结合网络及数 字环境,讨论了信息管理具体领域在网络环境中的应 用,以及所出现的新发展和新动向。
信息化是向信息产业高度发达且在产业结构占优势地 位的社会(即信息社会)前进的动态过程,它反映了 由可触摸的物质产品起主导作用向难以捉摸的信息产 品起主导作用的根本性转变。
1.2.2 信息化
信息化在各国的发展 美国:1993(NII),1994(GII),1996(NGI)…… 欧盟:信息化的特征:从工业社会转向信息社会 日本:《日本信息技术基础设施建设新政策》,2001
1.1.3 信息的分类
按信息的作用来划分,可分为有用信息、无用信息和干扰 信息。
按信息的运行状态划分,可分为连续性信息、间隔性信息、
按信息的流通渠道划分,可分为正式信息和非正式信息。 按信息的记录方式划分,可分为语声信息、图像信息、文
第1讲 文献信息检索基础知识

14
第二节
文献信息资源的类型、特点
(二)连续出版物
1.期刊(Journal Magazine) 是指采用统一名称定期或不定期的连续性出版物。 具有连续的卷、期号或年、月顺序号。 国际标准连续出版物编号:ISSN 国内统一刊号:CN
15
第二节
文献信息资源的类型、特点
2.报纸( Newspaper)
2.学位论文 (Dissertation) 高等学校和科研单位的学生为获取学位而提交的学术 论文。
17
第二节
文献信息资源的类型、特点
3. 专利文献(Patent Document)
指实行专利制度的国家,在专利申请、审批过程中所产生的专利 申请书、专利说明书以及官方文件或出版物。
4.标准文献 (Standards literature)
Z 综合性图书
36
中图分类号>文化、科学、教育、体育 (简表)
G4 教育
G40 教育学 G41 思想政治教育、德育 G42 教学理论 G43 电化教育 G44 教育心理学 G45 教师与学生 G46 教育行政 G47 学校管理 G48 学校建筑和设备管理 G51 世界各国教育事业 G52 中国教育事业 G53/57各国教育事业 G61 学前教育、幼儿教育 G62 初等教育 G63 中等教育 G64 高等教育 G65 师范教育 G71 职业技术教育 G72 成人教育、业余教育
4
第一节
二、知识的含义
信息、知识、文献与情报
是人类通过信息对自然界、人类社会以及思维方式与运动规律的 认识和掌握。
三、情报的含义 (1)定义:是指被传递的知识或事实,是运用一定的媒体(载 体),越过空间和时间传递给特定用户,解决科研、生产中的具 体问题所需要的特定知识和信息。 情报是为实现主体某种特定目的,有意识地对有关的事实、 数据、信息、知识等要素进行劳动加工的产物。 (2)属性:知识性、传递性、有用性。
情报检索与计算机信息检索

2. 文献
• 记录有知识的一切载体。即用文字、 图形、符号、声频、视频等技术手段 记录人类知识的一种载体。 • 文献的范围很广。 古代:甲骨文、碑刻、竹简、帛书 是文献。 现代:图书、报纸、期刊 现今:机读资料、缩微制品、电子 出版物。
7
•文献的级次(按信息的加工程度划分)
• 零次文献信息资源——指尚未被记录下来, 只是通过口头携带和传播的信息资源。零次 信息资源的出现和传递带有极大的偶然性。 其特点是鲜活、生命力旺盛。 • 一次文献信息资源—— 指经加工或粗略加 工的原始信息资源,如正在研究或创造过程 中产生的信息,包括会议记录、论文报告、 统计报表、专利等。其特点是比较零散,系 统性不强,半包括所有的主要内容。
一文献的基本信息摘录下来,供人们间接
地了解、识别该文献。
• 下面,我们分别对不同文献情报源的著
录特征及其识别方法进行讲述。
18
图书:
•
图书的著录项目包括书名、著者,
出版项(出版地、出版社、出版年)、 总页码等。
19
目录
20
• Journalism, literature and modernity :from Hazlitt to Modernism . (1)Campbell, Kate.(2) Edinburgh :Edinburgh University Press,c2000 (3) • (1)书名 • (2)著者(编者) • (3)出版项(包括出版地,出版社,出 版年)
33
文摘
34
• CAD of waveguide low-pass filters for statellite applications. (1)W.Hauth,R. Keller, U.Rosenberg(ANT Nachrichtentech. GmbH, Backnang,West Germany(2)Conference Proceedings:17th European Microwave ConferenceMLCROWAVE 87, Rome,Italy,7-11 Sept. 1987(3)(Tunbridge Wells, UK: Microwave Exhibitions&Publishers 1987),P. 137-41(4) • (1)论文名称 题录 • (2)著者和著者单位 • (3)会议录名称、会议地点、开会时间 • (4)会议录出版情况及论文起止页码