信息检索:理论与方法 叶鹰 (1)

合集下载

中国农业大学_839信息管理与情报学基础_《情报学基础教程》叶鹰 笔记

中国农业大学_839信息管理与情报学基础_《情报学基础教程》叶鹰 笔记

笔记1信息与情报1.1“信息链”信息与情报是情报学的核心问题。

什么是信息?什么是知识?什么是情报?对这些基本概念如果没有明确的认识,就不可能获得对情报学及其相关学科的科学理解。

“信息”和“情报”,英语都是“Information”。

英语的Information是一个连续体的概念,“信息链”由事实(Facts)→数据(Data)→信息(Information)→知识(Knowledge)→“情报”、“智能”(Intelligence)五个链环构成。

简单地说,“事实”是人类思想和社会活动的客观映射。

“数据”是事实的数字化、编码化、序列化、结构化。

“信息”是数据在信息媒介上的映射。

“知识”是对信息的加工、吸收、提取、评价的结果。

“情报”、“智能”则是运用知识的能力。

换句话说,“事实”、“数据”、“信息”、“知识”、“情报”五个链环组成“信息链”(Information Chain)。

在“信息链”中,“信息”的下游是面向物理属性的,上游是面向认知属性的。

作为中心链环的“信息”既有物理属性也有认知属性,因此成为“信息链”的代表称谓。

1.2“三个世界”模型英国科学哲学家卡尔·波普尔(K.Popper)提出的“三个世界”的理论,从哲学高度阐述了信息的属性。

波普尔认为,信息有“三个世界”:第一世界是物理领域,第二世界是主观现实领域,第三世界是客观知识领域。

根据这个理论,信息分为三大类:第一类是有关客观物理世界的信息,即本体论意义上的信息,它反映事物运动的状态及其变化的方式;第二类是有关人类主观精神世界的信息,即主体论或认识论意义上的隐性信息,它反映人类能感受的事物运动状态及其变化方式,处于意识、思维状态;第三类是有关客观意义上概念世界的信息,即主体论或认识论意义上的显性信息,它反映人类所表述的事物运动状态及其变化方式,用语言、文字、图像、影视、数据等各种载体来表示,汇成一个实在的自主的“信息世界”。

以“三个世界”的理论来研究信息、知识、情报,它们之间存在以下关系:并列关系。

信息检索

信息检索

中文书本式的检索工具
《国内总书目》--《全国新书目》《科技新 书目》:查找国内出版的图书目录 《外文新书通报》:查找国外新书目录 《全国报刊索引》:查找国内期刊论文的工 具 科技 文献书目型数据库检索系统 事实型数据库检索系统 数值型数据库检索系统 全文数据库检索系统
“逻辑或”的组配种类
同义词 同一个人多个姓名 通用的英文缩写 化学物名称 Eg:CAD
逻辑非
用于排除含有不需要概念的信息,可缩小所 检索信息的范围。 逻辑运算符:“NOT”、“-” 逻辑表达式:“A NOT B ”“A-B” 语义表示:被检索文献中含有A而不含有B
4字段(限制)检索
在检索系统中,数据库设置的可供检索的字 段通常有两种: 表达文献主体内容特征的基本字段 表达文献外部特征的辅助字段 基本字段包括篇目(TI)、文摘 (AB)…… 辅助字段包括作者(AU)、语种 (LA)……
4字段(限制)检索
为了缩小检索范围,可利用字段代码来限制检索词 出现的字段,以提高检索速度和命中率。 如: economic models in ti(表示只在题 目字段中查找文献) economic models in de(只在主题词中 查找) economic models in ab(只在文摘中查 找) au = Smith,J.C (查作者为Smith,J.C 的 文章) py = 1998(只查1998年的文章) la =Chinese (只查语种为中文的文献)
位置算符检索即运用位置算符表示两个检索 词间的位置。 如果说布尔逻辑算符是表示两个概念之间的 逻辑关系的话,位置算符表示的是两个概念 在信息中实际物理位置关系。
检索时会经常遇到这样的问题?

信息检索的途径方法和步骤

信息检索的途径方法和步骤

5.3.1 手工检索策略
手工检索通常选使择用检的是印刷确型定检检索工具,检索过 程分是析通课过题手翻、索眼工看具、大脑判索断标来识完成的。手工
检索策略的制定一般包括分析课题、选择检索工 具、确定检索标识、选择检索途径、确定检索方 法选索、择 途进检 径行检索以确索及定方索检法取原始信进息行等检过索程。索 始取 信原 息
高的检索需求。这种方式的主要不足是检索不够系
定 检前出统特 某在索索提现义、一某到点某是或:全专一某:个用最面业阶一是它特户多,的段课根适定必出漏 发 很 题据合时 须 现检展突的研于期清的的阶出文究检文楚时可段的献课索献有间能很课信题某信关段性清题息的一息该。大晰。,实学的课。的此检际科方题、法索需研法的某能效要究。文一快率,高使献事速高利潮用信物、,用很该息出有但检明方最现效如索显法可频地果工的的能率检不具、
5.1.3 循环法
定义:循环法又称为综合法、交替法,它
是把工具法和引文法结合起来查找文献信息 的方法。循环法既要利用检索工具进行常规 检索,又要利用文献后所附参考文献进行追 溯检索,分期分段地交替使用这两种方法。
特点:综合工具法和引文法的优点。
.3 循环法
循环法的具体操作可以采用两种方式:
了解课题的历史背景就容易产生漏检。
5.1.2 引文法
定义:引文法又名追溯法,是查找某一篇
文献被哪些文献所引用,或者利用文献末 尾所附参考文献和注释为线索逐一地追溯 查找原始文献的方法。
特点:引文索引是采用引文法快速查找文
献信息的有效工具,但容易产生漏检。
5.1.2 引文法
1.由远及近地查找
指找到一篇有价值的文献后,进一步查找
(专业)类别进行检索
了的不途同径的,代对码课索引题,进在行已主知 代题码概的念前分提析下,,利提用炼代主码题途

中国农业大学_839信息管理与情报学基础_《情报学基础教程》叶鹰 课件

中国农业大学_839信息管理与情报学基础_《情报学基础教程》叶鹰 课件
4. 情报的概念 (1)人们思考与行动所需要的知识就是情报,它通过信
息来负载与传递,并准备发挥其效用。 (2)情报工作要搜集(筛选)、整理、存储、检索、咨
询、摘要、报导、概述评价各种信息和知识,使信息和 知识变成情报,可见情报工作是一种转化工作,使信息 和知识转化为情报的工作,而情报科学则是研究这种转 化规律及其组织和技术方法的科学。
那些保持不变的东西”。
2021/7/3
1.1 情报及其与信息和知识的关系
1.1.3 情报与信息和知识的关系
1. 信息 (2)信息科学 • 信息科学是随着信息概念广泛为人们所利用而兴起的研究
信息的一门新兴学科,它是研究各种信息的产生、交换、 处理、传递和控制的理论和技术的科学。 • 不同学科对信息科学的认识不同,例如哲学家认为信息科 学是认识论的一部分;物理学家认为它是熵的理论;数学 家认为它不过是概率论的发展;通讯工作者把它看成不定 度的描述,情报工作者习惯于把它看成情报传递的理论。
2021/7/3
1.1 情报及其与信息和知识的关系
1.1.3 情报与信息和知识的关系
2. 知识 (2)认知科学 • 以知识和人类取得知识的认知过程为研究对象的科学,
叫做认知科学(Congnitive Science)。 • 认知科学以“知识”为对象,它所研究的正是关于知识
的性质,关于知识如何获得,如何组织化,关于知识具 有怎样的结构这样一些自古以来的哲学问题。 • 研究知识如何变得有用,即知识变成情报的规律的科学, 是情报科学。“情报”与“知识”是存在区别的。
2021/7/3
1.1 情报及其与信息和知识的关系
1.1.3 情报与信息和知识的关系
2. 知识 (1)知识的概念 • 人脑对信息的加工形成了两种状态的知识,一种是显性知

中国农业大学_839信息管理与情报学基础_《情报学基础教程》叶鹰 复习题

中国农业大学_839信息管理与情报学基础_《情报学基础教程》叶鹰 复习题

第三模块复习题复习题一一、名词解释:1.信息资源2.信息政策3.竞争情报4.简牍5.校勘6.叙词表7.德尔菲法8.档案价值9.全宗10.档案证明二、简答题:1.信息资源管理的基本要素2.信息资源分类法的类型3.文献揭示的基本方法4.信息商品的特征5.数字档案馆与现行实体档案馆的联系三、论述题(每小题15分,共30分。

其中第1题必答,2、3、4题中任选一题作答,请在答题纸上表明所选题题号)1.网络信息检索流程2.文献的属性及基本要素3.咨询的类型及其作用4.电子文件管理的原则复习题二一、名词解释(每小题3分,共30分)1.信息资源政府配置2.零次信息资源3.国家书目4.检索点5.善本6.截词检索7.期刊影响因子8.现行档案9.档案价值形态10.《档案的整理与编目手册》(荷兰)二、简答题(每小题10分,共40分)1.信息资源具有哪些特征?2.简述中国历史文献学研究的主要内容。

3.简述信息市场的特征与功能。

4.《中华人民共和国档案法》的作用是什么?三、论述题(每小题15分,共30分。

其中第一题必答,2、3、4题中任选一题作答,请在答题纸上表明所选题号)1.试述信息资源管理的手段及其作用。

2.试论文献资源建设的原则。

3.试述信息系统的结构与功能。

4.试述档案整理理论中来源原则的基本内容、理论意义和实践价值。

复习题三一、名词解释(每小题3分,共30分)1.智力型信息资源2.知识管理3.版本4.藏书5.引文分析6.搜索引擎7.信息商品8.档案的本质属性9.开放档案10.档案的法律作用二、简答题(每小题10分,共40分)1.简述我国信息资源共享的模式。

2.简述史料的内容。

3.简述情报学的主要研究内容。

4.档案室的任务是什么?三、论述题(每小题15分,共30分。

其中第1题必答,2、3、4题中任选一题作答,请在答题纸上表明所选题题号)1.试述信息资源的功能。

2.试述图书文化的主要内涵。

3.试述情报检索的基本流程。

信息检索与分析讲稿

信息检索与分析讲稿

信息检索与分析讲稿(1)课程目录第一章信息检索与分析理论基础(4次)第二章文献信息源及其数字化发展(4次)第三章网络资源与搜索引擎(4次,其中2次上机;内容包括网络免费资源的获取和搜索引擎知识的介绍和运用)第四章中文数据库的使用(6次,其中2次上机;主要以本馆数据库为讲授对象)第五章外文数据库的使用(6次,其中2次上机;主要以本馆数据库为讲授对象)第六章基于图书情报平台的信息检索(4次,其中2次上机;)第七章文献信息的分析与利用(2次)第八章个人文献信息管理软件介绍与利用(4次;其中2次上机)第九章知识汇总与考试准备(2次)考试方式:统一考试(笔试、闭卷)+作业网上学习方式:下载课件和讲义的地址推荐网站:1、哈尔滨工业大学信息检索研究室2、中国科学院现代信息检索(Modern Information Retrieval)3、吉林大学《信息检索与利用》网络课程4、复旦大学《信息检索与利用》5、中文Web信息检索论坛(北京大学)6、大连理工大学信息检索研究室7、云南大学精品课程《信息检索》网站8、南京大学精品课程《信息检索》网站9、华东理工大学精品课程《文献检索》经典网站:1、中国国家图书馆2、中国科学院国家科学图书馆3、北京大学图书馆网站4、上海图书馆5、浙江大学图书馆6、中文维基百科7、温州大学图书馆网站:参考文献:1.叶继元.信息检索导论.北京:电子工业出版社,2003年2.黄如花.网络信息的检索与利用. 武昌:武汉大学出版社,2002年3.叶鹰.信息检索:理论与方法.北京:高等教育出版社,2004年4.焦玉英等.信息检索. 武汉:武汉大学出版社,2002年5.马费成.信息管理学基础. 武汉:武汉大学出版社,2002年6.沈固朝.信息检索(多媒体)教程. 北京:高等教育出版社,2002年7.王知津.科技信息检索.天津:南开大学出版社,2002年8.信息检索与利用,鄢春根主编,人民邮电出版社,2008年9.信息检索与利用,洪全主编,清华大学出版社,出版时间:2007年10.信息资源检索与利用(第2版),林豪慧,孙丽芳主编, 电子工业出版社, 2007年导言信息检索与分析解析一、对本课程的理解和解释:《信息检索与分析》1、信息检索课程的出现信息、能源和材料,并称为现代社会的三大支柱。

信息检索与分析利用 第1章 绪论.ppt

信息检索与分析利用 第1章 绪论.ppt
的掌握财富,掌握信息的人可以把握先机 2、科研重复率——40%(我国) 3、我们面对的信息问题是:信息无限增长,而人的接受能力和理
解能力的有限(人不可能将所有信息转化为自身有用的信息)
信息的多源性、可选性和易得性,这在便利人们的同时也 导致了信息污染、信息过载等问题。庞大复杂的文献信息 资源与人们的特定需求之间的矛盾,向我们提出了如何科 学地检索和利用文献信息资源满足个人的信息需求的问题。
8
课程背景
信息素质是终生教育一项基本人权
信息素质是一种终身学习和自主学习的意识、方法和 权力
信息素质是人有意识地利用各种信息工具(特别是多 媒体技术和网络技术工具),识别获取、评价判断、 加工处理、生成创造、参与交流信息的能力。
信息素质核心就是运用信息资源进行问题解决和创新 活动。
课程背景
知识分为两类:一类是我们所知道的 学科知识,另一类是关于在哪儿可以 获得这些知识的知识。 -[英]塞缪尔.约翰逊
如果我们把“检索工具” 比作知识的宝库,那么“信息 检索”就是打开知识的一把钥 匙。
课程背景
我们处的信息状态 1、信息爆炸——信息社会——掌握信息的人掌握机会,掌握信息
11
课程考核
考核方法
•上课出勤率 •作业完成情况 •上机练习情况 •期末考试成绩
12
本课程重点教学内容
1.掌握信息检索的基础知识; 2.掌握中文电子资源和一个本专业外文数据库的检索方法; 3.熟悉针对毕业论文、科研课题需求而进行的综合检索。 4.掌握文献管理软件NoteExpress、EndeNote等的用法 5.了解信息的统计分析的常用方法 6.熟悉提高查全率和查准率的常用方法
日本情报专家据此解开了 大庆油田的秘密

档案学考研

档案学考研

参考书目1、档案学方向:《信息检索教程》冯惠玲等编中国人民大学出版社2004版《档案文献检索》冯惠玲编高等教育出版社1999版《文社会科学信息检索》马文峰主编北京图书馆出版社2004版《档案管理学》(修订本)邓绍兴、陈智为编中国人民大学出版社1996版《档案学概论》冯惠玲、张辑哲编中国人民大学出版社2001版《科技档案管理学》(修订本)王传宇编中国人民大学出版社1998版《档案开发与利用教程》刘耿生编中国人民大学出版社2001版2、档案保护技术方向:《信息检索教程》冯惠玲等编中国人民大学出版社2004版《档案文献检索》冯惠玲编高等教育出版社1999版《人文社会科学信息检索》马文峰主编北京图书馆出版社2004版《档案保护技术学教程》郭莉珠主编中国人民大学出版社2000版《档案档案保护技术学》金波著高等教育出版社2000年版《文物保存环境概论》郭宏著科学出版社2001二、武汉大学(信息管理学院)2008参考书目607 文献信息管理(含信息管理学基础、档案管理学、图书馆学基础):马费成等著:《信息管理学基础》,武汉大学出版社2000年版王子舟著:《图书馆学基础教程》,武汉大学出版社2003年版或者档案管理学以及图书馆学基础的相关同类教材均可811 信息管理基础(含信息管理学、数据库原理):马费成:《信息管理学基础》,武汉大学出版社2002年版周宁:《信息资源数据库》(第二版),武汉大学出版社2006年版812 档案学基础(含档案学基础、文书学与电子文件管理):档案学基础、文书学与电子文件管理的同类教材均可三、南京大学(信息管理系)2008四、中山大学(资讯管理系)2008参考书目840信息资源组织①《信息组织的分类法与主题法》,曹树金、罗春荣编,北京图书馆出版社,。

②《档案管理学》,邓绍兴、陈智为编,中国人民大学出版社,1997。

628信息管理基础①《信息管理学基础》,马费成等编,武汉大学出版社,。

② 《图书馆学概论》(修订本),吴慰慈编,北京图书馆出版社,2002。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
传统的向量空间模型将Tk取值为“0”或“1”,现在大多在[0,1] 区间取值。这样,就可以构成一个向量空间,把信息检索中文献与提 问的匹配处理过程转化为向量空间中文献向量与提问向量的相似度计 算问题。某一文献与某一提问的相关程度通过计算该向量对之间的相 似度来测定。这种方法自然引入了检索的柔性和模糊性,从理论上使 检索更为合理。
传统布尔检索模型的具体缺陷主要表现在以下五方面: ① 布尔检索式的非友善性,即构造一个好的检索式是不容易的。 ② 易造成零输出或输出过量。 ③ 无差别的组配元,不能区分各组配元的重要程度。 ④ 匹配标准存在某些不合理的地方。对于文献中标引词的数量没有评判, 都一视信息检索模型
(3)向量空间检索模型:向量检索是以向量的方式确定检索内容 的方法,系统中的每一篇文献和每个提问均用等长的向量表示。如: 文献集合中的第i篇文献用Di = ( T1, T2, T3, …, Tm )表示,其中T1, T2, T3, …, Tm为系统中所有标引词集合;提问集合中的第j个提问用Qj = ( T1, T2, T3, …, Tm )表示;Tk表示文献向量或提问向量中的第k个分量, 即文献表示或提问式中所含的第k个标引词或检索词。
(2)信息检索的基本原理,是对信息集合与需求集合的匹配 和选择。信息集合是有关某一领域的文献或数据的集合体,它是一 种公共知识结构,可以弥补该用户的知识结构缺陷。而匹配与选择 则是一种机制,它负责把需求集合和信息集合进行比较,然后根据 一定的标准选出符合需求的信息。
(3)在社会科学化的进程中,信息检索经历了从手工检索到 机械检索再到计算机化检索的发展过程。
信息检索原理—信息检索模型
与采用布尔模型的普通检索系统相比,该系统有以下几个特色: ① 采用自动标引技术为文献提供标引词; ② 改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度 可在[0,1]闭区间中取值; ③ 由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与 否,从而使检索更趋于合理; ④ 检索结果可按与提问的相关度排序输出,便于用户通过相关反馈技术 修正提问,控制检索量; ⑤ 布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。 向量模型也存在着某些明显的缺陷。如检索过程转化为向量的计算方法, 不能反映出文献之间的复杂关系;由于对任何一个提问都需要计算全部文献库 中的每一篇文献,计算量大、算法复杂性较高;由于标引加权和检索加权是分 离的,随意性较大,难以保证质量。
信息检索原理—信息检索模型
在传统的布尔模型中,每一文献用一组标引词表示。如,表达式Di = ( T1, T2, T3, …, Tm ),为文献i,式中T1, T2, T3, …, Tm表示文献i中的所有标引词集合。 每个提问式Q除表示用户需求中的标引词组合外,还有各标引词的布尔组配。 系统在对提问进行处理时,输出一个包含有该提问式的组配元(标引词)且符合 组配条件(逻辑运算符)的文献集合。布尔检索模型因其简单、易理解、易实现、 能处理结构化提问等优点,在信息检索系统中得到了广泛的实际应用。
第一章 信息检索理论基础
主要知识点
(一)信息检索原理 (二)信息检索技术 (三)信息检索系统 (四)信息检索语言 (五)信息检索评价 (六)信息检索与数字图书馆
信息检索原理—信息检索及其发展
(1)信息检索(Information Retrieval)是“一种时间性的通讯形 式”,“在时间上从一个时刻通往一个较晚的时刻,而在空间上可 能还在同一地点” 。这一看法,揭示了信息存储与获取两个环节是 一种延时性的通讯形式。
其主要优点是: ① 采用了理论上更为严密的方式来进行决策; ② 容易与加权方法结合起来使用,为人们提供了一种理论基础; ③ 不涉及布尔逻辑运算符,回避了构造布尔提问式的困难; ④ 文献可按用户的期望值输出排序; ⑤ 吸收了相关反馈原理,可开发出理论上更为合理的方法。 但是,它也有明显的不足,如增加了存储和计算资源的开销;参数估计 问题也增加了该模型使用时的难度。
信息检索原理—信息检索模型
(5)扩展布尔逻辑检索模型:扩展布尔模型是以对布尔算符的一种 近似解释系统为基础,在此模型中,能以一种比传统布尔模型限制更小 的形式来处理布尔提问式。特别当某一给定文献中出现较多提问词时, 它的值就大于含提问词较少的文献。
这种扩展布尔检索模型具有以下优点: ① 它适应常规布尔检索中的标准提问式结构,且通过计算提问-文 献的相似度,可以避免潜在的无意义解释; ② 许可在文献表示和提问式中加入词权值; ③ 可以按相似度的大小来排列输出文献,因而在响应某一给定提问 时,可以控制要检索的文献数量; ④ 便于区分强制性短语和严格的同义解释与试探性短语和较不严格 的同义关系。
信息检索原理—信息检索模型
(1)信息检索的模型的含义:信息检索的模型就是运用数学的语 言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表 述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导 信息检索实践。
(2)布尔逻辑模型:它是由Y. Bar-Hillel在1957年首先提出的,他 提出了将布尔逻辑应用于计算机检索的可能性,10年后,正式被大型文 献检索系统所采用,并逐渐成为各种大型联机检索系统甚至是网络搜索 引擎的典型、标准检索模式。布尔检索模型采用布尔代数和集合论的方 法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算 来检索文献。
信息检索原理—信息检索模型
(4)概率检索模型:它是基于概率排序原理,即文献根据它们与提问 的相关概率来排序输出。有证据表示,在一定条件下,它可以产生优良的排 序结果。事实上,对于某个特定的检索提问,文献集合中的某一文献是否符 合用户的信息需求(即是否是相关文献)可以看成是一个随机事件,每篇文献 是相关文献的概率各不相同,综合信息需求的概率和文献与标引的相关概率, 才能更为合理地划分检索结果。概率检索模型正是基于这一思想建立起来的。
相关文档
最新文档