信息检索
1、信息
信息是客观事物经过感知或认识后的再现。
信息的主要属性是普遍性、传递性、共享性和时效性。
2、知识
知识是人们通过实践对客观事物及其运动过程和规律的认识。
3、文献
文献是记录有知识的一切载体。
知识、载体和记录是构成文献的三个基本要素。
4、信息、知识和文献之间的关系
信息是生产知识的原料;知识来源于信息,是被人类系统化后的信息的一部分;文献是存储、传递信息与知识的载体。
5、信息资源
信息资源是可供人们直接或间接开发利用的各种信息集合的总称。
6、信息技术
用来扩展人的信息功能的技术。包括信息获取功能,信息传递功能,信息认知和决策功能,信息执行功能。
二、信息的类型
1、按信息的表现形式:
(1)文字信息
(2)图像信息
(3)数值数据信息
(4)语音信息
2、按信息的出版特点分
(1)图书(2)连续出版物(3)学位论文(4)会议文献(5)专利文献(6)标准文献(7)科技报告(8)政府出版物(9)产品样本和产品目录(10)档案文献
(1)图书
图书是作者围绕一个中心主题进行研究和探讨,比较成熟的定型的而不定期出版的出版物。
图书一般包括下面几种类型:专著、教科书、丛书、工具书、论文集等。图书往往给人们以系统性、完整性和连续性的知识和信息。
(2)连续出版物
连续出版物是一种具有统一名称、固定版式、统一开本、连续编号,汇集多位著者的多篇著述,定期不定期编辑发行的出版物。
(3)学位论文
学位论文是大学生或研究生为取得学位资格而提交的学术论文。学位论文按学位分为学士论文、硕士论文和博士论文。学位论文探讨的问题往往比较专深,学术性强,往往有独到的见解。
(4)会议文献
会议文献主要是指在国内外各类会议上宣读或交流的论文、报告或其他有关资料。此类文献代表某学科领域的最新成果,反映该学科领域的发展趋势。
(5)专利文献
专利文献是实行专利制度的国家和地区及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。主要有专利申请书、专利说明书和专利公报等。
(6)标准文献
标准是为了在一定范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用和重复使用的一种规范性文件(GB/T20001-2000)。标准文献是标准化活动的产物。以文件形式表现的标准化工作成果,就是标准文献。
(7)科技报告
科技报告是各学术团体、科研机构、大学研究所等单位或个人向上级或委托单位撰写的关于某个科学研究成果的研究报告及其研究过程中的记录。其特点是内容详尽专深、专业性强、内容新颖,有具体的篇名、机构名称和统一的连续编号(即报告号),一般单独成册。(8)政府出版物
政府出版物是由国际组织(如联合国、世界贸易组织等)和各国中央政府及地方政府及其所属机构发表、出版的各种文献信息资料。
(9)档案文献
档案文献是指国家机关、社会组织以及个人在社会活动和技术活动中,直接形成的具有保存价值和利用价值的文字、图片、声像等不同形式的历史记录。
(10)产品样本
产品样本是国内外生产厂商或经销商为推销产品而印发的企业出版物。主要是用来介绍产品的品种、特点、性能、结构、原理、用途和维修方法、价格等。
第二节信息素质
一、信息素质的含义
定义是:利用大量的信息工具及主要信息源使问题得到解答的技术和技能。15
二、信息素质的内涵
信息素质的内涵包括三个方面:信息意识、信息能力、信息道德。
1、信息意识
是指人们对信息的敏感程度。信息意识的能动作用主要体现在三个方面:
一是信息意识影响其信息需求的准确表达;
二是信息意识支配其信息行为;
三是信息意识决定信息利用率。
2、信息能力
指人们有效利用信息技术和信息工具获取信息、加工处理信息以及创造和交流新信息的能力。主要包括以下内容:
信息需求分析和表达能力
信息获取能力
信息分析和处理能力
信息利用能力
3、信息道德(伦理)
是指在整个信息活动中,调节信息生产者、信息加工者、信息传递者以及信息利用者之间行为规范的总和。主要包括:
遵循信息法律与法规
尊重知识产权
合理利用信息技术
三、信息素质与人才培养
1、信息素质是国际化人才的必备素质
2、信息素质是培养大学生科研素质和创新能力的基石
3、信息素质是大学生学习和择业的导航员
第三节图书馆与Internet
一、图书馆
1、图书馆的类型
(1)国家图书馆
(2)公共图书馆
(3)高校图书馆
(4)专业图书馆
(5)其他图书馆
2、图书馆服务
(1)图书借阅
(2)馆际互借
(3)参考咨询
(4)读者培训
(5)图书馆服务现代化
二、Internet
1、Internet应用
(1)信息获取
搜索引擎、网络新闻
(2)交流沟通
即时通信、博客、社交网站、电子邮件和论坛/BBS。
(3)网络娱乐
网络游戏、网络文学、网络视频和网络音乐。
(4)商务交易
网络购物、旅游预订、网上支付、网络炒股。
2、搜索引擎
(1)Google(2)百度(3)腾讯SOSO(4)新浪爱问(5)搜狐搜狗(6)网易有道
一、信息检索的含义
1、广义概念
是从大量相关信息中利用人机系统等各种方法加以有序识别与组织以便及时找出用户所需信息的过程,全称“信息的存储与检索”。
2、狭义概念
实质就是实现信息需求和信息集合的匹配。
3、信息存储过程
一般包括信息选择、信息著录、信息标引、信息整序等环节。
4、信息检索过程
(1)明确信息检索需求;(2)选择检索系统;(3)确定检索词;(4)构造检索表达式;(5)索取原始信息。
5、信息检索原理
二、信息检索的类型
1、按检索对象内容划分
文献检索,是信息检索的主要形式,通过二次文献,包括手工检索工具和计算机检索系统,找出所需的一次文献或三次文献。
数据检索,以数据为对象的检索,如查找数学公式、数据图表、某一材料的成分、性能等,是一种确定性检索。
事实检索,是以特定的事实为检索对象。事实内容包括大量的科学事件和社会事件。
多媒体检索,是以文字、图像、声音等多媒体信息为检索内容的信息检索。
2、按系统中信息的组织方式划分
全文检索,指检索系统中存储的是整篇文章乃至整本书。
超文本检索,与传统文本的线性顺序不同,超文本检索强调中心节点之间的语义连接结构,靠系统提供的复杂工具作图示穿行和节点展示,提供浏览式查询。
超媒体检索,是对超文本检索的补充。其存储对象超出了文本范畴,融入了图像和声音等多种媒体信息。
3、按检索手段划分
手工检索和计算机检索
4、按检索要求划分
相关性检索和确定性检索
7
三、信息检索的发展历史
1、手工信息检索
2、单机信息检索
3、联机信息检索
4、网络信息检索
1、手工信息检索
手工信息检索直接发源于图书馆的参考咨询工作和文摘索引工作。可选择的检索工具大体有:书目、索引、文摘、综述、参考型工具书等。
2、单机信息检索
检索时,使用一台计算机,无需借助其他计算机或通讯设备的帮助,即可完成检索操作。这种检索,可称之为单机检索。
单机检索是计算机检索的最初形式。最早在1954年诞生的世界上的第一个计算机情报检索系统是美国海军武器试验所的NOTS系统,就是单机检索系统。
优点:速度快,等候时间少;缺点:检索结果不全面、不完整,有的需不断更换盘片。
3、联机检索
国际联机检索系统的诞生和发展是在20世纪60年代中期和70年代后期。
特点:联机、对话和实时。
联机数据库是一种机读型检索工具。根据文献数据性质将数据库分为两种不同的类型:文献数据库和数值型数据库。
文献数据库包括全文数据库和书目数据库。
全文数据库是存储一次文献的数据库,提供对文献的全文或其中某些段落、字句的检索,用户不需要再索取原始文献。
书目数据库存储二次文献(文摘、题录、目录、索引),是最常用的一大类,主要来
源于书本式的检索工具。
数值型数据库用来存储事实、数值、概念等非文献数据。例如:事实数据库(包括指南数据库、产品数据库、资源信息库,如美国的协会百科全书数据库)、概念数据库(存储名词术语或语言资料,如词典数据库、语料库等)、数值数据库(存储科研实验数据、管理统计数据、商品价格等)、图像数据库(如人事照片、指纹、卫星云图等)。
联机检索的代表:DIALOG检索系统
DIALOG检索系统是目前世界上规模最大的综合性商业联机信息检索系统DIALOG检索系统数据来源于各种不同的图书、报纸、杂志期刊、技术报告、会议论文、专著、专利、标准、报表、目录、手册等上的信息。
4、网络信息检索
优点:网络检索实现了远程多点检索,资源广泛,方便快捷;缺点:资源分散,无序,真伪难辨。
5、信息检索的发展趋势
(1)信息检索智能化
检索技术的智能化
检索结果处理的智能化
检索服务的智能化
检索服务的智能化
(2)信息检索可视化
(3)信息检索集成化
跨库检索
多语言跨语言检索
多媒体检索
分布式信息检索
(4)信息检索个性化
第二节信息检索语言
一、信息检索语言概述
1、含义
也称标识语言,是信息存储和信息检索过程顺利进行的语言保障,它沟通文献存储和检索两个过程,沟通标引人员和检索人员双方的思路,是编制检索工具的依据,是信息存储及检索系统用以表达文献主题概念的人工语言。
2、功能
(1)是组织与存储信息的依据。
(2)是信息检索的依据。
(3)是联系信息存储与信息检索的桥梁。
3、信息检索语言的种类
(1)按检索语词的规范化程度分:
人工语言和自然语言
(2)按描述文献的不同特征分:
外部特征的语言(题名,著者,出版者等)和内容特征的语言(分类语言和主题语言)
(3)按内容性质和结构原理分:
分类语言和主题语言
二、分类检索语言
分类语言是一种按学科范畴和体系来划分事物的语言,它是以数字、字母符号对类目进行标识的一种语言体系,也称分类法。主要包括体系分类语言和组配分类语言两种。
1、《中国图书馆分类法》
是典型的体系分类语言,简称《中图法》。《中图法》的类目配号采用汉语拼音和阿拉伯数字相结合的混合号码制,即一个字母标识表示一个大类以字母的顺序反映大类的序列,在字母后用数字表示大类下的类目划分。
2、《中图法》基本类目表
5个基本部类,22个大类。
3、国内外著名分类语言
《中国图书馆分类法》
《中国科学院图书馆图书分类法》
《中国人民大学图书馆图书分类法》
《Dewey Decimal Classification System》
《Library of Congress Classification》
《Universal Decimal Classification》
《冒号分类法》
《中国档案分类法》
《国际专利分类法》
《国际标准分类法》和《中国标准文献分类法》
23
三、主题检索语言
1、概述
主题检索语言是指描述文献主题的语词标识并按字顺序列排检的检索语言。
特点:直观性、专指性、灵活性
2、类型
标题词语言、单元词语言、叙词语言、关键词语言
(1)标题词语言
标题词语言是用规范化的自然语言词做标题,直接表达文献主题概念,按照标题字顺排列,并用参照系统显示标题之间关系的一种主题法。
(2)单元词语言
又称元词法,它是以取自自然语言、经过规范化处理的单元词做标识,通过单元词的字面组配来表达主题概念的一种主题法。
(3)叙词语言
又称主题词语言,是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主题语言。是一种后组式的人工语言。
(4)关键词语言
从文献的题名、摘要和正文中抽出的具有实际意义的非规范化自然语言。
3、国内外著名主题语言
《美国国会标题表》《医学标题表》《汉语主题词表》《中国分类主题词表》《化工汉语主题词表》《机械工程主题词表》《国防科学技术叙词表》《工程索引叙词表》《中国档案主题词表》
第三节信息检索技术
一、布尔逻辑检索
逻辑检索的基础是布尔逻辑算符,即规定检索词之间的逻辑关系的算符。包括:逻辑“或”(OR)、逻辑“与”(AND) 、逻辑“非”(NOT)。
①逻辑“或”(OR)运算符:也可用“+ ”代替,基本作用是扩大检索范围,增加命中文献量,提高文献的查全率。
②逻辑“与”(AND)运算符:也可用“*”代替,基本作用是对检索词加以限定,逐步缩小检索范围,提高检索结果的查准率。
③逻辑“非”(NOT)运算符:也可用“—”代替,基本作用是缩小检索范围,但并不一定能提高文献命中的准确性,一般只起到减少文献输出量的作用。
二、截词检索
截词检索是利用检索词的词干或不完整的词形进行检索。其方法是在词干后可能变化的字符处加上通配符,可减少检索词的输入量,简化检索步骤,提高查全率。
2、有限截词
检索词的词干后加一个或一个以上(最多4个)的“?”,空格后再加一个“?”,则空格前的”?”个数表示词干后允许有的最多字符数。如“apple? ?”只能代替apple,apples,applet,而不能代替applejack。
34
三、位置检索
位置检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的关系,并且可以不依赖叙词表而直接使用自由词的检索方法。
(1)(W)—With
(W)表示在此算符两侧的检索词必须按此前后的顺序排列,顺序不许颠倒,而且两个检索词之间不许有其他的词或字母,但允许有空格和标点符号。如,information(W)retrieval 可检索出information retrieval, information-retrieval.
(2)(nW)—nWord
(nW)表示在此算符两侧的检索词之间允许插入n个(最大数量)实词或虚词(非用词),两个检索词的词序不能颠倒。例如,electronic(1W)resources,可检索出electronic resources,electronic information resources。
(3)(N)__Near
由(N)连接的检索项在记录中出现的顺序可以调换,即查找两个连在一起的单词. 例如,junior(N)high可检索出junior high, high junior.
(4)(nN)__nNear
(nN)表示两个词位置可以颠倒,两个词间插入词的最多数目是n个.
(5)(F)__Field
(F)表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段内,如出现在篇名字段,文摘字段,叙词字段,自由词字段,但两个词的前后顺序不限,夹在两个词之间的个数也不限。
(6)(S)__Subfield
(S)表示在此运算符两侧的检索词只要出现在文献记录的同一个子字段内(例如在文摘中的一个句子就是一个子字段),此文献即被命中,两个词词序不限,且两个词中间可间隔若干个
词。
四、限制检索
组成数据库的最小单位是记录,一条完整记录中的每一个著录事项为字段.
文献书目型数据库的记录基本包括下列字段:存取号字段(access number,AN)、篇(题)名字段(Title,TI)、文摘字段(abstract,AB)、叙词字段(descriptor,DE)、自由词字段(identified,ID)、著者字段(author,AU)、著者机构字段(corporate source,CS)、刊名字段(journal,JN)、出版年字段(Publication year,PY)、文献类型字段(document type,DT)、语种字段(language,LA)、分类号字段(classification,CC)等.
基本索引字段:篇名字段、文摘字段、叙词字段、自由词字段;
辅助索引字段:著者字段、著者机构字段、文献类型字段、语种字段。
第四节信息检索效果评价
一、评价目的
找出信息检索中存在的问题和影响检索效果的各种因素,以便提高检索的有效性。
二、评价指标
查全率、查准率、漏检率、误检率、收录范围、响应时间、用户负担和输出形式等。
1、查全率:检出的符合要求的相关文献占全部相关文献的比例。
2、漏检率:未被检出的符合要求的相关文献占全部相关文献的比例。
3、查准率:检出的符合条件的相关文献占检出的全部文献的比例。
4、误检率:检出的未符合条件的文献占检出的全部文献的比例。
三、影响信息检索效果的因素
1、客观因素
作为记载知识、信息的载体——文献,由于现代知识、信息爆炸,文献量大增,学科之间交叉日趋严重,各种学科知识之间相互渗透、相互包容,这是影响查全率和查准率的主要原因。无论怎样调整检索策略,改进检索工具质量,都无法使查全率和查准率同时达到100%,这表明它们之间的相互制约性。客观因素造成的误检和漏检被称为“合理误检”和“合理漏检”。
42
2、主观因素
主观因素也就是人为因素。主要包括两方面:
一是编制者在编制检索工具时收录文献不全面、不明确,在编制工作中人为造成的各种错误:二是使用者在检索课题时对课题内容分析不确切和选定错误的检索入口。
四、提高信息检索效果的措施
熟悉各种信息系统特征
认真分析课题需求
灵活掌握检索方法和提高制定检索策略的能力
检索策略是为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导。
五、提高检索效果的方法
(1)提高检索人员的素质。(6)熟悉检索代码与符号。
(2)优选检索工具与数据库。(7)鉴别检索结果。
(3)优化检索策略与步骤。
(4)精选检索词。
(5)巧构检索提问式。