第一章 基础知识——信息检索语言与技术
合集下载
第一章信息检索基础知识PPT课件

信息、知识、文献的关系
信息 知识 文献
文献的类型
• 按载体的形态分 • 按内容、性质和加工深度来分 • 按文献的出版类型分
按载体的形态分
• 手写型 writer by hand form • 印刷型 printed form • 缩微型 Microform • 声像型 (视听文献)Audio-Visual form • 机读型(电子型)Machine Readable
。 美国国会图书馆总面积为34.2万平方米,世界上最大的图书馆
•
缩微型
• 以感光材料为载体,以照相为记录手段而形成的 文献形式
• 优:
–体积小。 –成本低,仅及印刷品1/10∽1/15 –长期保存 –忠实于原件
• 缺:
–不能直接阅读
缩微型
声像型
• 是以磁性和感光材料为介质记录声音、图像 等信息的一种文献形式。
• 知识(Knowledge) :是人类通过对自然界、人 类社会以及思维方式与运动规律的认识与掌握, 是人脑通过思维重新组合的、精简化的信息集 合。
• 知识包括个人知识和社会知识。
个人知识:存在于大脑、笔记或书信中,只 能 为个人所用。
社会知识:存在于文献中或人类的传说中
• 文献(Document / Literature):记录 有知识的一切载体。
form、Electronic Publication
手写型
• 以实物为载体的,以手工为记录手段的 文献
手写型
印刷型
• 以纸质材料为载体,以印刷为记录手段 而形成的文献形式。
•优
–便于阅读、传递
•缺
–十分笨重,保存起来费事费力 –难于实现信息自动化提取和高速度传递
• 国家图书馆总建筑面积25万平方米(含总馆一期、 二期,古籍馆),居世界国家图书馆第三位。
文献信息检索基础知识

第一章 文献信息检索 基础知识
1
可编辑ppt
第1节 文献信息检索的基本概念
一、文献、信息、信息源 1.定义 文献:用文字、图形、符号、声频、视频等技术手段 记录人类知识的一种载体,或理解为固化在一定物质载体 上的知识。
信息:广义地说,信息就是消息。
指对接收者来说预先不知道的报道。(辞海)
是用来通信的事实,在观察中得到的数据、新闻和知 识。(韦氏字典)
10
可编辑ppt
第1节 文献信息检索的基本概念
专利文献(patent document)
专利文献是一切与专利制度有关的专利文件的统称, 如专利申请书和专利说明书、专利公报。
专利说明书是公开的文献,但只能由各国专利局发行, 它反映了当前最新的技术成果。
学位论文(dissertation, thesis) 是作者为获得某种学位而撰写的科学论文。博士论文 具有较高的参考价值: 一般偏重于理论,附有大量的参考文献,借此可以看 出有关专题的发展过程和方向。 学位论文一般不出版发行,而是保存在授予学位单位 的图书馆里。
6
可编辑ppt
第1节 文献信息检索的基本概念
科技图书(Book):对已有的研究成果或生产经验所 作的概括论述。
特点: 带有总结性、成熟定型;出版周期长,信息传 递慢;传授知识,而不是报道最新情报。
图书一般分为两类:
阅读型:教科书、专著等
工具型:字典、百科全书、年鉴、手册
科技期刊(journal, periodic) 特点:名称固定、有连续的卷、年月顺序号、出版周 期短,报道速度快、数量大,内容丰富。 据估计,从期刊获取的科技情报占整个情报来源的 60%-70%。
5
可编辑ppt
第1节 文献信息检索的基本概念
1
可编辑ppt
第1节 文献信息检索的基本概念
一、文献、信息、信息源 1.定义 文献:用文字、图形、符号、声频、视频等技术手段 记录人类知识的一种载体,或理解为固化在一定物质载体 上的知识。
信息:广义地说,信息就是消息。
指对接收者来说预先不知道的报道。(辞海)
是用来通信的事实,在观察中得到的数据、新闻和知 识。(韦氏字典)
10
可编辑ppt
第1节 文献信息检索的基本概念
专利文献(patent document)
专利文献是一切与专利制度有关的专利文件的统称, 如专利申请书和专利说明书、专利公报。
专利说明书是公开的文献,但只能由各国专利局发行, 它反映了当前最新的技术成果。
学位论文(dissertation, thesis) 是作者为获得某种学位而撰写的科学论文。博士论文 具有较高的参考价值: 一般偏重于理论,附有大量的参考文献,借此可以看 出有关专题的发展过程和方向。 学位论文一般不出版发行,而是保存在授予学位单位 的图书馆里。
6
可编辑ppt
第1节 文献信息检索的基本概念
科技图书(Book):对已有的研究成果或生产经验所 作的概括论述。
特点: 带有总结性、成熟定型;出版周期长,信息传 递慢;传授知识,而不是报道最新情报。
图书一般分为两类:
阅读型:教科书、专著等
工具型:字典、百科全书、年鉴、手册
科技期刊(journal, periodic) 特点:名称固定、有连续的卷、年月顺序号、出版周 期短,报道速度快、数量大,内容丰富。 据估计,从期刊获取的科技情报占整个情报来源的 60%-70%。
5
可编辑ppt
第1节 文献信息检索的基本概念
信息检索语言与技术

国际专利分类法(IPC)举例
部
B
作业、运输
分部:交通运输
B64 B64C 飞行器、航空、宇宙飞船 飞行、直升飞机
大类 小类 主组 一点分组 二点分组
B64C25/00
25/02 25/08 25/10 25/18 25/26 25/30
起落装置
· 起落架 · · 非固定的,如:可抛弃的 · · · 可快放的,可折叠的或其他的 · · · · 操作机构 · · · · · 操纵或锁定系统 如果检索的主题涉及飞机的可
人大法简表
1.马克思主义、列宁主义、 毛泽东思想 2.哲学 3.社会科学、政治 4.经济 5.军事 6.法律 7.文化、教育、科学、体 育 8.艺术
9
9.语言、文字 10.文学 11.历史 12.地理 13.自然科学 14.医药卫生 15.工程技术 16.农业科学技术 17.综合参考
000 100 200 300 400 600 700 800 900
26
二.公众分类法的产生与发展
Folksonomy应用:
窄公众分类法(Narrow Folksonomy) 特点:用户特质 因为用户在知识结构和兴 趣领域上具有很大的同质 性。所以窄公众分类的可 以用于为某一领域或专业 的信息或知识提供共享平 台。
-8
27
二.公众分类法的产生与发展
Folksonomy发展趋势:
10
医学 家政 农业 工程 矿冶 化学工业 制造 商业 商学
441 442 443 444 445 446 447 448 449
土木工程 道路工程 水利工程 船舶工程 市政工程 机械工程 陆空交通 电气工程 核子工程
《杜威十进分类法》(DDC)
1-1信息检索基础知识

小 结
上述的十类主要文献中,除图书和期刊外,其 余八种被称为特种文献—非书非刊出版物,非大 量公开发行需特殊渠道获取,其使用价值往往大 于常规信息。
1.2 信息检索
1.2.1 信息检索概念 广义概念:将信息按一定的方式组织和存储起 来,并根据信息用户的需要找出有关的信息过 程,故全称:“信息的存储与检索”。 狭义概念:仅指上述过程的后半部分,即从信 息集合中找出所需要的信息的过程,相当于人 们通常所说的信息查寻(Information Search)。
标准文献(促进社会产品质量的三次文献) 1、标准:是对工农业和工程建设的质量、规格、基本单 位及其检验方法等方面由有权威部门批准的技术规定。 反映的技术工艺水平及技术政策,是从事生产建设和管 理的一种共同规范或依据。
2、 分为:国际标准( ISO ) 、国家标准(GB) 、
行业标准、企业标准 3 、进入各大标准制定机构网站进行检索
相关信息检索工作(职业)
• 1--技术部门(资料员)
• 2—业务部门(咨询员) • 3—专利代理
• 4—查新员
• 5 —市场开拓、商业情报 • 6—其他一切经常需要获取信息„„
参考教材:
1、网络信息检索与利用,隋莉萍等,清华大学出版社,2008.9 2、网络信息检索:工具方法 实践,沈固朝, 高等教育出版社, 2004.8 3、信息检索与利用教程,彭奇志,中国轻工业出版社, 2002.2 4、石油科技文献检索,谢昆、郭林根等,石油工业出版社,1999.12
• 重点要求
• 了解图书馆现有电子资源(各数据库收录内容)
• INTERNET基本知识 • Ei Compendex、Web of science (SCI)、ISTP、 Elsevier 、PQDD、UMI、中国学术期刊网、万方数 据库、dialog等文献数据库的收录内容及检索方法。
医学文献信息检索--第一章 文献信息检索基础

零次文献
一次文献
科技文献层次结构
三次文献(浓缩的新的信息产品) 将知识重新组合,使知识序列化
二次文献(一次文献的替代品) 将分散的文献序列化 一次文献(初始的知识产品) 将知识以文字等形式固化 零次文献(创造知识的素材) 信息的直接记录或传递 研究活动(实验、观察、思考)
3.认识不同载体的文献
印刷型文献:纸质
实例:
中国核科技报告 China Nuclear Science and Technology Report 主办:《中国核科技报告》编辑部 周期: 半年 出版地:北京市 语种: 中英 开本: 16开 ISSN 1671-7430 CN 11-9253/TL 创刊年:1985
主题词检索途径
序号:N2
序号:N1 主题词:S1 著者:Au1 标题:t1 ……
著者倒排档
Au1:N1,N4 Au2:N3 Au3:N4 ……
著者检索途径
……
主文档和倒排文档的关系示意图
其它检索途径
四、文献信息检索系统的分类 1.书目型数据库
2.事实数值型数据库
3.全文型数据库
文献信息数据库
(4)三次文献(Tertiary Document):是科技人员围 绕某一专题,借助于二次文献,在充分研究与利用大量一 次文献的基础上,经过阅读、分析、归纳、概括,撰写而 成的新的文献。 表现形式主要有:综述(Review)、述评 (Comment)、进展(Progress、Advance)、现状 (Update)、发展趋势(Trend)等期刊文献和百科全 书、年鉴、手册等参考工具书。
⑤政府出版物
政府出版物:这是各国政府部门及其设立的专门
机构发表、出版的文件,分为行政性文件(如法 令.统计等)和科技文献(30%~40%)。
信息检索技术基础知识讲义(ppt 97页)

AB
A
B
A
B
逻辑或 A+B
逻辑与 A*B
逻辑非 A-B
18
2.2.1 布尔逻辑
运用“布尔算符”的注意事项:
• 布尔逻辑运算符运算顺序为: not→and→or • 运算符遵循数学运算法则;
(a) 括号优先;(A or B) and C not D (b) 在检索式中只有and或or前后的检索标识可
• 单元词:指从信息内容中抽出的最基本的词汇。 • 关键词语言:关键词是从文题、文摘或正文中
抽出,具有实质意义,能够代表文献内容主题 的名词术语。关键词可直接用于文献标引。
6
叙词语言
• 叙词:指从信息的内容中抽出的、能概括表达 信息内容基本概念的名词或术语,它是经规范化处 理的自然语言词汇。
• 叙词受叙词表控制,有组配功能。 运输飞机设计
3
2.1 信息检索语言
检索 语言
描述文献 内容特征
分类语言
主题语言
关键词语言 单元词语言 标题词语言 叙词语言
描述文献 外表特征
题名(书名、刊名、篇名) 著者 出版事项
代码/序号
4
2.1 信息检索语言
• 主题语言(内容特征) • 按照主题性质的不同可分为:
• 标题词 • 单元词 • 叙词 • 关键词
12
2.2.1 布尔逻辑检索
在进行信息检索时,检索项之间概念有 相交关系、同义关系或相关关系,这时 采用布尔逻辑进行检索项之间的逻辑组 配。
用“与”(AND)、“或”(OR)、“非” (NOT)来表达。
13
2.2.1 布尔逻辑
• 布尔逻辑检索:在进行信息检索时,检索项
之间概念有相交关系、同义关系或相关关系, 这时采用布尔逻辑进行检索项之间的逻辑组配。 • 布尔逻辑算符有三种: 逻辑与、逻辑或、逻辑非 用“与”(AND)、“或”(OR)、“非” (NOT)来表达。
信息检索语言与技术

15
CUMT Lib
2012
语词的规范化处理
同义词 新名与旧名:一般选用新名。如自行车与脚踏车,选自行车; 全称与简称:一般以准确、通用为原则。如南京大学与南大,选南 京大学; 学名与俗名:一般选用学名。如飞机与飞行器,选用飞机; 音译与意译:一般选用意译。如Laser的译名,选用激光,不用莱 塞、镭射等。 近义词:即词义相近的词,其含义略有差别,但有密切联系,可合并作 为概念的等同关系处理。如实验和试验; 反义词:一般选用正义词、肯定词,如查全率与漏检率,选用查全率; 多义词:即一词多义,一般利用概念限制的方法,明确其主题观念。如 铁(化学)、铁(冶金)
2012
1.1 信息检索语言类型示意图
描述文献 外表特征 书名、篇名—书名和篇名索引 著者名称—著者索引 文献序号—序号索引 引用文献—引文索引 学科分类—分类语言 标题词语言 研究对象 关键词语言 单元词语言 叙词语言 分子式、结构式—分子式、结构式 索引 其他各种特种索引
检索语言 描述文献 内容特征
28
CUMT Lib
2012
识别信息源---图书
关于图书的线索有的来源于参考文献、也有的来源于数据库的 检索结果。比如下面的记录:
钱军,周海炜.知识管理案例[M].南京:东南大学出版社,
2003.103-115
“103-115”表明了作者引用的内容所在的页码范围。
请记住:图书最显著的特征是有出版社信息,文献标识符是[M]
11
CUMT Lib
2012
文献信息分类特点
方便文献信息的排架,便于索取; 类目的结构严谨,逻辑性强; 适合学术信息资源的组织。
第一章 文献信息检索基础知识

定义:以纸张为载体,以印刷为手段的记录方式。 优点:便于阅读和流传 缺点:存贮密度低、收藏占有空间大,加工保存成本高,识别和 提取难以实现机械化和自动化,不便于管理和长期保存。
2. 微缩型
定义:以感光材料为载体,利用光学技术以缩微照相为记录手段,
如缩微胶卷、缩微胶片等。
优点:存贮密度大、体积小,便于保存和远距离传递; 缺点:不能直接阅读,必须借助缩微阅读机才能阅读。
著者
书名
代码
出版地
出版社
出版时间
Horst, R., Pardalos, P. M. 1994, Handbook of global optimization, Kluwer, Dordrecht.
10
(三)文献类型--按文献出版划分:
国际标准书号(International standard book number, ISBN) P7
ultrasound and pulsed-vacuum treatments on the dehydration kinetics, distribution and status of water in osmotically dehydrated strawberry: a combined NMR and DSC study[J],Food and Bioprocess Technology ,2014, 7(10): 2782-2792.
1.图书(Book)
定义:指对某一领域的知识进行系统阐述或对已有研究成果、技术
、经验等进行归纳、概括的出版物。包括专著、汇编、丛书等。
特点:图书的内容比较系统、全面,论点成熟、可靠,但传统印刷 业图书的出版周期较长,传递信息速度慢,电子图书的出版发行可
2. 微缩型
定义:以感光材料为载体,利用光学技术以缩微照相为记录手段,
如缩微胶卷、缩微胶片等。
优点:存贮密度大、体积小,便于保存和远距离传递; 缺点:不能直接阅读,必须借助缩微阅读机才能阅读。
著者
书名
代码
出版地
出版社
出版时间
Horst, R., Pardalos, P. M. 1994, Handbook of global optimization, Kluwer, Dordrecht.
10
(三)文献类型--按文献出版划分:
国际标准书号(International standard book number, ISBN) P7
ultrasound and pulsed-vacuum treatments on the dehydration kinetics, distribution and status of water in osmotically dehydrated strawberry: a combined NMR and DSC study[J],Food and Bioprocess Technology ,2014, 7(10): 2782-2792.
1.图书(Book)
定义:指对某一领域的知识进行系统阐述或对已有研究成果、技术
、经验等进行归纳、概括的出版物。包括专著、汇编、丛书等。
特点:图书的内容比较系统、全面,论点成熟、可靠,但传统印刷 业图书的出版周期较长,传递信息速度慢,电子图书的出版发行可
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
描写文献 外部特征 题名语言 著者语言 号码语言 文献信息分类 分类 语言 描写文献 内容特征 主题 语言 单元词语言 标题词语言 关键词语言 叙词语言 体系分类语言 组配分类语言 混合分类语言 网络信息分类 数据库信息分类
信息检索语言
1.3.1 文献信息分类语言
国内 《中国图书馆分类法》[中图法] 《中国科学院图书馆图书分类法》[科图法] 《中国人民大学图书馆图书分类法》 [人大法] 《中国图书分类法》台湾赖永祥编订 国外 《杜威十进分类法》[DDC] 《国会图书馆分类法》[LCC]
《中图法》
采用“五分法”形成五大部类。这五大部类的依据,
首先是毛泽东关于知识分类的论述,即世界上的知识 只有自然科学、社会科学和哲学三大部类;其次强调 马列主义的指导作用,将马列主义、毛泽东思想经典 作家的著作及相关文献独立为一个基本部类;最后是
由于文献的特殊性,即存在一些内容庞杂,无法具体
归入某一学科的文献,将其概括为“综合性图书”作 为一个部类。在五大部类之下,层层细分,划分出22 个基本大类,分别为:
《中图法》等级分类体系
H11 H12
H1 H2 H3 R1
H13
H14
H111 H112 H113 H121 H122 H123 H124 下位类
上位类
等级体系分类法
00 马克思列宁主义毛泽 72 能源学、动力工程 东思想 50 自然科学(总论) 电技术、电子技术 73 10 哲学 51 数学 74 矿业工程 20 社会科学(总论) 力学 52 75 金属学(物理冶金) 21 历史、历史学 53 物理学 76 冶金学 27 经济、经济学 54 化学 77 金属工艺、金属加工 31 政治、社会生活 55 天文学 78 机械工程、机器制造 34 法律、法学 56 地球科学(地学) 化学 81 36 军事、军事学 58 生物科学 83 食品工业 37 文化、科学、教育、医药、卫生 61 85 轻工业、手工业及生活 体育 65 农业科学 供应技术 41 语言、文字学 66 农作物 86 土木建筑工程 42 文学 67 园艺 87 运输工程 48 艺术 68 林业、林业科学90 综合性图书 49 无神论、宗教学
受英国科学家培根的知识分类影响,杜威法将所有的学科归纳成9大类,把涉
及全部知识而不能归入任何一门学科的图书总为第0类,称总论,序列在其他 学科知识之首。一级大类之下,以圆点相隔再分小类,称子类。每个一级大
类再分为10个子类(也有不足或超过的)依此类分下去,形成一个完整的层层
展开的等级体系。
《美国国会图书馆分类法》 (LCC)
信息检索语言的含义与作用
检索语言:是根据检索需要而创造的一种人工语言。 作用: 1、保证不同标引人员表征文献信息的一致性。 2、使内容相同及相关的文献集中化。 3、保证检索提问与文献信息标引的一致性。 4、保证检索者按不同需求检索文献信息时,都能获 得最高的查全率和查准率。
1.2 信息检索语言类型示意图
1.4.2 关键词语言
关键词:指那些出现在文献的标题(篇名、章节名)以至 摘要、正文中,对表达文献主题内容具有实质意义的语词, 亦即对揭示和描述文献主题内容来说是重要的、带关键性 的(可作为检索“入口”的)那些词语。 关键词基本上不作规范化处理。例如,“国际联机检索概 论”中的“国际联机”、“联机”、“检索”都是能描述 这篇文献的主题的,可以作为检索词。 概括地说,关键词法就是将文献原来所用的,能描述其主 题概念的那些具有关键性的词抽出,不加规范或只作极少 量的规范化处理,按字顺排列,以提供检索途径的方法。
类目名称
金属导电材料
注释
铝、铜、铁、镍、钼等 及其合金入此
《中图法》类目
Q O1 Q11
生物科学 „„„„„„„„„„„„一级类目 普通生物学 „„„„„„„„„„二级类目 生物演化与发展„„„„„„„„三级类目
Q111
Q111.2
进化论、生物系统发育„„„„ 四级类目
达尔文学说与研究„„„„„五级类目
Q 生物科学
R S T U 医学、卫生 农业科学 工业技术 交通运输
V 航空、航天 X 环境科学 Z 综合性图书
J 艺术 K 历史、地理
TB
TD TE
一般工业技术
矿业工程 石油、天然气工业
TQ
TS TU
化学工业
轻工业、手工业 建筑科学
TF
TG TH TJ TK
冶金工业
金属学与金属工艺 机械、仪表工业 武器工业 能源与动力工程
中国科学院图书馆图书分类法简表 (第三版) 71 工程技术
人大法简表
1.马克思主义、列宁主义、 毛泽东思想 2.哲学 3.社会科学、政治 4.经济 5.军事 6.法律 7.文化、教育、科学、体 育 8.艺术 9.语言、文字 10.文学 11.历史 12.地理 13.自然科学 14.医药卫生 15.工程技术 16.农业科学技术 17.综合参考
1 信息检索语言
信息检索语言 = 信息组织与存储的方法或规则
1 .1 什么是信息检索语言
回顾“信息检索原理图”,作为信息检索的桥梁—— 信息检索语言 含义:是根据信息检索系统存储和检索的需要而编制 的人工语言。 语言=词汇+语法 信息检索语言的词汇:分类号、检索词、代码 信息检索语言的语法:如何正确描述记录和有效地检 索记录的一整套规则。
类法,至少有135个国家和地区的20多万个图书馆在采用。
《杜威法》第一次发表于1876年,书名原为《图书馆编目排架用分类法及主
题索引),类表只有12页,加上导言和索引,总共42页。1885年出版第二版,
更名为《十进图书分类法及相关索引》,增加了类的级数,加深了细分程度, 这一版奠定了《杜威法》的体系。之后到1996年已出版第2l版。
TV
水利工业
TL
TM TN
原子能技术
电工技术 无线电电子学、电信技术
《中图法》
属于等级列举式分类法,特点是类目列举详尽,排列按 等级体系,从总体到局部,由大类到小类层层细分,单线 列举,形成树型结构,其中的等级体系一般根据学科属性 排列。
类目格式一般包括分类号、类目名称和注释。
例如: 分类号 TM241
医药卫生
农业科学 工业技术 交通运输 航空、航天
E 军事
F 经济 ’ 文化、科学、教育、体育 语言、文字
五、综合性图书
基本大类: (22种)
A 马列主义毛泽东思想邓小平理论
B 哲学 C 社会科学总论
N
自然科学总论
O 数理化科学 P 天文学、地理
D 政治、法律
E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学
510 数学 520 天文学 530 物理学 540 化学 550 地球科学 560 古生物学 570 生命科学 580 植物学 590 动物学
《杜威十进分类法》
“Dewey Decimal Classification “ 简称DDC或DC,由美国图书馆学家杜
威(Melvil Dewey)创制,是目前全世界使用最广泛、影响最大的图书资料分
根据“信息处理级别示意图”理解不同出版形式的信息源 之间的关系。
第二讲回顾:小结NO5
检索与查找的区别
信息检索的含义、原理、类型、意义
信息检索工具、方法、步骤
信息检索类型划分示意图
能通过“信息检索原理图”理解信息检索原理 能够借助“信息检索步骤示意图”理解并记忆 信息检索五步骤
1.3.2 网络信息分类
[很多情况下并不很清楚自己的信息需求,或者无法清楚表达 信息需要,需要通过类目浏览,获得一些基本信息,然后 再选择检索关键词]
搜索引擎【目录专题网站】 搜狗目录
google网页目录 学科信息门户
/ /
网络信息采集与利用
第一章:基础知识
——信息检索语言与技术
2010.5
第一讲回顾:小结NO4
信息源的三大划分标准:载体形式、处理级别、编辑出版 形式。其中后两种是极其重要的。 不同的需求选择不同的信息源。 哪些信息源是你撰写学术论文必须的
网络资源和数据库作为涉及到各种类型信息资源。
根据“信息源划分示意图”理解不同信息源划分之间的关 系。
开放目录 /
/
特殊资源分类[电影分类/软件分类/商业分类]
1.3.3 数据库信息分类
全文数据库,如《中国期刊全》文摘数据库 EI Village 2
分类语言优点
(1)分类语言是以学科划分类目,符合人们认识事物的规律
1.4 主题语言
主题:论述的对象和研究的问题 主题语言:以文献信息内容特征和科学概念的 词语为检索标识,并按字顺组织起来的一种检 索语言。
1.4.1 标题词语言
标题词:从自然语言中选取并经过规范化处理 的、表示事物概念的的词、词组或短语。 代表:EI中《工程主题词表》(简称SHE) 电脑---见(see)---计算机 局域网---参见(see also)---计算机网络
《中国图书分类法》(台湾)
000 100 200 300 400 600 700 800 900
310 总论 320 哲学 330 宗教 340 自然科学 350 应用科学 360 历史、地理 370 历史、地理 380 语文 390 美术 数学 天文 物理 化学 地质 410 生物、博物 420 植物 430 动物 440 人类学 450 460 470 480 490 441 442 443 444 445 446 447 448 449 土木工程 道路工程 水利工程 船舶工程 市政工程 机械工程 陆空交通 电气工程 核子工程
信息检索语言
1.3.1 文献信息分类语言
国内 《中国图书馆分类法》[中图法] 《中国科学院图书馆图书分类法》[科图法] 《中国人民大学图书馆图书分类法》 [人大法] 《中国图书分类法》台湾赖永祥编订 国外 《杜威十进分类法》[DDC] 《国会图书馆分类法》[LCC]
《中图法》
采用“五分法”形成五大部类。这五大部类的依据,
首先是毛泽东关于知识分类的论述,即世界上的知识 只有自然科学、社会科学和哲学三大部类;其次强调 马列主义的指导作用,将马列主义、毛泽东思想经典 作家的著作及相关文献独立为一个基本部类;最后是
由于文献的特殊性,即存在一些内容庞杂,无法具体
归入某一学科的文献,将其概括为“综合性图书”作 为一个部类。在五大部类之下,层层细分,划分出22 个基本大类,分别为:
《中图法》等级分类体系
H11 H12
H1 H2 H3 R1
H13
H14
H111 H112 H113 H121 H122 H123 H124 下位类
上位类
等级体系分类法
00 马克思列宁主义毛泽 72 能源学、动力工程 东思想 50 自然科学(总论) 电技术、电子技术 73 10 哲学 51 数学 74 矿业工程 20 社会科学(总论) 力学 52 75 金属学(物理冶金) 21 历史、历史学 53 物理学 76 冶金学 27 经济、经济学 54 化学 77 金属工艺、金属加工 31 政治、社会生活 55 天文学 78 机械工程、机器制造 34 法律、法学 56 地球科学(地学) 化学 81 36 军事、军事学 58 生物科学 83 食品工业 37 文化、科学、教育、医药、卫生 61 85 轻工业、手工业及生活 体育 65 农业科学 供应技术 41 语言、文字学 66 农作物 86 土木建筑工程 42 文学 67 园艺 87 运输工程 48 艺术 68 林业、林业科学90 综合性图书 49 无神论、宗教学
受英国科学家培根的知识分类影响,杜威法将所有的学科归纳成9大类,把涉
及全部知识而不能归入任何一门学科的图书总为第0类,称总论,序列在其他 学科知识之首。一级大类之下,以圆点相隔再分小类,称子类。每个一级大
类再分为10个子类(也有不足或超过的)依此类分下去,形成一个完整的层层
展开的等级体系。
《美国国会图书馆分类法》 (LCC)
信息检索语言的含义与作用
检索语言:是根据检索需要而创造的一种人工语言。 作用: 1、保证不同标引人员表征文献信息的一致性。 2、使内容相同及相关的文献集中化。 3、保证检索提问与文献信息标引的一致性。 4、保证检索者按不同需求检索文献信息时,都能获 得最高的查全率和查准率。
1.2 信息检索语言类型示意图
1.4.2 关键词语言
关键词:指那些出现在文献的标题(篇名、章节名)以至 摘要、正文中,对表达文献主题内容具有实质意义的语词, 亦即对揭示和描述文献主题内容来说是重要的、带关键性 的(可作为检索“入口”的)那些词语。 关键词基本上不作规范化处理。例如,“国际联机检索概 论”中的“国际联机”、“联机”、“检索”都是能描述 这篇文献的主题的,可以作为检索词。 概括地说,关键词法就是将文献原来所用的,能描述其主 题概念的那些具有关键性的词抽出,不加规范或只作极少 量的规范化处理,按字顺排列,以提供检索途径的方法。
类目名称
金属导电材料
注释
铝、铜、铁、镍、钼等 及其合金入此
《中图法》类目
Q O1 Q11
生物科学 „„„„„„„„„„„„一级类目 普通生物学 „„„„„„„„„„二级类目 生物演化与发展„„„„„„„„三级类目
Q111
Q111.2
进化论、生物系统发育„„„„ 四级类目
达尔文学说与研究„„„„„五级类目
Q 生物科学
R S T U 医学、卫生 农业科学 工业技术 交通运输
V 航空、航天 X 环境科学 Z 综合性图书
J 艺术 K 历史、地理
TB
TD TE
一般工业技术
矿业工程 石油、天然气工业
TQ
TS TU
化学工业
轻工业、手工业 建筑科学
TF
TG TH TJ TK
冶金工业
金属学与金属工艺 机械、仪表工业 武器工业 能源与动力工程
中国科学院图书馆图书分类法简表 (第三版) 71 工程技术
人大法简表
1.马克思主义、列宁主义、 毛泽东思想 2.哲学 3.社会科学、政治 4.经济 5.军事 6.法律 7.文化、教育、科学、体 育 8.艺术 9.语言、文字 10.文学 11.历史 12.地理 13.自然科学 14.医药卫生 15.工程技术 16.农业科学技术 17.综合参考
1 信息检索语言
信息检索语言 = 信息组织与存储的方法或规则
1 .1 什么是信息检索语言
回顾“信息检索原理图”,作为信息检索的桥梁—— 信息检索语言 含义:是根据信息检索系统存储和检索的需要而编制 的人工语言。 语言=词汇+语法 信息检索语言的词汇:分类号、检索词、代码 信息检索语言的语法:如何正确描述记录和有效地检 索记录的一整套规则。
类法,至少有135个国家和地区的20多万个图书馆在采用。
《杜威法》第一次发表于1876年,书名原为《图书馆编目排架用分类法及主
题索引),类表只有12页,加上导言和索引,总共42页。1885年出版第二版,
更名为《十进图书分类法及相关索引》,增加了类的级数,加深了细分程度, 这一版奠定了《杜威法》的体系。之后到1996年已出版第2l版。
TV
水利工业
TL
TM TN
原子能技术
电工技术 无线电电子学、电信技术
《中图法》
属于等级列举式分类法,特点是类目列举详尽,排列按 等级体系,从总体到局部,由大类到小类层层细分,单线 列举,形成树型结构,其中的等级体系一般根据学科属性 排列。
类目格式一般包括分类号、类目名称和注释。
例如: 分类号 TM241
医药卫生
农业科学 工业技术 交通运输 航空、航天
E 军事
F 经济 ’ 文化、科学、教育、体育 语言、文字
五、综合性图书
基本大类: (22种)
A 马列主义毛泽东思想邓小平理论
B 哲学 C 社会科学总论
N
自然科学总论
O 数理化科学 P 天文学、地理
D 政治、法律
E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学
510 数学 520 天文学 530 物理学 540 化学 550 地球科学 560 古生物学 570 生命科学 580 植物学 590 动物学
《杜威十进分类法》
“Dewey Decimal Classification “ 简称DDC或DC,由美国图书馆学家杜
威(Melvil Dewey)创制,是目前全世界使用最广泛、影响最大的图书资料分
根据“信息处理级别示意图”理解不同出版形式的信息源 之间的关系。
第二讲回顾:小结NO5
检索与查找的区别
信息检索的含义、原理、类型、意义
信息检索工具、方法、步骤
信息检索类型划分示意图
能通过“信息检索原理图”理解信息检索原理 能够借助“信息检索步骤示意图”理解并记忆 信息检索五步骤
1.3.2 网络信息分类
[很多情况下并不很清楚自己的信息需求,或者无法清楚表达 信息需要,需要通过类目浏览,获得一些基本信息,然后 再选择检索关键词]
搜索引擎【目录专题网站】 搜狗目录
google网页目录 学科信息门户
/ /
网络信息采集与利用
第一章:基础知识
——信息检索语言与技术
2010.5
第一讲回顾:小结NO4
信息源的三大划分标准:载体形式、处理级别、编辑出版 形式。其中后两种是极其重要的。 不同的需求选择不同的信息源。 哪些信息源是你撰写学术论文必须的
网络资源和数据库作为涉及到各种类型信息资源。
根据“信息源划分示意图”理解不同信息源划分之间的关 系。
开放目录 /
/
特殊资源分类[电影分类/软件分类/商业分类]
1.3.3 数据库信息分类
全文数据库,如《中国期刊全》文摘数据库 EI Village 2
分类语言优点
(1)分类语言是以学科划分类目,符合人们认识事物的规律
1.4 主题语言
主题:论述的对象和研究的问题 主题语言:以文献信息内容特征和科学概念的 词语为检索标识,并按字顺组织起来的一种检 索语言。
1.4.1 标题词语言
标题词:从自然语言中选取并经过规范化处理 的、表示事物概念的的词、词组或短语。 代表:EI中《工程主题词表》(简称SHE) 电脑---见(see)---计算机 局域网---参见(see also)---计算机网络
《中国图书分类法》(台湾)
000 100 200 300 400 600 700 800 900
310 总论 320 哲学 330 宗教 340 自然科学 350 应用科学 360 历史、地理 370 历史、地理 380 语文 390 美术 数学 天文 物理 化学 地质 410 生物、博物 420 植物 430 动物 440 人类学 450 460 470 480 490 441 442 443 444 445 446 447 448 449 土木工程 道路工程 水利工程 船舶工程 市政工程 机械工程 陆空交通 电气工程 核子工程