信息检索教程第3章 信息著录和标引
第三章 计算机检索基础知识

算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。
作业:查询资料什么是著录和标引,并自行制作一份著录标引,可以是手工著录标引,也可以是机读著录标引。

作业:查询资料什么是著录,什么是标引,并自行制作一份著录标引,可以是手工著录标引,也可以是机读著录标引。
一.什么是著录1.定义在组织检索系统时,对具体信息的各种形式特征、内容特征及物质形态等进行分析、选择和记录的过程。
通常意义上讲的著录就是指,按照某种标准化的格式和要求(如MARC),对文献的某些被规定的特征进行描述(如责任者、题名、出版社等),形成一条一条的信息描述项,最后著录的结果就是一条关于该信息资源的书目数据记录。
2.著录的基本要求(1)准确化:著录的结果要全面、客观、准确地揭示信息资源的内容特征和形式特征;(2)规范化:要求信息著录坚持标准化著录原则,按照统一的著录项目、著录格式、标识符号等进行著录。
3.著录的作用揭示、组织、检索4.信息著录的标准(1)著录法:关于如何进行著录的具体规定和具体做法。
通常包括著录原则、适用范围、著录项目、著录格式、著录来源、著录文字、标识符号以及各个著录项目的具体细则规定。
(2)常用标准英-美编目条例第2版》(AACR2)、《国际标准书目著录》(International Standard Bibliographic Description)…中国的《文献著录总则》(GB3972.1-83)、《西文文献著录条例》、《连续出版物著录规则》(GB3792.3-85)…MARC、USMARC、CNMARC5.著录格式(1)普通图书卡片式款目著录格式正题名=并列题名:副题名及说明题名文字〔文献类型标识〕/第一责任者;其他责任者.·-版次及其它版本形式/与本版有关的责任者· -文献特殊细节·-出版发行地:出版发行者,出版发行日期(印刷地:印刷者,印刷日期)页数及卷册数:图;尺寸或开本+附件·-(丛编名/责任者,国际标准连续出版物编号;丛编编号·附属丛编)附注国际标准书号;中国标准书号(装订):获得方式提要Ⅰ. 题名Ⅱ.责任者Ⅲ. 主题词Ⅳ.分类号实例乱世佳人=Gone with the wind/(美)米切尔(Mitchell,M.著;黄怀仁,朱攸若译.·-杭州:浙江文艺出版社,1991.41034页;20cm本书另有译名:飘ISBN 7-5339-0367-6:¥10.70Ⅰ. 乱…Ⅱ. ①米…②Mitchell③黄…④朱…Ⅲ.长篇小说Ⅳ.I712.45(2)连续出版物卡片式款目著录格式正题名.分册标识,分册题名=并列题名.并列分册题名:其他题名信息/第一责任者,其他责任者.-版本.-卷期年月标识.-出版地:出版者,出版年.-文献数量;其他形态细节;尺寸+附件.-(丛刊题名;丛刊标识)出版周期附注其他题名分类号主题词ISSN=识别题名6.主要类型信息著录就是按照某种规则揭示某一信息资源的主要特征,给出信息资源的缩影。
信息检索第三章信息著录和标引

信息检索第三章信息著录和标引第三章信息著录和标引3.1信息著录的含义和标准一、信息著录的含义信息著录:简称著录,指在组织检索系统时对文献内容和形式特征进行选择和记录的过程。
著录对象是信息,著录结果是款目或记录。
款目:指依据一定的标准方法,对一种文献或信息源的内容价值物质形态进行描述而形成的一条记录。
款目由一条条著录项目组成。
著录项目:用于揭示文献内容和形式特征的记录事项。
信息著录的基本要求:①准确性。
要求著录结果准确全面客观的揭示文献或其它信息源的内容特征或形式特征②规范化。
要求信息著录坚持标准化原则,按照统一的著录项目,著录格式,标识符号进行著录。
二、信息著录的作用1、揭示功能:信息著录主要反映的是文献本身的特征,通过对文献全面系统的分析,揭示出其内容特征和形式特征,将其浓缩于只言片语中,从而表达文献的基本信息。
2、组织功能:信息著录后形成的款目或记录,是编制目录的基础,也是组织数据库数据的基本单元。
文献编目包括信息著录和目录组织两步。
信息著录是对文献内容特征形式特征进行选择记录后形成款目或记录。
目录组织是将这些款目或记录按照一定组织规则编排在一起最终形成检索工具或数据库。
3、检索功能:存储是检索的第一个阶段,即将表达文献特征的有检索意义的标识通过记录组织成手工检索工具或计算机数据库,而表达文献特征的标识需要通过著录和标引来完成。
作为信息著录结果的款目或记录,记载了表达文献特征的各种标识。
三、信息著录的标准《文献著录总则》旨在根据各种类型文献的共同特点,确定文献著录原则、内容、标识符号、格式等的统一规定。
具有指导作用为信息著录提供原则性框架,并不作为文献著录的直接依据。
1、著录项目:①题名与责任者项②版本项③文献特殊细节项④出版发行项⑤载体形态项⑥丛编项⑦附注项⑧文献标准编号及有关记载项⑨提要项2、著录级次:著录文献的详简程度,分为三级:①简要级次,款目仅著录主要项目②基本级次,著录主要项目同时还著录部分选择项目③详细级次,著录全部主要项目和全部选择项目。
01信息检索教程

01信息检索教程信息检索教程(08⼈⼤版核⼼知识)第1章信息检索基础1. 1 信息概述1. 2 信息检索的概念和原理1. 3 信息检索系统1. 4 信息检索⽅法1. 5 信息检索效果第2章检索语⾔2. 1 检索语⾔概述2. 2 检索语⾔的理论基础2. 3 分类检索语⾔2. 4 主题检索语⾔2. 5 分类主题⼀体化检索语⾔2. 6 ⽹络信息检索语⾔第3章信息著录和标引3. 1 信息著录的含义和标准3. 2 机读⽬录与元数据3. 3 信息标引的含义和步骤3. 4 分类标引和主题标引3. 5 ⾃动标引第4章参考⼯具书概述4. 1 参考⼯具书的概念与特点4. 2 参考⼯具书的种类与排检⽅法4. 3 参考⼯具书的数字化第5章参考⼯具书使⽤5. 1 图书与知识型信息检索5. 2 数据与事实型信息检索第6章计算机信息检索概述6. 1 计算机信息检索的含义和特点6. 2 计算机信息检索策略6. 3 信息检索技术第7章联机检索7. 1 联机检索系统概述7. 2 主要联机检索系统简介第8章光盘检索8. 1 光盘检索系统8. 2 主要光盘数据库选介第9章⽹络信息检索概述9. 1 ⽹络信息资源分布9. 2 ⽹络信息检索原理与⽅法9. 3 ⽹络信息检索相关标准9. 4 ⽹络信息检索发展趋势第10章⽹络信息检索⼯具10. 1 ⽹络信息检索⼯具的发展和类型10. 2 搜索引擎10. 3 ⽹络资源⽬录10. 4 元搜索引擎第11章⽹络数据库检索11. 1 ⽹络数据库概述11. 2 国外⽹络数据库检索⽰例11. 3 中⽂⽹络数据库第12章特种⽂献检索12. 1 科技报告检索12. 2 会议⽂献检索12. 3 学位论⽂检索12. 4 专利⽂献检索12. 5 标准⽂献检索12. 6 档案⽂献检索注:本复习资料以注重基础概念以及实践应⽤的考察⽬标为标准。
其他参考书⽬:《信息检索教程》——刘廷元、邵卫东交通⼤学出版社《信息检索》——马⽂峰国家图书馆出版社《信息组织(第3版)》——马张华清华⼤学出版社《信息描述》——杨⽟麟⾼等教育出版社第1章信息检索基础【本章要点】●解释信息的含义与特征●论述信息的分类●介绍信息检索的概念●阐述信息检索的原理●讨论信息检索系统●梳理信息检索⽅法●探讨信息检索效果评价1. 1 信息概述1.1.1.1信息的含义:信息链(补充知识,09华南师范名解):(Information Chain)由事实(Facts)→数据(Data)→信息(Information)→知识(Knowledge)→“情报”、“智能”(Intelligence)五个链环构成。
信息检索与利用-第三章

中国古代字书(字典、词典)
以字形为系——《说文解字》系统 继(东汉)许慎《说文解字》后,主要有晋吕忱《字林》、北魏江 式《古今文字》、南北朝梁顾野王《玉篇》、宋司马光的《类篇》、明 梅膺祚的《字汇》、清张自烈的《正字通》和张玉书等奉敕编纂的《康 熙字典》等。 以字音为系——韵书系统 韵书的特点是对汉字审音辨韵,依韵编排。主要有三国魏李登的 《声类》、晋吕静的《韵集》、南北朝梁周颙的《四声切韵》和沈约的 《四声谱》、隋陆法言的《切韵》、宋陈彭年等人的《广韵》和丁度等 人的《集韵》、金王文郁的《平水新刊礼部韵略》、元熊忠的《古今韵 会举要》、明乐韶风的《洪武正韵》、清李光地的《音韵阐微》等。 以字义为系——雅类系统 相传汉初学者缀辑周汉诸书旧文而成《尔雅》,是按事物性质将汉 字分门别类加以解释的字书,晋代郭璞和宋代邢昺为之注疏。有汉孔鲋 《小尔雅》和刘熙的《释名》(《逸雅》)、三国魏张揖《广雅》、宋 陆佃的《埤雅》和罗愿的《尔雅翼》、明朱谋玮的《骈雅》和方以智的 《通雅》、清吴王搢的《别雅》和史梦兰的《叠雅》等。
一、书 目
(二)书目的类型
古典书目:有官修书目、史志目录、私家书目、版本目录、推
荐书目等。 汉朝刘向在典校古籍时,撰有《别录》。后来,他的儿子刘歆以 《别录》为基础撰成《七略》,这是我国第一部分类目录。
一、书 目
现代书目:
1. 登记书目、通报书目、新书目录、推荐 性书目、书目之书目 2. 综合性书目、专题(学科)书目、地 方文献书目、个人著述目录 3. 馆藏目录、联合目录 4. 现行书目、回溯性书目、新书预告目 录、古籍目录 5. 图书目录、报纸目录、期刊目录、丛 书目录、方志目录、乐谱目录、非书资料目 录 6. 印刷型书目、机读目录、网络版书目
第3章 信息著录和标引解剖

3.4.2.3 主题词组配标引的形式
3.5.1 自动标引概述
3.5.2 自动标引的原理
3.5 自
3.5.3.1 统计标引法
动
标
3.5.3
3.5.3.2 语言分析标引法
引
自动标引方法 3.5.3.3 人工智能标引法(略)
3.5.3.4.自动赋词标引法
3.5.4 自动分类
3.5.4.1 自动归类 3.5.4.2 自动聚类
3.1 信息著录的含义和标准
• 3.1.1 信息著录的含义和作用
• 著录:在组织检索系统时,对具体信息的各种形式特征、内容 特征及物质形态等进行分析、选择和记录的过程。
• 款目/记录:按照一定的方法和规则对某一信息的内容和特征所 作的描绘结果。
– 在逻辑上代表该信息。 – 款目由一条条著录项目组成。 – 著录项目是用于揭示信息内容和形式特征的记录事项。
与 元 数
3.2.2
元数据的作用
都柏林核心元数据 DC
内容描述 外形描述 知识产权
据
元数据
修饰词的含义
DC的修饰词 类型:元素修饰词和编码
DC实例
体系修饰词
其他元数据规范
DC与MARC的比较
3.3
信 息 标 引
3.3.1 含义与质量 控制
3.3.1.1 含义 3.3.1.2 标引的不同方式 3.3.1.3 质量控制
• 常用著录标准:
《英-美编目条例 第2版》(AACR2)、《国际标准书目著录》 (International Standard Bibliographic Description)… 中国的《文献著录总则》(GB3972.1-83)、《西文文献著 录条例》、《连续出版物著录规则》 (GB3792.3-85)… MARC、USMARC、CNMARC
信息检索教程第3章 信息著录和标引

Thank You!
32
9
第3章 信息著录和标引
中文文献的著录主要采用的是CNMARC,以共享我 国图书馆和信息部门的中文书目记录;西文文献的著录则 采用USMARC,以共享国外权威的西文书目记录。这里 重点介绍CNMARC。
CNMARC 记录
记录头 标区
地址目 次区
数据字 段区
记录分 隔符
注:各字段数据元素及其标准详细情况参见教材P47-51
影响标引质量的因素 标引深度 专指度 一致性
16
第3章 信息著录和标引
3.3.2 信息标引的步骤
信息标引的步骤包括主题分析和概念转换,也就是先 要对文献的内容进行分析,明确文献的主要内容和主题概 念,然后用分类法或主题法将其充分、准确地表达出来。
3.3.2.1 主题分析
1. 主题类型和结构
(1)单主题和多主题 (2) 显性主题和隐性主题
普通高等教育”十一五”国家级规划教材
信息检索教程
王立清 主编
第3章 信息著录和标引
本章要点
信息著录和标引是使 信息序化的过程。它通过 揭示信息的内在以及外在 特征,将分散无序的信息 重组,规范控制信息流向, 以便用户有效利用。
●介绍信息著录和标引的含义 与作用
●叙述信息著录和标引的发展 ●介绍元数据的定义与作用 ●比较机读目录MARC和都柏林
26
第3章 信息著录和标引
统计标引法
3.5.2 自动标 语言分析标 引方法 引法
词频统计法 加权标引法 n-Gram标引法 统计学习标引法
句法分析标引法 语义分析标引法
人工智能标 JAKS标引法、WorldViews标引
引法
法和MedIndEx标引法
文献信息检索实用教程 第三版 第3章 文献信息检索的类型、语言及工具

文 献 信 息 检 索 实 用 教 程 (第三版)
目录
CONTENTS
第3章 文献信息检索的类型、语言及工具
3. 1 文献信息检索的类型 3. 2 文献信息检索的语言 3. 3 文献信息的检索工具 3. 4 文献信息检索的意义和作用 3. 5 文献信息检索的发展趋势
第3章 文献信息检索的 类型、语言及工具
3.检索工具的类型
3. 3 文献信息的检索工具
01 控制一检索性工具
02 资料一参考性工具
03
文献一全文型检索 工具
第3章 文献信息检索的 类型、语言及工具
4.检索工具的结构
3. 3 文献信息的检索工具
文前栏目
主体部分
附属部分
第3章 文献信息检索的 类型、语言及工具
第3章 文献信息检索的 类型、语言及工具
3. 1 文献信息检索的类型
1.按检索对象 划分
文献检索 数据检索 事实检索
2.按检索手段 划分
手工检索 机械检索 计算机检索
3.按检索途径 划分
直接检索 间接检索
4.按检索载体 划分
文献信息检索 非文献信息检索
第3章 文献信息检索的 类型、语言工具3. 2 文献信息检索的语言
第3章 文献信息检索的 类型、语言及工具
3.2.2.检索语言的类型
3. 2 文献信息检索的语言
第3章 文献信息检索的 类型、语言及工具
3. 2 文献信息检索的语言
3.2.3.检索语言的功能
(1) (2) (3)
对信息的内容特征及某些外在特征加以标引.赋子其检索标识.保证不同的标 引者表述信息特征的一致性。
一般情况下.检索工具必须具备以下四个基本条件: (1)必须详细记录文献的外在特征和内容特征。 (2)必须具有既定的检索标识.如主题词、分类号、作者姓名和文献序号等。 (3)必须根据标识的顺序.系统地、科学地排列文献.使其成为一个有机的整体。 (4)能够提供多种检索途径。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3章 信息著录和标引
3.2.2 元数据
元数据的英文为Metadata,意为关于数据的数据。 在Internet中,元数据是指描述任何Internet数据和 资源,促进Internet信息资源的组织和发现的数据,以协 助对网络资源的识别、描述、指示其位置。
11
第3章 信息著录和标引
3.2.2.1 元数据的作用 元数据具有描述、定位、搜寻、评估、选择等多种功
9
第3章 信息著录和标引
中文文献的著录主要采用的是CNMARC,以共享我 国图书馆和信息部门的中文书目记录;西文文献的著录则 采用USMARC,以共享国外权威的西文书目记录。这里 重点介绍CNMARC。
CNMARC 记录
记录头 标区
地址目 次区
数据字 段区
记录分 隔符
注:各字段数据元素及其标准详细情况参见教材P47-51
31
Thank You!
32
主题词组配标引的形式
25
第3章 信息著录和标引
3.5 自动标引
3.5.1 自动标引概况
自动标引指直接通过计算机的操 作处理,赋予检索标识的活动。
在网络环境下,传统的手工标引 已经无法适应信息存储的需要,自动 标引由于具有较强的处理能力,能够 适应信息数量迅速增长的需要,处理 速度快,可以在一定程度上克服手工 标引人员由于主观因素而导致的标引 误差,增强标引结果的一致性,标引 成本相对较低等优点,呈现出明显的 优势,逐渐被广泛应用。
23
第3章 信息著录和标引
3.4.2 主题标引
主题标引指依据一定的主题词表,对文献的内容先进 行主题分析,再赋予文献语词标识的过程。目前,国内主 要采用《汉语主题词表》及其相关的专业词表进行主题标 引。
选词 规则
组配 规则
24
第3章 信息著录和标引
概念 交叉 组配
概念限 定关系 组配
连接 关系 组配
念赋予检索标识的过程。 主题概念转换按其复杂程度可以分为两种: (1)直接转换:这种转换比较简单,标引人员从词
表中直接选择与主题概念对应的分类号或主题词即可; (2) 分解转换:将复杂的主题概念首先进行分解,
然后再选择相应的主题词或分类号。 概念转换结束后,还要进行标引结果的审核,即审核
文献的分类或主题检索标识是否正确,包括文献主题分析 的正确性、充分性,检索标识的正确性等。
3.3.1 信息标引的 含义和质量控制
3.3.1.1 信息标引的含义
信息标引是指在分析文献内容的基础上,用某种 检索语言把文献主题以及其他有意义的特征标识出来, 它是文献存储与检索依据的一种文献处理过程。
信息标引
分类标引 主题标引
15
第3章 信息著录和标引
3.3.1.2 信息标引的质量 控制
信息标引质量的优劣,直 接影响到计算机的查全率和查 准率,影响到用户利用检索系 统的效率。尤其是随着大型数 据库的开发和利用,对于海量 的数据,必须组织大规模的集 体标引才可能完成任务因而, 关于信息标引的质量控制就显 得尤为重要。
自动分类是指由计算机系统自动提取信息的特征项, 依据一定的算法,将信息按内容或属性归到一个或多个类 别的过程。
自动分类
自动归类
自动聚类
Байду номын сангаас主要区别 是自动聚 类不需要 事先定义 好分类体 系,而自 动归类则 需要确定 好类别体
系
28
第3章 信息著录和标引
3.5.3.1 自动 归类
自动归 类是指计算 机系统按照 一定的分类 标准,将待 分信息划归 到不同类目 的过程。
4
第3章 信息著录和标引
《文献著录总则》 颁布时间:1983年7月 著录项目:① 题名与责任者项
② 版本项 ③ 文献特殊细节项
④ 出版发行项 ⑤ 载体形态项 ⑥ 丛编项 ⑦ 附注项 ⑧ 文献标准号及有关记载项 ⑨ 提要项
5
第3章 信息著录和标引
著录级次:
著录级次指著录文献的祥简程度。《文献著录总则》把著录项目 分为主要项目和选择项目两种。主要项目包括:题名和责任者项的正 题名、第一责任者;版本项;出版发行项的出版发行地、出版发行者、 出版发行日期;载体形态项。选择项目包括主要项目之外的所有其余 著录项目。 按著录的详略程度分三级:(1)简要级次:款目仅著录主要项目, 又称第一著录级次;(2)基本级次:著录主要项目的同时,还著录 了部分选择项目,也称第二著录级次;(3)详细级次:著录主要项 目和全部的选择项目,也称第三著录级次。
另一种是先找出文献所涉及的各种概念,并查明它们 之间的相互关系。文献中包含哪个因素就分析哪个因素, 有的因素不只一个就要全部分析出来,以便筛选和进行匹 配,然后,再将各个因素按照主题结构模式进行分析。
19
第3章 信息著录和标引
3.3.2.2 概念转换 主题概念转换是以主题分析为基础,将确定的主题概
6
第3章 信息著录和标引
著录格式:
指款目中各个著录项目的排列次序和表达方式。分为卡片式 款目著录格式和书本式款目著录格式两种。
正题名=并列题名:副题名及说明题名文字[文献类 型标识]/第一责任者;其他责任者.—版次及其 他版本形式/与本版有关的责任者.—出版发行地: 出版发行者,出版发行日期(印刷地:印刷者, 印刷日期)
信息著录标准是指在描述信息过程中所要依据的规则 和条例,是实现信息著录标准化的前提和根本。信息 著录标准包括国际标准和国家标准。
信息著录标准化进程中,近年来受到广泛关注的 热点之一,是网络信息资源的描述问题,亦即元数据 的记录问题。与传统信息资源相比,网络资源在资源 类型、结构、形式、描述环境、描述主体等方面存在 这不同,其描述规范也因此呈现多样化。
3.4.1.1 分类标引的基本原则
1
学科属性原则
2
专指性原则
3
实用性原则
4
系统性原则
5
一致性原则
22
第3章 信息著录和标引
3.4.1.2 各种类型主题文献的分类标引规则 1. 单主题文献的分类标引规则 2. 多主题文献的分类标引规则 3. 相关关系主题文献的分类标引规则
注:具体规则参见教材P58-59
30
第3章 信息著录和标引
1.信息著录的含义和作用是什么? 2.信息著录的标准有哪些? 3.什么是机读目录?试说明CNMARC的结
构。 4.什么是元数据?元数据有哪些作用? 5.试比较CNMARC和元数据。 6.简述信息标引的含义和步骤。 7.分类标引应坚持哪些原则? 8.主题词组配标引的形式有哪几种? 9.自动标引的主要方法有哪些? 10.如何评价自动分类?
提要
图3-2 书本式款目著录格式
8
第3章 信息著录和标引
3.2 机读目录 与元数据
3.2.1 机读目录
机 读 目 录 ( MARC ) 即 机 器可读目录的简称,来自英文 Machine-Readable Catalogue,是 利用计算机识读和处理的目录。 机读目录是描述文献著录项目 的国际标准格式,是实现计算 机处理书目信息及资源共享的 基础。
用,可以连贯有效地描述、管理、编目网络资源,以便用 户更方便地找到资源,并找到更多的相关资源。
1. 定位和检索 2. 著录和描述 3. 资源管理 4. 资源保护与长期保存
12
第3章 信息著录和标引
3.2.2.2 都柏林核心元素集(Dublin Core Elements Set)
都柏林核心元数据集(Dublin Core Elements Set) 是一种跨领域的信息资源描述标准,其应用的资源类型没 有根本性的限制。
26
第3章 信息著录和标引
统计标引法
3.5.2 自动标 语言分析标 引方法 引法
词频统计法 加权标引法 n-Gram标引法 统计学习标引法
句法分析标引法 语义分析标引法
人工智能标 JAKS标引法、WorldViews标引
引法
法和MedIndEx标引法
27
第3章 信息著录和标引
3.5.3 自动分类
基于词的归类技术
选择一种分类体系。利用现有分类法,形成归 类底表。
抽取关键词,与预先设计的“分类号 关键词” 所形成的矢量空间模式进行匹配,找出每个关键词 涉及的分类号。
把所有分类号进行逻辑运算、整理,结合复分 表索引库,得出每个分类号的权值级别。级别最高 的类,即为该文献应归的类。
基于知识的归类技术
20
第3章 信息著录和标引
3.4 分类标引 和主题标引
3.4.1 分类标引
文献分类标引是指依据一定的分类 检索语言,对文献内容的学科性质及其 有检索意义的形式特征进行分析、归纳, 赋予文献分类检索标识(分类号)的过 程。目前,国内主要依据《中国图书馆 分类法》来进行分类标引。
21
第3章 信息著录和标引
2
第3章 信息著录和标引
3.1.1.2 信息著录的作用 信息著录的目的是为了报道和检索信息,通过著录可 以浓缩文献信息的特征,起到揭示文献、报道文献,帮助 人们快速地了解文献,进而选择自己所需文献的作用。
具体作用如下: 1. 揭示功能 2. 组织功能 3. 检索功能
3
第3章 信息著录和标引
3.1.2 信息著录的标准
普通高等教育”十一五”国家级规划教材
信息检索教程
王立清 主编
第3章 信息著录和标引
本章要点
信息著录和标引是使 信息序化的过程。它通过 揭示信息的内在以及外在 特征,将分散无序的信息 重组,规范控制信息流向, 以便用户有效利用。
●介绍信息著录和标引的含义 与作用
●叙述信息著录和标引的发展 ●介绍元数据的定义与作用 ●比较机读目录MARC和都柏林
影响标引质量的因素 标引深度 专指度 一致性
16
第3章 信息著录和标引