信息检索语言
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二节信息检索语言
计算机检索的基本原理是将用户的检索提问词与数据库文献记录中的标引词进行对比,当提问词与标引词匹配一致时,即为命中,检索成功。由此可见,能否准确地检索出用户所需信息,关键在于能否准确地选择检索词。这里所说的“准确”,是指用户所选的检索词必须与数据库中标引文献记录所用的标引词一致。然而实际工作中,从事信息存储的人员与从事信息检索的人员绝大多数情况下不可能进行直接的思想交流,因而会造成存储信息与检索信息所依据的规则不一致,导致存入的文献检不出。为了避免这种情况发生,在信息标引人员与信息检索人员之间必须制定一种共同遵守的规则,即一种约定的相同标识和线路,这就是检索语言。
一检索语言的含义及作用
1 检索语言的概念
检索语言(information retrieval language),是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。
有了这种规则,信息标引人员在进行信息存储的过程中,就会对原始信息进行分析,找出其能代表信息的特征与检索语言(检索标识系统)进行对照标引,然后纳入检索系统;而信息检索人员在进行信息检索的过程中,则先对待查课题进行分析,归纳出各种信息特征,使之形成能代表需要的检索提问,然后把这些提问与检索语言(检索标识系统)进行核对,标引成检索提问标识。
如果没有检索语言作为标引人员和检索人员的共同语言,就很难使得标引人员对文献信息内容的表达和检索人员对相同文献信息内容需求时的表达取得一致,信息检索也就不可能顺利实现。
2 检索语言的工作原理
(1)存储:检索系统对文献内容进行分析,概括分析出若干能代表文献内容的语词,并赋予一定的标识,如题名、作者、主题词等,作为存储与检索的依据,然后纳入到数据库中。
(2)检索:检索人员首先要对检索课题进行分析,同样形成若干能代表信息需求的语词,然后通过检索系统在数据库中匹配具有同样语词和标识的文献,找到自己所需的信息。
3 检索语言的作用
(1)保证不同标引人员表征文献信息的一致性。(2)使内容相同及相关的文献集中化。
(3)保证检索提问与文献信息标引的一致性。(4)保证检索者按不同需求检索文献信息时都能获得较高的查全率和查准率。
二检索语言的类型
1 自然语言(natural language)检索用词是从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成,辅以人工自由标引(非依据词表的标引方法),是非规范词(uncontrolled term)。
(1)关键词(keyword):直接从信息资源名称、正文或文摘中抽出的代表信息主要内容的重要语词。
(2)题名:信息资源的名称,如论文篇名、图书书名、网站名称等。
(3)全文:从资源的内部内容中自动抽取、查找,是目前网上各类搜索引擎使用的最多的方法。
(4)引文(quotation):将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。
自然语言的优点:
(1)新颖性强:一旦文献中出现某个新词语,即可直接使用这一词语作为检索入口,根本无需像受控语言那样冥思苦想地将其转换成另一规范词用于检索。
(2)检索方便:它解除了人工语言的种种限制,不需要复杂的检索规则,使用者能较快适应,易用性强。
(3)标引准确度高:自然语言采用从文献中抽词标引的方式,不容易发生误标引,适用于计算机检索。只要数据库的文献标题中含有该检索词,即视为命中,健全率较高。
自然语言的缺点:
(1)词汇量太大,给词汇的存储、加工和检索带来许多操作性方面的困难。
(2)当文献的主题很明白清楚地在标题或主题词中表达出来时,检索才会较成功,反之则失效。
(3)词汇具有模糊性,另外多义、近义、同义现象较多,给标引和检索带来困难。
2 人工语言
由人工创制的,采用规范词,用来专指某个概念或与之相应的概念。可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制。包括分类检索语言、主题检索语言、代码检索语言。
(1)分类检索语言
按学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。
中国图书馆图书分类法
美国国会图书馆分类法
杜威十进位分类法
IPC国际专利分类表
下面以《中图法》为例说明体系分类法的结构与功能。
《中图法》是体系分类法的典型代表,是现今国内图书情报部门普遍使用的一部分类法。
《中图法》的类目表由基本大类、简表、详表和复分表组成。
基本大类是分类法中的第一级类目,是对学科领域的基本划分。《中图法》共有二十二个基本大类,每个大类都用一个英文字母表示。如下所示:
A 马克思主义、列宁主义、毛泽东思想、邓小平理论
B 哲学宗教
C 社会科学总论
D 政治法律
E 军事
F 经济
G 文化科学教育体育
H 语言文字
I 文学
J 艺术
K 历史地理
N 自然科学总论
O 数理科学化学
P 天文学地球科学
Q 生物科学
R 医药卫生
S 农业科学
T 工业技术
U 交通运输
V 航空航天
X 环境科学劳动保护科学
Z 综合性图书
简表又称为基本类目表,是分别对每个基本大类,依据它的某些属性,作进一步划分后而形成的二、三级类目表。如:Q 生物科学
Q1 普通生物学
Q2 细胞学
Q3 遗传学
Q4 生理学
Q5 生物化学
┇
详表又称主表或正表,由简表进一步细分而成的最小概念性分类表。
如:
I 文学
I0 文学理论
I1 世界文学
I2 中国文学
I20
I21 作品集
I22 诗歌、韵文
I23 戏剧文学
I24 小说