信息检索基本理论

信息检索基本理论
信息检索基本理论

章节:第二章信息检索基本理论学时:2学时教学目的:

1 了解信息检索工具的概念、类型。

2 了解检索语言的分类,掌握分类语言、主题检索语言的概念、特点、使用方法。

3 了解《中国图书分类法》、《汉语主题词表》的主要结构。

4 了解信息检索的原理和途径,学会信息检索的方法和检索步骤。

5 掌握信息检索效果的主要评价指标,了解提高检索效果的策略。重点难点: 1 简述信息检索工具的类型。 2 论述分类语言、主题检索语言的原理与特点。 3 简述信息检索的主要步骤。 4 论述提高信息检索效果的方法。教学进程: 1 信息检索工具(15分)。 2 信息检索语言(30分)。 3 信息检索的步骤(25分)。 4 检索效果的评价(25分) 5 小结(5分)。思考题:1 简述信息检索工具的种类。 2 简述分类语言与主题语言的含义及其特点。 3 简述信息检索的步骤、方法。 4 简述查全率、查准率的概念,分析影响查全率和查准率的因素,并提出解决办法。参考资料: 1 沈固朝.信息检索(多媒体)教程.北京:高等教育出版社 2 华薇娜.网络学术信息资源检索与利用.北京:国防工业出版社 3 刘俊熙,王立义.信息检索.北京:北京图书馆出版社备注: 1

第二章信息检索基本理论 1 信息检索工具信息检索工具是指人们用来存储、报道和查找文献信息的工具或系统。在文献检索里面就是我们前面讲到的二次文献。按照对收录文献的提示方式划分,信息检索工具可分为目录、题录、文摘、索引。检索工具的作用:1、存储作用检索工具将分散的不同种类、学科文献经过压缩加工系统排列组织到一起。只有先进行了存储我们才能进行查找。这样我们不必在查找资料时阅读大量原始文献,只需利用检索工具查找相关主题的目录介绍等来

确定我们所需的资料。在有限时间内提高了工作效率。 2、检索作用存储在检索工具中的资料,可根据我们的需要按一定的方法和规则进行查找。既然是检索工具集必然具有检索的作用。 3、报道作用检索工具搭建了文献管理者和文献利用者之间沟通联系的桥梁。它可以向我们使用者展示管理者所收藏的文献类型、数量等情况,提高了文献的利用率。例:图书馆的门口专供检索的机子,他将图书馆的馆藏数据存在一套图书馆专用管理系统中,我们可以通过利用这套系统,来检索图书馆都有哪些书,书名作者是什么?放在什么地方?借出去基本几本?还有几本在库里,甚至你们读者证的一些信息,包括超期没有,罚金多少等等都可以查询。他也是一个检索工具。检索工具类型: 1.1 目录目录是揭示出版物外部特征的检索工具,如书名、作者、出版社等等,并不涉及书中的具体章节或期刊中的具体文章。他以“本”为单位报道文献。目录的种类主要有:书名目录:如《全国总书目》、《全国新书目》;著者目录:;分类目录:;主题目录:。 1.2 题录题录是以单篇文献作为报道单位,揭示文献外部特征的检索工具。内容包括文献号、文献篇名、作者及工作单位、原文出处等,他也不涉及文献内容,没有内容摘要。文献深度比目录大,是用来查找最新文献的重要工具。 1.3 文摘 2

文摘也是以单篇文献为报道单位,是描述文献外部特征和主要内容特征的检索工具。我们可以通过文摘内容了解文献基本内容,从而决定文献的取舍,起到筛选文献的作用。因此其检索功能强于题录,是检索工具的主体性类型。 1.4 索引索引是将文献中某些主要的、具有检索意义的内容特征标识或外部特征标识按某种顺序排列,并注明文献条目线索的检索工具。如主题索引、著者索引。索引常附于检索工具的后部,是检索工具的主要组成部分,它为查找文献提供了多种检索途径。有的本身全由索

引构成,如美国《科学引文索引》(SCI),美国工程索引EI。

索引的组成主要有索引款目和参照系统两部分。索引款目是索引的主要部分,每条索引款目通常由文献特征标识(标目)、说明语、地址三项组成。标目:识别特定款目的主要标志,他控制款目在索引中的位置,检索者可以通过他迅速找到有关款目。作者姓名、主题词等都可作为标目。采用不同形式标识,就构成不同类型索引。如关键词索引、分类号索引、作者索引。说明语:用来限定和进一步细分同一标识下的文献,达到改善索引的功能。文献题名、自编的短语或短句都可作为说明语。材料出处:指明了索引中款目的文献线索,如页码、题录或文摘的顺序号等。一般文献描述项和索引之间常用文摘号相连,文摘号是检索系统编织者给每篇文献确定的一个能代表该篇文献的号码,我们可通过所引种的文摘号的指引检索文献的描述项,从而获得文献详细信息。 5、搜索引擎他是以网页为著录单元,在Web 中自动搜索信息并将其自动所引到Web服务器。索引信息包括文档地址,文档中单字出现的频率、位置等。网络搜索引擎很多,著名的有Yahoo! Google百度、搜狐、网易、新浪等。 2 信息检索语言 2.1 信息检索语言的概念举例:每天经邮局寄出的信件来自四面八方,杂乱无章。而代表地址的邮政编码和文字确使这些信件成为有序。邮政编码使邮件分检速度加快,有序化程度提高。他不是随意组合的,而是代表了一定的编号。信息也是如此,全世界每年产生的信息何止千万,信息中心将这些信息搜集起来,制定出有关规则,如使用哪种信息系统,使用哪种分类法和主题词表,著录信息的标准是什么等等。信息人员根据规定的规则将信息加工后按一定的排序送入信息系统。用户可以按一定得条件去检索信息了。因此说信息的有序化是由信息著录标准、信息系统的排序方法及检索语言等决定的。 3

检索语言(Retrieval Language)是保证存储和检索的一致的一种共同性的人工语言,它把文献的存储与检索联系起来,使文献的标引者和检索者取得共同理解,从而实现检索。就检索语言的实质而言,它是从自然语言中精选出来并加以规范化的一套词汇符号,是概括信息内容或外在特征及其相互关系的概念标识体系。检索语言由词汇和语法两部分组成。词汇是指登录在类表、词表中所有的标识(分类号、检索号、代码等),是可识别的语词;语法是指如何运用标识来准确表达信息内容和特征,以有效实现信息检索的规则。在存贮和检索过程中,检索语言起着重要的语言保障作用。它既是编制检索工具的依据,也是计算机信息存储及检索系统用以表达文献主题概念的人工语言。如果没有检索语言作为标引人员与检索人员的共同语言,就很难使得标引人员对文献主题内容的表达(文献标引)与检索人员对相同内容的课题文献需求(课题标引)取得一致,文献检索也就不可能顺利实现,甚至根本无法实现。 2.2 信息检索语言的分类检索语言的种类很多。按描述文献特征不同,检索语言分为描述文献外表特征的检索语言和描述文献内容特征的检索语言,见下图。分类语言关键词语言描述信息内容特征的语言单元词语言主题语言标题词语言叙词语言检索语言书/刊名著者描述信息外表特征的语言出版事项代码/序号图2-2 信息检索语言题名语言:是按文献题名字顺逐字排检,西文起首冠词一律不排。著者语言:是按著者姓名,按姓前名后的字顺逐字排检。号码语言:是按文献代码,发专利号、标准号、报告号、ISBN号、ISSN号等的顺序排检。2.3 分类语言 4

2.3.1 概述分类语言是一种直接体现学科知识分类的等级制概念标识系统,是通过对概括性文献信息内容及某些外表特征的概

念进行逻辑分类和系统排列而构成的,用分类号作为检索标识,用于存储和检索文献信息的一种信息标识系统。建立体系分类语言的基础是概念的划分。所谓“类”是指具有某种共同属性的事物或概念的集合。一类事物可以根据其不同的属性进行层层划分。一个概念经过一次划分后形成的一系列概念就是种概念(下位类),而被划分的概念被称为种概念(上位类)。同一属概念划分出来的各个种概念彼此之间相互称为并列概念(同位类)。分类语言包括体系分类语言和综合分类语言(分面组配分类语言)。我们只对体系分类语言进行研究。 2.3.2 《中国图书分类法》简介《中国图书分类法》简称《中图法》,是我国图书情报界为实现全国信息资料统一分类编目而编制的一部大型信息分类法。《中图法》1973年出版第一版,1980年和1982年相继出版第二版、第三版,现行的第四版1999年正式出版。《中图法》由分类表、编辑及使用说明和索引三部分组成。编辑及使用说明为了解和掌握分类表提供指导。索引则是使用分类表的辅助工具。分类表是分类法的主体,是类分信息的主要依据。因此,以下重点介绍分类表的结构。 (1) 基本部类。它是分类法类目表中最先确定、最概括、最本质的类目。《中图法》确定为五大部类:马列主义、毛泽东思想、邓小平理论,哲学,社会科学,自然科学,综合性图书。 (2) 基本大类。它是在基本部类的基础上进一步展开而形成的。基本大类构成分类表的第一级类目。《中图法》的基本大类有22个。见图2-3。 (3) 简表。简表是整个分类法的基本类目表,一般由基本大类在作一、二度划分出来的类目和基本大类构成。 (4) 详表。是整个分类法的正文,亦称主表,由所有不同级类目组成。它是类分信息资料的依据。 (5) 辅助表。也称复分表,它是用于辅助主表的不足,对主表中列举的类目进一步细分。基本部类基本大类 5

马克思主义.列宁主义、毛泽东思想、邓小平理论―――――――――――― A 马克思主义、列宁主义、毛泽东思想、邓小

平理论哲学――――――――――――――- B 哲学、宗教社会科学――――――――――――― C 社会科学总论 D 政治、法律

E 军事

F 经济

G 文化、科学、教育、体育

H 语言、文字 I 文学 J 艺术 K 历史、地理

自然科学―――――――――――― N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学综合性图书――――――――――― Z 综合性图书图2-3 《中国图书分类法》

基本大类《中图法》的标记符号采用汉语拼音与阿拉伯数字相结合的混合制号码。用一个字母表示一个大类,用字母的顺序反映

大类的顺序,在字母后面用数字反映大类下类目的划分。分类号

码的排列严格按照小数制的排列方法。数字的位置尽可能使号码

的级数代表类目的级数,基本上遵循层累制的编制原则。见图2-4。 G 文化、科学、教育、体育 G0 文化理论 G1 世界各国文化与文化事业 G2 信息与知识传播图书馆学、图书馆事业 G25 读者工作

G252 文献检索 G252.7 科学、科学研究 G3 教育 G4 体育 G8 图2-4 《中国图书分类法》类目展开示例 6

2.3.3 体系分类语言的优势: (1) 族性检索效果强。能较好地体现学科的系统性,便于人们从某一学科或专业角度查找文献。 (2) 便于随时放宽或缩小检索范围。 (3) 分类标识简单明了,易于掌握。 2.3.4 体系分类语言的缺陷: (1) 不利于特性检索。 (2) 类目专指度不够,在标引和检索复杂的主题概念时不够准确。(3) 单线结构,不能体现学科类目间错综复杂的多维关系。 (4)

灵活性差,不能随时修改、补充,对边缘学科和新兴学科缺乏有

效的方法。 (5) 对检索者的专业知识要求较高。检索时要将信息

主题内容转换成学科或专业名称,还要将类目转换成学科,影响检索效率和准确性。例:“茶的种植”、“茶的制造业”、“茶的贸易”都是论述茶这个主题的的,但是在中图分类法中却被归入“农业S”“工业技术T”“经济F”。影响查全率。 2.3.5 分类检索语言的使用分类检索语言在信息检索中使用的步骤如下: (1) 分析研究所需要查找信息的内容主题。 (2) 判断该主题在分类法中属于哪一大类,然后再从大类一级一级往下寻找,直到查到具体类目或有关类目,记下分类号为止。 (3) 按所得确切分类号在分类检索系统中查找,获得所需信息。例如:1、查“程序设计”方面的信息,分析主题为程序设计,属工业技术类,然后进行逐级查找:工业技术T——自动化技术、计算机技术TP——计算机技术TP3——计算机软件TP31——程序设计、软件工程TP311——程序设计TP311.1。2、查找税收理论方面。分析主题为税收*理论,属财政,而财政又是大类经济类。因此逐下寻找:经济F——财政金融F8——财政、国家财政F81——财政理论F810——财政收入与支出F810.4——税收F810.42。按最后查得的分类号到检索工具中去查询即可得到我们所需的文献。 2.4 主题检索语言 7

2.4.1 概述主题检索语言是指以自然语言为基础,以名词性术语为基本词汇,用名词性术语作为标识的一种信息标识系统。它的特点是以代表文献内容特征和科学概念的概念词作为检索标识,并按其外部形式(字顺)组织起来。 2.4.2 主题检索语言分类主题检索语言主要有标题词语言、单元词语言、叙词语言和关键词语言四种类型。其中叙词语言是从单元词语言发展而来的,而单元词语言现已很少使用,故不讲述。以下将标题词语言、叙词语言和关键词语言作一简要介绍。 (1) 标题词检索语言由标题法的概念可知,标题法是用规范化的自然语言经过标准化处理的名词术语作为标识,来直接表达文献信息或涉及到的事物

-主题。其原理可概括为:按文献信息所涉及的主题集中文献,用规范化的语词直接标引文献信息主题,用参照系统间接显示主题之间的相互关系,用字顺序列直接提供主题检索途径。 (2) 叙词检索语言叙词检索语言是以自然语言词汇为基础,以概念组配为基本原理,适用于现代信息检索需要而发展起来的一种信息检索语言类型。叙词语言基本构成要素是叙词。叙词又称主题词、描述词,它是一种从自然语言中精选出来的,以基本概念为基础的受控词汇。叙词语言的典据性文本是叙词表。在叙词表中,一方面通过词间关系的揭示来表达其语义关系,如等同关系、属分关系、相关关系以及等级关系等,同时运用字顺、分类或范畴、等级(词族)等方法全面显示。因此,叙词表形成了一个密切的语义网络,能适应多途径、多因素及多种特殊需求的检索,能达到较高的检索效果。例:字面组配

概念组配模拟+控制——模拟控制模拟+控制——模拟控制香蕉+苹果——香蕉苹果香蕉味食品+苹果——有香蕉味的苹果 (3) 关键词检索语言。关键词是一种用自然语言语词来作标识的检索语言。它是将出现在文献的标题(篇名、章节名)以至摘要、正文中,对表征文献主题内容具有实质意义的语词作为关键词排在检 8

索入口,同时提供文献地址来满足检索者的检索要求。关键词法与其他主题法语言不同,它不编制关键词表。而是直接采用自然语言的词语作关键词,对自然语言中大量存在的等同关系词不加规范统一,也不显示概念之间的关系,所以它的质量是比较差的的。但是,利用关键词法可以实现检索工具编制过程的计算机化,提高文献报道的时效性。 2.4.3 主题语言的优势 (1) 直观性强。来源于自然语言,用主题词作为标识,符合人们的辨识习惯,便于接受和掌握。 (2) 专指性强,表达概念唯一。 (3) 灵活

性强,可以按检索需要,自由组配检索概念。 (4) 概念网罗度高,一个主题词表达一个泛指的事物,若干个主题词人事科逻辑的组配,可以形成高度专批的概念。 2.4.4 主题语言的缺陷无法实现“族性检索”。主题语言按主题概念集中信息,从而造成同一学科文献的分散。 (1) 《汉语主题词表》简介《汉语主题词表》是为了使用汉字信息处理系统进行检索而编制的,是我国第一部综合性的大型叙词表,也是国内最通用的一部词表工具书,共有三卷十分册。全表共收录主题词108568条。主表内容如下:Gongshi dinge 工时定额 Hour norm D 时间定额

S 技术经济定额 Z 经济定额 C 产量定额工时利用…… 第一分卷社会科学第一分册主表(字顺表)A-Z 第二分册索引(词族索引、范畴索引、英汉对照索引)第二分卷自然科学(略) 9

第三分卷附表(世界各国政区名称表、自然地理区划名称表、组织机构名称表、人物名称表及其英文对照索引) 2.4.5 主题检索的步骤 (1) 对研究课题进行主题分析。 (2) 将所得出的主题概念转换成主题词,利用主题词表找出相应的主题词。 (3) 按查出的主题词字顺去翻检目录、索引或输入计算机数据库。 (4) 要注意选用最专指的主题词。 (5) 应将主标题与副标题、说明语联系起来。 (6) 在使用关键词检索信息时,除了使用某一常用的关键词外,还应当使用该词的同义词、近义词作为检索入口,以保证查全率。 3 信息检索的步骤课题分析研究课题制定检索策略选择检索工具调整检索策略确定检索途径结果获取原始文献初步检索结果选定检索方法图2-5 信息检索的具体步骤示意图 3.1 分析研究检索课题的要求任何检索课题都是在一定范围内依据已知条件查找未知信息的过程。每项检索课题都有明确的目的和具体的要求,目的越明确,范围越具体,掌握的线索越多,查获所需文献

信息的可能性就越大。一般在进行课题检索之前从以下三个方面分析入手: 3.1.1 分析研究课题的主题内容,即研究课题的所属学科、性质、特点,涉及多学科内容的检索课题,要找出其主要研究对象,确定检索课题所属学科、专业,从而准确把握检索课题核心内容的主题概念。 10

3.1.2 确定研究课题所需的文献类型。由于现代科技文献的种类较多,并且所报道的内容各有侧重,如属于基础理论性研究的,一般侧重查找期刊论文,会议论文。如果是尖端科学技术,则应侧重于科技报告。如属于发明创造、技术革新,应侧重于专利文献。如为产品定型设计,则需利用标准文献及产品样本。 3.1.3 根据研究课题的背景信息确定出文献检索的时间范围。检索的时间范围一般据研究课题的具体情况而定,如进行课题查新,需要检索近10年的文献;若为了掌握动态或解决某个问题,则以满足具体需要为准,确定检索时间范围。 3.2 选择检索工具选择检索工具要根据检索课题的学科、专业特点以及所需文献类型,充分考虑检索工具报道文献的学科专业范围、文献类型、文种是否符合需要;了解所选检索工具对文献揭示的深度、提供的检索途径、报道的时差等因素。注重利用权威性的检索工具,同时注意将综合性与专业性和单一性的检索工具结合使用。并优先选择机读型检索工具,以争取最佳的检索效率。 3.3 确定检索途径在利用检索工具查找文献信息时,主要是利用检索工具的各种索引,每种索引提供一种文献信息检索途径,一般来说每种检索工具都为用户提供几种检索途径,归纳起来一般可以分为四种:分类途径、主题途径、作者途径、题名途径、号码等其他途径。3.4 选择检索方法文献信息检索方法可归纳为追溯法、常用法和综合法三种。在检索文献信息时可根据检索课题的不同要求,选择不同的检索途径,以达到省时省力查全的效果。 3.

4.1 追溯

法:是指利用文献后面所附的参考文献线索进行追溯查找的方法。科学研究的连续性和继承性决定要不断的参考和借鉴以前的科研成果。一篇学术论文的形成往往要参考或引用多篇其他论文的内容,并在文末将其作为参考文献列出。利用文末参考文献线索查找相关文献信息,在某种程度上可以扩大文献来源。由于原文作者所引用的参考文献数量有限,而且不够全面,因此容易产生漏检和误检,且查全率极低。所以该方法是在缺少检索工具的情况下,作为查找文献的一种辅助方法来使用。 3.4.2 常用法:是利用检索工具来进行查找文献信息的方法。也是最常用的一种检索方法。这种方法可分为顺查法、倒查法和抽查法三种。 (1) 顺查法:按课题的起始年代,由远及近逐年查找的检索方法。由于逐年查找,故查全律较高,而且在检索过程中可以不断筛选,剔出参考价值较小的文献,因而误检的可 11

能性较小。利用这种方法检索文献比较全面、系统,但费时费力,工作量大,适合于内容较为复杂,时间较长,范围较广的研究课题。 (2) 倒查法:与顺查法相反,是由近及远逐年查找文献的检索方法。这种方法适合于课题查新以及掌握研究动态和制定研究规划时使用。采取这种检索方法可以及时把握学科的最新发展动态,且检索的时间跨度可以灵活掌握,检索效率高,但与顺查法相比查全率相对较低。 (3) 抽查法:根据课题所属学科研究发展的某一高峰时期,抽出一个时间段,进行集中查找。此方法花费时间较少,检索效率较高。但检索者必须熟悉该学科的发展特点,了解该学科文献发展较为集中的时间范围,只有这样才能取得较好效果。 (4) 综合法:又叫循环法或分段法,是常用法和追溯法相互结合的一种检索方法。这种方法是先利用检索工具查出一批有用文献,然后利用这些文献所附的参考文献进行追溯查找,扩大文献线索。如此分段交替循环进行,从而可得到大量相

关文献。以上检索方法是从手工检索归纳而来的,计算机信息检索方法具有强大的检索功能和极高的检索效率,这些在以后的章节中将有具体讲述。 3.5 查找文献线索上述步骤完成后,即可利用所选择的检索工具进行具体的检索。在检索时采用描述文献外表特征的篇名、著者、序号等途径检索,简便快捷;采用分类途径进行检索,需要在该课题所属的类号和类目下逐条查找。采用主题途径检索,则要以表达研究课题主题内容的主题词为检索标识。但在用分类途径或主题途径检索时,可能会出现检索提问标识和文献存储标识不一致而查不到合适的文献的情况,这时应反复修改检索提问标识,直至检索到适合的文献为止。当检索到研究课题的相关文献后,应仔细阅读文献著录条目的内容,判定是否有参考价值,如符合检索需要,则要准确记录下文献的分类号、题名、著者、出处和入藏号等,以便索取原始文献,并用以积累资料。 3.6 查找原始文献查找原始文献是文献检索的最终目的。根据检索到的文献线索,利用各种类型的馆藏目录、联合目录即可查到文献原文。查找原始文献,一般是由近而远,首先从本单位、本地区的文献资源着手,然后利用全国性的文献联合目录。随着计算机网络化的普及,许多文献收藏与服务机构(特别是国家、地区级)已将馆藏文献信息建立了数据库,并连入互联网向用户提供文献的查询、传递和共享服务,利用互联网进行文献的查找和获取目前已成为用户方便、快捷的远程获取原始文献的一种发展趋势。 12

4 检索效果的评价 4.1 检索效果的评价指标检索效果是指信息系统检索信息的有效程度,反映了信息系统的检索能力。检索效果的评价指标一般包括:收录范围、查全率、查准率、相应时间、用户负担输出形式。其中,查全率和查准率是最主要也是最常用的两项指标。查全率和查准率 4.2 查全率(Recall Ratio)

是指检索出的相关信息与信息系统中的相关信息总量之比。查准率(Precision Ratio)是指检索出的相关信息和检索出的信息总量之比。用公式表示:检索出的相关信息量aR100%100%

信息系统中相关信息总量a c检索出的相关信息量aP100%100%检索出的信息总量a b表2-1 检索效果评估相关数据表相关情况相关信息非相关信息总计检索情况检索出信息 a(命中的) b (误检的) a+b 未检索出信息 c(漏检的) d(应拒绝的) c+d 总计 a+c b+d a+b+c+d 查全率衡量系统检索出与课题相关信息的能力,查准率衡量系统拒绝非相关信息的能力。两者结合起来,即表示信息系统的检索效率。检索者的最终目的是要求达到查全率和查准率均为100%,这实际上是不可能的。一系列试验结果表明,查全率和查准率之间存在互逆关系,即二者同时提高是不可能的。也就是说,对于任何一个信息系统,在其查全率与查准率之间都存在一个最佳的比例关系,查全率一般在60%~70%,查准率一般在40%~50%,这是检索的最佳状态。见图2-3。 13

100查全80率60R40200查准率 P0102030405060708090100图 2-6 查全率与查准率关曲线图 4.3 影响查全率和查准率的因素 4.3.1 客观因素:(1) 系统内信息存储不全,收录遗漏严重; (2) 索引词汇缺乏控制; (3) 词表结构不够完善; (4) 标引缺乏详尽性,没有网罗应有的内容; (5) 信息分类(标引)专指度缺乏深度,不能精确地描述信息主题; (6) 组配规则

不严密,容易产生模棱两可或歧义现象。 4.3.2 主观因素: (1) 检索课题要求不明确; (2) 检索工具选择不恰当; (3) 检索途径和方法过少; (4) 检索词缺乏专指性,检索面宽于检索要求; (5) 用词不当; (6) 组配错误。 4.4 提高检索效果的措施和方法 4.4.1 提高检索工具的质量。 4.4.2 提高用户利用检索工具的能力。 4.4.3 制订优化的检索策略。 14

简易信息检索系统

课程设计报告 ( 2013—2014 年度第一学期) 课程:微机原理及应用 题目:简易信息检索系统 院系:动力工程系 班级:自动化11K2 学号: 指导教师:李冰刘恒涛 设计周数:一周 成绩: 日期:2014年1 月2 日

《微机原理及应用》课程设计 任务书 一、目的与要求 1.通过对微机系统分析和具体设计,使学生加深对所学课程的理解。 2.掌握汇编语言程序设计的基本方法和典型接口电路的基本设计方法。 3.培养学生分析问题、解决问题的能力。 4.培养学生对微型计算机应用系统的基本设计能力。 5.提高学生的实践动手能力和创新能力。 二、主要内容 设计题目:简易信息检索系统。 1.针对所选择的设计题目进行硬件设计,合理选用所需元器件,绘制系统结构框图、硬件接线图,并在实验系统上完成电路的连接和调试。 2.根据所选题目的要求对微机系统进行程序设计,绘制程序总体流程图并编写源程序上机调试。 3.写出课程设计报告,对整个设计过程进行归纳和综合,对设计中所存在的问题和不足进行分析和总结,提出解决的方法、措施、建议和对这次设计实践的认识和收获。 三、进度计划 四、设计成果要求 1.系统硬件设计合理,软件编程达到设计要求。 2.系统硬件结构图和软件流程图绘制清楚规范。 3.设计报告完整规范。 五、考核方式 根据设计任务的完成情况、课程设计报告撰写情况及演示答辩情况采用五级记分制评定成绩。 学生姓名: 指导教师:李冰刘恒涛

一、课程设计目的与要求 1.通过对微机系统分析和具体设计,使学生加深对所学课程的理解。 2.掌握汇编语言程序设计的基本方法和典型接口电路的基本设计方法。 3.培养学生分析问题、解决问题的能力。 4.培养学生对微型计算机应用系统的基本设计能力。 5.提高学生的实践动手能力和创新能力 二、课程设计正文 1.程序正文 stack segment stack db 256 dup(0) stack ends data segment msg0 db '0. 0$' msg1 db '1. 1$' msg2 db '2. 2$' msg3 db '3. 3$' msg4 db '4. 4' msg5 db '5. 5$' msg6 db '6. 6$' msg7 db '7. 7$' msg8 db '8. 8$' msg9 db '9. 9$' index dw msg0,msg1,msg2,msg3,msg4,msg5,msg6,msg7,msg8,msg9 msg db 'Input a number please.',13,10,36 data ends

实验六学术信息检索

实验六:学术信息检索 一、实验目的 1、掌握国内外期刊学术论文的检索方法; 2、掌握国内论文查重的方法; 3、掌握国内常用医药信息检索数据库的检索方法; 4、掌握国内外专利检索的方法。 二、实验学时 2学时 三、实验类型 综合性 四、实验需求 1、硬件 每人配备计算机1台。 2、软件 Windows 7以上操作系统,安装Chrome或Firefox浏览器。 3、网络 实验室局域网支持,能够访问校园网与互联网。 4、工具 无。 五、实验理论 1、国内外期刊学术论文、医药信息检索数据库; 2、PaperFree论文查重系统使用方法; 3、国内外专利数据库; 4、数据库关键词检索。 六、实验任务 1、基于姓名、单位名称等检索条件完成国内外期刊学术论文检索; 2、使用PaperFree平台完成论文查重; 3、基于中药名称等检索条件完成常见医药信息检索; 4、基于申请(专利权)人,发明人等完成国内外专利检索。

七、实验内容及步骤 1、国内外期刊学术论文检索 (1)知网检索 ①打开浏览器输入网址https://www.360docs.net/doc/4619036499.html,/,打开中国知网网站。 ②在文献检索输入框中输入“专业导论”主题关键词,如图6-1所示;点击搜索,查看搜索结果,如图6-2所示。 图6-1 主题名检索图6-2 主题名搜索结果 ③通过检索结果可看到与“专业导论”主题关键词相关的检索结果有1262条,检索结果默认按照发表时间排序。(注:检索结果与截止检索日期当天知网已收录数据有关,本次操作检索时间为:2018年11月5日。不同时间检索,得到的检索结果可能不同) ④通过检索页中排序功能,可对检索结果以发布时间、被引用次数、下载次数进行排序,被引用次数越多,论文论据越被同行认可,可参考价值越大。通过检索页中分组浏览功能,可将检索结果进行分类查看。如:通过资源类型可查看搜索结果来自期刊、国内会议、学术辑刊、博硕士论文、报纸各有多少篇。 ⑤点击论文名称,可查看论文摘要以及作者与作者单位详细信息,同时可将论文以HTML、CAJ、PDF三种格式进行论文文件下载,方便对论文进行离线查看。 图6-3高级检索图6-4 高级检索搜索结果 ⑥高级检索。访问https://www.360docs.net/doc/4619036499.html,,点击搜索框“高级检索”,进入信息检索高级检索页,如图6-3所示。通过输入作者名称、作者单位等信息可对检索结果进行精准查询。如作者信息输入“阮晓龙”,作者单位输入“河南中医”,点击检索,可查看阮晓龙老师

文献信息检索重点

1、信息:是人类在认识和改造客观世界中所依赖的和使用的一种既非物质又非能量的东西,它是客观世界中一切物质的属性,又是物质存在和运动的客观反应。 2、信息的特性:客观性、依附性、可传递性、可塑性、时效性、共享性 3、知识:人类社会实践经验的总结,是人的主观世界对客观世界的概括和如实的反应。 4、文献:是记录有知识的一切载体。 5、文献4要素: 知识信息内容,即文献的内容; 信息符号:文字,图表,声音、图像等; 载体材料:甲骨,竹筒、纸张、胶卷、磁盘、光盘等; 记录的方式及手段:刀刻,书写、录像、印刷等 6、情报:是知识的传递并起到作用的部分 7、文献的分类: 物理分类:印刷型文献、缩微型文献、机读型文献(电子型)、视听型文献(声像型) 出版类型:图书、报纸、期刊、特种文献(特种文献有:专利文献、学位论文、科技报告、标准文献、会议文献) 按文献加工层次分:零次文献、一次文献、二次文献、三次文献 零次文献:未经出版发行的文章,包括手稿、个人通信、原始记录等一次文献:也叫原始文献,首次出版发行的,包括特种文献,期刊论文,也是我们常用的。 二次文献:报道和查找一次文献的检索书刊(有目录,题目,文摘。查找以此文献的工具。)工具性、系统性、汇集性 三次文献:利用二次文献提供的线索浓缩加工而成(包括各种综述,进展报告,动态综述,手册,年鉴,百科全书。) 8、信息检索:一般是指查找满足特定需要的过程 广义上:将信息按一定方式组织和储存起来,并根据信息用户的需 要找出有关信息的过程。 狭义上:从信息集合中找出所需要信息的过程,相当于信息查检。 9、信息检索类型: 存储检索对象分:文献检索、数据检索、事实检索 信息存储和检索方式和技术分类:传统信息检索(手工)包括追溯法、工具法、综合法

个性化智能信息检索系统研究

个性化智能信息检索系统研究 随着网络应用的普及,网上信息量以惊人的速度增长,并且更新频繁。人们面对的问题不再是缺乏有用信息,而是如何找到自己所需要的信息。传统信息检索技术满足了人们的一定需要,但仍然面临低检准率和低检全率问题。 多数商业搜索引擎提供的信息检索服务,由于其通用的性质,不能满足不同背景、不同目的和不同时期的查询请求。基于这种现状,作者设计并实现了个性化智能信息检索系统,旨在提高信息的检准率。作者在广泛研究了国内外信息检索技术发展现状之后,掌握了目前信息检索系统的不足和发展趋势。 本文针对目前检索系统的缺点,进行了个性化智能信息检索系统研究。本系统是一个结合人工智能领域Agent技术、机器学习技术、聚类技术与现有信息检索系统为一体的个性化智能信息检索系统。本文给出了本系统的总体设计思想和系统体系结构。 详细阐述了本系统个性化智能化的实现方法,对其中应用到的关键性技术和算法进行了详细描述。本系统通过观察用户在与系统交互时的行为,学习用户的兴趣,基于用户个人兴趣对检索结果做个性化过滤处理。经过过滤处理后的文档,其精度显著提高,更加贴近用户的兴趣。 其中Agent模块是本系统的核心模块,它负责获取用户的喜好;创建并及时更新用户兴趣模型;基于用户兴趣模型对文档做个性化过滤。为了实现信息检索的个性化智能化,作者提出使用个人兴趣档案模型来描述用户的兴趣,其中基于主题分类的个人兴趣词库是该模型中体现个人兴趣的关键部分。本文提出应用强化学习方法对个人兴趣模型进行自主更新,应用聚类技术于相关文档的个性化过滤。

经实验验证,这些技术取得了良好的效果。作者在信息检索的个性化智能化领域,进行了有益的探索,并取得一定成果。

信息检索答案

信息检索课作业(二) 1、浏览图书馆网站,简述我馆的电子资源按收录文献类型划分都有哪些类型?答:期刊、 2、简述我馆订购了“清华同方(cnki)数据库”的哪几个子库? 答:五个字库,分别是、《中国学术期刊全文数据库》(1994—今)包括8200多种重要期刊; 《中国博士学位论文全文数据库》(2000—今)包括全国420家博士培养单位的博士学位论文; 《中国优秀硕士学位论文全文数据库》(2000—今)包括全国652家硕士培养单位的优秀硕士学位论文; 《中国重要会议论文全文数据库》(2000—今) 《中国重要报纸论文全文数据库》(2000—今)包括国内公开发行的500多种重要报纸。 《哈佛商业评论数据库》收录了“哈佛《商业评论》中文杂志”自2002年9月以来的所有文章,包含服务管理、人力资源、信息技术、创新、创业、组织、市场营销、运营管理、领导力、战略、金融与财务、综合管理等十二个类别。 3、访问清华同方(cnki)数据库,在人民日报上查找一篇跟“滨海新区”有关 的报道,列出其题名、作者、报纸日期。 4、利用清华同方数据库查找南开大学柯平教授2013年发表的全部文章(不低 于5篇),复制题录或者截图均可。 5、请问“读秀学术搜索”数据库可以提供哪些文献类型的检索?每次文献传递 的比例有何限制? 6、简述怎样才能把“超星电子书(汇雅电子书)”数据库中下载的图书拷贝到 其他机器上阅读?下载到本地的超星电子书保存期限是多长时间? 答:1.应在下载胡阅读器上注册帐号,在注册的帐号下下载自己所需的文件(注意记下入径)。之后,把阅读器和图标一并拷入移动磁盘,紧接着,在其他机器上安装好阅读器打开使用即可。 2.保存期限是180天。 7、根据自己的使用体验,试简单说明使用图书馆的电子资源数据库资源与网络 搜索引擎检索到资源的差别 答:信息存取自由,内容包罗万象但收录了很多重要期刊,覆盖多个学科领域,

第二章 文献信息检索概述讲义(教学用)

第二章文献信息检索概述 导入: 面对以下问题怎么办? 知识更新的速度越来越快,当代大学生如何应对挑战? 将来从事的工作与所学专业完全不相关,你如何应对? 信息检索的重要性:有效、快速地获取所需信息 ?为什么要进行文献信息检索(know why)? ?什么是文献信息检索(know what)? ?怎么去做文献信息检索(know how)? 第一节文献信息检索的基本原理 第二节文献信息检索途径与策略 第三节文献信息检索的方法与步骤 第一节文献信息检索的基本原理 一、信息检索(Information Retrieval) 1、检索:所谓检索是指查找、寻求、获取的意思。 2、信息检索:指将信息按一定的方式组织和存储起来,根据信息用户的需求,找出信息的过程。广义的检索包括信息存储与检索两个过程。狭义的信息检索指后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查询。 3、信息检索原理: 原始文献——加工整理——数据库(存储) 提问——检索——输出(检索) 简而言之:文献信息检索是指从信息集合中找出所需要的信息的过程,仅指检索一个过程。 二、文献检索的分类 按其检索对象分为: 1、文献检索:凡是以文献为检索对象的称为文献检索。它不直接解答用户所提出的技术问题本身,只是提供相关的文献供用户参考。 2、数据检索:凡是以数据作为检索对象的称为数据检索,它直接回答用户提出的技术问题,即直接提供用户所需要的确切的数据或事实 3、事实检索:凡是以事实为检索对象的成为事实检索,直接查询事实性答案,提供用户所需要的确切事实,是一种确定性检索。例:同类产品中,哪个品牌销售量最大? 4、概念检索:就是查找特定概念的含义、作用、原理或使用范围等解释性内容

专业技术人员学术论文写作与信息检索答案

单项选择题 第1题:学术论文选题的原则有价值性原则、创新性原则和()。 A:实践性原则 B:适宜性原则 C:通俗化原则 第2题:工程实践型学术论文的结构应包括引言或工程背景、()以及总结。 A:工程实践的可行性论证 B:工程实践的方法、步骤、注意事项和结果 C:工程实践的后续发展展望 第3题:论证型论文的结构主要包括序论、本论和( )三部分。 A:导论 B:余论 C:结论 第4题:论文观点错误主要有基本观点错误和()两种情况。 A:观点与大多数人的观点相冲突 B:观点主观片面 C:观点过于超前 第5题:理论研究型论文的特点主要有:内容上的概括性与说理性、严密的逻辑以及()。 A:深刻的思想性 B:直接表述作者的思想观点 C:材料的丰富性 第6题:论文联合署名时,应按()的顺序排列。 A:贡献大小 B:职务高低 C:职称高低

第7题:论文写作信息材料的整理方法主要有逻辑分析法、系统分析法和()。 A:内容归类法 B:概率研究法 C:整体分析法 第8题:注释可分为篇名注、作者注、文中释义性注释和()。 A:引文注释 B:观点注释 C:内容注释 第9题:学术论文选题不仅要遵从价值性原则和适宜性原则,而且还应遵守()原则。 A:实践性 B:创新性 C:思想性 第10题:工具书可分为检索性工具书()。 A:应用性工具书 B:查阅性工具书 C:参考性工具书 二、多项选择题 第11题:学术论文关键词的词性主要包括()。 A:名词 B:动名词 C:名词性词组 D:形容词 第12题:学术论文初稿写作的方法主要有()。 A:个案分析法 B:比较寻疑法

C:追溯验证法 D:实践应用法 第13题:学术论文写作的特征主要有()。 A:实践性 B:科学性 C:规范性 D:可读性 第14题:学术论文摘要一般包括研究目的、研究对象、()等内容。 A:研究方法 B:研究结果 C:所得结论 D:结论的适用范围 第15题:学术论文署名者应具备的条件有()。 A:学术论文的直接责任者 B:做出主要贡献者 C:学术论文撰写者 D:学术论文的构思、论证或执笔者 第16题:中国知网数据库检索方式可分为()。 A:初级检索 B:二次检索 C:精确检索 D:高级检索 第17题:文献综述除了包括介绍相关领域研究现状外,还应该有()等内容。 A:说明用什么方法解决所提出的问题

文献信息检索文献信息检索理论试卷(二)

文献信息检索理论试卷(二) 目的:查考学生文献信息检索理论知识的掌握情况,主要考察文献基础知识、文献检索基础知识以及针对信息需求的检索分析和检索工具的选择等。试题类型:填空、选择、理解分析为主。 一、选择题(每题2分共20分) 1.根据国家相关标准,文献的定义是指“记录有( C )的一切载体”。 A.情报 B.信息 C.知识 D.数据 2.以作者本人取得的成果为依据而创作的著作、论文、报告等,并经公开发表或出版的各种文献,称为( B ) A.零次文献 B.一次文献 C.二次文献 D.三次文献 3.从文献的等级来理解文献信息的检索过程就是( A ) A:通过二次、三次文献获得一次文献的过程 B:通过三次文献获得一次文献的过程, C:通过二次获得一次文献的过程 D:通过二次、三次文献获得零次文献的过程 4.《中图法》中基本大类由22个字母表示,“E”和“O”分别表示的是( C )。 A:经济、军事 B:自然科学、文学 C:军事、数理科学和化学 D:经济、外语 5.布尔逻辑检索技术中的布尔逻辑运算符包括( D ) A.逻辑与 B.逻辑或 C.逻辑非 D.A,B和C 6.网络信息资源特点的是(ABC)。 A.信息量大,传播广泛B.时效性强,动态,不稳定 C.类型多样,内容丰富D.信息分散有序,容易管理 7.在数据库检索界面的选项“前方一致”代表的含义为截词检索中的( A )。 A.后截断 B.前截断 C.中截断 8.在网络检索工具--搜索引擎中,布尔逻辑算符种,A and B表示( A ) A.查找包括A和B的文献, B.查找A与B其中之一的文献, C.查找有A无B的

文献。 9.下列逻辑运算次序最优先的是(C) A. 逻辑“与” B. 逻辑“非” C. 逻辑“或” D.加“()” 10.查询的词很长的情况下,百度所有结果会把这个查询词拆分,导致搜索结果您并不满意。为实现让百度不拆分查询词,解决的方案是( A ),实现对“大学生信息素养”的精确检索。 A:查询词加上双引号或书名号 B;在查询词前加filetype: C:在查询词前加intitle: D:在查询词前加site 二、填空题(每空0.5分,共20分) 1.文献信息资源是指以文献为载体的信息资源,依文献出版类型划分,主要包括图书、报纸、期刊、博硕士论文、标准、专利、科技报告、会议文献、政府出版物、档案文献、产品样本11种文献。 2文献信息的检索方法有常用法、追溯法和综合法。常用法又分顺查法、倒查法和抽查法。 3.文献信息检索的一般步骤分为四步:分析研究课题,提取关键词、确定检索策略、评价检索,调整检索策略、查找文献线索,获取原文。 4.相同的检索提问表达式,选择不同的检索工具,其检索结果(不同)。 5.检索策略的调整:当检索结果偏多时,可通过逻辑“与”、“非”和时间、地区、语种、文献类型的限定等缩小检索范围;当检索结果偏少,不能满足检索需求时,可通过增加同义词、相关词,逻辑“或”和检索系统的扩展功能扩大检索范围。 6.全国图书馆参考咨询联盟是一个全国性的文献服务平台,汇集了全国一百八十多家省市级公共图书馆、高校图书馆和科技图书馆加盟,咨询馆员有五百多人,为社会广大读者提供免费信息服务,可获得图书、期刊、博硕士论文等类型文献的全文免费的下载或远程传递(邮箱)服务。 7.我校某同学写毕业论文,请帮他推荐三个可以用来查找并下载全文的学术论文检索工具:中国知网、《维普中文科技期刊数据库》和中国科技论文在线(https://www.360docs.net/doc/4619036499.html,/)。(以河南工业职业技术学院为例) https://www.360docs.net/doc/4619036499.html,KI数据库的全文阅读格式有两种,分别为 CAJ格式和 FTP格式。

专业技术人员学术论文写作与信息检索答案

第1题:学术论文选题的原则有价值性原则、创新性原则和()。 A:实践性原则 B:适宜性原则 C:通俗化原则 第2题:工程实践型学术论文的结构应包括引言或工程背景、()以及总结。A:工程实践的可行性论证 B:工程实践的方法、步骤、注意事项和结果 C:工程实践的后续发展展望 第3题:论证型论文的结构主要包括序论、本论和( )三部分。 A:导论 B:余论 C:结论 第4题:论文观点错误主要有基本观点错误和()两种情况。 A:观点与大多数人的观点相冲突 B:观点主观片面 C:观点过于超前 第5题:理论研究型论文的特点主要有:内容上的概括性与说理性、严密的逻辑以及()。 A:深刻的思想性 B:直接表述作者的思想观点

C:材料的丰富性 第6题:论文联合署名时,应按()的顺序排列。 A:贡献大小 B:职务高低 C:职称高低 第7题:论文写作信息材料的整理方法主要有逻辑分析法、系统分析法和()。 A:内容归类法 B:概率研究法 C:整体分析法 第8题:注释可分为篇名注、作者注、文中释义性注释和()。 A:引文注释 B:观点注释 C:内容注释 第9题:学术论文选题不仅要遵从价值性原则和适宜性原则,而且还应遵守()原则。 A:实践性 B:创新性 C:思想性 第10题:工具书可分为检索性工具书()。 A:应用性工具书

B:查阅性工具书C:参考性工具书

第24题:论证型论文不要明确表明自己的观点,以防误导读者。 对 错 第25题:在写作学术论文的结论部分时,可以进行适当的自我评价。 对 错 第26题:文献调研的质与量是决定述评型论文水平高低的重要因素。 对 错 第27题:注释是作者对论文篇名、作者及论文中特定内容作必要的补充、解释或说明。 对 错 第28题:学术论文选题越新颖、越前沿越好。 对 错 第29题:考证型论文的最大特点在于以大量准确可靠的直接或间接材料为证据进行写作。 对 错 第30题:学术论文标题的用词应注重新、奇、特。 对

《信息检索系统》方案

HX-2055信息检索系统方案

目录 一项目意义 (2) 二系统设计 (3) 2.1技术原理 (3) 2.2系统构架 (5) 三系统功能 (6) 3.1信息采集 (6) 3.2中文自然语言处理 (6) 3.3全文检索功能 (7) 3.4格式文件检索 (8) 3.5性能指标 (8)

一项目意义 随着互联网的快速发展,每天有数千万条信息生成,包括文字信息、图片信息、视频信息、语音信息等,通过百度、谷歌等大型商业搜索引擎可以找到自己想要的信息,但是也存在很多弊端。 百度、谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫(Spider)在世界各地百万台服务器上爬取网页数据,然后存储到数据库之后展现给查询用户,随着网站数量以及网络上信息更新的快速化,这些网络爬虫不能保证把所有的信息都抓到,尤其是特殊行业的行业信息,即便是抓到了也不一定能够在众多数据中展现出来。所以,对于一个部门来讲,有必要存在一款互联网信息检索系统来检索某一个行业的信息,每天自动在各大行业网站、政府网站等数据库中检索最新信息,通过自建的网络爬虫进行目标数据的抓取、存贮、归类、展现。 通过自己的信息检索系统,可以让自己部门每天轻松地获得世界各地、各个部门都发生了什么,有哪些新的政策,方便管理层在最新的信息数据下快速做出正确的决定。 据统计,内部网上的信息每年以200%的速度增长,其中发布到互联网上的信息只占到信息量的1%-2%,而98%以上的信息是发布在内部网上的。内部网上的信息既有网页形式的,也包含其他Word、PDF、XML等多种格式的数据。因此,面对内部网中海量异构的信息资源,如何帮助用户快速找到他们所需要的信息是一个主要的技术挑战。 搜索引擎能帮助用户方便、快捷、安全地获取内部网上的信息,在满足高效的同时,更重要的是保证了较高的查全率和查准率,能提供智能化的概念扩展搜索,极大的提高工作效率。内部网搜索引擎将组织中分散管理的信息整合在一起,在组织层面上实现新的增值与共享,从而有效实现组织内容利用的最优目标。 搜索引擎的目标是实现内部网全文检索。系统可对实施了内部网站资源进行爬行,无论内部网上的数据源在何地、以何种形式存在,都能够对其快速地访问,通过准确的分词建立索引,从而实现高质量的搜索查询。搜索引擎的主要目标包括:

信息检索总复习题

《文献检索与应用》总复习题一、选择题(单选) ( 共20分每小题2分) 1、哪一种布尔逻辑运算符用于交叉概念或限定关系的组配?【A 】。A.逻辑与(AND)B.逻辑或(OR)C.逻辑非(NOT)D.逻辑与和逻辑非2、根据【D】去图书情报单位索取或复制期刊论文的原文。A.相关期刊B.期刊的出版年、卷、期. C.期刊的刊名全称D.刊名全称、卷、期、年份、页3、逻辑“与”算符是用来组配【C 】 A.不同检索概念,用于扩大检索范围 B.相近检索概念,扩大检索范围C.不同检索概念,用于缩小检索范围D.相近检索概念,缩小检索范围4、如果检索结果过少,查全率很低,需要调整检索范围,此时调整检索策略的方法有【B 】等A.用逻辑“与”或者逻辑“非”增加限制概念 B.用逻辑“或”或截词增加同族概念 C.用字段算符或年份增加辅助限制 D.用“在结果中检索”增加限制条件 5、根据国家相关标准,文献的定义是指“记录有关【C】的一切载体。” A.情报 B.信息. C.知识 D.数据 6、《中国学术期刊全文数据库》的词频控制应在【A】场合下使用 A.文摘、全文等字段检索所得的文献量过大 B.文摘字段检索所得的文献量过大 . C.篇名、作者字段检索所得的文献量过大D.不管什么字段检索所得的文献量过大。7、如果打算了解最新即时的专业学术动态,一般可参考【A】。A.专业学会网站B.教育机构网站 . C.综合性门站D.综合性虚拟图书馆8、【D】是指通过文献信息资料的主题内容进行检索的途径。 A.题名检索途径 B.作者检索途径 C.分类检索途径 D.主题检索途径9、搜索含有“data bank”的PDF文件,正确的检索式为:【A】A."data bank" filetype:pdf B.data and bank and pdf C.data+bank+pdf

信息检索工具

浅谈信息检索工具

————————————————————————————————作者:————————————————————————————————日期: 2

摘要 文章由信息检索的分析和发展状况出发,阐述了一些常用的信息检索工具和相关技术。然后对常用的信息检索工具做了一个简要的评价,并由此讨论了信息检索工具的现状和发展趋势。 关键词:信息检索工具、技术、评价标准、发展趋势 Abstract Post by information retrieval and analysis of development, and expounds a number of commonly used information retrieval tools and related technologies.Then used the information retrieval tools to do a brief evaluation, and then discuss the status of information retrieval tools and trends. Keywords: information retrieval tools, techniques, evaluation criteria, trends

第一章信息检索分析及发展状况 步入21世纪,人们对信息检索的完备、准确、快捷会有更加严格的要求和期盼,与时俱进、不断完善的信息检索技术将得到越来越广泛的应用,信息的检索与访问方式无疑将发生深刻的变化。然而网上的信息浩如烟海,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各个主题都做得精确又专业,使得检索结果中出现太多无用的信息。如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,成了一个迫切需要解决的问题。 信息检索主要是指信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索与之有关的信息资料。信息检索的目的是获取所需信息,而这要基于比较完善的检索工具和技术。 1.1从传统检索到信息分析 目前,随着信息检索技术的发展,信息检索已经由手工检索、计算机检索发展到了网络化、智能化、认知化阶段,这一阶段的信息检索平台具备了初步的信息分析功能,从而使传统检索信息向信息分析层次发展。例如,在ISIWeb of Science检索平台上,当某一主题的检索结果出来后,检索者还可以利用该平台提供的信息分析功能,对检索结果从以下几个方面进行深入分析:①按照论文发表时间进行分析,了解不同时间阶段课题研究的状态;②按照国家分析,了解该领域的主要研究国家以及国内该领域研究情况;③按照机构分析,了解领域的主要研究机构;④按照作者分析,了解该领域的核心研究人员;⑤按照来源期刊分析,了解该领域研究论文发表的重点期刊以及对某刊物收录论文情况进一步了解;⑥按照学科进行分析,了解该课题涉及哪些学科领域以及对感兴趣学科进行更深入的分析。很显然,通过对检索结果从6个方面进行深入分析,将使读者对检索结果作进一步的深入了解。 1.2信息检索的发展状况 信息检索经过先组式索引检索、穿孔卡片检索、缩微胶卷检索发展到计算机信息检索。计算机信息检索大致可分为脱机检索、联机检索、国际联机检索、光盘检索、超文本的网络检索几个阶段。 目前,以文献单元描述体结构为基础、手工检索方式为主导的传统文献检索已发展到以信息单元组织结构为基础、网上浏览式信息查询方式的信息检索,计算机信息检索呈现联机检索、光盘检索以及网络检索多元并存的格局,面对用户群体、互相竞争、互相融合,谋求个性化基础上的共同发展。如下表所示,传统检索技术和网上检索技术无论是在检索策略还是在检索手段上都发生了本质的变化。 传统检索技术与网上检索技术的比较 传统检索技 网上检索技术 术

文献信息检索基础知识

文献信息检索基础知识 第一节概论 科学技术的发展,具有连续性和继承性,科学技术的发明创造,需要依靠经验、材料和理论的不断积累,没有科学上的继承和借鉴,就没有提高。任何一个科技工作者,都有赖于在前人已经取得成就的基础上进行不断的研究和探索。在科研选题过程中,要首先了解所研究的学科领域发展现状与趋势,对自己挑选的课题进行查新,以免重复别人的劳动。在课题研究过程中,要借鉴别人已有的成果,比如一些统计、实验数据,可以直接利用,没有必要自己再做一次,节省研究经费与时间;对别人研究没有取得成功的地方,要分析原因,可以避免研究走入歧途。要完成这一切,都离不开科技文献的检索与利用。科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科技信息的主要来源。科技文献数量急剧增长,可以说是“知识爆炸”,在浩如烟海的文献面前,盲目地查找自己所需要的文献很困难,对信息污染难以分辨;专业文献出版分散,如果只注意查找本专业的核心期刊,已看不到专业文献的全貌,仅能了解其中的一小部分而已,因为大量的专业文献分散出版在其它刊物里。文献老化加快,出版种类繁多,我们如果想了解某一数据、某一事件或事实,更如大海捞针,无从下手。要快速、全面、准确地获得所需要的文献信息,就必须掌握科学的文献查找方法,因此就必须学习科技文献检索知识。 掌握了科技文献检索的方法,首先可以节省查找文献的时间,据调查统计,一个科技工作者在其科学研究生涯中花在查找文献上的时间占整个科研时间的40~50%,如果掌握正确的文献检索方法,将缩短查找文献时间,从而延长科研寿命。其次有利于专题文献查全,由于专题文献出版分散特点,使得只从核心期刊上获取专题文献很难查全,掌握文献检索方法,在检索工具或数据库中去检索,就能克服这一不足。再者可以克服自然语言和学科专业语言障碍,由于当今文献语种很多,而一般科技工作者除母语之外仅掌握1~2门外语,这就为了解世界先进技术带来困难。而文摘型检索工具选登的文摘覆盖的语种较多,即使是一个不掌握外语的人也可能通过文摘的阅读,就能了解各语种文献的主要论点、研究方法、结论等,能够广泛了解有关领域的发展趋势。 下面主要是通过介绍科技文献检索的基础知识和典型检索工具的使用方法,引导科技人员掌握检索科技文献的方法。 一、关于信息的几个基本概念 (一)信息 1、信息的定义 信息在我们的生活中随处都能见到,信息化社会、信息时代、信息产业、信息技术……我们的生活和信息紧密联系在一起。那么信息到底是什么呢?作为日常用语,信息就是信息,我们的生活中到处都存在有信息,如手机铃声、上网浏览的网页、电视节目等等。对人类而言,人的五官就是为了感知信息,他们是信息的接收器,它们所感受到的一切都是信息。信息普遍存在于自然界、生物界和人类社会中。根据发生源的不同,信息一般可分为自然信息、生物信息、机器信息和人类信息四大类。湖光山色、刮风下雨是自然信息;细胞染色体的遗传基因是生物信息;电讯系统中的电流脉冲、计算机中使用的“0”与“1”的二进制代码是机器信息;人类社会活动中的各种语言、文字、图形符号是人类信息。

王乃成信息检索工具的工作原理

课题:信息检索工具的工作原理 课型:新授课 课时:1 课时 教学目标: 1.了解常用的英特网信息检索工具类型;能描述信息检索工具的基本工作原理和特点。 2.体验因特网信息检索工具的优缺点。 3. 掌握常用因特网信息检索工具的使用方法,能熟练使用信息检索工具获取所需信息。 内容分析: 本节为“因特网信息资源检索”中的重点部分,介绍了全文和目录索引类搜索引擎的工作原理,这是学习的重点。教材中通过搜索奥运信息的例子来说明在网上检索信息的过程, 以达到简化原理、帮助学生理解的目的。教学中应尽量选取贴近生活的例子来说明复杂的工 作原理,降低难度,以提高学生的检索能力为最终目的。 教学过程: 1.情境引入 已搜索一首歌曲为基础,提出问题:同学们想像一下信息检索工具该如何工作呢?有几种方法能达到,让学生们互相讨论,并展开对比讨论,选出最恰当的方法。 2.教学过程 方法一:全文搜索引擎的工作原理 (1)提出问题 ①去超市购买一枝钢笔的过程。 购物→描述商品特征→取货→交给顾客 ②利用全文搜索引擎查找夏季奥运会的由来,并观察操作的一般过程。如图 1-1 ~ 1-3 所示。 图 1-1 百度检索首页

图 1-2 百度检索结果页面 图 1-3 百度检索答案举例页面 总结 全文搜索引擎检索信息的过程: 搜索关键字或词→数据库中检索→搜索结果。 (2)通过上述范例引申 从专业的角度拓展给学生讲解搜索引擎的组成。 ①搜索器:负责定期地自动到各个网站上,把网页抓下来,并顺着上面的链接,持 续不断地抓取网页。 ②索引器:把搜索器抓来的网页进行分析,按照关键词句进行索引,并存入服务器 的数据库中。 ③检索器:面向用户,接收用户提交的查询字串,在索引数据库中查询,并将结果 反馈给用户。 巩固练习:搜索江苏省2012年高考方案 进一步总结,得出全文搜索引擎的工作包括三个过程。 ①搜索器在因特网中发现、搜集网页信息。 ②索引器对所搜集的信息进行提取和组织,并建立索引库。 ③由检索器根据用户输入的查询关键词,在索引库中快速检出相关文档,进行文档与查询内容的相关比较,对检出的结果进行排序,并将查询结果返回给用户。 方法二:目录索引类搜索引擎的基本工作原理 (1)提出问题 ①如果去学校图书馆借阅“短篇小说集”,该怎么去做,描述一般过程。 借阅图书→找书目→找相应书籍→从书架拿出 ②利用目录类搜索引擎查找“北京大学”的信息,如图 1-4 ~ 1-7所示。

信息检索大赛试题库(个人赛)重点

注:个人赛中 80%分值的试题将来源于下述各类型试题。 单选 1. 符合我馆收藏原则 , 而我馆没有收藏的图书 , 可以通过图书馆主页上哪个栏目推荐购买? (A A 书刊荐购 B 新书通报 2. 我馆定期上传书商提供的新书目 , 以下哪个选项不能进入选书推荐? (A A 参考咨询 B 书刊荐购 C 我的图书馆 3. 我馆新书定期上架 , 通过主页上哪个栏目可以查询新上架书目? (A A 新书通报 B 书刊荐购 4. 想通过图书馆书目检索系统, 搜索本馆馆藏范围内, 题名中含有“英语四级”的所有书目,选择哪种检索方式(C A 前方一致 B 完全匹配 C 任意匹配 5. (C 即围绕读者提出的某一特定问题开展的文献检索服务。它主要针对自然科学、社会科学及人文科学各个学科、各种目的的研究课题,以描述课题的主题词、关键词作为检索人口,开展文献检索服务。 A 、科技查新; B 、专利检索; C 、专题检索: D 、辅导性咨询。

6. 登录网页版或客户端版超星移动图书馆的账号和密码是(A A 、“我的图书馆” 的账号和密码 B、自己注册产生的账号和密码 7. 使用逻辑“与”是为了 ( B 。 A 、提高查全率 B 、提高查准率 C 、减少漏检率 D 、提高利用率 8. 使用逻辑“或”是为了 ( A A 、提高查全率 B 、提高查准率 C 、缩小检索范围 D 、提高利用率 9. 在中国知网数据库中的布尔逻辑表达式:“在职人员不含青年教师”的检索结果是 ( A A 、检索出除了青年教师以外的在职人员的数据 B 、青年教师的数据 C 、青年和教师的数据 D 、在职人员的数据 10. 关于万方数据资源的说法中,正确的是 ( A 。 A 、以科技信息为主,涵盖经济金融人文信息 B 、以经济信息为主,涵盖科技金融人文信息 C 、以金融信息为主,涵盖人文经济科技信息 D 、以人文信息为主,涵盖金融经济科技信息 11. 二次检索的作用是(B 。 A 、第二次全新检索 B 、在第一次检索的结果中进行检索 12. 直接输入检索词进行单条件检索,而不进行检索条件之间的逻辑匹配,称为 (C 。

网络信息检索及其检索工具

摘要 进入20世纪90年代以后,互联网的发展风起云涌,人类社会的信息化、网络化进程大大加快。与之相适应的信息检索的交流平台也迅速转移到以WWW为核心的网络应用环境中,信息检索步入网络化时代,网络信息检索已基本取代了手工检索。 网络信息资源的迅猛增长,使人们获得有用信息越来越困难,网络检索工具应运而生,文章介绍了网络信息检索工具的类型和功能,提出了检索工具的发展趋势。 关键字:网络信息检索;检索工具;因特网;web资源检索

目录 摘要 .......................................................................................................................................... I 1 信息检索的定义. (1) 2网络信息检索简介 (1) 2.1网络信息检索定义 (1) 2.2 网络信息检索的原理 (1) 2.3网络信息检索与传统信息检索的区别 (2) 2.4网络信息检索技巧 (2) 3网络信息检索工具类型 (3) 3.1非web资源检索工具 (3) 3.2web资源检索工具 (3) 4网络信息检索工具的功能 (4) 5网络信息检索展望 (5) 5.1网络信息检索的展望 (5) 5.2网络信息检索工具展望 (5) 参考文献 (6)

浅谈网络信息检索及其检索工具 1 信息检索的定义 什麽是信息?信息是消息,人们在学习、工作、日常生活中随时随地都在接受和利用信息;信息是资源,它具有使用价值和价值;信息是财富,且是无价之财富;信息是生产力要素,更是一种不可估量的促进生产力发展的新动力。因此,人类社会的发展,科技技术的进步,都离不开信息资源的开发和利用。而且,信息资源的真实状况及开发利用程度,已经成为衡量一个国家经济、文化、科技以及综合国力的重要指标。我们怎样快速的查找信息和有序的整理信息?信息检索是最快的途径。 信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。人们获取信息源的方式主要有:①传统的信息检索方法,通过人工查询在图书馆等提供文献的机构进行文献的查询和获取活动;②联机信息检索相对于前者来说具有实时性、完整性、共享性、广泛性等优点;③网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。 2网络信息检索简介 随着信息技术的飞速发展,信息已成为全社会的重要资源,对信息的占有程度及信息处理水平的先进程度已成为衡量一个国家或地区现代化程度的重要标志,而网络上丰富的信息在更大程度上改变了人们的工作和生活的方式。Internet是当今世界上规模最大、覆盖面最广、信息资源最丰富、发展最为迅速的信息网络,基于Internet的网络信息检索的研究,无论对研究人员还是一般用户来说,都有着很强的现实性和实用性。 2.1网络信息检索定义 网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。 2.2 网络信息检索的原理 网络信息检索工具是网络信息检索技术的实物体现。目前,常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。 (1)布尔逻辑模型——这是一种简单而常用的严格匹配模型。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询

《文献信息检索》第二次作业

杏林会计专业作业二 一、馆藏书目检索 结合自己的专业背景查询南通大学图书馆书目检索系统,说明你的检索方法、检索结果,并列举密切相关的图书两本(包括书名、索书号、馆藏地)。 检索方法:通过“普通检索”,选择文献类型中文图书,选择检索字段主题词“会计”; 检索结果:340项命中主题词会计; 图书:《成本与管理会计》索书号:F234.3-43/1029=2 主校区社会科学书库《会计学概论》索书号:F230-43/1123 主校区社会科学书库 二、电子图书检索 1、下载安装超星图书阅览器,可利用“图书馆网站-中文数字资源-超星电子图书”,或利用“图书馆网站-读者服务-软件下载”进行软件下载。 2、在超星数字图书馆中分别利用快速检索、高级检索以及分类浏览三种方式检索自己所学专业的电子图书,写出每种检索方式的步骤及检索结果,列举其中密切相关的图书一册,记录其名称、作者、出版信息等。 快速检索:检索步骤:在“图书检索”框内直接输入需要检索的“书名”、“作者”或“主题 词”,点击“检索“按钮; 检索结果:输入“会计学”,可共查到1526本图书,每页显示10条记录等。 高级检索:检索步骤:在检索项- 书名”、“作者”或“主题词”等对应的框内输入需要检索 的资料,点击“检索”按钮; 检索结果:相应输入“会计学基础”、“郭徐咸”、“出版年代从1994年到2010年”,共查到 2 本图书; 分类浏览:检索步骤:经济图书馆-经济计划与管理会计-各种会计和簿记; 检索结果:共检索到1948本图书,每页显示10条记录等 图书:名称:《会计学基础》,作者:郭徐咸,出版信息:出版日期::1994年08月第2版,主题词:会计高等学校教材 3、打开该书的全文,利用文字识别功能将其中一段信息识别为文本格式,复制粘贴到作业文件中。 〔二)会计工作的内容经历了由对经济过程的广泛计其记录到对经济过程特定方面——价值运动计算记忌舶发展。最初的会

2.信息检索工具2018

信息检索工具2018 1、免费电子期刊按免费卷期范围不同可划分为全刊免费,()和少量文献免费三种类型 * ? A.过刊免费 ? B.并行出版刊 ? C.纯电子版免费期刊 ? D.试用期内免费刊 2、医学文献只有经过()后,才能进入检索系统,提供使用 * ? A.编排 ? B.编号 ? C.标引 ? D.分类 3、《中华内科杂志》在Medline光盘检索所得的医学文献著录格式中刊名形式是() * ? A.Zhong –hua– Nei– Ke– Za–Zhi ? B.ChungHua – NeiKo – TsaChih ? C.Zhonghua – Neike – Zazhi ? D.Chung – Hua – Nei – Ko – Tsa – Chih 4、搜集2018 年的哪种类型的信息最能表征未来一段时期的研究内容() * ? A.PubMed 收录的2018 年发表的论文 ? B.2018 年向美国国家专利与商标局申请的专利 ? C.美国国立卫生研究院(NIH)2018 年立项/启动的项目 ? D.中华医学会2018 年召开的学术会议 5、下列哪些方式不可以帮助筛选某个领域内的综述类、述评类或观点性文献() * ? A.文献类型为Review ? B.主题词组配副主题词trends ? C.文献类型为Clinical Trials

? D.标题中出现“the future of …”“Trends in …”的文献 6、中国图书馆图书分类法的分类号由() * ? A.字母与数字混合编制 ? B.纯数字编制 ? C.纯字母编制 ? D.数字分级编制 7、Medline收录的文献起源于()年 * ? A.1966 ? B.1978 ? C.1981 ? D.1990 8、索书号的组成是() * ? A.分类号和期刊号 ? B.标准书刊号和登录号 ? C.标准书刊号和书次号 ? D.分类号和书次号 9、CBMDisc中的有关中医方面的文献是按照()进行主题标引的 * ? A.医学主题词表(MeSH) ? B.中国图书资料分类法 ? C.中医药学主题词表 ? D.杜威十进制分类法 10、国内大多数大学图书馆采用的图书分类法是() * ? A.中国大学图书馆图书分类法 ? B.中国人民大学图书馆图书分类法 ? C.中国图书馆图书分类法

相关文档
最新文档