008018数据库和信息检索技术的融合

008018数据库和信息检索技术的融合
008018数据库和信息检索技术的融合

封面报道

引言

在过去的几十年间,数据库(Database,DB)和信息检索(Information Retrieval,IR)作为两个独立的计算机科学研究领域向前发展,都取得了巨大的成功。数据库的成功来自于上世纪70年代和80年代对商业数据处理的迫切需求,关系数据库成为存储和检索结构化数据的主要技术。而信息检索在过去的几十年间主要被应用于图书馆、资料库等的文档检索中,其影响力由于受到应用领域的限制也很有限。但是,随着上世纪90年代互联网的兴起,基于信息检索技术的互联网搜索引擎成为人们获取信息的主要方式,因此,信息检索技术引起了学术界和工业界的广泛兴趣。

信息检索和数据库有一定的关联。信息王 珊 文继荣中国人民大学

数据库和信息检索技术的融合

检索是指将信息按一定的方式组织和存储起

来,并根据用户的需要找出相关信息的过程。信息检索的对象是非结构化的数据(通常是文本)。信息检索技术通过构建检索模型,可以度量用户需求和数据之间相关性,并根据相关性将数据排序,其主要目标是提高检索的查准率(precision)和查全率(recall)。数据库处理的对象主要是结构化数据,其检索的目标是得到所有满足清晰定义的查询条件的数据(常常用关系代数表示查询条件)。除此之外,数据库需要保证数据的可靠性、操作的正确性、系统的高效性和稳定性等。表1是冯·里斯伯尔根(C. J. van Rijsbergen)对数据库和信息检索的比较。

近年来,数据库和信息检索都出现了向对方领域渗透和融合的趋势。例如,在数据库的主要国际会议SIGMOD 1和VLDB 2,以及信息

关键词:数据库 信息检索

信息检索非结构化概率的归纳

非人工语言(关键词等)不完全

部分匹配,最佳匹配相关不敏感面向用户

表1 数据库和信息检索

数据模型推断查询语言查询表述匹配查询的目标错误敏感度使用

数据库

结构化确定性的演绎

人工语言(SQL等)完全完全匹配匹配敏感面向应用

1 Association For Computing Machinery Special Interest Group On Management Of Data 2

Very Large Data Base

检索和互联网的主要国际会议SIGIR3和WWW4上,都连续召开了关于数据库和信息检索结合(DB+IR)的研讨会。与计算机领域其他新技术的出现一样,这种趋势背后的推动力主要来自于以下新近涌现出来的应用的需求。

1.从面向应用到面向用户

随着互联网成为用户获取信息的主要渠道,越来越多的数据库被置于互联网上直接供用户查询,例如亚马逊(Amazon)网站就是一个典型的互联网数据库。传统的数据库系统是面向程序员和高级用户的,使用的是类似于SQL5这样的语言,由于语法复杂和需要预先知道数据库模式(schema),因而一般用户使用起来很困难。同时,由于数据库查询缺少对相关性排序的支持,用户难以有效地从成千上万的查询结果中发现所需要的信息。因此,对这些直接面向用户的数据库提供类似于网页搜索引擎一样易于使用的检索功能,成为一个普遍的需求。

2.从单一类型数据到多种类型数据

目前,越来越多的应用需要同时检索结构化数据和非结构化数据。例如,在一个论文数据库中,每一个记录既包含论文的结构化属性,例如标题、作者、日期、会议和引用等,也包含非结构化属性,例如摘要和论文主体等。在一个公司内部,存在着丰富多彩的数据,不仅有无结构的文档、半结构化数据(XML6等)和结构化数据(数据库等),还有图片、视频和音频等多媒体数据等等,类型很多。传统上,结构化数据和非结构化数据分别由独立的数据库系统和信息检索系统进行处理。因此,如何构建一个统一的系统来无缝地检索结构化数据和非结构化数据成为一个挑战。

3.从可靠数据到不确定数据

在传统的数据库应用中,总是认为数据是正确可靠的。但是在很多实际应用中,尤其是当数据从多个不同的数据源提取和集成而来时,数据内容的不确定性和歧义性是非常普遍的。因此,用户需要类似于信息检索系统的模糊查询功能来容忍这种不确定性。

4.从纯文本检索到半结构化、结构化文本检索

传统的信息检索在很大程度上等价于纯文本检索,检索的对象被看作完全无结构的字符串。然而,很多文档都是具有一定的内部结构的。例如,一篇论文具有标题、作者、摘要、章节和参考文献等。信息检索中的结构化文档检索技术利用了这些文档结构来改进检索。又如,HTML7网页本质上是一种半结构化的文档,一个网页具有标题、URL8、链接描述文字(Anchor Text)、内部表格、段落以及页面链接等。现有的搜索引擎都充分利用了这些结构信息来对查询结果进行更好的排序。例如,由于标题和链接描述文字对网页的语义描述更加精确,搜索引擎往往在排序函数中给予它们更高的权重。由此可见,在信息检索领域,研究人员也充分认识到数据中结构的重要性,并对其加以利用。

5.从通用搜索到特定领域搜索

现在的通用网页搜索引擎返回给用户的并不是最终的答案,而是一个含有相关信息的页面集合。这些页面中的信息繁杂无序,用户需要自己从中提炼出所需信息。例如,如果用

3 Special Interest Group on Information Retrieval

4 World Wide Web

5 Structured Query Language,结构化查询语言

6 eXtensible Mark-up Language,扩展的标记语言

7 HyperText Mark-up Language,超文本标记语言

8 Uniform Resource Locator,统一资源定位器

封面报道

户输入“数据挖掘”来查找与数据挖掘相关的论文,那么搜索引擎返回的页面中,除了有少量的论文信息,还包含数据挖掘公司的产品信息,以及数据挖掘的研究小组、论坛上有关这一技术的讨论,也有数据挖掘方面的培训信息和会议通知等等。为了解决这一问题,人们希望能够在自己感兴趣的领域内进行搜索,从而出现了特定领域搜索(Vertical Search)技术,例如论文搜索、购物搜索、房产信息搜索和求职搜索等。在一个特定的领域中,数据往往具有相似的数据结构,用户希望利用这些结构信息来进行更深入的搜索。例如,在购物搜索中,除了查找相关的商品,还可以将检索限制在一定的品牌和价格范围内。实现特定领域搜索需要同时利用到信息检索和数据库技术。

6.从Surface Web到Deep Web

实际上,通过搜索引擎只能找到互联网上的一小部分数据。大量的数据则是被存储在数据库当中,只能通过特定的查询界面来查找。这些互联网上搜索引擎搜索不到的数据构成了所谓的Deep Web9。劳伦斯(Lawrence)和贾尔斯(Giles)在1998年估计,互联网上有80%的内容存储在Deep Web中。伯格曼(Bergman)则在2001年的一项研究中发现,存储在Deep W e b中信息是通过搜索引擎可以找到的信息400~550倍,并且还在不断增长。造成数据库中的数据被隐藏的主要原因就是搜索引擎不能直接访问数据库系统。如果数据库系统能支持基于关键词的信息搜索,那么在互联网上发现存储在数据库中大量信息的过程就会变得简单容易。

非严格地说,需求1、2、3主要来自于数据库应用,而需求4、5、6主要来自于信息检索和互联网搜索应用。为了满足上述应用的需求,数据库检索(Database Retrieval或Data Retrieval)技术在近年来成为了一个研究热点。其目标是将信息检索中基于概率的相关性检索技术与数据库中基于代数的结构化数据查询技术结合起来,构建一个像信息检索系统一样易于使用,同时又像数据库系统一样能充分管理和利用结构化信息的系统。但是,作为一个新兴的交叉领域,数据库检索的具体需求和设计目标还存在许多不明晰的地方。下面,我们用一个具体的例子来探讨构建一个数据库检索系统所面临的主要问题和挑战。

实例:论文检索系统

设想我们从互联网和其他数据源中获取了大量的论文和作者信息,并将其存储在一个关系数据库(或者XML数据库)中,称之为文献数据库。它包括4个表。一个是Paper(论文)表,存储所有的论文信息,其主要属性为PaperID(论文标识)、Title(标题)、Year (年)、Conference(会议)、Abstract(摘要)和Body(主体)等;一个是Author(作者)表,存储所有的作者信息,其主要属性为AuthorID(作者标识)、Name(姓名)、Affiliation(关系)、Email(电子邮件)和Homepage(主页)等;一个是Write(写作)表,存储作者写论文的信息,包括AuthorID (作者标识)和PaperID(论文标识)等属性。显然,Author表的AuthorID与Write表的AuthorID 属性形成主外码关系,Paper表的PaperID与Write表的PaperID属性形成主外码关系;最后一个是Cites(引用)表,存储论文之间的引用关系,包括Citing(引用)、Cited(被引用)等属性。Paper表的PaperID与Cites表的Citing和Cited分别构成了主外码关系。文献数据库的关系模式如下图所示。

现在,我们准备在文献数据库上构建一个搜索引擎,并将其发布到互联网上供用户使用。作为一个检索系统,我们希望该系统能提供易于使用的查询语言、丰富的查询功能、准

9 深层网页、动态网页、网上隐形资源

是最终用户喜欢的方式。而在示例3中,用户需要明确地指出检索对象的逻辑结构,这是传统的关系数据库管理系统支持的功能,只需要适当扩展相关性排序功能。甚至有一些研究人员进一步提出,用户最好也能控制相关性排序函数Relevance的具体实现。

检索的基本单元和数据模型

在信息检索中,检索的基本单元通常是明确的,即文档。然而,在数据库检索中,对于什么是基本的检索单元则不是那么清晰。在最简单的情况下,如果所需的信息被完整地包含在一条记录中,则该记录可以被当作检索的基本单元。例如,在前面的论文检索系统示例中,要查找中国人民大学的某位作者,可以在Author表中找到。但是,在很多情况下,数据库中数据的逻辑结构并不总是与用户希望检索的内容严格对应,满足查询要求的信息经常分布在多个表或记录中。例如,在Author表中,作者的论文信息并不存在于该表中,而是在另外两个表(Paper表和Write表)中。因此,当一个查询需要同时使用作者和论文信息时(如示例3),我们需要对Author表、Paper表和Write表进行连接操作,并将连接生成的表作为检索的单元。换句话说,数据库检索的基本单元通常是不确定的,需要根据查询的语义覆盖范围而动态决定,这实际上是其区别于传统信息检索的一个非常重要的特性,也是数据库检索研究中的一个主要课题之一。

确的检索结果和快速的响应时间。检索语言

现有的数据库检索系统所支持的查询语言种类繁多,从最简单的关键词查询,到较复杂的扩展布尔查询、谓词查询,再到复杂的SQL 以及扩展的SQL查询。例如,在前面的论文检索系统里,如果我们希望找到数据库检索领域的重要研究人员,可以使用如下的查询:

示例1 (关键词查询)database retrieval researchers

示例2 (扩展布尔查询)(database retrieval

OR 10

data retrieval) AND researchers

示例3 (扩展的SQL查询)Select https://www.360docs.net/doc/a66674055.html,

From Author, Paper, Write

Where Author.AuthorID=Write.AuthorID and Write.PaperID=Paper.PaperID Group By Author.AuthorID

Ranked By Relevance(Paper.*, "database retrieval")

/* 扩展了相关性排序部分 */

总体来说,检索语言模型的选择需要在语法的简洁性、表达能力的丰富性和查询处理的复杂性这几个方面之间做出选择和平衡。面向最终用户的语言需要简单易用,而高级用户则需要丰富的查询功能和更多的灵活性。例如,在示例1中,关键词查询只是非常概要地指定

了所需要的信息,而不关心如何完成检索,这

文献数据库的关系模式

10

OR 或关系;AND 与关系

封面报道

解决这一问题的一个基本思路是不再将表或记录看作独立的实体,而是将整个数据库看作一个(有向或无向)图。其中图的节点是表或记录,边是表或记录之间的主码-外码关系,检索的目标是从图中找出满足查询条件的子图作为查询结果并进行相关性排序。例如,给定关键词查询(Hristidis, Papakonstantinou),系统从文献数据库的数据图中检索满足条件的Top-k个子图。图1是结果子图的一个例子,该图表示H r i s t i d i s和Papakonstantinou合作撰写了一篇文章。

XML检索系统也采用了类似的思路。一个XML数据库被自然地视作一个有向标记图或树,查询结果是满足查询条件的XML片断。显然,如何从图中高效地找到与查询匹配的子图是一个主要挑战,许多研究工作致力于开发出高效准确的算法来解决这一问题,如后面所述。

高效的检索算法

当前的数据库检索系统都是建立在模式非常简单、数据量比较少的数据库的基础之上,而那些处理模式比较复杂、数据量非常大的数据库的能力也不能令人乐观。

目前对检索算法的研究大体可分为基于数据图和基于模式图两类。

基于数据图的算法是把数据库中元组和元组之间的主外码关系构成的数据图放入内存中,通过DBMS11提供的IR引擎(全文索引机制)生成包含查询关键词的节点集合,在此基础上,在数据图上搜索满足条件的子图作为结果。比较典型的算法包括BANKS系统的后向扩展算法和双向扩展算法。

基于模式图的算法是把数据库的表和表之间的主外码关系构成的模式图放入内存中,基于模式图和包含查询关键词的节点集合来生成候选网络,通过执行候选网络对应的SQL语句来产生结果。比较典型的算法包括IR-Style系统的Top-k算法等。

显然,数据图方法比模式图方法执行效率高,但是占用内存多。图2(a)和图2(b)分别描述了基于数据图的算法和基于模式图的算法的查询处理过程。从图中可以看出,DBMS提供的全文索引机制是数据库检索的基础。

为了提高系统的检索效率,我们已经做了很多工作。在数据图算法方面,我们自主研发了数据库检索系统Detector,提出一种基于数据图的动态规划的检索算法。在通常情况下,其检索效率高于一般的数据图算法,检索的效果也很理想。

在模式图算法方面,影响系统性能的主要因素是生成候选网络的过程和执行候选网络对应的执行SQL语句的过程,据此我们对现有的模式图系统作了改造,大大提高了系统的执行效率。为减少查询过程中生成候选网络的时间,我们提出了一种预处理技术,能够预先生成部分候选网络。实验证明,使用预处理技术后,系统的检索效率提高了约2个数量级。为减少执行候选网络的时间,我们采用机器学习的方法对候选网络进行裁减,只执行有可能产生Top-k12结果的候选网络。实验证明,使用

图1 文献数据库的数据子图

11 Database Management System,数据库管理系统

12 一种查询技术

裁减的算法比原算法的检索效率提高了数倍。而且,使用这种裁减方法后,系统的检索效果(查全率和查准率)仍然比较理想。

相关性排序

相关性排序是信息检索领域的一个核心问题,其基本思想是计算查询与检索单元之间的语义相似性,然后根据相似性来对查询结果进行从大到小的排列。随着互联网搜索引擎的发展,人们发现检索单元(网页)的权威性和重要性对于排序也很重要,好的检索结果应该是既相关又重要的信息。因此,一些有效的算法,例如乔恩_克莱因伯格(Jon Kleinberg)的HITS算法13和谷歌(Google)的PageRank算法14,被用于计算网页的权威性。一般来说,查询与

检索单元之间的语义相似性被称为动态相关性,而检索单元自身的权威性被称为静态相关性。在数据库检索中,人们也致力于研究相似的算法来计算动态相关性和静态相关性。

数据库检索的动态相关性可以采用现有的信息检索模型,例如向量模型、概率模型和语言模型等,这些模型很好地刻画了文档和查询之间的语义相关性。但是,如前所述,数据库检索中的检索单元往往是由多个表的连接操作生成,查询词可能分布在多个表的不同记录中。换个角度看,如果数据库被表示成一个图,则所有查询词可能出现在一个节点(记录)中,也可能出现在一个子图中。因此,与信息检索中计算词的近邻性(proximity)相似,一个合理的假设是:一个包含所有查询词

的“小”子图,其动态相关性可能比一个包含

(a) (b)

图2 数据图算法和模式图算法比较

13

Hypertext Induced Topic Selection,超文本感应主题选择14

1998年谢尔盖·布林与拉里·佩奇提出的算法

封面报道

所有查询词的“大”子图高。因此,一些数据库检索系统将这个特性加入了排序函数中,例如,DBXplorer和Discover系统15根据生成子图所需要的连接次数来计算相关性。但是,我们注意到,现有的数据库检索对传统检索模型的利用还不充分,有待进一步研究。

同时,受到网页链接分析的启发,近年来一些工作开始探讨是否可以使用相似的算法来计算数据库记录(或对象)的静态相关性。这种想法是非常自然的,因为数据库中的对象和它们之间的关系也形成了一个图。一个对象的权威性受到它所关联的其他对象的影响。例如,在前面的论文检索例子中,一篇论文的权威性可以根据引用数目、论文的作者、所发表的会议等因素推导出来。在网页图中,只存在一种对象(网页)和一种关系(超链接)。而在数据库图中,往往存在多种对象和多种关系。所以,我们需要对PageRank这样的链接分析算法进行扩展来计算对象的权威性,这方面的典型算法有ObjectRank和PopRank等。一旦我们能够计算对象的权威性,并与动态相关性结合起来,就能产生更好的排序结果。例如,对于查询“database retrieval researchers(数据库检索研究人员)”,我们不仅能找到相关的研究人员,还可以根据他们在该领域的声望进行排序。

另外,由于应用需求的多样性,一些用户可能希望能够自行定制排序算法。例如,在示例3中的Relevance函数中调节各个排序因子的权重,这就要求排序函数具有一定的灵活性,在这方面也有一些工作在进行。

结果展现

结果检索出来以后,就要展现给用户阅读。但是,检索结果的展现并不是一个简单的问题。一方面,检索的基本单元是单个元组或多个元组的连接子图,由于关系数据库的规范化,单个元组表达的信息往往不完整,而多个元组的连接子图的逻辑含义又不容易被用户理解;另一方面,由于多值依赖的缘故,经常会产生大量类似的结果,使用户感到厌烦,而且不容易找到真正所需要的信息。目前的数据库检索系统对结果展现都做了一些工作,但是展现效果都不够理想,离实际应用还存在很大距离。

最近,我们提出一种聚类展现检索结果的方法,在一定程度上提高了用户浏览结果的效率。与传统的基于内容的聚类不同,我们针对检索结果的特点,提出了一种基于结构和内容的两级聚类方法,包括模式(Pattern)聚类和内容聚类两步。

首先,我们在不同数据集上做观察,发现许多检索结果(元组的连接子图,在本节称之为“结果树”)具有同样的模式。例如,在DBLP16数据集,关键词的查询(Jim Gray(吉姆·格雷), Transaction)生成很多结果,一些结果属于“Jim Gray写作关于Transaction的论文”这种模式,而另一些结果属于模式“Jim Gray的论文被关于Transaction的论文引用”,再一些结果属于模式“Jim Gray的论文引用了关于Transaction的论文”。而用户所真正需要的答案,可能属于上述的某一种模式。因此,我们按照模式的不同将结果聚成多个类别,使用模式信息作为每一类别的类别描述,用户只需浏览类别描述就可以确定这类结果是否是自己所需要的,这样形成了第一级类别。

进而,我们发现某些模式下的结果数目仍然很多,考虑到用户最敏感的是输入的关键词,我们根据含关键词的节点的内容对第一级类别做进一步划分。例如,对于关键词查询(Gray, Transaction),我们根据含“Gray”的节点内容聚类,这样就把不同的“Gray”,如Jim Gray、W.A.Gray的结果分离开来,用户只需要检查每一个子类别的类别描述(Jim Gray)或(W.A.Gray),就能确定这类结果

15 数据库检索工具,适用于所有的主流数据库

16 Data base System Logic Programming,一个计算机专业论文库网站,网址为http://dblp.uni-trier.de/

是否是自己感兴趣的。

另外,对于每个结果,以及每个类别描述,我们都用图形化的方式展现出来,便于用户理解结果的含义。图3所示的就是MDB数据集17上检索结果聚类展现的一个示例,图4则是图3中结果树所属的一级类别的类别描述。实验证明,

我们这种聚类展现方法有助于提高用户的浏览效率,而且系统的执行效率基本不受影响。

体系结构

最后,我们来探讨数据库检索中的一个基本问题:数据库检索系统应该基于什么样的体系结构?这是一个充满争议的问题,没有一个公认的结论,因为采用什么样的体系结构与多个因素有关,包括所支持的查询语言、检索的单元、排序算法的选择、数据量的大小、响应时间的要求和系统的可扩展性等等。下面我们简要分析一下几种可能的体系结构。

1.基于数据库引擎并对某些数据类型提供全文检索功能的系统。事实上,现在的主流关系数据库系统基本上都采用了这种方式。SQL Server 2000、Oracle 9i Text和IBM DB2 Text Information Extender等都支持对文本属性的全文索引和检索。显然,这种方式本质上是以属性为索引单位,无法有效支持对多个属性、多个表、多个记录的统一检索,从而在检索功能上受到了很大限制。

2.基于结构化文档检索系统。很多检索系统支持一定程度的结构化数据存储、索引和检索。例如,由于H T M L网页具有内在的结构,搜索引擎需要分别处理网页的标题、U R L、链接描述文字、内部文本和页面链接等。但是,现有的检索系统对结构化数据的支持是很有限的。原因有如下三点:首先,数据的结构往往是预先定义的,难以处理具有不同结构的数据和对结构进行扩充;其次,它们往往不支持结构化数据的索引(如B+树)和查询(如选择、连接等);再次,这些系统无法提供数据库中一些很有效的技术,如查询优化和缓冲区管理等。

3.采用中间件技术集成分离的数据库系统和信息检索系统。在这种方式中,数据库系统管理结构化数据,而信息检索系统管理非结构化数据。但是,这种方法本质上是把所有的问题留给了中间件来解决,数据库系统和信息检索系统无法充分利用对方的功能。

4.基于对象存储系统的检索引擎。既然直接利用现有的数据库系统和信息检索系统都会有不同的缺点,我们可以考虑设计一个存储系统来存储数据库对象。然后基于该存储系统构建一个数据库检索引擎。这种方式具有最大的灵活性,但显然需要很大的工程量。

在现有的实际系统中,前面三种体系结构

图4 一级类别描述

图3 检索结果的聚类展现

17 ACCESS数据库格式

封面报道

都得到了采用,而第四种体系结构仍处于研究和开发阶段。

结语

数据库检索作为一个新兴的交叉学科,在学术上和实践上都具有重要意义。目前在这一领

王 珊

中国人民大学教授, 博士生导师。中国计算机学会副理事长、数据库专委会主任。目前主要研究领域是高性能数据库系统新技术、数据库检索新技术、数据工程与知识工程等。

文继荣

博士,微软亚洲研究院的研究员和项目负责人,主要研究方向是互联网数据管理、信息检索(特别是互联网搜索)、数据挖掘和机器学习。

域的研究已经取得了一定的进展,也开发出了一些实际系统。同时,我们也看到,这一领域的研究远未成熟,很多重要的问题还未得到解决。然而,正因为如此,它也成为了一个令人兴奋的研究领域。数据库和信息检索两个方面的研究人员正在共同努力推动这一领域的发展,我们期待更多的成果能很快源源不断地产生出来。

2.4《网络大数据库的信息检索》教学设计课题

信息技术说课稿 说课题目:《网络数据库的信息检索》 年级:高一年级教科书:《信息技术基础》 说课老师:王琳蝉 工作单位:屯昌县红旗中学 一、说教材: 1、教材地位和作用 本节容是教育科学《信息技术基础》教材第二章第四节“网络数据库的信息检索”的容。本节教材分三部分构成,一是概述,教材通过一个简单的实例来体验从网络数据库获取信息的一般过程,目的是为学习网络数据库的基本知识做准备性的铺垫。二是多样化的网络数据库,教材对这部分容介绍比较多,意在让学生充分体验网络数据库的多样性和学会对各数据库信息的获取方法。三是网络数据库评价,在本章的最后重点安排了网络数据库的评价,目的是进一步提醒教师,在信息获取活动中,要培养学生及时、科学地评价信息的习惯,这是提高获取信息资源质量的关键,也是积累信息获取经验的关键一环。在本课教材访问丰富多彩的数据库这个模块中,应适当引导学生对资源进行点评,引导学生探索数据库这一现代信息管理手段的特点,为第七章中数据库知识的学习打下基础。 2、学生状况分析 ⑴虽然学生在初中有信息课,但是作为副科没有参加升学考试,所以学生在课堂上多数的时间是玩游戏、聊天,没有纠正学习这门课程的学习态度。初中学生上了高中后,其信息技术意识层次不齐,这就要教师有计划培养学生的信息技术意识。 ⑵经过半个学期的学习,高一学生自觉性有所提高一般具备了一定的网络操作技能,这样对于本节课的学习已经有了相关知识上的准备。 3、教学目标 (1)知识与技能目标: ①学生了解网络数据库 ②学会简单的信息检索 ③体会到网络数据库的重要作用 ④运用网络数据库检索获取需要的信息容

(2)能力目标: ①培养学生利用网络数据库提高信息获取的能力 ②引导学生着重从资源获取的角度来审视数据库的价值 (3) 情感与价值观目标: ①在同学的互助下交流合作中,培养合作意识和合作精神 ②培养学生遵守网络道德,规、合法地获取网络资源 4、教学重点与难点: 学习重点:网络数据库的理解、网络数据库的多样性、网络数据库信息的检索 学习难点:对网络数据库信息的检索、学生要用科学的评价方式判断所得信息的准确性 二、说教学 教学过程实质上是学生主动学习的过程,强调激发学生的兴趣,力求形成学生强烈的学习动机和乐学、善学的学习态度。本节是采用任务驱动法导入新课,采取合作探究法解决提出的任务,对于同学们的作答采取了赏识教育法树立大家的自信心。再利用提问启发法去发现新的问题,从而导入本节的容。在新课网络数据库简介中,我采用了列举法和图表法加深对网络数据库概念的理解。网络数据库信息检索的一般过程和数字城市的介绍上都分别用了演示学习法,演示具体的各个操作步骤。网络数据库信息检索的一般过程和教育资源库的使用,都采取小组分工制合作探究法解决提出的任务。 三、说学法 教学指导在于提高学生的个性发展和全面发展。通过本节教学,主要使学生掌握以下几种学习方法: ①培养学生利用教材、网络自主学习的能力 ②培养学生动手操作能力 四、教学过程 1、导入新课 首先复习旧知识,使用任务驱动法导入新课

信息检索数据库

(1)《工程索引》数据库(EI Compendex) 《工程索引》英文名称“The Engineering Index”,简称EI,是目前世界上最有权威的工程技术领域的综合性检索工具,名为索引,实际上是文摘工具。它创刊于1884年,最初是索引性质,后来又增加了文摘,目前由美国工程信息公司(The Engineering information Co.)编辑出版。 《工程索引》数据库,是目前最常用的文摘数据库之一,侧重于工程技术领域的文献的报道,涉及核技术、生物工程、交通运输、化学和工艺工程、照明和光学技术、农业工程和食品技术、计算机和数据处理、应用物理、电子和通信、控制工程、土木工程、机械工程、材料工程、石油、宇航、汽车工程以及这些领域的子学科。其数据来源于5100种工程类期刊、会议论文集和技术报告。每周更新。 中国科学技术信息研究所从1987年起,每年以国外四大检索工具SCI、ISTP、EI、ISR为数据源进行学术排行。由于ISR(《科学评论索引》)收录的论文与SCI有较多重复,且收录我国的论文偏少;因此,自1993年起,不再把ISR作为论文的统计源。而其中的SCI、ISTP、EI数据库就是图书情报界常说的国外三大检索工具。 EI的检索方式有简单检索、快速检索和专家检索。还可以按照作者、受控检索词、作者单位等进行浏览。EI还提供了个性化服务,如果有疑问可以给EI提供的学科专家联系进行提问。简单检索只需要在检索框中输入关键词,就会实现自动跨库检索。快速检索EI检索默认主界面,它是一种表格检索,其检索界面如下图所示: 快速检索主要有以下四个组成部分: ①检索输入框(SEARCH FOR):共有三个,允许用户最多输入三个检索词,检索词之间用逻辑算符AND、OR或NOT连接。 ②字段限定(SEARCH IN):可以选定限制的字段,包括KY(关键词),AB(文摘),AU(作者)等。 ③检索限定:(LIMIT BY):包括文献类型、处理类型、语言、时间四方面的限定。其中,文献类型限定(Document Types)指的是来源出版物的类型,如期刊、会议论文等;处理类型(Treatment Types):用于说明文献的研究方法及所探讨主题的类型,如应用学科、经济学科、历史学科等。

中文数据库的检索实验报告

实验报告 课程名称计算机信息检索 实验项目名称 班级与班级代码 实验室名称(或课室) 专业 任课教师 学号: 姓名: 实验日期:

姓名实验报告成绩评语: 指导教师(签名)

年月日说明:指导教师评分后,学年论文交院(系)办公室保存。

实验一 一、实验目的 掌握常见中文数据库的检索方式。利用所学理论知识,结合实验分析不同数据库在信息组织、检索分式等方面的特点。 二、实验内容: 用一专题在六个中文数据库、检索结果主要也目录和摘要为主。 检索专题自选。 1、中国期刊网 2、维普中文科技期刊数据库 3、万方数据资源系统 4、国研网 5、中宏数据库 6、人大复印资料 7、高校财经数据库 三、实验环境 CPU:Intel(R) core?2 CPU 内存:1G 软件: IE 资源:互联网 四、实验步骤 1.进入广东商学院图书馆网页,点击数字资源,进入中国期刊数据库。 2. 根据自己检索课题的要求,采用分类检索与主题检索在加上 3.鉴于以上检索的结果记录数较多,而且与需求的相关性低,采用以下缩减手段:

(1)在检索导航中更改默认分类:只选择“经济与管理”类 (2)更改更新时间(2005~2009),得到结果; (3)把模糊匹配改为精确匹配得到结果; 4. 通过亲自查看其摘要,全文的方式,剔除一些不相关的文献,并归纳出剔除文章的原则。 5. 将最后的所得的与主题密切相关的文献题录信息拷贝下来,保存在作业文件夹中。并在实验报告中体现出来。 6. 把最后所得的期刊论文的全文都一一拷贝下来。保存在自己的移动硬盘中。作为后期撰写文献综述的依据之一。 7. 登陆到学校的重庆维普数据库、人大报刊索引全文数据库,万方全文数据库期刊、国研网子系统,重复2,3,4,5,6,将所得检索结果拷贝下来,放在作业文件夹 五、试验结果 实验步骤3(2)(3)的结果如下,其它数据库结果类似 六、实验分析 期刊网的主页上免费的资源有:学术研究、工具书检索、党和国家大事、文化与生活、学习教育、行业知识仓库等,在相应领域的信息检索中起着重要作用。

信息检索 英文全文数据库——Elsevier

(四)利用英文全文数据库——Elsevier进行文献信息检索示例 1、检索课题名称:管理心理与社会安全的基础理论研究 2、课题分析: 中文关键词为:1管理心理2社会安全 英文关键词为:(1)Management of psychological(2)Social Security 3、选择检索工具:Elsevier数据库 4、构建检索策略: Management of psychological AND Social Security 5、简述检索过程: 选定在Elsevier中期刊、图书、文摘数据库等全部文献资源中检索2002年以后的关于管理心理与社会安全的基础理论研究的相关文献。 利用确定的检索策略(waste water AND treatment),文献全文(含文献题目、摘要、关键词)中检索,检到18651 篇相关文献;在文献题目、摘要和关键词中检索,检索到14篇相关文献; 在文献关键词中检索到0 篇相关文献;在文献题目中检索到0篇相关文献。 6、整理检索结果: 从以上文献中选择出3条切题文献 1.Terror management theory and scrupulosity: An experimental investigation Journal of Obsessive-Compulsive and Related Disorders, Volume 1, Issue 2, April 2012, Pages 104-111 Thomas A. Fergus, David P. Valentiner Department of Psychology, Northern Illinois University, DeKalb, IL 60115, USA Received 8 September 2011. Revised 31 December 2011. Accepted 19 January 2012. Available online 1 February 2012. Abstract: The present study investigated the applicability of Terror Management Theory (TMT) to scrupulosity using a sample of nonclinical college students (N=92). More specifically, we examined whether scrupulosity potentiated the relationship between exposure to conscious reminders of death (i.e., mortality salience) and four variables of interest (mistake-checking behavior, “not just right experience,” shame, and guilt). Results were that individuals engaged in significantly greater mistake-checking behavior, as well as experienced significantly heightened “not just right experience,” shame, and guilt in response to the mistake-checking task, following mortality salience at higher versus lower levels of scrupulosity. These patterns of relations were not found in a control condition. Finally, a “not just right experience,” but not shame or guilt, mediated the potentiating effect of scrupulosity in relation to the increased mistake-checking behavior following mortality salience. Implications of these results for improving our conceptualization and treatment of scrupulosity are discussed. Highlights ? We examined the applicability of terror management theory (TMT) to scrupulosity. ? Death reminders lead to checking behavior, “not just right experience,” shame, and guilt. ? The effect was found only for

中文数据库信息检索

实验5中文数据库信息检索(万方学位论文数据库) 【实验目的】 熟悉万方学位论文数据库的基本情况;掌握其信息检索系统的检索方法以及检索结果的处理;掌握提高查全率和查准率的方法。 学时安排:2 学时 【实验内容】 1、查阅该数据库的检索方式及其检索流程。 2、根据自选检索课题,从上次实验本组检索获取的10篇相关论文中的作者(至少8人)出发,使用作者途径(不限定年份)利用万方数字化期刊全文数据库检索本组课题内容。分别统计每位作者的发表论文分 检索,要求写出:检索课题名称、检索分类序列、检索结果数、5—10条检索命中记录的题录信息(题名、作者、文献出处)。 【实验报告】 1、进入武汉工业学院图书馆主页,点击〖常用数据库〗中的〖万方数据资源系统〗,即可进入图5-1,然后点击〖万方学位论文数据库〗,即可开始检索历程。

2、自选检索课题,如:数据加密技术,使用万方学位论文数据库检索。 图5-2 万方学位论文数据库分类检索页 实验6外文数据库信息检索(EBSCO期刊全文数据库) 【实验目的】 熟悉EBSCO期刊全文数据库信息检索系统的基本情况,掌握外文数据库信息检索系统的检索方法以及检索结果的处理。 学时安排:2 学时

【实验准备】 1、根据在实验3、4、5中的自我选题的查询情况,选择相应的主题检索词并将其翻译成英文(至少3~5个),可以通过阅读已查中文文献中的英文摘要、英文关键词的形式获得。 2、EBSCO期刊全文数据库 (1)访问地址:https://www.360docs.net/doc/a66674055.html,/ 或https://www.360docs.net/doc/a66674055.html, (2)使用方法:此服务器不计国际流量,只对我校合法的IP地址开放。(3)内容介绍: 我馆情况:已经购买了其中的ASP(Academic Search Premier)和BSP 包。 学术期刊集成全文数据库(Academic Search Premier,简称ASP):ASP是当今全世界最大的多学科学术期刊全文数据库。包括有关生物科学、工商经济、资讯科技、通讯传播、工程、教育、艺术、文学、医药学等领域的7876种期刊的文摘和索引;3990种学术期刊的全文,全文最早回溯到1990年,索引和文摘最早回溯到1984年。数据每日更新。商业资源集成全文数据库(Business Source Premier,简称BSP):BSP 收录了3048种学术性商业类全文期刊,文摘和索引的收藏更超过3851种期刊。较著名的有华尔街日报(The Walls Street Journal)、哈佛商业评论(Harvard Business Review)、每周商务(Business Week)、财富(Fortune)、American Banker、Forbes、The Economist等,涉及的主题范围有国际商务、经济学、经济管理、金融、会计、劳动人事、银行等。适合高等院校经济学、工商管理、金融银行、劳动人事管理等专业使用。全文最早回溯至1990年。数据每日更新。 3、世界科学出版社全文电子期刊数据库 (1)访问地址:https://www.360docs.net/doc/a66674055.html, (2)内容介绍: 资源特点:WorldSciNet为新加坡世界科学出版社(World Scientific Publishing Co.)电子期刊发行网站,该出版社委托EBSCO/MetaPress 公司在清华大学图书馆建立了世界科学出版社全文电子期刊镜像站。WorldSciNet目前提供58种全文电子期刊,涵盖数学、物理、化学、生物、医学、材料、环境、计算机、工程、经济、社会科学等领域。我馆情况:从2002年开始订阅。 资源状态:为网络资源,我校用户直接连接在清华的镜像站点使用。4、德国施普林格全文电子期刊数据库 (1)访问地址:https://www.360docs.net/doc/a66674055.html, (2)使用方法:为网络资源,拥有我校合法IP的用户,直接连接施普林格在清华的镜像站点使用。 (3)内容介绍: 资源特点:德国施普林格(Springer-Verlag)是世界上著名的科技出版集团, 通过Springer LINK系统提供学术期刊及电子图书的在线服务。目前Springer LINK所提供的全文电子期刊共包含439种学术期刊(其中近400种为英文期刊),是科研人员的重要信息源。我馆情况:从2002年开始订阅。 【实验内容】

信息检索与利用

信息检索与利用 Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】

探析文献期刊数据库的检索及应用策略 摘要随着互联网技术的发展,传统的印刷方式和人工的检索的使用率逐渐被替代,更多的是数据库的检索方式。本文主要以文献期间数据库作为研究对象,对其检索过程以及在检索方面的策略进行详细的分析,以期供人们进行参考。 随着网络搜索引擎的普及,信息检索已是群众基础广泛的全民行为。但学术研究的信息需求与检索的目标要求检索者需要具备一定的专业检索知识与能力。其中,各种图书、期刊、电子资源等学术信息的检索是学生应该掌握的重要能力。除谷歌学术、百度学术等搜索引擎中可进行学术检索外,相关文献期刊数据库是最主要的学术检索途径。请列举国内外常用的文献期刊数据库,并结合自己在论文撰写和学习研究中对其的利用情况,分别阐述其数据库建设内容、特色特点与检索方式,在此基础上进行总结,探析文献期刊数据库的检索及应用策略。 一、文献期间数据的主要检索方式 信息检索 无论是传统的文献检索还是当前文献期刊数据库发展,在信息检索方面,人们倾注了较长时间的关注,这也是信息检索在期刊文献等检索当中技术发展较为完善的原因之一,信息检索主要包括结果显示以及下载,在信息检索方面,常规的数据库采用的基本信息检索主要包括基本检索和高级检索这两种方式,基本检索包括简单检索和快捷检索,高级检索主要包括专业检索和复杂检索两大功能,并在此基础上进行二次检索,从而进一步缩小检索目标,获得更为精准的结果,同时,它们一致支持逻辑运算、模糊检索等,并提供规范化词

表和索引浏览等检索方式,在检索的结果方面,一般显示命中文献的文献题名、作者、出处、时间、文摘以及基本内容等,在现代化的数据库当中还会设计到文献作者的电子信息或者引文等信息。 内容扩增 内容扩增主要指的是文献期刊数据库在基本的检索功能基础上新扩展的方向,从传统的数据库发展来分析,每一个数据库都对应着危险收录的范畴,主要包括时间、地域、学科以及文献类型的范围等,数据库对于文献内容范围是其衡量的主要质量以及指标。随着互联网技术的发展以及各行业学科的深入研究,综合性科学的文献内容量逐渐增大,数据库作为文献信息的动态集合体,因而不得不采用动态集合体的方式,突破原来文献的限制范围,进一步扩大收录范围,为此,互联网技术的发展为期刊数据库的内容扩增提供了优越的条件。 二、文献期间数据的应用策略 1.检索项的选择 对于文献期刊数据库在应用策略上的首先要突破的讲究检索项。一般来讲,检索项的选择与不同特征的检索课题有着很大的关系,选择不同的检索途径,人们对于文献的检索需求都是根据自身所需要的关于行业、课题研究的本身的内容相关来设定的,因此,主题词的检索也是常规的检索方式,如果人们需要了解特有的信息,比如那一年,那位作者发表的相关文献,一般可以从着作角度可以直接查到。同样,从期刊的名称查找文献的方法,根据文章的篇名可以向人们提供文献的出处,一旦用户想要了解某一学科的文献情况,分类检索途径可以帮助其迅速浏览相关的文献。

数据库信息检索报告

数据库信息检索报告 检索课题:关于大学生志愿服务状况的调查 检索工具:中国知网,维普中文期刊全文数据库 检索途径:主题;题名或关键词 检索式:大学生*志愿服务 检索结果:“大学生*志愿服务”检索式检中210篇,选中10篇; [1]曾雅丽. 比较视角下的大学生志愿服务:制度化与专业化[J]. 高等教育研 究,2012,v.33;No.20503:71-79. [2]王泓,邓清华. 大学生志愿服务活动:参与状况与长效机制的构建——基于全国性大型问卷调查的思考[J]. 中国青年研究,2012,No.19808:46-50. [3]罗婧,王天夫. 何以肩负使命:志愿行为的持续性研究——以大学生支教项目为例[J]. 社会学研究,2012,v.27;No.16105:94-118+243-244. [4]梁辰,张庆. 大学生志愿服务失灵及其矫正[J]. 黑龙江高教研 究,2013,v.31;No.23309:139-141. [5]王民忠,狄涛. 论大学生志愿服务长效机制的构建[J]. 思想理论教育导 刊,2013,No.17810:126-128. [6]黄艳. 当代大学生志愿服务现状、问题与对策[J]. 高等农业教 育,2014,No.27202:93-97. [7]张洪峰,于媛媛. 大学生志愿服务探讨[J]. 教育探索,2014,No.27808:127-128. [8]邓希泉,曹凯. “大学生志愿服务西部计划”调研报告[J]. 中国青年研 究,2004,09:60-73. [9]贺治成. 新时期共青团工作视阈下大学生志愿服务发展的现状探思与平台建 构[J]. 前沿,2011,No.28608:116-118. [10]杨军. 解决大学生志愿服务活动发展瓶颈对策研究[J]. 中国成人教 育,2014,No.36023:81-83. 检索结果分析: 在中国知网期刊全文数据库里,用“大学生*志愿服务”检索到210篇核心期刊论文,其中涉及高等教育学科157篇文章,行政学及国家行政管理32篇,中国共产党9篇,其他12篇;2010—2015年的每年发表篇数为:18篇,26篇,23篇,29篇,39篇,23篇,达到峰值,作者王顺茗在这方面发文4篇。从09年到15年,每年平均都有20篇左右的核心期刊论文发表,其中13-14年达到峰值,分别为29篇和39篇,说明此课题是值得研究的热点课题,有研究价值。广西大学的王顺茗、华南农业大学的曾雅丽、长江师范学院的邓清华发文较多。中国青年政治学院、长江师范学院、北京师范大学、清华大学等机构对此问题都有研究,其中中国青年政治学院6篇、长江师范学院5篇、北京师范大学4篇、清华大学3篇。魏海苓和黄艳的两篇文章被引次数最多,在同类文章里面影响比较大。 与研究课题相关的5种观点: 观点一:大学生志愿服务时适应性强 志愿者具有学生角色、工作角色与志愿者角色并存的特征,他们生活和压力中的主要问题是:收入较低(42.3%)、语言不通(34.6%)、政策不落实(25.5%)。面临的工作压力主要是:业务不熟悉(61.3%)、工作责任和压力较大(38.6%)。

网络数据库的信息检索教案

《网络数据库的信息检索》教学设计 一、教材内容分析 本节内容是教育科学出版社《信息技术基础》教材第二章第四节“网络数据库的信息检索”的内容。本节教材分三部分构成,一是概述,教材通过一个简单的实例来体验从网络数据库获取信息的一般过程,目的是为学习网络数据库的基本知识做准备性的铺垫。二是多样化的网络数据库,教材对这部分内容介绍比较多,意在让学生充分体验网络数据库的多样性和学会对各数据库信息的获取方法。三是网络数据库评价,在本章的最后重点安排了网络数据库的评价,目的是进一步提醒教师,在信息获取活动中,要培养学生及时、科学地评价信息的习惯,这是提高获取信息资源质量的关键,也是积累信息获取经验的关键一环。在本课教材访问丰富多彩的数据库这个模块中,应适当引导学生对资源进行点评,引导学生探索数据库这一现代信息管理手段的特点,为数据库知识的学习打下基础。 二、学生情况分析 学生已具备了一定的网络操作技能,对本节课的学习已经有了相关知识上的准备。在前面的课中,学生在不经意中已经使用到了网络数据库,比如小说网、音乐网等等,只是自己不知道而已。本节课选用有较强的代表性而学生一般都没有使用过的网络数据库。 三、教学目标分析 (1)知识与技能目标:

了解网络数据库;学会简单的信息检索;运用网络数据库检索获取需要的信息内容 (2)能力目标: ①培养学生利用网络数据库提高信息获取的能力 ②引导学生着重从资源获取的角度来审视数据库的价值 (3) 情感与价值观目标: ①在同学的互助下交流合作中,培养合作意识和合作精神 ②培养学生遵守网络道德,规范、合法地获取网络资源 四、重难点分析 重点:理解网络数据库、网络数据库的多样性、网络数据库信息的检索难点:对网络数据库信息的检索、评价 五、教学策略设计 教学过程实质上是学生主动学习的过程,强调激发学生的兴趣,力求形成学生强烈的学习动机和乐学、善学的学习态度。本节是采用情景设置法,从“神奇的化学实验——大象牙膏”入手,吸引学生的学习兴趣,引导学生进入欢快的化学学习之旅。然后设置疑问:你能帮化学教师搜索到不同版本的教学资料吗?进而导入本节的内容——利用网络数据库来解决问题。在进行网络数据库新课内容时,通过设计自主学习、合作探究、任务驱动及成果展现四个大环节,让学生去认识、感受、体验、评价网络数据库。使学生对网络数据库信息检索这一重难点从感性认识提升到理性理解,从而实现本节课的学习目标。 六、教学资源与媒体准备

信息检索与利用作业答案

《信息检索与利用》试题(本科) 一、单项选择题(每题分,共30分) 1. 人类社会的三大资源是( B ) (A)物质、能源、信息(B)物质、人力、资本 (C)物质、能源、管理(D)信息、管理、人力 2. 就信息与物质、能量的关系而言( B ) (A)信息是一种物质(B)信息是一种物质,同时具有一定的能量 (C)信息是一种能量(D)信息既非物质,也非能量 3. 信息论的创始人是( D ) (A)美国数学家哈特莱(B)美国数学家维纳 (C)中国数学家华罗庚(D)美国数学家香农 4.信息资源的本质特征是( D ) (A)依附性与可传递性(B)知识性与共享性 (C)共享性与价值不定性(D)可传递性与共享性 5. 如果分别以检索词a、b、c在某数据库的关键词字段进行检索都能得到相应的检索结果,结果不为0,下面哪个检索式表示检索结果数最少( C ) (A)a and b and c (B)a and b or c (C)a or b or c (D) a or b and c 6. 根据加工深度来划分文献,学位论文属于( B ) (A)零次文献(B)一次文献 (C)二次文献(D)三次文献 7. CNKI 是以下哪一种称谓的简称( C ) (A)清华同方(B)重庆维普 (C)中国知识基础设施(D)中国期刊全文数据库 8. 扩大检索范围的方式是( B ) (A)使用“逻辑与”(B)使用“逻辑或” (C)使用“逻辑非”(D)使用优先运算符 9. 下列能够检索图书信息的数据库是( B ) (A)维普《中文科技期刊数据库》(B)万方数据资源系统 (C)人大复印报刊资料全文数据库(D)超星数字图书馆

信息检索实验报告--知网与万方之比较

关于CNKI与万方之简单比较的检索报告 1106班2011100640 张雯 摘要:本次试验的目的是熟悉(运城学院)CNKI与万方数据库的基本检索方法,因此选择进入中国知网以及万方数据库首页进行相关实验的检索,对其相同的检索项进行检索,将检索结果截图进行比较。 关键词:运城学院,中国知网,万方数据库,机械自动化,卫凌 A search report on CNKI and Wan Fangzhi simple comparison Name Zhangwen in class 1106(Student ID2011100640) Abstract:Familiar with is the purpose of this test (yuncheng institute) CNKI database with ten thousand basic retrieval method, so choose to enter the Chinese hownet and ten thousand party database home page retrieval relevant experiments, the same to retrieve items retrieved, the retrieval results screenshots Keyword:Yuncheng university,CNKI, ten thousand database, mechanical automation, WeiLing 一、课题分析 本次试验一是选择运城学院一位副高以上职称的教师作为检索项,在CNKI 以及万方中进行检索,就检索结果进行比较,应实验内容的要求,我选择的是音乐系教授卫凌;二是在计算机,自动化,电子技术,通信技术等相关领域找所感兴趣的技术词汇进行检索比较,我选择的是“机械自动化”。 二、数据库或检索工具的选择 应本次试验的要求,我所选择的检索工具是中国知网以及万方数据库,进入其首页进行相关检索项的检索,并进行截图进行比较。 三、检索方法与检索步骤 一.检索方法及检索流程: 1.打开运城学院首页;

文献检索复习题及参考答案

医学文献检索复习资料 第一章 一、信息、知识、情报、文献(选择、判断改错) 1、信息:是物质存在或运动方式与状态的表现形式或反映,是现实世界事物的反映,它提供了客观世界事物的消息、知识,是事物的一种普遍属性。 2、知识:是人类在认识和改造客观世界实践中获得的对事物本质的认识和经验的综合,是人们通过实践对客观事物及其运动过程和规律的认识。 3、情报:是指人们以各种方式传递与交流的具有一定目的与时效的信息,是人们为一定目的搜集的有使用价值的知识或信息。 情报的重要属性:知识性、传递性、效用性。 4、文献:是指以文字、图象、公式、声频、视频、代码等手段记录或描述在一定的物质载体上,并能起到存储和传播信息情报和知识作用的一切载体。(记录有知识的一切载体。)文献由三个基本要素构成:内容上的知识或信息;揭示和表达知识信息的表示符号;记录信息符号的物质载体。 信息、知识、文献、情报的包含关系:信息、知识、情报必须固定在一定的物质载体上,形成文献后才能进行传递,才能被人们所利用,文献是信息、知识、情报存储、传递、利用的重要方式。信息可以成为情报;信息是知识的重要组成部分,但不是全部;情报是知识或信息经传递并起作用的部分。 第二章医学文献信息资源 一、文献信息资源类型的划分 1、按载体类型划分: (1)书写型文献:古代文献、书法作品、手稿、书信、原始记录等 (2)印刷型文献:图书、期刊、会议文献、政府出版物、专利文献、技术标准、产品资料、学位论文、技术档案 (3)缩微型文献:微缩胶卷、微缩胶片、微缩照片等 (4)视听型文献:唱片、录音带、录像带、科技电影、幻灯片、电视片等 (5)电子型文献: 电子型文献按发布形式分为:①参考数据库:A.书目数据库:中药在线、CBM、PubMed B.文摘和索引数据库 ②全文数据库 ③事实数据库 ④搜索引擎/分类指南 ⑤网络学术资源学科导航 ⑥FTP资源 ⑦其他 2、按出版类型划分: (1)图书:是现代出版物中最普通的一种类型,有封面、书名、作者、出版地、出版者,并装订成册。在每一种正式出版图书的版权页或其他明显部位都标有一个由10位或13位数组组成的国际标准书号ISBN,形式如ISBN 978-7-117-10172-1,这是一种国际通用的出版物代码,代表某种特定图书的某一版本,具有唯一性和专指性,读者可借此通过某些文献信息系统查询某种特定图书。图书基本上有两类:一类是供读者阅读的图书,包括专著、教材;一类是供读者查阅的图书(工具书)。 (2)期刊:是一种连续出版发行的文献。(期刊的内容新颖、出版周期短,通报速度快,信息量大,是情报的主要来源。) 期刊特点:①有固定的名称(刊名) ②相对固定的版式、篇幅和内容范围 ③定期连续出版发行 ④按一定的卷期号或年月顺序号连续出版 每种期刊均有一个由8位数字组成的国际标准连续出版物号ISSN,例如 ISSN 0317-8471 前7位代表期刊代号,末位是校验号。

文献检索三大数据库比较

CABI、 AGRICOLA和 AGRIS数据库比较研究 王国龙李佩朱海燕 ( 上海交通大学农学院图书馆201101) 文AGRICOLA 和 摘本文对美国银盘公司检索系统 webspirs 下的 CABI、AGRIS三个数据库从文献收录数量、质量、语种和重复情况等方面 进行比较研究,对选择订购和文献检索有一定的参考价值。 关键词农业数据库农业文献文献检 索CABI AGRICOLA AGRIS 国际农业生物学文摘 CABI、粮农组织农业索引 AGRIS和美国农业联机 检索数据库 AGRICOLA是世界著名的三大农业数据库,其收录的文献涵盖农业所 有学科及其相关学科,是农业科学研究和教学重要的文献源。本文对美国银盘公 司检索系统 webspirs 下的三个数据库从文献收录数量、质量、语种和重复情况等 方面进行比较研究。 1三大数据库收录的文献量比较 采用植物、动物、饲料、肥料和灌溉五个主题词对五类有代表性农业文 献进行检索,其结果见表 1。 表 1三大数据库收录的五类农业文献总量(1990-2000) 类型 CABI%AGRICOLA %AGRIS%合计% 植物 59088654.7011909111.0337018334.271080160100动物 45984756.8837855 4.6831080538.44808507100饲料 7098552.381399310.335054537.30135523100肥料 7091957.92111199.084039733.00122435100灌溉 3104651.55769112.772148535.6860222100总计 1223673 55.451897498.6079341535.952206837100由上表数据可见 CABI所收录的各类文献数量最多,达 到,AGRIS 其次,为, AGRICOLA最少, 仅。以上是三大数据库 1990-2000 年数据,检索自中国农业大学图书馆银盘数据库系统。如果对该数据库系统三大数据库所收录的上述五类文献总数进行统计,则得到如下结果: CABI(1999-,AGRICOLA(1984-,AGRIS(1975-。由于在调查的数据中AGRIS收录文献的

信息检索 英文全文数据库

利用英文全文数据库——Elsevier 进行文献信息检索示例 1、检索课题名称:海洋光学遥测信息应用研究 2、课题分析:中文关键词:1海洋光学2遥测 英文关键词: 1 Ocean optics 2 Telemetering 3、选择检索工具:《美国工程索引》(Ei village) 4、构建检索策略:(Telemetering)* Ocean optics 5、检索过程:选定在Elsevier 中期刊、图书、文摘数据库等全部文献资源中检索所有年份的海洋光学遥测的相关文献总共找到44篇的相关文献。 6、整理检索结果: 从以上文献中选择出3条切题文献 1、Emerging ocean observations for interdisciplinary data assimilation systems Original Research Article Journal of Marine Systems, Volumes 40–41, April 2003, Pages 5-48 Abstract Identification, understanding, and prediction of many interdisciplinary oceanographic processes remain as elusive goals of ocean science. However, new ocean technologies are being effectively used to increase the variety and numbers of sampled variables and thus to fill in the gaps of the time-space continuum of interdisciplinary ocean observations. The formulation, accuracy, and efficacy of data assimilative models are highly dependent upon the quality and quantity of interdisciplinary observational data. In turn, the design of optimal sampling networks will benefit from data assimilative-based observation system simulation experiments (OSSEs). The present contribution, which is directed toward both modelers and observationalists, reviews emerging interdisciplinary observational capabilities and their optimal utilization in data assimilative models. 2、The evolution of the instrumental technique in underwater optics Original Research Article Progress In Oceanography, Volume 3, 1963, Pages 149-154 Nils Jerlov AbstractAbstract | ReferencesReferencesAbstract

信息检索复习题

信息检索复习题 第1章 信息:狭义是指适用通信、存储或处理的形式来表示的知识或消息,即用语言、文字、数字、符号、图像、声音、情景、表情、状态等方式传达的内容。 信息资源是企业生产及管理过程中所涉及的一切文件、资料、图表和数据等信息的总称。信息资源与企业的人力、财力、物力和自然资源一样同为企业的重要资源,而且是企业发展的战略资源。 文献:是记录知识的一切载体,是指将知识、信息、利用文字、符号、图像、音频等技术手段记录在一定的物质载体上。文献的三个基本属性:即文献的知识性、记录性和物质性。它具有储存知识、传递和交流信息的功能。 文献的类型:1、按照文献的载体形态来划分:分为印刷型、微缩型、声像型和电子型。2、按文献的出版形式划分:分为图书、期刊、会议文献、科技报告、学位论文、技术标准、专利文献。在正式出版图书封底都有一个ISBN叫国际标准书号。在正式出版期刊封面都有一个ISSN叫国际标准编码。 特种文献又称丛刊,或不定期的连续出版物,是出版形式比较特殊的一种文献类型。P5 科技报告:记录某一科研项目调查、实验、研究的成果或进展情况的报告,又称研究报告、报告文献。 会议文献:在学术会议上宣读和交流的论文、报告及其他有关资料,会议文献多数以会议录的形式出现,特点:传递情报比较及时,内容新颖,专业型和针对性强,种类繁多,出版形式多样,会议文献分为:会前、会中和会后3中。 政府出版物:各国政府及其所属机构出版的,有官方性质的文献,又称官方出版物,是指有政府机关负责编辑印刷的,并通过各种渠道发送或出售的文字、图片、及磁带、软件等。其他类型资料:包括产品样品、档案文献、灰色文献和视听资料等。 按照文献产生的次序与被加工整理的深度划分:可将文献分为零次文献、一次文献、二次文献、三次文献。一次文献:是人们直接以自己的生产、科研、社会活动等实践经验为依据生产出来的文献,也称原始文献,其所记载的知识信息比较新颖、具体、详尽。 信息检索:是指信息按照一定的方式组织起来,并根据信息用户的需要找出有关信息过程和技术,狭义的信息检索是指信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程。也就是我们通常说的信息查寻。 信息检索的种类:按照检索对象来划分:书目检索、数据检索、事实检索三种。 按照信息存储和检索手段来划分:手工、机械化、计算机检索三种。 按照信息检索的途径来划分:直接检索和间接检索。 信息检索的步骤:1、分析研究课题,明确检索要求。2、选择信息检索系统,确定检索途径。 3、确定检索词。4.构造检索式,确定检索策略。5、处理检索结果。6、 原始文献获取。 信息检索系统的组成:文献信息选择子系统,词表子系统,标引着录子系统,查询子系统,用户与系统之间交互子系统,匹配子系统。

利用中文数据库进行文献信息检索作业及答案

1.检索课题名称:工程机械非线性动力学特性的实验研究 2.课题分析:“工程机械”属于本课题的主体词,“非线性”是工程机械的适用范围,“动 力学特性”是工程机械的研究领域,“实验研究”不作为课题检索胡关键词使用。由此得出的检索关键词如下: 中文关键词:(1)工程机械(2)非线性(3)动力学特性 英文关键词:(1)Engineering mechanical(2)Nonlinearity(3)Dynamic characteristic 3.选择检索工具: (1)万方数据库(中国学术会议论文) (2)维普资讯(中国科技期刊数据库) (3)CNKI(中国知网期刊数据库) 4.构建检索策略:“工程机械”是课题主体词,应当优先检索,“非线性”是其次检索研 究课题的使用范围,“动力学特性”属于检索课题的领域。故制定以下检索策略:检索算法:(工程机械)*(非线性)*(动力学特性) 时间范围:2005-2014 文献范围:期刊论文、专著、会议论文等 5.简述检索策略调整的过程: (1)万方数据库(中国学术会议论文) a.使用策略“(工程机械)*(非线性)*(动力学特性)”检索式,检索范 围:题名或关键字,限定年代2005-2014年之间,检索文献类型:期刊论 文、会议论文。检索出两条内容。 (2)维普资讯(中国科技期刊数据库) a.使用原策略“(工程机械)*(非线性)*(动力学特性)”(((题名或关 键字=工程机械)*( 题名或关键字=非线性))*( 题名或关键字=动力学特 性)*全部期刊*年=2005-2014)进行检索,检索范围选择:所有专辑和全 文,日期范围选择:2005-2014,检索出1条记录。 (3)CNKI(中国知网期刊数据库) a.使用策略“(工程机械)*(非线性)*(动力学特性)”检索式,高级 检索,检索内容条件:(关键词=工程机械)*(关键词=非线性)*(关 键词=动力学特性)*(发表时间:2005-01-01—今天)*(学科领域: 基础科学、工程科技Ⅰ辑、工程科技Ⅱ辑)*(跨库搜索:期刊,国 内会议,专利)进行检索,检索出0条记录。 b.仍使用策略“(工程机械)*(非线性)*(动力学特性)”检索式,这 次使用专业检索,((TI(题名)=工程机械AND KY(关键字)=非 线性AND KY(关键字)=动力学)),并扩大了检索时间:200-01-01 —今天,学科领域原则了全选,跨库搜索也选择了全选进行检索,检 索出1条记录。 6.整理检索结果: (1)万方数据库(中文学术会议论文)检索结果(其中择优选一条): 【篇名】旋转机械系统多自由度非线性动力学数值分析 【作者】裘春航李伟东吕和祥 【中文刊名】计算力学学报 【英文刊名】CHINESE JOURNAL OF COMPUTATIONAL MECHANICS 【年、期】2005年,22(4)期 【中文关键词】转子系统、非线性油膜力、数值稳定性、非线性动力学特性

相关文档
最新文档