近年来国外信息检索技术应用案例进展研究

近年来国外信息检索技术应用案例进展研究
近年来国外信息检索技术应用案例进展研究

[文章编号] 1004-325X(2008)03-0091-05

(中国科学院研究生院 国家科学图书馆 北京 100190)

Research on Cases of Information Retrieval Techniques at Abroad

[摘 要] 元搜索、语义检索、图像检索、日志检索、代理检索等新的检索技术的出现越来越符合现代人们对检索信息的要求。每个检索技术各有其优势和劣势。这些检索技术在实践中的应用与实验更加证明了它们的高效性和实用性,国外有关机构应用案例的试验效果,为我国有关机构更好地利用信息检索技术提供了借鉴。[关键词] 信息检索 检索技术 案例[中图分类号] G252.7 [文献标识码] B

[Abstract] The emergence of several new information retrieval techniques gradually meets the requirementsof people to retrieve information. These new information retrieval techniques include metasearch, semanticretrieval, image retrieval, log retrieval and agent retrieval. Each has its advantages and disadvantages.The practical application and experience of these techniques definitely prove their effectiveness andpracticality. The effect of a few correlative foreign organizations applying information retrieval techniquesprovides references for domestic correlative institution to use IR techniques well.[Key words] Information retrieval; Retrieval technique; Cases

姜晓曦近年来国外信息检索技术应用案例进展研究

国外学界的专家们为了充分利用多样的信息资源,帮助用户从海量信息里找到符合要求的资源,对信息检索技术展开了研究,语义检索、视频检索、图像检索等新的检索技术的出现越来越符合现代人们对检索信息的要求,同时这些检索技术在实践中的应用与实验更加证明了它们的高效性和实用性。

1 元搜索信息检索技术

元搜索指的是这类检索技术将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排查、重新排序等处理后,作为自己的结果返回给用户,服务方式是面向网页的全文检索。Innovative Interfaces' MetaFind 就是利

[31][32][33][34][35][作者简介]

黄飞燕 女,1984年生,中国科学院国家科学图书馆硕士研究生,发表论文6篇。

徐 静 女,1986年生,北京大学信息管理系硕士研究生。 [收稿日期:2008-02-22]

Johnson CA. Social Capital and the Search for Information: Examining

the Role of Social Capital in Information Seeking Behavior in Mongolia[J].Journal of the American Society for Information Science andTechnology, 2007(6):883-894.

Spink A, Park M, Koshman S. Factors Affecting Assigned Information

Problem Ordering during Web Search: An Exploratory Study[J].Information Processing and Management, 2006(5):1366-1378.Kalbach J. “I'm feeling lucky”: The Role of Emotions in Seeking

Information on the Web[J].Journal of the American Society forInformation Science and Technology, 2006(6):813-818.

Laurie HJ, Friedman DB, Celestine A. Evaluation of a Public Library

Workshop: Teaching Older Adults How to Search the Internet forReliable Cancer Information[J].Journal of Consumer Health on theInternet, 2006(3):29-43.

Agichtein E, Brill E, Dumais S.Improving Web Search Ranking by

Incorporating User Behavior Information[J].SIGIR Forum 2006Proceedings, 2006(39):19-26.

Nicholas D, Huntington P, Jamali HR, etc. The Information Seeking

Behaviour of the Users of Digital Scholarly Journals[J].InformationProcessing and Management, 2006(5):1345-1365.

Rutten LJF, Squiers L, Hesse B. Cancer-Related Information Seeking:

Hints from the 2003 Health Information National Trends Survey(HINTS)[J]. Journal of Health Communication, 2006(3):147-156.Lewis T. Seeking Health Information on the Internet: Lifestyle Choice

or Bad Attack of Cyberchondria?[J].Media, Culture and Society, 2006(4):521-539.

Toms, Elaine G.How Consumers Search for Health Information[J].

Health Informatics Journal, 2007(3):223-235.

[36][37][38][39

]技术导航

用这种搜索原理的产品之一,它可以帮助用户找到对其有用但是还没被注意到的资源。密西西比大学图书馆目前购买了这个元搜索产品,并与该图书馆的页面相结合,目的是为用户提供更好的信息检索服务[1]。

1.1 搜索

密西西比大学图书馆采用主题和全文可用性两种方法组织其电子资源,最常用的是“全文”类。该类别是由图书馆包含的全文资源的百分比定义的,如果该图书馆某类资源包含50%以上的全文,它就包含在“全文”这一类别中。这样做虽然使得用户检索的资源不都是全文,但是至少保证了绝大部分是全文。其余的种类包括便览、图书馆目录、数字资源、公众可获得的数据库和广泛的主题类等。其中基于主题类搜索的元搜索工具预先自动设定了每个主题大类的几个核心数据库作为默认选项,即使用户不了解该主题领域也能搜索到相关的文献,如果用户是该领域的专家则可以通过自己添加来扩大检索数据库的数量。1.2 响应时间

元搜索工具所有问题之中最具有挑战性的要数响应时间了。一般来说响应时间受到图书馆网络、校园网络、校园外的网络供应者等因素的影响,如果将用户搜索的资源所在的网络和认证的变量也算在内,响应时间的问题就更加难以控制了。密西西比大学图书馆购买的是 InnovativesWeb Access Management Module (WAM)的认证系统,该模型是基于EZ代理服务器(ezproxy)的。需要发现并解决的问题包括追捕到棘手的转换装置、防火墙装置、校园域名服务器(Domain Name Server,简称DNS)以及卖主的DNS等。MetaSearch (元搜索)工具在代理服务器上放置了一个重要的载荷增长,通过统计数字得出,24%的代理服务器页面请求来自MetaSearch产品。尽管取得了一定的进展,但是响应时间问题仍然是元搜索最难克服的障碍,一个MetaSearch统计模块应该带有使用数据和响应时间的信息,响应时间的信息对发现并修理故障和电子资源卖主是非常有用的。

1.3 结果相关性

相关性的问题是MetaSearch的热点话题,把增加相关性计算作为一个检索步骤意味着所有的结果都要返回、排列并且显示出来。该图书馆使用的增加相关性的办法是将默认索引从关键字改称题名关键字,对于用户来说恢复题名中的关键字使得检索结果更加相关,但是使用题名关键字需要注意的是: 这里有许多资源不支持题名关键字检索。对于其他资源来说,题名关键字不是合适的索引。在这种情况下,检索就会失败并且注明索引是不被支持的。为了调解这种情况,有些资源就要从基本关键字检索映射到题名关键字检索,尽管这样会降低相关性,但是可以避免错误的出现,同时允许结果被重新获得。

2 语义信息检索技术

完全基于造句法内容建立的信息检索系统具有很大的局限性,这种检索技术应用的挑战之一就是开发高质量、高精确度的系统。为了实现这一目标,引用自然语言处理(Natural Languge Processing, NLP)技术在这类系统中是十分必要的。这种技术可以为信息检索系统提供语义信息,在不同的NLP技术中语义信息描述的方法以及语义标签已经受到学者的重视,并被研究者们逐步开发和试验。2.1 语义元素在ESCRIRE工程中的应用

ESCRIRE(Embedded Structured content RepresentationIn Repositories, 机构库中的嵌入式结构内容揭示)工程第1个目的是比较3种知识表示法的形式:概念图表、描述逻辑和以目标为导向的表示语言;第2个目的是为文档检索表达和处理文本内容。学者R.Carolina Medina-Ramirz选择了PubMed数据库中4 500篇有关生物文章的摘要,在ESCRIRE中进行了试验,ESCRIRE提出的响应形式是简单的,它包含一个由相关文献和提交的查询组成的列表,Medina和他的研究队伍在此基础上提出了丰富该响应形式的方法[2]。 他们利用本体和资源描述丰富了提交给用户的回答,通过Corese语义搜索引擎将查询中使用的自然语言转化成ESCRIRE语言,很容易地获取有注释的信息。其中包括由Corese语义搜索引擎检索到的文章的摘要组成的超文档,以及这个文档也链接到的其他的文档:PubMed中的原始文档、制定的查询和交互信息等,作者名、期刊、出版日期等同样也包含在这个超文档中,目的是给用户提供额外的信息。

这项试验使用了私人拥有的知识描述语言(ESCRIRE语言)来描绘域本体和注释,在利用资源描述框架(ResourceDescriptiion Framewor, RDF)过程中研究人员发现了一些转换问题,在语义网络内容检索中,像RDF和OWL(WebOntology Language, 语义网本语言)这类的语言是被推荐的,利用这种语言可以模仿和共享特殊用户团体的知识。试验结论是私人拥有的语言是不被推荐使用的,因为它们与语义网的结构不协调。

2.2 语义角色标签(Semantic Role Labeling , SRL)

语义角色是指一个造句法成分和一个谓语之间的关系。目前很多实践都试图将语义角色标签应用到信息检索系统中,但是都失败了。西班牙阿利坎特大学的教授们进行了一个试验,将语义角色标签引进到信息检索系统中,对系统进行了拓展,这个试验通过减少检索出的不相关文献的数量来提高检索性能[3]。在语义角色注释过程中,他们采用了两种方法:最大熵和TiMBL法。最大熵模型提供了一个框架来对许多不同信息源的信息进行集成分类,该试验采用的是最大熵条件概率模型;TiMBL是一个程序,该程序是用来执行基于存储器的知识运算法则的。所有执行的

运算法则有共同点,就是它们在存储器中明确地存储了一些训练集的表示法,在试验过程中新的案例是根据存储的案例中最相似的进行推断来分类的。该小组在进行试验时使用了SemBol方法,该方法共分为3个步骤:首先将句子中动词的意义消除歧义;其次在识别阶段,关于消除歧义动词的论据分界必须确定;最后在标签阶段,充当这些论据的角色必须被消除歧义。根据这个SemBol方法,实验小组提出了一个扩展的信息检索系统,其结构如图1所示。局限性,例如查询的种类受限制、查询的性能比较低。为了解决这类问题,基于内容的图像检索是目前学者们积极追求的检索技术。

基于内容的图像检索(Content-based Image Retrieval)采用低层次的图像特征如颜色、形状和结构等来检索。目前为止,基于颜色的图像检索技术仍然很流行,并在很多CBIR检索应用中被采用。它由于本身的易于应用和有效性以及颜色元素在图像中容易记住等优势,比基于形状和结构的图像检索应用得广泛。但是澳大利亚Monash大学信息技术学院的两位学者经过调查研究发现,基于颜色的图像检索也存在着一定的局限性,因此他们提出了基于向量量化(VQ Vector Quantiza tion)的图像检索[4]。他们认为VQ是图像检索的一种有效的方式,因为从VQ得来的压缩数据能够直接映射到像素模式,这就意味着基于图像VQ压缩数据可以捕获图像的语义和特征。该检索技术首先将图像分成固定大小的像素块——向量,对于每个向量编码本都会搜索到一个最匹配的代码,同时登陆的索引号就会代替向量进行转移或存储,索引号的序列就是被压缩的比特流;其次,编码本和比特流被传送到解码器进行解码,解码后的向量是一个初始向量的近似值;最后会得到一个高度压缩的比率。在VQ压缩后,每个像素块都用一个编码索引号表示,学者们就可以根据这些索引号来抽取图像特征,完成图像标引和检索。两位研究者利用这一原理对VQ图像检索进行了试验,试验结果表明,VQ图像检索技术可以在图像标引中捕获像素的空间信息,提高了图像检索的效率。此外,研究者将该检索方法与现有的基于颜色的检索技术进行了比较分析,结果显示,VQ图像检索技术比现存3种方法的检索性能要略胜一筹。

4 查询日志检索技术

传统的信息检索系统利用文集、文件以及查询统计来确定比较符合用户问题的答案,但是这种查询可以在查询日志中捕获,提供额外的相关资料来源。近几年,专家们把相当多的目光投向了对查询日志和人们表达信息需求方式的研究上,开发出了许多商业搜索引擎的查询日志如Excite等,另外查询日志在信息检索领域如查询拓展、文本检索和图像检索中也得到了应用。

4.1 利用查询日志建立FAQ检索系统

为了提高检索性能,先前的FAQ检索系统利用了高水平的知识基准和手工控制,但是当应用领域有所变化时,构建这样的知识基准和规则是一项费时费力的工作。为了解决这个问题,韩国的研究人员提出了一个利用查询日志作为知识来源的高性能FAQ检索系统[5]。该系统全称为FaqRetrieval And Clustering Technique(FRACT),它包含了两个子系统:一个查询日志聚类系统和一个基于聚类的检索

图1 利用SemBol方法扩展的信息检索系统框架[3]

这个信息检索系统包括4个模块:IR模块、问题处理模块、句子处理模块和语义模块。当一个完整的句子查询输入系统中时,该句子被看成是一个事件,IR系统就是将与事件有关的文本的片段定位在查询里,查询结束后,IR模块在系统中检索出了一个段落或文献集,将该集中的动词和句子中的动词相比较,并将与该动词有关的句子列成表;随后,选出来的句子通过SemBol方法被标注为语义角色,试验的最后一个关系集被应用了,该关系集是建立在句号和语义角色之间的。只有包含正确语义角色的句子才被选取,也就是说检索到的文章数将减少,这样检索准确性就得到了提高。

3 图像检索技术

为了有效地利用数字图书馆中存储的信息,图像标引和检索技术是十分重要的。早期的图像检索系统使用传统数据库管理的方式来标引检索图像,以简单的性质如图像数量和文本描述等为检索基础,这些检索方式具有一定的

系统。聚类系统定期收集和精炼用户的查询日志,然后将每个FAQ作为独立的类别,并通过语义空间中向量相似度测量把查询日志分到各个FAQ类别里去。 在分类的基础上,

查询日志聚类系统将查询日志进行聚类并计算每个查询日志簇的质心。当用户输入查询时,基于聚类的检索系统通过查询日志簇来计算查询和FAQ之间的相似性,根据计算出的相似性,检索系统将有关的FAQ进行排列并返回一个列表。在标引的时候,该系统通过潜在的语义分析,利用分类技术有效地聚类用户查询日志;在检索时,该系统利用查询日志簇使得FAQ查询更加顺畅。研究人员还将这个系统应用到实际中进行了试验, 通过不同的实验,他们发现该系统可以减少短文章检索中的词汇争论问题,在FAQ检索方面,该系统的性能也优于其他传统信息检索系统,此外,由于仅仅采用数据驱动的方法而不用高层次知识源,该系统要比早先的FAQ检索系统更加实际和可靠。4.2 分布式信息检索

为了改进分布式信息检索系统,澳大利亚皇家墨尔本理工在学(RMIT)的学者们提出了利用查询日志在分布式信息检索环境中建立词表的最新检索技术,构建了基于查询日志的两种新的检索技术应用[6]。 第一种是在不合作的环境中为分布式资源提供新的取样方法,该方法利用搜索引擎查询日志中可用的术语来聚焦取样过程。实验证明,这种方法并不比先前的基于查询的取样方法耗费大,而且生产出的样本使得检索更加有效。第二种应用是,查询日志可以用来聚焦面向对用户重要的条件的索引修整策略。该索引修剪策略可以保持系统的效力,与全文索引相比,可以减少22%-28%的索引。将该策略应用到多种网络检索任务中,通过评估发现,尽管许多主题包含词表以外的术语,但是修剪过的索引检索到的相关答案与原始索引检索到的一样有效。研究者的实验表明,利用查询日志设计检索系统既减少了索引的数量又没有改变检索的效率, 因此在分布式信息检索环境中,利用查询日志是一个重要的并且有效的机制。5 基于代理的信息检索技术

5.1 时控的移动代理检索(TMAP)

对于分布式信息检索中的移动代理计划来说,移动代理数目和总的执行时间是描述上层系统的两个因素。 此外,为了提高信息检索的质量,信息仓储节点的时间约束也要考虑在内。在过去的研究中,移动代理计划(Mobile AgentPlanning, MAP)方法没有考虑到动态汇聚网络的条件,如Peer to Peer (PtoP) 对等计算中可变的网络带宽和断开,为了更好地进行检索, 对网络条件具有敏感性的移动代理亟待开发。韩国首尔国立大学的学者们提出了一个新的MAP方法,被称为Timed Mobile Agent Planning[7]。这种方法试图减少移动代理的数量和总的执行时间,为的是实现更好的系

图 2 代理系统结构[7]

该结构由3个层次构成,应用层:移动代理在该层运行,每个代理被分配了一个用户的目标,并且按照自己的路线在网络中移动;静态层:该层可以给移动代理提供计算或数据资源来完成它们的检索任务;服务层:该层包括目录、计划、迁移、交流和安全等服务。

模拟研究表明,利用运算法则的系统能要比利用网络中与节点数一样多的代理的系统整体性能好得多。该方法利用动态代理,大大增强了动态会聚网络中分布信息检索系统的性能,同时为了更好地适应实际网络环境,研究人员还提供了一个安全容错机制。

5.2 奥德赛搜索引擎(Odyssey Search Engine, OSE)

巴西联邦大学的研究人员开发了一个多代理系统来进行成分信息检索,该系统被称为Odyssey Search Engine(OSE)[8]。OSE是一个提供分布式获取或存储域成分信息的搜索和检索系统,利用它可以提高目前成分信息的发现和检索。在OSE结构中,通过过滤代理层对与成分有关的域信息进行过滤,在过滤层中用户的喜好、过去的检索、导航的路经以及常用的关键字都被用来提高和精确检索。该过滤代理主要依靠用户在域中的喜好和检索经历提供成分信息的挑选,在导航的过程中,机器学习技术被用来观察和了解用户的行为;OSE还有一个特点就是可以利用调解层和域本体从一些域中检索异质的分布式信息。调解层为组织在域本体中的可用成分信息提供了统一的格式,域本体通过领域语义概念的表述来搜索可再次利用的成分信息,因此这个调解层促进了域信息的综合,提供了通过本体翻译成分信息的机制。实验证明这个OSE系统是有效的,目前该系统是第一个与域模型结合进行成分信息检索的系统。6 多媒体信息检索技术

6.1 视频检索

与文本、声音和图像相比,视频是一个承载信息丰富的媒体,现代技术使得对视频的捕获、压缩、存储和转移统性能和服务质量。此外,该方法可以利用动态汇聚网络环境, 通过监视和适合变换的网络条件来不断调整移动代理的路线。利用移动代理构建的检索系统结构如图2。

图 3 系统流程图[10]

参考文献 :[1][2][3][4][5][6][7][8][9][10]Herrera G. MetaSearching and Beyond: Implementation Experiences

and Advice from an Academic Library[J]. Information Technologyand Librarians, 2007(6).

Medina-Ramirz RC. Semantic Information Retrieval: a Return on

Experience[J].EngineeringLetters,2007(11).

Moreda P, Navarro B, Palomar M. Corpus-based Semantic Role

Approach in Information Retrieval[J]. Data and KnowledgeEngineering,2007(61):467-483.

Teng SW, Lu Guojun. Image Indexing and Retrieval Based on Vector

Quantization[J]. Pattern Recognition,2007(40):3299-3316.Kim H, Lee H, Seo J. A Reliable FAQ Retrieval System Using a Query

Log Classification Technique Based on Latent Semantic Analysis[J].Information Processing and Management, 2007(43):420-430.Shokouhi M, Zobel J, Tahaghoghi S, etc. Using Query Logs to Establish

Vocabularies in Distributed Information Retrieval[J]. InformationProcessing and Management, 2007(43):169-180.

Baek JW, Yeom HY. A Timed Mobile Agent Planning Approach for

Distributed Information Retrieval in Dynamic Network Environments[J]. Information Science, 2006(176):3347-3378.

Braga RMM, Werner CML, Mattoso M. Odyssey-Search: A Multi-

agent System for Component Information Search and Retrieval[J].TheJournal of Systems and Software, 2006(79):204-215.

Smeaton AF, Browne P. A Usage Study of Retrieval Modalities for

Video Shot Retrieval[J]. Information Processing and Management,2006(42):1330-1344.

Misu T, Kawahara T. Dialogue Strategy to Clarify User's Queries for

Document Retrieval System with Speech Interface[J]. SpeechCommunication, 2006(48):1137-1150.

[作者简介]

姜晓曦 女,1984年生,中国科学院文献情报中心硕士生,发表论文2篇。

[收稿日期:2008-02-22]

变得十分简单,导致大量视频信息的产生,因此如何从大量视频信息中进行检索越来越受到研究人员的关注。都柏林城市大学的两位学者创建了一个支持多种特征检索的系统,该系统包含通过口头对话的文本检索、依靠关键帧的图像匹配和依靠分割视频对象的目标匹配。其中最后一部分即自动分割和追踪视频对象是一个过分要求计算的问题,并且对于普通的视频资料该问题尚未解决[9]。 研究人员通过在一个卡通片的封闭域里的实验完成了目标分割,在中等尺寸的视频资源中进行了用户交互性实验,并且测量了用户对视频文件的使用情况和在多重反复搜索中的检索模式。该实验的目的是测量基于目标的检索是否比文本检索和关键帧匹配更加有用,实验是由15名用户在一个受控的标准环境中每人完成12个不同的检索任务,从实验结果可以看出用户在检索中使用视频对象或者对象的成分作为查询的一部分,因此目前以对象为基础的检索是视频检索的主要技术。

6.2 对话查询语音界面

早先的自动语言识别系统存在着许多局限性,如识别过程产生的失误、口语表达的冗余和用户查询的含糊等,在传统的数据库查询任务中,通过以语义为基础提炼和确认关键词就可以很容易地解决这些问题,但是将语言识别应用到普通的文本检索系统中就不那么容易了。 为了使文本检索系统更加有效地解决这些问题,日本学者为带有语音界面的检索系统设计了一个对话策略来阐明和约束查询[10]

。他

们为确定临界部分提出了两个统计量,Relevance Score(RS)代表了与文件集的匹配度,Significance Score(SS)用来探测影响检索结果的因素。通过这些测量,系统在检索前后可以分别处理语音识别的失误。然后系统会产生问题来阐明用户的查询,减少检索到的文件数量。该对话策略可以减少检索的条目,特别是当由于模糊输入的查询产生的许多匹配时,这种减少是必要的。系统的工作流程如图3。 用户的问题可以在知识库(Knowledge Base, KB)、KB元数据和人类知识的结构分析下被提炼,在获得信息的基础上,系统会选择最佳的澄清问题反馈给用户,查询的语句会在用户回复之后得到更新。实验表明,这种方法比原始的语音识别技术更加有效地明确了用户的查询目的,提高了检索的成功率。但是该技术只适合应用在有限的域中,在开放域信息检索如网络检索中并不适用。

7 结 语

国外学界和业界对信息检索技术的研究已经不仅仅局限在理论探讨上,而是开展了大量的实验和项目。学者们将信息检索新技术应用到实践中,观察它们的效果,并对项目或实验结果进行评估,可以使他们清楚认识到这些技术存在的不足之处。以上我们所提到的各种信息检索新技术也都存在着优势和劣势,只有不断地摸索实验,才能将

优势进一步扩大,将劣势逐渐地缩小,从而产生对信息检索最有效的技术,为用户提供更好的服务。本文通过对国外主要信息检索技术及其应用的介绍,旨在为我国信息检索技术的发展提供指导和借鉴。

常用的期刊评价的检索工具

3、常用于文献评价的权威检索工具有哪些? 答:目前,大多数高校科研管理部门将下列四种数据库作为文献评价的权威检索工具:SCI (科 学引文索引)、ISTP(科学技术会议录索引)、EI(工程索引)和CSCD(中国科学引文数据库)。 评价期刊最常用的检索工具: 美国《期刊引文报告JCR》、《中国科技论文统计源期刊目录》、 《中文核心期刊要目总览》。 还有一些重要的检索工具也可作为文献评价的数据源: 国外文献检索工具---美国《科学评论索引ISR》、美国《社会科学引文索引SSCI》、美国《艺 术与人文科学引文索引A&HCI》、美国《化学文摘CA》、英国《科学文摘SA》、日本《科学技术 文献速报CBST》、俄罗斯《文摘杂志AJ》、德国《数学文摘Zbl Math》、美国《数学评论MA》、 法国《文摘通报BS》、美国《生物学文摘BA》等。 国内文献检索工具---《中国科学引文数据库CSCI或CSCD》、《中文社会科学引文索引CSSCI》、 《中国人民大学书报资料中心复印报刊资料索引》。 《期刊引文报告》(SCI Journal Citation Reports,JCR)期刊引用报告(Journal Citation Reports)简称JCR,是由美国科学信息研究所(ISI)编制出版、国际上一种权威的 用于期刊评价的重要工具。JCR从1975开始,ISI在《科学引文索引》(SCI)年度累积本中,增加 “期刊引用报告”部分。JCR提供的信息包括:每种期刊在当前年被引用的总次数(Total Cites)、 每种期刊的影响因子(即该刊前两年发表的文章在当前年的平均被引次数(Impact Factor))、每 种期刊当前年发表的文章在当前年的平均被引次数(Immediacy Index)、每种期刊当前年的文章 总数(Articles)、每种期刊论文研究课题的延续时间(Cited Half-life)、每种期刊的引用期刊 列表(Citing Journal)、每种期刊的被引用期刊列表(Cited Journal)、每种期刊的影响因子在

信息检索-判断题(精心整理)较全版本

判断题 1.信息素养是由信息意识、信息知识、信息能力、信息道德四个要素构成的。(A) https://www.360docs.net/doc/b36613089.html,KI中国知网数据库可以检索到博硕士论文。(A) 3.查全率与查准率是评价检索效果的两项重要指标。(A) 4.广义的信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要查找出特定信息的技术和过程。(A) 5.逻辑“与”是一种用于交叉概念或者限定关系的组配,可以缩小检索范围,提高查准率。(A) 6.逻辑“或”是一种用于概念并列关系的组配,可以扩大检索范围,提高查全率。(A) 7.信息检索过程是一个检索的操作过程,如选择数据库、确定关键词、构造检索式等。(B) 8.界定问题过程首先需要根据待完成的任务,确定信息问题。然后根据信息问题,确定信息需要。(A) 9.概览性资料通常出现在我们所说的二次文献中。(B) 10.图书馆OPAC检索系统属二次文献数据库(A) 11.当检索关键词具有多个同义词和近义词时,容易造成漏检,使得查全率较低。(A) 12.对于要求一定深度、研究性的信息问题,应主要检索搜索引擎检索网络信息源。(B) 13.选择信息源是信息检索的第一步。(B) 14.PQDT 是美国Proquest公司出版的学位论文数据库。(A) 15.根据文献内容的不同加工深度可区分为一文献、二次文献和三次文献,学位论文属三次文献。(B) 16.综述文献属于二次文献(B) 17.The mammalian cell as a microorganism;-genetic and biochemical studies in vitro puck, Theodore T.(Theodore Thomas) xi,219p.illus.24cm. ISBN 0-816-26980-7 San Francisco,Holden-Day 1972 该文献类型为期刊论文。(B) 18.通过EBSCO、EI、OCLC数据库都能检索到外文期刊论文全文。(B) 19.在超星阅览器登录个人用户名后下载的图书支持拷贝到其他机器上阅读。拷贝到其他机器阅读时,需要在阅读的机器上使用下载时用户名进行超星阅览器->“注册”菜单->“用户登录”操作。(A) 20.分类途径就是按照文献的名称体系查找文献的途径。(B) 21.检索2010年经济统计数据通常应该用2010年出版的《中国统计年鉴》。(B) 22.Effect of coating whole cottonseed on performance of lactating dairy cows. Bernard,-J,K;Calhoun,M.C;Matin,S.A. Savoy, III.:American Dairy Science Association J-dairy-sci.. June 1999.v.82 p.1296-1304.该文献类型为图书。(B) 23.主题语言较适合于期刊论文、研究报告、会议论文等单篇文献的组织和检索(A) 24.分类语言适合于图书或文集的组织和检索,提供的是从学科或专业角度查找文献信息的途径,族性检索功能强。(A)

检索工具的分类

1.检索工具的分类 (1)按照信息搜集方法分类 按照信息搜集方法的不同,搜索引擎系统可以分为三大类: 1)目录式搜索引擎(Directory Search Engine) 以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入(维护工作量大)、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo!、LookSmart、Ask Jeeves、Snap、Open Directory. 2)机器人搜索引擎(Crawler-Based Search Engine) 由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在Internet中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google. 3)元搜索引擎(Meta Search Engine) 这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量大,缺点是不能够充分使用元搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket. 目前,商业的搜索引擎站点正在结合各种搜索引擎的优点,在类型上有逐渐融合的趋势。例如,Yahoo!在保持人工分类的同时,使用Inktomi的机器人搜索引擎,用户查询时,如果选?quot;网站搜索"便搜索人工分类库,选择"网页搜索"便搜索机器人搜索引擎的索引库。一些传统的机器人搜索引擎也增加了人工分类的内容,以提供高精度的导航信息。另外搜索引擎站点有"门户化"的倾向,在提供搜索服务的同时,提供多样的网络服务,如新闻、股票、天气预报、虚拟社区、游戏、电子商务等等,成为名副其实的"网络门户". (2)按照检索软件分类 按照服务提供方式的不同,检索软件也可以分为三大类:全文数据库检索软件、非全文数据库检索软件、主题指南类检索软件。 全文数据库检索软件正常运作的前提是网站拥有大量的信息,因此必须依靠强大的数据库作为后盾。它能够提供完整的文献和信息检索,查全率很高。但由于信息量非常大,检索起来比较困难,对检索技术的要求很高。 非全文数据库检索软件具有速度快、使用简便、索引量大的特点,但仅提供部分全文检索,有时需要二次检索,感到不太方便。 主题指南类检索软件是目前网络检索中最常用的检索软件。这种软件查准率高、速度快、使用方便。现大部分网站都具备主题指南类检索功能。 (3)按照检索语言分类 目前,因特网几乎使用了世界所有语言。每一种语言都形成了自己独特的检索体系。比较常用的语言有英文、法文、德文、日文、俄文、中文等。 2.全文数据库的检索软件 (1)Alta Vista 检索引擎 Alta Vista检索引擎为数字设备公司(DEC)开发,号称是目前最大的Web索引数据库,Alta Vista检索引擎提供两种检索方法:简单检索和高级检索。高级检索包括了简单检索的

“中医药文献检索常用工具及检索方法”答案

中医药文献检索常用工具及检索方法 《中医药文献检索》概论 1、检索工具按著录方式及揭示内容程度分类,不包括的类型是(C) A、目录型检索工具 B 、题录型检索工具C卡片式检索工具 D、文摘型检索工具 2、(D)首次以“文献” 一词命名自己的专著《文献通考》 A、苏天爵 B、欧阳贞C 、揭篌斯D马端临 3、下列属于按不同记录方式分类的文献是(C) A、专利文献B 、会议文献C电子型文献D、光盘文献 4、一次文献,是指(D) A、主要包括两方面的内容,一是形成一次文献以前的知识信息,二是未经正式发表的原始文献,或未正式出版的各种书刊资料 B、根据二次文献所提供的线索对某一范围的一次文献加以集中、浓缩,系统整理并且概括论述形成的文献 C、对一次文献进行加工整理后的产物,其主要类型有目录、索引、文摘这些用以查找一次文献的工具 /、 D、作者本人以科研生产工作中取得的科技成果作为依据而撰写创作的原始文献 5、文献四要素中的符号系统指的是(A A、信息的携带者 B 、文献的外在表现形式 C、文献的思想内容,即文献所记录的知识 D 、文献的符号进入载体的方法和过程 6、下列关于文献与文献信息的说法错误的是(C) A、文献信息是以文献为载体的信息 B、文献和文献信息是表征同一事物的两个方面 C、文献信息是存储信息的物质形态的概括,即它的物质属性 D、文献记录了人类文明产生和发展的轨迹,存储了社会发展的知识信息,为人类社会的前进保存了文化积累 7、访谈的形式属于(A) A、零次文献B 、一次文献C、二次文献D、三次文献 8、纸制型文献一般以(B)为母体,母本采用光学摄影技术,把文献的体积缩小,固化到感光材料或者其他载体上 A、手写型文献 B、印刷型文献C 、电子型文献D 、声像型文献 9、下列关于检索工具的说法错误的是(B) A、用以报道、存贮和查找文献线索的工具 B、是附有检索标识的某一范围文献条目的集合,是三次文献 C、大多数检索工具为定期、不定期的连续出版物,所以又称为检索刊物 D、目前医学文献检索工具已从传统的手工检索工具发展为以计算机网络检索系统为主 10、按不同载体分类的文献的种类不包括(B) A、纸质型文献 B、印刷型文献C 、微缩型文献D 、磁盘文献 中文医药论文检索 1、CBM-Web<(C)检索系统具有良好兼容性 A、万方数据库 B 、CNKI数据库C、PubMed D 、维普数据库 2、可以全方位了解作者的主要的研究领域、研究成果、研究对象等情况,可以专一的研究某一个作者的整体情况的检索方式是(B) A、标准检索 B、作者发文检索 C 、来源期刊检索D、科研基金检索 3、我国中文医药论文的检索系统于上世纪(C)年代起步 A、60 B 、70 C 80 D 、90 4、下列不属于中国生物医学文献数据库特点的是(A)

信息检索-判断题(精心整理)较全版本

判断题 1.信息素养是由信息意识、信息知识、信息能力、信息道德四个要素构成的。(A)https://www.360docs.net/doc/b36613089.html,KI中国知网数据库可以检索到博硕士论文。(A) 3.查全率与查准率是评价检索效果的两项重要指标。(A)4.广义的信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要查找出特定信息的技术和过程。(A) 5.逻辑“与”是一种用于交叉概念或者限定关系的组配,可以缩小检索范围,提高查准率。(A)6.逻辑“或”是一种用于概念并列关系的组配,可以扩大检索范围,提高查全率。(A)7.信息检索过程是一个检索的操作过程,如选择数据库、确定关键词、构造检索式等。(B)8.界定问题过程首先需要根据待完成的任务,确定信息问题。然后根据信息问题,确定信息需要。(A)9.概览性资料通常出现在我们所说的二次文献中。(B)10.图书馆OPAC检索系统属二次文献数据库(A)11.当检索关键词具有多个同义词和近义词时,容易造成漏检,使得查全率较低。(A)12.对于要求一定深度、研究性的信息问题,应主要检索搜索引擎检索网络信息源。(B)13.选择信息源是信息检索的第一步。(B)14.PQDT 是美国Proquest公司出版的学位论文数据库。(A)15.根据文献内容的不同加工深度可区分为一文献、

二次文献和三次文献,学位论文属三次文献。(B)16.综述文献属于二次文献(B)17.The mammalian cell as a microorganism;-genetic and biochemical studies in vitro puck, Theodore T.(Theodore Thomas) xi,219p.illus.24cm. ISBN 0-816-26980-7 San Francisco,Holden-Day 1972 该文献类型为期刊论文。(B)18.通过EBSCO、EI、OCLC数据库都能检索到外文期刊论文全文。(B)19.在超星阅览器登录个人用户名后下载的图书支持拷贝到其他机器上阅读。拷贝到其他机器阅读时,需要在阅读的机器上使用下载时用户名进行超星阅览器->“注册”菜单->“用户登录”操作。(A)20.分类途径就是按照文献的名称体系查找文献的途径。(B)21.检索2010年经济统计数据通常应该用2010年出版的《中国统计年鉴》。(B)22.Effect of coating whole cottonseed on performance of lactating dairy cows. Bernard,-J,K;Calhoun,M.C;Matin,S.A. Savoy, III.:American Dairy Science Association J-dairy-sci.. June 1999.v.82 p.1296-1304.该文献类型为图书。(B)23.主题语言较适合于期刊论文、研究报告、会议论文等单篇文献的组织和检索(A)24.分类语言适合于图书或文集的组织和检索,提供的是从学科或专业角度查找文献信息的途

信息检索与利用

探析文献期刊数据库的检索及应用策略 摘要随着互联网技术的发展,传统的印刷方式和人工的检索的使用率逐渐被替代,更多的是数据库的检索方式。本文主要以文献期间数据库作为研究对象,对其检索过程以及在检索方面的策略进行详细的分析,以期供人们进行参考。 随着网络搜索引擎的普及,信息检索已是群众基础广泛的全民行为。但学术研究的信息需求与检索的目标要求检索者需要具备一定的专业检索知识与能力。其中,各种图书、期刊、电子资源等学术信息的检索是学生应该掌握的重要能力。除谷歌学术、百度学术等搜索引擎中可进行学术检索外,相关文献期刊数据库是最主要的学术检索途径。请列举国内外常用的文献期刊数据库,并结合自己在论文撰写和学习研究中对其的利用情况,分别阐述其数据库建设内容、特色特点与检索方式,在此基础上进行总结,探析文献期刊数据库的检索及应用策略。 一、文献期间数据的主要检索方式 1.1 信息检索 无论是传统的文献检索还是当前文献期刊数据库发展,在信息检索方面,人们倾注了较长时间的关注,这也是信息检索在期刊文献等检索当中技术发展较为完善的原因之一,信息检索主要包括结果显示以及下载,在信息检索方面,常规的数据库采用的基本信息检索主要包括基本检索和高级检索这两种方式,基本检索包括简单检索和快捷检索,高级检索主要包括专业检索和复杂检索两大功能,并在此基础上进行二次检索,从而进一步缩小检索目标,获得更为精准的结果,同时,它们一致支持逻辑运算、模糊检索等,并提供规范化词表和索引浏览等检索方式,在检索的结果方面,一般显示命中文献的文献题名、作者、出处、时间、文摘以及基本内容等,在现代化的数据库当中还会设计到文献作者的电子信息或者引文等信息。 1.2内容扩增 内容扩增主要指的是文献期刊数据库在基本的检索功能基础上新扩展的方向,从传统的数据库发展来分析,每一个数据库都对应着危险收录的范畴,主要包括时间、地域、学科以及文献类型的范围等,数据库对于文献内容范围是其衡量的主要质量以及指标。随着互联网技术的发展以及各行业学科的深入研究,综合性科学的文献内容量逐渐增大,数据库作为文献信息的动态集合体,因而不得

信息检索复习题

信息检索复习题 第1章 信息:狭义是指适用通信、存储或处理的形式来表示的知识或消息,即用语言、文字、数字、符号、图像、声音、情景、表情、状态等方式传达的内容。 信息资源是企业生产及管理过程中所涉及的一切文件、资料、图表和数据等信息的总称。信息资源与企业的人力、财力、物力和自然资源一样同为企业的重要资源,而且是企业发展的战略资源。 文献:是记录知识的一切载体,是指将知识、信息、利用文字、符号、图像、音频等技术手段记录在一定的物质载体上。文献的三个基本属性:即文献的知识性、记录性和物质性。它具有储存知识、传递和交流信息的功能。 文献的类型:1、按照文献的载体形态来划分:分为印刷型、微缩型、声像型和电子型。2、按文献的出版形式划分:分为图书、期刊、会议文献、科技报告、学位论文、技术标准、专利文献。在正式出版图书封底都有一个ISBN叫国际标准书号。在正式出版期刊封面都有一个ISSN叫国际标准编码。 特种文献又称丛刊,或不定期的连续出版物,是出版形式比较特殊的一种文献类型。P5 科技报告:记录某一科研项目调查、实验、研究的成果或进展情况的报告,又称研究报告、报告文献。 会议文献:在学术会议上宣读和交流的论文、报告及其他有关资料,会议文献多数以会议录的形式出现,特点:传递情报比较及时,内容新颖,专业型和针对性强,种类繁多,出版形式多样,会议文献分为:会前、会中和会后3中。 政府出版物:各国政府及其所属机构出版的,有官方性质的文献,又称官方出版物,是指有政府机关负责编辑印刷的,并通过各种渠道发送或出售的文字、图片、及磁带、软件等。其他类型资料:包括产品样品、档案文献、灰色文献和视听资料等。 按照文献产生的次序与被加工整理的深度划分:可将文献分为零次文献、一次文献、二次文献、三次文献。一次文献:是人们直接以自己的生产、科研、社会活动等实践经验为依据生产出来的文献,也称原始文献,其所记载的知识信息比较新颖、具体、详尽。 信息检索:是指信息按照一定的方式组织起来,并根据信息用户的需要找出有关信息过程和技术,狭义的信息检索是指信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程。也就是我们通常说的信息查寻。 信息检索的种类:按照检索对象来划分:书目检索、数据检索、事实检索三种。 按照信息存储和检索手段来划分:手工、机械化、计算机检索三种。 按照信息检索的途径来划分:直接检索和间接检索。 信息检索的步骤:1、分析研究课题,明确检索要求。2、选择信息检索系统,确定检索途径。 3、确定检索词。4.构造检索式,确定检索策略。5、处理检索结果。6、 原始文献获取。 信息检索系统的组成:文献信息选择子系统,词表子系统,标引着录子系统,查询子系统,用户与系统之间交互子系统,匹配子系统。

计算机信息检索的策略和方法

2.4计算机信息检索的方法与策略 2.4.1计算机信息检索过程中的相关概念 (1)数据库:数据库是“至少由一个文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合”。通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。数据库是计算机技术与信息检索技术相结合的产物,是现代重要的信息资源,也是信息检索的重要资料来源。 根据载体的不同,数据库可分为:联机数据库(online-database),光盘数据库(CD-ROM-database)和网络数据库(networked-database)三种。 (2)检索界面:指在进行计算机检索时,检索者与计算机交互对话的界面。 (3)检索方式:以检索过程的繁简程度或从何入手来区分的不同检索过程。在数据库中往往设有初级检索/简单检索/基本检索(单途径检索);高级检索(多途径组合检索);专业检索(构造检索式);按类检索;按刊检索(刊物查询、刊名导航),篇目检索/论文查询;引文检索等方式供选择。 (4)检索途径:又叫检索入口、检索项,也有的数据库称之为检索字段。指输入的检索条件所查询的数据区域。不同数据库所设的途径并不相同。一般都设有篇名、作者、关键词、全文等途径。 (5)检索词:检索词是检索者给出的字、词、字符或短语,用于查找含有它(它们)的记录。 (6)排序:指检索结果输出时的排列顺序。输出结果按相关度排序时,则检索结果按检索词在检索字段中发现的频度由高到低依次排列。无相关度时,输出结果则按文献的出版日期逆序排列或随机排列。 (7)二次检索:指在前一次检索结果的基础上,进一步限定检索条件所进行的再次检索。二次检索可以多次使用,逐步缩小检索范围。 (8)限制条件:在检索对象的时间、文献类型、语种、同义词等方面做限制,与检索途径配合使用,以精化检索结果。 (9)检索词匹配:指输入的检索词在数据库的可检索字段值中的位置关系。一般表示为前方一致、后方一致、完全一致(精确匹配)、任意一致(模糊匹配)等。 2.4.2 信息检索方法 为了迅速、准确地查找所需要的文献信息,必须了解和掌握一定的检索方法。常用的检索方法有下列三种: (1)常用法 利用检索工具或检索系统来查找文献的方法,这是文献检索中最常用的一种检索方法。常用法又可以分为顺查法、倒查法和抽查法三种。 ①顺查法 这是一种由远及近的检索方法, 从课题分析所得出的该课题研究的起始年代起, 由远及近地进行逐年查找。顺查法有较高的查全率。用顺查法逐年检出的文献可以在一定程度上反映出该课题研究发展的全过程。但是这种方法耗时费力, 效率较低。 ②倒查法 倒查法与顺查法正相反, 是利用选定的检索工具, 由近及远地逐年逐卷地进行查找。根据课题需求获取近期文献, 即以“查准”为主时, 最好采用倒查法。对于一些新的研究课题可以采用倒查法, 这样比顺查法节省时间, 效率较高。 ③抽查法

国内外商品标签标志信息检索系统共22页文档

国内外商品标签标志信息检索系统 简介 广东省标准化研究院 二〇〇八年十月

目录 1. 前言 (1) 2. 系统组成 (3) 3. 系统模块功能描述 (4) 3.1标签标志查询 (4) 3.2相关法规、标准查询 (5) 4. 系统使用说明 (6) 附录:中、美、日、欧等国家和地区标签标志应用简况 (9)

1. 前言 商品标签标志是各国市场准入规则的重要组成部分。目前,世界各国重视并推行商品标签标志制度,旨在为消费者提供有关商品的特性、质量、安全、卫生、环保和节能等方面的信息,从而达到公平贸易和保护消费者权益的目的。在商品上贴附标签标志,需要依据有关国家特定的技术法规或标准的规定,通过严格的合格评定程序后才能取得使用资格。因此,商品标签标志能够充分体现商品的质量属性和信誉保证。世界各国广泛使用的商品标签标志包括安全认证标志、食品标签、环保标签、生态标签、能效标签等,是商品进入国际市场所必需具备的基本条件。 “国内外商品标签标志信息检索系统”为广大进出口企业了解和掌握国际贸易中的商品标签标志信息提供了方便快捷的工具。该系统以相关数据库为基础,提供了包括国际通用的和美国、欧盟、日本、东盟和中国等45个国家和地区的600项标签标志的信息,涉及范围包括机械、电子、家电、玩具、食品、药品、建材、化工、纺织、服装等各类商品使用的标签标志。该系统是《国内外商品标签标志应用大全》配套软件,用户安装后不但可以更加方便地进行国内外商品标签标志信息检索,而且还能够进一步获得与具体的标签标志相关的法律、法规、标准、合格评定程序等全文文本及其相关信息。 商品标签标志的表现形式一般是由文字、图形、符号、字母和数字等组成,一个完整的标签标志通常是上述几个元素的组合。本系统收集的标签标志(统称为标识)共分为12类,包括安全标识、环保标识、能效标识、信誉标识、符合性标识、警示标识、产品分类标识、产品保养标识、零件标识、储运标识、地理标识以及信息标识。各类别的说明及收集数量详见下表: 商品标签标志分类情况一览表

检索工具分类

1.检索工具的分类(1)按照信息搜集方法分类按照信息搜集方法的不同,搜索引擎系统可以分为三大类:1)目录式搜索引擎(Directory Search Engine)以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入(维护工作量大)、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo!、LookSmart、Ask Jeeves、Snap、Open Directory。2)机器人搜索引擎(Crawler-Based Search Engine)由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在Internet中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google。3)元搜索引擎(Meta Search Engine)这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量大,缺点是不能够充分使用元搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket。目前,商业的搜索引擎站点正在结合各种搜索引擎的优点,在类型上有逐渐融合的趋势。例如,Yahoo!在保持人工分类的同时,使用Inktomi的机器人搜索引擎,用户查询时,如果选?quot;网站搜索”便搜索人工分类库,选择”网页搜索”便搜索机器人搜索引擎的索引库。一些传统的机器人搜索引擎也增加了人工分类的内容,以提供高精度的导航信息。另外搜索引擎站点有”门户化”的倾向,在提供搜索服务的同时,提供多样的网络服务,如新闻、股票、天气预报、虚拟社区、游戏、电子商务等等,成为名副其实的”网络门户”。(2)按照检索软件分类按照服务提供方式的不同,检索软件也可以分为三大类:全文数据库检索软件、非全文数据库检索软件、主题指南类检索软件。全文数据库检索软件正常运作的前提是网站拥有大量的信息,因此必须依靠强大的数据库作为后盾。它能够提供完整的文献和信息检索,查全率很高。但由于信息量非常大,检索起来比较困难,对检索技术的要求很高。非全文数据库检索软件具有速度快、使用简便、索引量大的特点,但仅提供部分全文检索,有时需要二次检索,感到不太方便。主题指南类检索软件是目前网络检索中最常用的检索软件。这种软件查准率高、速度快、使用方便。现大部分网站都具备主题指南类检索功能。(3)按照检索语言分类目前,因特网几乎使用了世界所有语言。每一种语言都形成了自己独特的检索体系。比较常用的语言有英文、法文、德文、日文、俄文、中文等。2.全文数据库的检索软件(1)Alta Vista 检索引擎Alta Vista检索引擎为数字设备公司(DEC)开发,号称是目前最大的Web索引数据库。Alta Vista检索引擎提供两种检索方法:简单检索和高级检索。高级检索包括了简单检索的所有特性,还允许使用布尔运算符和接近操作符、括号等,查找的结果按关键词排序。Alta Vista总能返回有用的信息,但由于没有对内容进行选择,它的”信噪比”也是最大的。使用Alta Vista检索引擎时应注意:要进行有效的检索,最好尽可能多而精确地输入描述所感兴趣的主题的词或词组。提供的词组越精确,检索结果就越好。如果你输入的词包含大写字母,则检索对大小写就比较敏感。如输入Telephone 则只检索含有这个词的内容,而输入telephone 则不论大小写都检索。如果要把一些词作为词组或一个整体来查询时,最好把它们加上双引号。如果要求特定单词包含在索引的文档中,可以在它前面加一个”+”号,如:+Telephone,并且在”+”号和单词之间不能有空格。相应的,如果要排除含有特定单词的文档,可以在它前面加一个”-”号,如-cool。进行简单查找的时候,可以在单词的末尾加一个通配符来代替任意的字母组合(最多可代替5个小写的

信息检索知识点92382

信息检索考点整理 1.信息检索的概念 广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程; 而狭义的信息检索仅指有序化信息的检索查找。 2.信息检索的原理 就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。 3.为什么说信息存储和检索是两个不可分割的有机体 检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。检索过程是存储过程的逆过程。因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。 4.信息检索的方法 (1)顺查法

(2)倒查法 (3)抽查法 (4)追溯法 (5)循环法 5.信息检索的途径 (1)内部特征途径 a)分类途径 b)主题途径 (2)外部特征途径 a)题名途径 b)着者途径 c)文献编号途径 d)目录检索途径 e)机构检索法 f)引文检索途径 6.布尔模型的优缺点 优点:(1)简单,形式简洁,易于理解; (2)可操作性强,应用广泛; (3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念; (4)能处理结构化提问。

武汉大学信息检索往年试卷选辑

2009春季《信息检索》试卷A 1.电子图书有哪些特点? 2.对搜索引擎的选择与比较主要从哪些方面考虑? 3.网络信息选择的标准有哪些? 4.查找国内外引文与学位论文分别有哪些数据库?每类中分别举2个英文数据库(包括全称、简称与中译)和1个中文数据库。 5.除商业数据库和搜索引擎外,还可以从哪些途径获取网络信息资源?请至少给出5种,每种举一例。四.论述题(2X15分=30分) 1.从哪些方面全面地查找关于某一主题的研究成果? 2.在完成专题信息导航或准备课堂教学实践过程中遇到的困难有哪些(5分)?学习“信息检索”这门课,你最大的收获是什么(5分)?请写出你对提高本课程教学质量的建议(5分)。 2009春季《信息检索》试卷A答案 武汉大学信息管理学院2008-2009学年度第二学期 1.信息检索(Information Retrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。 2.引文索引是一种将科技期刊、专刊、专题丛书等文献资料所发表的论文后所附的参考文献的作者、题目、出处等项目,按照引证与被引证的关系进行排列而编制的索引。 3.China Academic Library and Information System中国高等教育文献保障系统。 4.邻近检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的关系,并且可以不依赖叙词表而直接使用自由词的检索方法。 5.搜索引擎(Search Engine)是一种Web 上应用的软件系统,它以一定的策略在Web 上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。用户可以通过主题浏览和关键词检索的方式搜索所需信息。 二、简答(5x6=30分) 1.电子图书有哪些特点? 存储空间大(磁介质存储密度高、容量大,一张光盘甚至可以存上百部中外名著)、节省资源(不需消耗纸张等物质资源)、使用方便(借助于专门的软件便可使用,可以便捷地编辑和查找特定内容)、传播过程中的无独占性和无损坏性(可以同时供多人使用,可无失真地重复使用)。 2.对搜索引擎的选择与比较主要从哪些方面考虑? 收录范围(索引库中内容的数量、地域范围、语言种类、资源类型、资源的深度和广度)、分类(分类方式是否合理多样、类名是否规范、分类的广度与深度是否合适)、检索功能与效果(是否包含浏览检索和关键词

常用检索工具及其介绍

常用文献检索工具 三大检索工具指的是《工程索引》、《科学引文索引》和《科技会议录索引》 1.关于三大检索工具的介绍: (1)《工程索引》(Engineering Index , EI),1884年创刊,是由美国工程信息公司出版的著名检索刊物,内容包括土木工程、机械工程、能源工程、材料工程、自动化工程、交通运输工程、宇宙航天工程等方面的论文、会议论文、科技报告等。 (2)《科学引文索引》(Science Citation Index ,SCI),由美国科学信息所1961年创办并编辑出版,覆盖数、理、化、工、农、林、医及生物等诸多学科领域,其中生命科学医学化学物理所占比例最大SCI的引文索引工具有独特的科学参考价值。 (3)《科技会议录索引》(Index to Scientific & Technical Proceedings , ISTP),由美国科学信息所(ISI)编辑出版,1978年创刊,召开的科技会议的会议论文中收录75%—90%,内容渉及科学技术的各个领域。 2.国内常用的检索系统: (1)万方数据资源系统(数字化期刊、会议论文、科技信息、商务信息) ●数字化期刊,包括理、工、农、医、人文等5大类70 多个子类2500多种核心期刊,以实现全文上网; ●会议论文,包括国内权威的学术会议论文全文数据库。

覆盖自然科学、工程技术、农林、医学等27个大类收 集13万多篇论文; ●科技信息,汇集了学位论文、会议论文、科技成果、 科研机构、科研名人、中外标准、政策法规等近百种 数据库资源; ●商务信息,提供工商咨询、经贸信息、咨询服务、商 贸活动等服务内容; (2)超新数字图书馆(https://www.360docs.net/doc/b36613089.html,) 超新数字图书馆是国家863计划中国图书馆示范工程,于 2000年1月建立,收录了自1921年出版的各个时期图书219 000多种,数据总量达1841GB,其按照中国图书馆图书分类法共分为50个大类。(3)维普科技期刊数据库: 维普科技期刊数据库收录了1989年以来有关自然科学工程技术农业医药经济管理教育科学及图书情报等学科的8000余种期刊和经济科技剪报,共有四个数据库(中文期刊全文数据库、外文科技期刊题录数据库、中国科技经济新闻数据库与中文科技期刊引文数据库。) (4)中国学术期刊网( C N K I ): C N K I 是一个大型学术期刊数据库,涵盖理工、农业、医药卫生、文史哲学、经济政治与法律、教育与社会科学、电子技术与信息科学等。 (5)中国学位论文全文数据库:

信息检索5

一、单项选择题 ?1、( )类型的专业文献出版周期最短、发行量最大、报道最迅速及时。 ? A 期刊 B 报纸 C 会议文献 D 专利 ?2、期刊影响因子具有( ) 特点。 ? A 学科性 B 学术性 C 动态性 D A、B、C三项 ?3、按照顺序表述文献检索常用的五个步骤是( )。 ? A 明确要求和分析课题,选择检索系统,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略 B 明确要求和分析课题,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略,选择检索系统 C 明确要求和分析课题,实施检索以及 调整检索策略,选择检索系统,获取原文,确定检索途径和检索策略 D 明确要求和分析课题,选择检索系统,确定检索途径和检索策略,实施检索以及调整检索策略,获取原文 ?4、布尔逻辑算符包括( )算符。 ? A 逻辑“与” B 逻辑“或” C 逻辑“非” D A,B和C ?5、查找OPAC,确定书刊的馆藏单位的一般顺序为( )。 ? A 本馆,本市,全国 B 全国,本市,本馆 C 本市,全国,本馆 D 本馆,全国,本市 ?6、下列属于二次文献是()。 ? A 手册 B 年鉴 C 述评 D 题录 ?7、以文献线索为检索对象的书目检索,是属于()。 ? A 文献信息检索 B 事实信息检索 C 数据信息检索 D 全文信息检索 ?8、目录是以文献整体为记录和检索单元,而()则是以文献中的个别事项和内容为记录和检索单元。 ? A 索引 B 文摘 C 目录 D 辞典 ?9、检索效果的衡量指标是

? A 查准率和简易度 B 查全率和查错率 C 查全率和查准率 D 查全率、查对率 ?10、要尽可能多查找“一卡通”相关的图书,可使用以下哪种检索式 ? A 卡通 or 校园卡 B 一卡通 and 智能卡 C 一卡通 or 智能卡 or IC卡 D 一卡通 ?11、在计算机检索技术中,逻辑算符的()一般可实现扩大检索结果的功能 ? A OR B NOT C AND D (F) ?12、在《中图法》的22个大类中,"S”类表示:( ) ? A 生物科学 B 医药、卫生 C 农业科学 D 天文学、地球科学?13、布尔逻辑检索是() ? A 通过布尔检索符号与检索词之间的逻辑关系而进行检索的方法 B 限 定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法 C 把一个短语作为 一检索单元进行检索 D 限制检索词在检索结果中的位置 ?14、以下哪种语言不属于主题语言() ? A 分类语言 B 标题词语言 C 叙词语言 D 关键词语言 二、多项项选择题 ?1、竞争情报源是产生竞争情报的源头。下面属于情报初始源的有()。 ? A 竞争对手、用户和合作伙伴 B 政府部门和行业机构 C 文献情报 源 D 企业内部职能部门和员工 ?2、竞争情报源是产生竞争情报的源头。下面属于情报再生源的有()。 ? A 文献情报源 B 大众传播媒介 C 专职情报机构或信息中心 D 证券交易所

信息检索课程设计

对国内外跨海大桥发展现状的调查 学号:120147XXX 姓名:XXX XXXXX大学土木工程学院 1 题目分析 20 世纪中叶以来, 人类向海洋进军的步伐不断加快, 作为其重要标志的世界跨海通道, 特别是大规模的跨海桥梁建设日新月异。大量的学者和专家在建设和研究过程中, 收集了大量世界( 含我国) 跨海通道资料, 整理为《国外跨海通道一览表》和《中国跨海通道一览表》, 并对上述两表作了比较分析, 期望对我国酝酿中的包括渤海海峡、琼州海峡、台湾海峡等工程在内的跨海通道研究和实施, 起到启示和借鉴的作用。 2 检索过程(图书、期刊、专利、报纸、网页等) 2.1 构造检索式 国内外跨海大桥桥梁结构类型 2.2 检索策略(结果精炼、重新构造检索式) 2.2.1 CNKI检索 全文检索——输入“国内外跨海大桥”——找到6272 条结果

主题检索——输入“国内外跨海大桥”——找到1295 条结果 篇名检索——输入“国内外跨海大桥”——找到1256 条结果

关键词检索——输入“国内外跨海大桥”——找到0条结果 摘要检索——输入“国内外跨海大桥”——找到217条结果

以上分别应用全文检索、主题检索、篇名检索、关键词检索、摘要检索式中方式搜索,将搜索的结果进行比较,结果如表1所示。 表1检索结果对比 检索方式检索词检索结果 全文检索国内外跨海大桥6272 主题检索国内外跨海大桥1295 篇名检索国内外跨海大桥1256 关键词检索国内外跨海大桥0 摘要检索国内外跨海大桥217 由表1检索结果对比可以得到全文检索得到的结果最多,关键词检索得到的结果最少,但是一般来说该方式的检索结果比较精度。由于以上五种方式的检索依照点不同,所以在相同检索词的情况下其最后的检索结果在内容方面都有不同的侧重点。因此在进行文献检索时应该事先定好检索词,然后对检索词进行不同方式的检索。这样基于多种不同类的检索结果我们才能对客观待研究的问题有一个全面宏观的把握。 检索目标:“跨海大桥的结构类型”

国内外文摘数据库信息检索综述

国内外文摘数据库信息检索综述 1 MEDLINE数据库 MEDLINE是美国国立医学图书馆(The U.S. National Library of Medicine,簡称NLM)最早的书目数据库,其包含生命科学领域,特别是生物医学方面的超过2200万期刊文献的题录及文摘信息。MEDLINE的一个显著特点是记录了NLM编制的医学主题词表(MeSH)的索引。MEDLINE是联机的医学文献分析与检索系统(MEDical Literature Analysis and Retrieval System),起源于1964年。是PubMed的主要部分,部分Entrez在线检索数据库是由美国国家生物技术信息中心(NCBI)来提供的。 1.1数据库介绍 起始年限:1946年-至今,还包含一些旧的资源。 来源:大约40种语言5600多种学术期刊的引文及60种语言的旧版期刊,MEDLINE引文由NLM,国际合作伙伴和一些合作组织共同创建。 更新:自2005年起,每天增加2000-4000条完整的题录信息。更新在11月至12月的几周内暂停主要是因为NLM要将医学主题词表添加进索引中。 学科范围:MEDLINE的主体范围是生物医药与健康,此外还包括生命科学,行为科学,化学、生物工程,公共卫生,临床护理以及植物和动物科学领域。其中,生命科学覆盖率增加始于2000年。 MEDLINE数据库挂靠在Web of Science平台上,包含各生命科学领域的期刊文章,记录超过1200万条,尤其偏重于生物医学领域。MEDLINE记录由NLM 和协作伙伴创建。MEDLINE 的来源出版物涵盖基本生物学研究和临床科学。学科类别包括护理学、牙科学、兽医学、药理学、健康相关学科和临床前科学。MEDLINE 还包括对生物医学从业者、研究人员和教育工作者至关重要的生命科学方面的内容,包括生物学、环境科学、海洋生物学、植物和动物科学以及生物物理学和化学的某些方面内容。从2000 年开始,生命科学的涵盖范围得到增加。到2001 年年底,以前包括在单独的NLM 专业数据库中的多数引文均已添加到了MEDLINE 中。数据库收录范围从1950年至今。 1.2检索技术 1.2.1 字段检索 检索字段共包含25个字段,其中,主题-添加Mesh字段允许在主题检索中包括Mesh词表,此选项自动将每个检索词比对到Mesh主题词并扩展每个标题,使从属于主题词的词语也包含在检索中。作者标识符是指ResearchID或者

相关文档
最新文档