信息检索报告

信息检索报告
信息检索报告

在自动文本检索中词加权处理

摘要——在过去的20年里累积的实验证据表明基于分配单一词合适的权重的文本索引系统产生的检索结果优越于那些更复杂详尽的文本检索系统代表。这些结果很依赖于有效的词项加权系统的选择。这篇文章概述了在自动文本词加权方面改进的深刻见解,而且提供了单一搜索词索引模型和那些更复杂的内容分析过程可以对比的基线标准。

1 自动文本分析

在1950年代后期,卢恩首次表明自动文本检索系统可以基于存储文本附加的内容标识符和用户的查询信息的内容标识符的对比被设计出来。典型的,某一词从文档中提取出来,而且查询可以被用于内容鉴定。两者选一的,文本代表可以被手动的选择通过熟悉考虑主语区域训练的索引器或通过熟悉文档收集的内容训练的索引器。不论哪一种情况,文档都可以被这种形式的检索词向量代表。在这种形式里,每一个tk识别一个内容词被分配给一些样例的文档D。

(1)

类似的,信息请求,或查询将会要么被被向量形式代表,要么被布尔表述形式代表。因此,一个典型的查询Q可能表述作为

(2)

或者

。(3)

在这里,qk再一次代表一个搜索词分配给查询Q。

一个更加正式的检索词向量方程式(1)和(2)的表示通过所有可能的内容检索词包含在每一个向量当中可以获得。这些内容检索词被允许出现在系统中,增加检索词权重分配以提供在检索词之间的区分。因此,如果Wdk(或者Wqk)代表在文档D(或查询Q)的检索词tk的权重,而且t检索词在所有的内容代表中可用的,那么这个文档D和查询Q的检索词向量可以被写成

(4)

在前面讲述的公式中,这个设想是当检索词没有被分配给文档D(或Q)Wdk (或Wqk)等于0 ,对于被分配的检索词Wdk(或Wqk)等于1。

考虑到,反应式(4)的向量表示,一个查询文档相似值可以通过与相应的向量对比被获得。例如,使用传统的向量内积。

(5)

当检索词的权重局限于在先前的建议中的0和1时,这公式(5)的向量内积测量了同时被分配给查询Q和文档D的检索词的数量。

实际上,这被证明是有效的,比权值只有0和1有可能在被分配给内容代表检索词之间提供一个更大程度的区分。特别的,检索词权重可以被赋予按照检索词重要程度递减的顺序。在这种情况下,权值Wdk(或Wqk)可以被允许是0到1之间连续变化的任意值。

越重要的检索词,它的权值越高越接近1,然而,越不重要的检索词,它的权值越低越接近于0。在一些情况下,这可能对于使用标准的权值分配是有效的。这样,单一检索词的权重一定程度上依赖于在同一向量中其他检索词的权值。

一个典型的检索词权值使用一个向量长度归一化函数是对于文

档(或对于查询)。当长度规范化检索词权值系统和向量相似函数公式(5)一起使用,获得一个众所周知的余弦向量相似性函数,这已经在实验的聪明的检索系统中被广泛使用。

。(6)

一个表现总体的比较在查询和文档向量之间的向量匹配系统提供以在Q

和D之间计算的相似性递减的顺序排序的检索输出。这样一个排序输出是有效的,因为现在检索文档的大小是可控的。基于继承查询再形成的迭代检索策略是简化的。一个首次检索这些项目被认为是对用户主要感兴趣的系统将必然的证明在交互式信息检索中有帮助的。

在设计自动文本检索系统中,有两个主要的问题必须面对。首先,在文档和查询代表中包含哪些合适的内容单元。第二,对于内容标识检索词权重的决定是否有能力区别重要的检索词和那些不重要的检索词。

就第一次内容检索词的选择而言,各种各样的可能性必须被考虑。在大多数的早期的实验中,单一的检索词被使用作为内容代表,经常由从文档文本和自然语言查询公式中提取的单词组成。在很多情况下,通过使用单一检索词内容代表,可以获得非常高效的检索输出。

最后,然而单一检索词集合不能提供文档内容的完全识别。因为这个原因,多年以来,很多在内容分析和文本索引程序的增强功能被提议,企图形成复杂的文本代表。在这一点上下面的可能性已经被考虑。

1, 相关检索词集合的产生是基于统计学的在文档集合的某一上下文的单词的共同特征。这正常做出的假设是在文档集合共同出现足够多的频率的单词实际上是互相相关的。

2 ,检索短语的形成由一个或多个统治地位的检索词(短语头)和相应的从属检索词(短语组件)。短语经常通过使用单词的频率计数和其它统计学的方法被选择,可能通过语法程序补充。语法程序被设计检测统地位的检索词和从属检索词的语法关系。

3,这种类型的单词分组方法的使用通过辞海提供,在这把相关词的种类分为共同的标题。这些类的标题然后可以被分配给内容识别,而不是包含在类中的个体词。非此即彼的,对内容识别有用的检索词关系可以通过使用现存的机器可读的字典词典获得。

4,知识库的建立和相关人工智能结构目的在于代替在考虑之中的主语区域的内容,然后知识库的词目被用于代替文档和查询的内容。

从一开始,这是明显的,复杂文本代表的建立和识别是非常困难的。特别的,大多数仅仅在局部的文档里提取最初的从属检索词组的自动推导检索词依赖性

是有效的变得清晰。这意味着从属检索词组不能指望产生有用的内容标识在与那些最初使用的新建文档上下文。

从自动产生检索短语的使用获得的实验证明同样地令人沮丧,对于一些集合,在检索效果上的改进达到20%(在研究召回率和准确率)可以获得的通过使用短语识别代替单一检索词。但是对于其他文档集合,这些相同的短语程序没有提供任何改进。而且甚至复杂的语法分析程序不能被依赖产生有用的复杂内容识别。

至于预先构建的词汇表调度和检索词分类的使用,问题是可行的程序对于有效的词汇表工具覆盖合理范围的主题区域的建设好像是完全缺乏的。同样地想得到目的在于反映信息披露领域的知识库的构建。直到更多的关于字典,词典的形式和内容的渴望变得出名,从这些在文本分析和文档索引的工具获得的收获很少可以预料到。

再回顾在过去的25年里信息检索系统评估领域积累的大量的文学,非常明确的证据是明智的使用单一检索词识别比更多复杂的实体的合并更好。这些实体从文本自身提取或从有效的词汇表调度获得。两个主要的问题出现在产生复杂的文本识别中。

1,当严格条件被用于复杂识别的建设,作为通过使用限制性的频率标准和有限的共存上下文为了检索短语的识别的典型,然后很少新的标识有可能变得可利用的。复杂识别的检索系统的性能与单一检索词索引获得的结果只有少量的不同。

2,另一方面,当对于复杂的实体的建设标准是不严格的,不仅可以获得一些好的识别,而且许多边界的没有证明是有用的。总的来说,单一检索词索引通常是优先选的。

当单一检索词被用于内容识别,在个体检索词之间一定引进区别,以他们作为文档描述符假设的值为基础。这导致了检索词权重的使用。检索词的权重附加到项目标识符。注意事项控制有效的加权因子的产生在下一部分简单的概述。2检索词权重详述

一个检索词加权系统的主要函数是检索效力的放大。有效的检索取决于两个主要因素:一,项目可能与用户的需求相关的必须被找回;二,项目可能是没

有关联的必须被拒绝。两个策略通常被用于评价一个系统在文档集合里召回相关的和拒绝非关联的项目的能力。它们分别作为召回率和准确率而出名。召回率是找回的相关文档比例,通过找回的相关文档的数量比上文档集合里相关文档总体数量测量;准确率,另一方面,是检索相关的文档比例,通过找回的相关文档的数量比上找回文档的总体数量测量。

大体上,一个体系被认为比较好。它有高的召回率是通过找回相关的任何项目和高的准确率是通过拒绝所有没有关联的项目。检索的召回函数好像是通过使用宽阔的,高频的检索词可以最好的服务。这些检索词在文档集合的很多文档中都出现。这样的检索词可能被期望从很多文档中取出,包括许多的相关的文档。准确度因素,然而,可能通过使用狭窄的高度的专用词汇可以最好的服务。这些检索词能够从大量非相关文档中隔离出少量相关文档。实际上,通常选取折中的方法,通过使用足够频繁的检索词获得合理的召回率,同时不会产生不合理的低准确率。

召回和准确的要求不同,所以喜欢使用同时包含召回和准确增强组件的复合的检索词加权因子。在这一点上,有三个主要的注意事项显得重要。首先,在个别的文档或文档节选里频繁提到的检索词好像是有用的作为召回设备。这表明检索词频率因素被作为检索词加权系统测量检索词在文档或查询文本中出现频率的一部分。检索词频率权重已经在自动索引环境中被使用很多年。

第二,单独的检索词频率因子不能确保可接受的检索性能。特别的,当高频检索词不集中于一个很小的特别文档,而是在倾向于被检索的所有文档,整个文档集合中是普遍的,这影响查找精度。因此,一个新的集合依赖因子必须被引进,它支持检索词集中在一个文档集的一些文档中。出名的倒置文档频率表现这个功能。Idf因子使一个检索词被赋予的文档数量n比上文档集合总数量N倒转的变化。一个典型的idf因子可能被计算为log(N/n)。

检索词区别的注意事项表明对于文档内容识别最好的检索词是那些有能力从剩余的文档集合区分某一个别的文档。这意味着最好的检索词应该有高的检索词频率而且低的全部的文档集合频率。一个合理的检索词重要性测量可以通过使用检索词频率和倒置文档频率的乘积(tf*idf)获得。

文本区分模型被争议,因为它没有表现出很好的证实的理论的性能。如果把

该模型与信息检索的概率模型(把文档相关性考虑在内)相比,概率模型考虑文档的相关属性而且理论的有效的文本相关权重被推导出来。把文本相关权重定义为文本出现在相关文档与不相关文档中的比例,然而,在没有得到文本在在相关文档与不相关文档中的出现的概率时,无法对其进行立即计算。在缺少完整相关信息条件下,有很多被提议进行估算检索词相关因子的方。,这些方法表明,在明确条件的情况下,文本相关性能弱化为一种形式为的倒置文档频率。复合的文本加权系统因此可以直接与其他优秀的检索模型相关联。

除了词频和倒置文档频率,第三个文本加权要素,好像在不同的向量长度的系统中有效。在很多情况下,我们倾向于用短文本向量表示短文档,用长文本向量表示长文档。当大量的检索词用于文档的表示,在查询和文档中检索词的匹配机会比较高,因此长文档比短文当更容易被检索到。通常,对于检索目的,所有相关文档都应该有相同的重要性。这表明把归一化因子加入检索词权重公式可以均衡文档的向量长度。假设 W 表示检索词t 的权重,则最后的权重可能被定义

为。

在之前的检索词权重系统的讨论中,我们都假定文档和查询用加权的检索词集合或者向量表示。文本权重系统也被应用于布尔表达式查询中,同时,设计扩展的布尔查询系统有效的处理简化的向量形式。在某种程度上,前面提到的检索词权重系统也可以用于布尔查询程序。

3文本加权实验

在本文的剩余部分介绍一些检索词加权实验。在这些实验中,使用词频,集合频率和长度标准化组件的组合来处理六个不同大小,覆盖不同领域的文档集合。在每一个情况下,用户查询集合作为检索目标,用可用的用户查询的数量代表平均性能。在每个实验中,平均检索精度由3个不同的召回点进行计算,包括低召回率0.25,平均召回率0.50和高召回率0.75。这些平均搜索精确度然后进一步的平均对于所有可用的用户查询。除此之外,对于精度的测量,我们将采用性能降序排列的加权方法作为评测标准。在实验中使用了1800个不同的检索词

加权组合,发现了287个界限分明的组合,第一位的为结果最好的,而287是最差。

在最近的试验中,每个检索词加权组合都由2个三元组表示。分别是词频,集合频率和向量标准长度分别代表文档文本(第一个三元组)和查询索引项(第二个三元组)。表1定义主要的加权衡量值。使用了3个不同的词频衡量值,包括一个二进制权重(b),标准词频(t)以及标准化词频(n)(0.5到1之间)。这3个词频衡量值代表忽略了集合频率的1(x)的倍数,传统的倒置的集合频率因子(f),和倒置的概率集合频率(p)。最后,长度标准化元素可以存在(c)或不存在(这种情况x就是第三个衡量值)。在先前提到的1800个不同检索词权重的组合,不包含在表1中的附加的加权也被测试了。这些附加的分量没有提供任何本质上的新想法或优点。

表2展示了一些出名的检索词加权系统的实际公式。协调层匹配,简单地反映了在文档和查询中相匹配的检索词数目,分别地,由6倍的bxx*bxx描述。同样地,概率二进制独立加权系统使用二进制文档文本检索,但是一个查询文本的概率逆向集合频率加权表示为bxx*bpx。一个典型的复杂文本加权方案,描述为tfc*nfx,使用规格化的tf*idf作为文档的检索词权重,以一个增强但不标准化的tf*idf元素来作为查询。(因为查询向量对于所有一个集合的所有文档是始终

保持不变,对于所有查询文档相似度测量的查询,查询标准化简单的增加一个常量因子,这不影响最终的文档排名)。

表3在实验中使用的6个文档集合具有的特征的统计信息。最小的集合是一个关于生物医学(MED)的集合,由1033个文档和30个查询组成。最大的集合(INSPES)涵盖计算机工程领域,由12684个文档和84个查询组成。就一切情况而论,查询向量比相应文档向量要短得多。

由11429文档和100查询组成的NPL集合使仅仅有索引形式的(以文档和查询向量的形式)不是原始的自然语言形式。这可能说明了它有点特别的组成。在NPL集合中文档和查询向量都比在其他集合短的多,还有在查询的变化很小。此外,对于NPL集合,检索词频率特别低,每个查询词在一次查询中正好出现一次,检索词的平均频率在文档中唯一。在这些情况下,检索词频权重和长度归一化操作不能表现预期的功能。一个可以猜想NPL索引关键词是仔细挑选的,可能事实上代表特别的受控的检索词而不是自由选择的自然语言条目。

在表4和表5展示典型的评估结果。一些特例中,表4的5个集合的结果是类似的,在这种情况下,最佳结果均由同一文本加权系统产生,最差的结果也是一样。表4的结果和用表5的NPL集合获得的结果有很大不同。首先考虑表4的结果,显然可以得到下列结论:

1,方法1和方法2对所有集合产生可比较的结果,长度归一化对文档十分重要,而且增强查询权重是有效的。这些方法都适用于传统的的自然语言文档及其摘要。

2,方法3不包括向量长度的归一化以及增强查询权重操作。这种非归一化的加权方法(tf*idf)对于像CRAN和MED这样的短查询且长度偏差小的查询效果很差。在这种情况下,增强查询权重(n因子)证明十分重要。

3,方法4是最好的概率加权系统。此方法比方法1和方法2的增加权重的方案效果要差。尤其对于像CISI和INSPEC这种使用长查询向量并且文本需靠文本权重区别的集合来说。

4,方法5-7分别代表古典逆向文档频率加权,独立二进制概率系统和古典文本频率加权。可以看到,通常这些方法对所有集合的检索效果都不好。

5,二进制向量表示的协调层匹配是最差的检索策略之一。

表5中NPL集合实验的结果与表4的明显不同。在这里,使用概率方案用二进制加权查询和非标准化的文档向量更好。下面特殊条件下查询和文档的集合的直接结果:短查询需要全加权文本(b=1),并且应避免通常情况下有效的文本加权,因为很多重要的文本将会在短文档中降级。应优先选择增强词频权重(n 因子)或者全加权(b=1)。早期NPL所得到的检索结果用于展示概率文本加权系统的优越性。表4和表5的结果不支持传统的自然语言文档和查询。

4推荐

下列结论可以从本实验研究的实验证据得出:

4.1查询向量

1.词频分量

1短查询向量,每个检索词都很重要,应当提高优先的查询文本的权

重:前件n

2长查询向量需要对文本检索词进行基于检索词出现频率的更大区

分:前件 t

3当所有查询文本出现的频率都相等且为1时,词频因子可以忽略。

2.集合频率分量

1倒置文档频率因子f与概率文本独立因子p十分相似时:最好使用f。

3.归一化分量

1查询归一化查询不影响查询文档的排序或整体性能;使用x。

4.2文件向量

1.词频分量

1对于专业词汇和有意义的词(CRAN,MED集合),使用增强的频率权重:前件n。

2对于更多不同的词汇,用传统频率加权进行区分。前件t

3对于可能基于受控的词汇短文档的向量,使用全加权文本:前件b=1。

2.集合频率分量

1逆向文档频率因子f与概率词独立性权值p十分相似,通常使用f。

2对于有很多变化的动态文档集合,f需要更新,在此情况下忽略第二

个分量,使用x。

3.长度归一化分量

1当向量长度偏差比较大,常见于文本检索系统,使用长度归一化因

子c。

2长度均等的短文档向量,归一化因子可忽略,这种情况下使用x。

下面的单词加权系统应该作为标准,与使用辞典或其他知识工具来产生复杂文本内容识别的增强的文本检索系统比较:

最好的文档加权tfc,nfc(或者tpc,npc)

最好的查询加权 nfx,tfx,bfx(或者npx,tpx,bpx)

报告评语

教师签字:

日期:成绩

信息检索1讲解

2013春练习 单选题(每题1分,共45题,45分) 1.以下族性检索功能最强的是(A )正确 A.分类途径 B.文献名途径 C.著者途径 D.主题途径 2.科研利用率最高的是(D) A.图书 B.学位论文 C.会议文献 D.期刊 3.等级体系分类法以文献的(未作答)为对象。错误正确答案:B A.出版时间 B.学科性质 C.主题概念 D.题名 4.(未作答)分为单机版和网络版。错误正确答案:B A.联机信息检索系统 B.光盘信息检索系统 C.网络信息检索系统 D.图书馆馆藏检索系统 5.(未作答)是从参考文献着手来查找文献的方法。错误正确答案:D A.顺查法 B.倒查法 C.抽查法 D.追溯法

6.一个截词符代表多个字符指的是(未作答)错误正确答案:C A.后截词 B.中截词 C.无限截词 D.有限截词 7.“-”是布尔逻辑检索中的(C )的运算符。正确 A.与运算 B.或运算 C.非运算 D.异或运算 8.(C )运算的功能是逐步缩小检索范围,提高检索结果的查准率。错误正确答案:A A.与运算 B.或运算 C.非运算 D.异或运算 9.(A )运算的功能是扩大检索范围,增加命中文献量了,提高检索结果的查全率。错误正确答案:B A.与运算 B.或运算 C.非运算 D.异或运算 10.在布尔逻辑检索技术中,用(D )表示在检索结果中只需包含A或者B即可。正确 A. A not B B. A and B C. A - B

D. A or B 11.(未作答)之前,必须输入一个空格。错误正确答案:C A.与运算 B.或运算 C.非运算 D.异或运算 12.如果要查找有关经济管理方面的文献,采用较为合理的检索式为(未作答)。错误正确答案:D A.经济not 管理 B.经济or 管理 C.经济xor 管理 D.经济and 管理 13.《高等数学》的中图分类号是(未作答)错误正确答案:D A.P24 B.X246 C.H13 D.O13 14.在本馆的OPAC中检索孙自筠著《太平公主》,其索书号为(未作答)错误正确答案:A A.I247.53/1928-1 B.P247.53/4250-1 C.X247.53/4250-1 D.T247.53/4250-1 15.ISBN中最后一个数字代表(未作答)。错误正确答案:D A.地区码

信息检索与利用期末复习

《信息检索与利用》考试题型说明: 一、判断题(1×10) 二、单选题(1×20) 客观题要涂答题卡。 三、填空题(2×5) 四、简答题(12×3) 五、实践题(12×2) 信息检索与利用客观复习题 一、判断题 1.在构建关键词时,我们尽量不要用自然语言,而要从自然语言中提炼关键词。 (对) 2.在信息检索时查询词表述准确是获得良好搜索结果的必要前提。(对) 3.目前的搜索引擎能很好的处理自然语言。(错) 4.用户可以通过Google图书搜索在线阅读任何一本搜索到的图书。(错) 5.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检 索。(错) 6.解决读者需求的无限性和馆藏的有限性的矛盾,唯一有效的方法就是在图书馆 间建立合作机制,实现资源共享。(对) 7.关键词语言的最大优点是能用计算机进行自动抽词标引,它适合于计算机自动 编制各种类型的词索引。(对) 8.信息素养由信息意识、信息能力、信息道德三个方面内容构成,其中,信息道 德是前提,信息能力是保证,信息意识是准则。(错) 9.搜索引擎与普通网站不同的是提供一个包含搜索框的页面,它不是一个WWW网 站。(错)

10.用搜索引擎google检索专利和期刊的全文比用中国国家知识产权局专利数据 库、《维普中文科技期刊数据库》等数据库的查全率和查准率都要高。(错)11.GB/T 16159-1996,汉语拼音正词法基本规则[S].北京:中国标准出版社, 1996.该文献类型为标准文献。(对) 12.在搜索引擎中输入“项目管理”和输入““项目管理””检索结果是不一样 的。(对) 13.在搜索引擎中常用的截词符是星号“*”,通常使用右截断。如输入comput*, 将检索出computer、computing、computerized等词汇。(对) 14.通用搜索引擎,如google、baidu、bing、yahoo,并不能囊括所有的网页。(对) 15.不同类型的搜索引擎对同一个主题进行搜索会得到不同的结果。(对) 16.一次文献是指原始创作,即作者以本人的研究成果为基本材料而创作(或撰写) 的文献,主要包括期刊论文、专利说明书、会议论文、科技报告和学位论文等。 (对) 17.从一次文献、二次文献到三次文献,是文献从无序到有序、从无组织到系统化 的过程。(错) 18.题录、目录属于一次文献;期刊论文属于二次文献。(错) 19.关键词和主题词都是表征文献实质性内容的词汇,前者是经过词表规范的,后 者是未经过词表规范的自由词。(错) 20.利用某个图书馆的书刊目录查询系统(OPAC),可以了解该图书馆收藏有哪些印 刷型图书和期刊。(对) 21.截词检索相当于用逻辑“或”扩展检索的范围,可以提高检索的查全率。(对) 22.将“红外线”扩展成“远红外线”和“近红外线”运用了上下位概念扩展法。 (对)、

信息检索与利用实习报告.

《创新实践课》 文献调研报告 调研课题(中文):_Fe3O4/TiO2磁性复合吸附剂的制备及其去除水体中重金属离子机制的研究__ 调研课题(英文):study on the preparation of Fe3O4/TiO2 magnetic composite adsorbent and its adsorption capabilities for removing heavy metals from water___________中文检索词:_氧化铁、Fe3O4、二氧化钛、TiO2、重金属、Hg、、Pb、Cd、银、铅、镉_______英文检索词:iron oxide、Fe3O4、Titanium dioxide、TiO2、heavy metal 、Hg、Pb 、Cd 、silver 、lead 、cadmium、waste water 姓名:朱敏 学号:__201510701137______ 学院:_环境工程与科学学院____ 专业班级:__环工卓越151_____ 授课教师:___陈波_______ 完成日期:2016年_9_月_14_日

一、分析课题 1.1水体重金属污染的来源 水环境保护一直是人类关心的一个大问题,随着工农业的发展,该环境问题也日益凸显,而人们对所处的环境的质量要求越来越高。工业废水中存在各种各样的重金属,如铜、锌、镉、铬、铅和镍等。由于大部分金属离子对人类和其他生物有毒害,在水中难降解、毒性强、具有积累效应等特征,因此对此类废水的排放,需要严格控制以达到排放要求,同时尽可能的回收和再利用这些资源。重金属污染也已成为备受关注的重大环保课题。 重金属废水的来源多种多样。金属冶炼和加工、皮革制造、电镀等行业排放的废水中通常含有三种以上的有毒重金属,且浓度范围变化大。对于金属镉,在金属加工厂、非钢铁的金属冶炼行业和电镀车间的废水中,其浓度在0.02到3 5 mg/L范围内变化。对于来源于铜矿提炼、电镀厂和酸性矿山废水中的重金属铜,其浓度范围在0.1 2到80 mg/L。而电池厂、钢铁制造厂和各种尾矿池废水中铅的浓度在0.5到25 mg/L变化。餐具制造厂、金属表面处理行业、锻炼厂和矿山排放的废水中,镍的浓度可以高达130 mg /L¨J。此外在某些工业废水中,重金属的浓度可以超过1000 mg/L。 1.2重金属污染的危害 重金属污染具有隐蔽性和积累性。含有重金属污染物的废水如果处理不当,可以通过饮用水、食物、呼吸和皮肤接触等途径对人体造成伤害。其毒害作用包括:短期接触对机体的急性毒害作用,如皮肤灼伤、溃烂、哮喘、腹痛等;长期接触引起的慢性疾病甚至致癌和致突变等效应。并且区别于其他污染物的一个显著特点是重金属难以生物降解且具有富集效应,通过食物链的传递,低浓度的重金属最后能够以有害效应的浓度富集于人和动物体内,造成极大的危害。不同的重金属对人体的毒害效应不同。某些重金属是人体需要的,如铜、锌、三价铬等,但是他们一旦超出允许的浓度范围,就会对人体产生毒害作用。而诸如六价铬、铅和镉等是人体不需要的,但是由于他们大量存在于工业废水中,可以通过各种途径进入人体,造成危害。 1.3重金属污染的治理方法 在各种废水处理技术中,化学沉淀法、离子交换法和活性碳吸附应用得最为广泛。在实际的操作中,具体选择何种处理方法,受到多种因素的影响。包括废水中重金属的种类和浓度,废水中的其他组分,预期的去除量,处理工艺的投入资金和操作成本,处理废水的环境排放标准,污泥的产生量以及他们的处理费用…,121。对于任何含有一种或者多种重金属废水的处理,需要掌握其废水的排放量和理化性质,以便选择最合适的方法来去除污染物。下面对各种处理方法进行简单的介绍: 1.3.1混凝法 混凝法是常见的处理废水污染的方法之一。其操作过程是加入混凝剂到待处理的水中,使其和污染物进行理化反应,最终生成沉淀而去除磁性纳米复合物的制各及其去除环境污染物的研究污染物质。常用的混凝剂有硫酸铝、碱式氯化铝、硫酸亚铁、三氯化铁等。而随着材料科学和环境技术的不断发展,以后在高分子复合混凝剂,微生物混凝剂的开发及其改性方面的研究工作会越来越多。

信息检索综合报告2011

信息检索综合报告 姓名: 洪海杉 学号: 200704042012 学院: 动力与能源工程学院 2011年5月12日

课题名称(中文): 手指书写:一种虚拟文字识别人机交互新方法 课题名称(英文): Finger Writing:A Novel Virtual Character Recognition HCI Approach 课题重点、关键词、主题词等分析(中英文): 课题重点:文章主要提出了一种全新的手指挥书写虚拟文字识别系统,该系统利用摄像头捕捉人手指的运动轨迹,通过手指跟踪及检测算法,恢复出手指虚拟“书写”文字的二维图像数据(称之为虚拟文字),再进行识别输出。 关键词:手指书写(Finger Writing)、虚拟文字识别(Virtual Character Recognition)、字符识别(Character Recognition)、手指跟踪(Fingertip Tracking)、人机交互(Human Machine Interaction) 主题词:手指书写(Finger Writing)、文字识别(Character Recognition)、人机交互(Human Machine Interaction)

一、中文全文数据库检索 从CNKI、万方数据库资源、读秀、人大复印报刊资料等中文全文数据库中选择2种数据库进行全文检索 数据库1:CNKI中国期刊全文数据库 检索式1:全文='手指书写' 精确 检索式2:关键词='文字识别' 精确 检索式3:关键词='人机交互' 精确 年限(取近5年):2005-2010 限定类目:工业技术—自动化技术、计算机技术 检索途径:高级检索 检索式1检出篇数:25 检索式2检出篇数:172 检索式3检出篇数:2219 题录(3篇) 1.金连文、徐睿、杨端端、镇立新、黄建成;手指书写:一种虚拟文字识别人机交互新方法;电子学报2007年03期396-401 2.郭康德、张明敏、孙超、李扬、汤兴;基于视觉技术的三维指尖跟踪算法;计算机研究与发展2010年06期1013-1019 3.杨端端、金连文、尹俊勋;手指书写汉字识别系统中的指尖检测方法;华南理工大学学报(自然科学版)2007年01期58-63

《信息检索与利用》期末复习1

《信息检索与利用》期末复习 试题题型 一、填空题(每空3分,共15分) 二、选择题(每题3分,共30分) 三、判断题(每题3分,共30分) 四、简答题(共25分) 1.(12分) 2.(13分) 复习题 第一章信息资源检索基础知识 一、填空题 1.___________________________是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。信息 2.___________________________是在改造客观世界的实践中获得的对客观事物存在和运动规律的认知和总结,是人的大脑通过思维重新组合的系统化的信息的集合。知识 3.___________________________是人们用来解决特定问题所需要的、经过激活过程活化了的具有使用价值的知识或信息。情报 4.___________________________是在存储检索利用或传递记录信息的过程中,可作为一个单元处理的,在载体内、载体上或依附载体而存有信息或数据的载体。文献 5.___________________________是指在国内外学术或非学术会议上发表的论文或报告。会议文献 6.___________________________是高等院校和科研机构的毕业生为获取各级学位在导师指导下撰写和提交和科学研究、科学实验的书面报告。学位论文 7.___________________________是对文献内容和形式特征进行选择和记录的过程。著录8.___________________________是指特定的数值型数据为对象的检索。数据检索 9.___________________________是指以特定的事实为目标的检索。事实检索 10.事实与数据检索工具主要依靠各类___________________________完成各种数据或事实的查询。参考工具书 11.按照结构原理,信息检索语言可以分为_____________________、____________________、

信息检索与利用综合检索报告

信息检索与利用 综合检索报告 课题名称:水稻干旱和盐胁迫相关天然反义RNA的初步鉴定 学院:化学与生命科学学院 专业:化学132班 学号:13240211 姓名:李敏 2014年4月

1、分析课题 课题涉及生物化学、无机化学、生物技术领域,技术要点多,要求检索近十年来的中外文专刊、期刊、学位论文等。最好采用主题途径,检索词有水稻、干旱、盐、天然反义RNA、转录、遗传;英文单词是paddy、dry、salt、Natural antisense RNA、transcription、genetic。 2、选择的主要检索工具 选择读秀数据库、CNKI、sciencedirect、web of science、万方学位论文数据库、PQDT博硕士论文全文数据库等国内外主要的数据库,并利用Google 进行了补充查找。 中文科技期刊数据库的检索式:m=(水稻*干旱* 盐*(天然反义RNA+转录+遗传))。 外文数据基本检索式:paddy and dry and salt and (“Natural antisense RNA” or “transcription” or “genetic”。 3、检出文献 用上述检索工具检索,经筛选,列出与课题最密切相关的5条文献。 独秀数据库:检出文献篇数732篇,经筛选列出如下5篇相关文献 (1)毕延震,黄捷,姜黎.天然反义RNA(NATs):基因表达的重要调控分子.中国生 物化学与分子生物学报. ISSN:1007-7626.

(2)周玲艳,姜大刚等. 水稻蜡质合成相关基因OsCER4自身启动子驱动的反义RNA 转化植株获得. 华南农业大学学报.ISSN:1001-411X. 摘要: (3)陈坚,连肖华等. 水稻转录因子基因SUSIRI的过表达及RNA干扰对水稻分子 及表型效应的分析. 分子植物育种ISSN:1672-416X 摘要: 在克隆到水稻转录因子基因SUSIRI的基础上,构建其过表达及RNA干扰载体进行水稻的遗传转化.由潮霉素筛选及分子检测得到的T0代植株经大田栽植,共有34株过表达及46株RNA干扰植株获得T1代转基因种子.继续种植T1植株收获T2代种子,同时用半定量RT-PCR分析苗期及穗期野生型水稻中SUSIRI基因的时空表达谱并比较过表达及RNA干扰植株的SUSIRI基因在叶片及幼穗中的表达状况,发现过表达植株与野生型对照的基因表达基本相同,但RNA干扰植株的表达受到明显抑制.

《信息检索》综合检索报告-撰写规范与题目

信息检索综合检索报告

1 说明 利用所学的文献信息检索知识和检索方法,结合自己的专业,在附录中选定一个课题(也可以自定检索课题)从多方面广泛收集有关资料,并完成该课题的综合检索报告。 1.1 数据库选择要求 (1) 中文数据库(CNKI系列资源库、维普科技期刊数据库) (2) 外文数据库(EBSCO外文刊,SPRINGER数据库) (3) 搜索引擎(google、百度等)及本专业免费资源站点 1.2 条目解释 (1) “检索年限”:范围限定在最近十年以内,各种数据库(检索工具)尽量选用同等年限,以便之后根据检索结果进行比较,从而加深对各类数据库(检索工具)的认识。 (2) “检索词”:在写出检索词的同时需注明检索词的性质,即检索项,如:题名、主题、关键词、摘要、作者、作者单位、来源、全文、参考文献、基金等。(注意:数据库不同,检索项的表达方式不同) (3) “逻辑检索表达式”:运用布尔逻辑运算符来表达检索词与检索词之间逻辑关系。如:要查找儿童教育方面的文献,逻辑检索表达式可表示为“教育and 儿童”或“教育并且儿童”。(参见教材第42页的讲解) (4) “题录”:只含著录事项而无摘要的文献款目。(注:题录要按各数据库的文献著录格式抄录)。 (5) 每种检索系统检索完毕后,记录检索结果(检出文献篇数),按规定条数列出与课题密切相关的文献题录(不足规定条数的请注明原因)。 (6) “参考文献回溯”:通过检索获得相关文献后,挑选密切相关的一篇论文作为引用文献,在其原文后的参考文献(references)中再挑选一篇较有价值的文献作为被引用文献,分别写出引用文献与被引用文献的作者姓名、文献篇名以及文献出处等。 1.3 重要要求 (1) 综合报告以组为单位,每组人数5-8人。超过8人则仅为名单中前面8人计分,第9名起不计分。 (2) 文档首页必须包括每组学生的姓名和编号。 (3) 综合检索报告请于课程结束后1周内将电子文档发给授课教师。 (4) 电子文档采用Word 2003或者2007编写,格式严格按照范本1或范本2提供的格式进行

文献检索期末考试卷

《信息检索与利用》试题(本科) 一、单项选择题(每题1.5分,共30分) 1. 人类社会的三大资源是(A ) (A)物质、能源、信息(B)物质、人力、资本 (C)物质、能源、管理(D)信息、管理、人力 2. 就信息与物质、能量的关系而言( D ) (A)信息是一种物质(B)信息是一种物质,同时具有一定的能量(C)信息是一种能量(D)信息既非物质,也非能量 3. 信息论的创始人是( D ) (A)美国数学家哈特莱(B)美国数学家维纳 (C)中国数学家华罗庚(D)美国数学家香农 4.信息资源的本质特征是( B ) (A)依附性与可传递性(B)知识性与共享性 (C)共享性与价值不定性(D)可传递性与共享性 5. 如果分别以检索词a、b、c在某数据库的关键词字段进行检索都能得到相

应的检索结果,结果不为0,下面哪个检索式表示检索结果数最少( A )(A)a and b and c (B)a and b or c (C)a or b or c (D)a or b and c 6. 根据加工深度来划分文献,学位论文属于( B ) (A)零次文献(B)一次文献 (C)二次文献(D)三次文献 7. CNKI 是以下哪一种称谓的简称( C ) (A)清华同方(B)重庆维普 (C)中国知识基础设施(D)中国期刊全文数据库 8. 扩大检索范围的方式是(B ) (A)使用“逻辑与”(B)使用“逻辑或” (C)使用“逻辑非”(D)使用优先运算符 9. 下列能够检索图书信息的数据库是(D ) (A)维普《中文科技期刊数据库》(B)万方数据资源系统 (C)人大复印报刊资料全文数据库(D)超星数字图书馆 10. 下列属于一次文献的正确答案是( C ) (A)专刊说明书、索引、文摘刊物(B)期刊论文、私人笔记、百科

信息检索与利用题集及答案》

《信息资源检索与利用100题集及答案》 姓名:陈晨 学号:110803021101 班级:11级材料一班 第一章绪论 1.简述科技文献检索的意义。 答:人们无论学习、工作,还是进行科学研究,都离不开文献的检与利用。具体来说,科技文献检索 具有以下六个方面的意义:(1)有利于大学生信息素养的培育;(2)有利于复合性、开拓性人才的培养;(3)有利于促进智力资源的开发利用,推动社会进步与发展;(4)有利于帮助研究人员继承和借鉴前人的 成果,避免重复研究和走弯路;(5)有利于节省研究人员查找文献的时间,提高科研效率;(6)有利于为决策提供科学依据。 2.信息、知识、情报、文献的概念是什么? 答:(1)信息是被反映事物属性的再现。信息不是事物本身,而是由事物发出的消息、指令、数据等 所包含的内容。 (2)知识是人类认识的成果和结晶,是人类在认识和改造世界的社会实践中获得的对事物本质的认识。 (3)情报是人们在一定时间内为一定目的而传递的具有使用价值的知识或信息。 (4)文献是各种知识或信息载体的总称。其由知识信息内容、载体材料和记录方式三要素组成。 3.试述科技文献检索的定义及作用。 答:所谓科技文献检索,是指文献资料的查找与获得。其作用是检索者利用检索工具按照文献编排特 点,采取一定的途径、方法和步骤迅速、准确地查获自己所需要的文献资料,便于学习、工作和进行科学研 究。 4.科技文献有什么特点? 答:现代科技文献的发展具有以下明显特点:(1)数量急剧增长;(2)内容交叉重复;(3)文献出版分散;(4)文献失效加快;(5)文献语种增多;(6)文献载体电子化,文献传播网络化。 5.试述一、二、三次文献的概念?它们之间的关系如何? 答:(1)一次文献是作者在科学研究、教学和生产实践中以自己的研究成果为依据创作而成的文献, 又称一级文献或原始文献; (2)二次文献是文献情报人员将大量分散的、无序的原始文献进行筛选、整理、报道和组织所形成的 文献,又称二级文献或检索性文献; (3)三级文献是利用二级文献的线索,系统地检索出一批相关文献,并对其内容进行综合、分析、研 究和评述而编写出来的文献,又称三级文献或参考性文献。 关系:从一次文献到二次文献、三次文献是一个由博到约、由分散到集中、由无须到有序、由有序到 有机的结构化、系统化的程。 6.文献有哪些属性? 答:(1)知识信息性;(2)物质实体性;(3)人工记录性;(4)动态发展性。 7.文献的功能有哪些? 答:(1)存储知识信息;(2)传递知识信息;(3)教育与娱乐功能。 8.科技文献出版的种类有哪些?

信息检索综合报告

课题综合报告 信息管理学院《信息检索》课程综述报告 课题名称:基于用户行为分析的个性化推荐系统综述 院系:信息管理学院 姓名:许 学号:2011213935 指导老师:张自然 华中师范大学

课题综合检索报告 一:课题名称: (中文)基于用户行为分析的个性化推荐系统 (英文)An e-commerce personalized recommendationservice on context-aware 二:课题分析: 随着时代的进步,科学技术日新月异,与此同时,人们面临的信息也越来越多。时下较为热门的一个词“大数据时代”较为形象的刻画了,现代化信息时代人们面对的数据量的巨大。在这样一种背景下,如何利用已有的信息,如何在大量的信息中获得用户需要的信息,如何将这些信息迅速的反馈到用户就成为了时下急需解决问题。利用计算机及网络资源,尽可能多的分析用户的信息需求,根据用户的行为分析用户可能的需求是一种较为有效是方法。个性化推荐是一种新兴的信息过滤技术。它从用户的历史行为数据中发现用户的兴趣偏好,采用“推送”的方式,将用户感兴趣的信息从大量数据中过滤出来,并根据用户对信息“感兴趣”的程度,按一定的方式将相关信息呈现在用户面前。对于电子商务平台而言,使用个性化推荐技术,有助于提升平台的优势,增加利益攸关方的收益。而为了提供个性化推荐,情境感知技术必不可少,情境感知是实现针对用户的个性化推荐服务的基础,如何对用户产生的信息碎片进行分析与筛选,进而分析并提供个性化推荐信息是国内外学者们都研究的热点,也是研究个性化的用户服务的首要任务。 三:关键词: 用户行为、个性化推荐; (英文)Users Behavior、Personalized Recommendation 用户行为:在数字图书馆的系统环境下,网络用户行为就是指浏览、检索、下载、定制、保存,同时还结合一些用户的特殊信息,比如用户的需求、偏好、知识背景,研究方向等等。 个性化推荐:对用户行为分析完成之后,推荐模式与情境信息建立关联,如果同时考虑用户在使用网络过程中喜好的偏差问题,不同的平台需要不同的信息,如何根据最大化 四:检索策略: 拟定的检索式: 用户行为and个性化推荐 (用户行为OR用户偏好)AND(个性化推荐OR信息服务)AND系统 英文:“user behavior”and “PersonalizedRecommendation” and “system” 实际检索时再根据需要对单词进行截词等扩检。 五:选择数据库 以中国知CNKI、Elsevier,中国学术会议在线,dialog信息检索平台,并利用Google 等搜索引擎工具以辅助检索。 六:检索步骤 由于dailog数据库资源限制及网络限制, 所以外文文献的原文全文参考相对较少。由于检索目的是综述用,故检索过程更加注重查准率。 1.首先进入CNKI搜索引擎,选择高级检索,主题检索并输入“用户行为”and“个性化推 荐”为关键字,选择精确匹查找,得到127条结果;观察结果发现前两页相关度不错,

最新信息检索与利用试卷及答案

一、单项选择题(30分) 1.( B )的主要功能是检索、通报、控制一次文献,帮助人们在较短时间内获取较多的文献信息。7 A.零次文献B.二次文献C.一次文献D.三次文献 2.一次文献、二次文献、三次文献是按照( A )进行区分的。7 A.加工深度B.原创的层次C.印刷的次数D.评论的次数 3.从文献的( B )角度区分,可将文献分为印刷型、缩微型等。6 A.内容公开次数B.载体类型C.出版类型D.公开程度 4.具有固定名称、统一出版形式和一定出版规律的定期或不定期的连续出版物,称为( D )。8 A.图书B.会议文献C.学位论文D.期刊 5.( A )类型的专业文献出版周期最短、发行量最大、报道最迅速及时,成为多数论文发表渠道。8 A.期刊B.报纸C.会议文献D.专利 6.在公开出版物中,当前的(C )反映的信息内容可能最新。8 A.学位论文B.标准文献C.期刊论文D.报纸文献 7.当我们需要对陌生知识作一般了解时,我们可先参考( C )文献。8 A.专利B.报告C.图书D.标准 8.利用文献后面所附的参考文献进行检索的方法称为( A )。31 A.追溯法B.直接法C.抽查法D.综合法 9.中国图书馆图书分类法的分类号采用了( A )体系。34 A.拼音字母+数字B.英语字母+数字C.全部拼音字母D.全部数字 10.( B )是以报道文献出版或收藏信息为主要功能的工具。 A.题录B.索引C.文摘D.目录 11.按照顺序表述文献检索常用的五个步骤是( D )。32 A.明确要求和分析课题,选择检索系统,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略B.明确要求和分析课题,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略,选择检索系统C.明确要求和分析课题,实施检索以及调整检索策略,选择检索系统,获取原文,确定检索途径和检索策略D.明确要求和分析课题,选择检索系统,确定检索途径和检索策略,实施检索以及调整检索策略,获取原文12.图书分类法中,类名之间的上下位关系反映了学科概念之间的( A )关系。34 A.包含B.排斥C.延伸D.相容 13.图书分类法中,类名之间的同位类关系一般反映了学科概念之间的( B )关系。34 A.包含B.排斥c.延伸D.相容 14.分类途径是按照文献信息所属的学科门类,利用( D )进行检索的途径。29 A.学科名称B.专业名称C.分类号及其分类名D.A、B、C均可 15.如果希望查找“对用后均法进行数据处理的讨论”这个课题相关的文献,较好的检索词应该是( C )。36 A.后均法,进行,数据处理B.后均法,数据处理C.后均法,进行,数据处理,讨论D.用,后均法,进行,数据处理 16.如果希望查找“对宋词韵律的美学思考”这个课题相关的文献,较好的检索词应该是(A )。36 A.宋词,韵律,美学,思考B.宋词,韵律,美学C.宋词,美学,思考D.宋词,韵律,思考 17.逻辑“与”算符是用来组配( D )。41

信息检索基础1

一、单项选择题 ?1、未经出版发行的或者没有进入社会交流的最原始的文献称为() ? A 一次文献 B 二次文献 C 三次文献 D 零次文献 ?2、利用文献后面所附的参考文献进行检索的方法称为( )。 ? A 追溯法 B 直接法 C 抽查法 D 综合法 ?3、根据叙词的定义,在下面一组概念中,应将( )选作叙词。 ? A 脚踏车 B 自行车 C 单车 D 坤车 ?4、EBSCO和百度的图片搜索数据库属于( )数据库。 ? A 文字型 B 数值型 C 文字+数值型 D 多媒体型 ?5、若想排除某概念,以缩小检索范围,可使用( )算符。 ? A 逻辑“与” B 逻辑“非” C 逻辑“或” D 位置?6、下面不是布尔逻辑算符的是 ? A NOT B 0R C AND D NEAR ?7、下列不是特种文献的有 ? A 专利文献 B 学位论文 C 政府出版物 D 电子图书?8、以下检索算符中,能够相对实现"扩检”功能的是: ? A and B (W) C ? D “ ” ?9、利用baidu搜索信息时,要将检索范围限制在网页标题中,应该使用的语法是: ? A site: B intitle: C inurl: D info: ?10、已知下列书目信息:“陈享光著.货币经济学导论.北京:经济科学出版社,2000年7月,4-11”通过使用( )可以获取其原文的图书馆收藏信息。 ? A 中国学术期刊全文数据库 B OPAC书目信息数据库 C 电 子图书全文数据库 D 中文期刊目录 ?11、当选用泛指的检索词或增加与检索主题概念相关的检索词并用逻辑“或”进行组配时,()就较高。

? A 查准率 B 查全率 C 漏检率 D 误检率 ?12、布尔逻辑()是用于从某一检索范围中排除不需要的概念。 ? A 与 B 或 C 非 D ?13、根据布拉德福文献分散定律,阅读( )文献是一种有效的情报获取方法。 ? A 相关期刊 B 边缘期刊 C 核心期刊 D 以上三项 ?14、竞争情报的内容主要有() ? A 知已、知彼、知环境 B 全面了解本企业 C 充分了解企业的竞争对手情况 D 了解国家各项政策信息 二、多项项选择题 ?1、概念( )之间属于上下位关系。 ? A 家用电器与电视机 B 局域网与LAN C 计算机与电脑 D 硅酸盐与陶瓷 ?2、概念( )之间属于同一概念的扩展关系。 ? A 电脑与手提电脑 B 乙醇与酒精 C fiber与fibre D 手机与移动通信 ?3、概念()之间属于上下位关系。 ? A 家用电器与电视机 B 局域网与LAN C 计算机与电脑 D 数学与几何 ?解释:。BC属于同一概念的不同说法。 ?4、下列哪些手段会达到缩小检索范围,提高查准率的作用?( ) ? A 字段检索 B 截词检索 C 逻辑与 D 使用上位词 ?5、下列关于计算机信息检索的说法正确的事( )。

信息检索与利用试卷及答案1

信息检索与利用试卷及答案1

信息检索期末试卷 班级物流1081 姓名吴新华学号1081508130 一、单项选择题(30分) 1.( B )的主要功能是检索、通报、控制一次文献,帮助人们在较短时间内获取较多的文献信息。7 A.零次文献B.二次文献C.一次文献D.三次文献 2.一次文献、二次文献、三次文献是按照( A )进行区分的。7 A.加工深度B.原创的层次C.印刷的次数D.评论的次数 3.从文献的( B )角度区分,可将文献分为印刷型、缩微型等。6 A.内容公开次数B.载体类型C.出版类型D.公开程度 4.具有固定名称、统一出版形式和一定出版规律的定期或不定期的连续出版物,称为( D )。8 A.图书B.会议文献C.学位论文D.期刊5.( A )类型的专业文献出版周期最短、发行量最大、报道最迅速及时,成为多数论文发表

渠道。8 A.期刊B.报纸C.会议文献D.专利 6.在公开出版物中,当前的(C )反映的信息内容可能最新。8 A.学位论文B.标准文献C.期刊论文D.报纸文献 7.当我们需要对陌生知识作一般了解时,我们可先参考( C )文献。8 A.专利B.报告C.图书D.标准 8.利用文献后面所附的参考文献进行检索的方法称为( A )。31 A.追溯法B.直接法C.抽查法D.综合法 9.中国图书馆图书分类法的分类号采用了( A )体系。34 A.拼音字母+数字B.英语字母+数字C.全部拼音字母D.全部数字 10.( B )是以报道文献出版或收藏信息为主要功能的工具。 A.题录B.索引C.文摘D.目录 11.按照顺序表述文献检索常用的五个步骤是( D )。32

信息检索1

一、判断题 1.截词检索相当于用逻辑“或”扩展检索的范围,可以提高检索的查全率。(对) 2.解决读者需求的无限性和馆藏的有限性的矛盾,唯一有效的方法就是在图书馆间建立合作机制,实现资源共享。(对) 3.利用某个图书馆的书刊目录查询系统(OPAC),可以了解该图书馆收藏有哪些印刷型图书和期刊。(对) 括的若干信息分析摘录出来作为排检标识。(对) 4.索引与目录的主要区别在于:目录是对某一种出版物作整体的著录,索引可将文献所包 5.通用搜索引擎,如google、baidu、bing、yahoo,并不能囊括所有的网页。(对) 6.一项发明创造要获得专利权必须具备新颖性、创造性和实用性。(对) 7.一次文献是指原始创作,即作者以本人的研究成果为基本材料而创作(或撰写)的文献,主要包括期刊论文、专利说明书、会议论文、科技报告和学位论文等。(对) 8.由于人工干预过少,而且搜索引擎大多采用自然语言标引和检索,搜索引擎检索结果中会有很多冗余信息。(对) 9.在构建关键词时,我们尽量不要用自然语言,而要从自然语言中提炼关键词。(对) 10.在信息检索时查询词表述准确是获得良好搜索结果的必要前提。(对) 11.在搜索引擎中输入“项目管理”和输入““项目管理””检索结果是不一样的。(对) 12.在搜索引擎中常用的截词符是星号“*”,通常使用右截断。如输入comput*,将检索出computer、computing、computerized等词汇。(对) 13.从一次文献、二次文献到三次文献,是文献从无序到有序、从无组织到系统化的过程。(错) 14.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检索。(错) 15.关键词和主题词都是表征文献实质性内容的词汇,前者是经过词表规范的,后者是未经过词表规范的自由词。(错) 16.将撰写论文的作者的署名顺序颠倒对作者的署名著作权没有侵害。(错) 17.目前的搜索引擎能很好的处理自然语言。(错) 18.搜索引擎与普通网站不同的是提供一个包含搜索框的页面,它不是一个WWW网站。(错) 19.搜索引擎的命中率、准确率、查全率都比较高。(错) 20.题录、目录属于一次文献;期刊论文属于二次文献。(错) 21.信息是指在特定时间、特定状态下对特定的人提供的有用的知识。(错) 22.用户可以通过Google图书搜索在线阅读任何一本搜索到的图书。(错) 23.在撰写学位论文的时候,为了照顾到论文的新颖性可以不考虑其观点的实际意义。(错) 二、选择题 A1.按照主题词的选词方式习惯上可分为标题索引、单元词索引、关键词索引、叙词索引。请问,将“经济核算”拆分为“经济”和“核算”属于其中的哪种呢?(B.单元词索引) B2.毕业论文答辩的一般程序是?(B.②③①④) C3.查找中国教育网上关于“e-learning”的word文档,应在搜索引擎中输入:(B.e-learningfiletype:docsite:https://www.360docs.net/doc/ba9370385.html,) 4.查找所有链接到https://www.360docs.net/doc/ba9370385.html, 的网页,应在搜索引擎中输入:(C.link: https://www.360docs.net/doc/ba9370385.html,) F5.凡是以作者本人的生产与科研工作成果为依据而创作的原始文献,称为( A.一次信息)。 G6.概念(A.家用电器与电视机)之间属于上下位关系。 7.Google服务列表中域名为https://www.360docs.net/doc/ba9370385.html, 主要进行哪方面搜索?( D.学术搜索) L8.利用文献末尾所附参考文献进行检索的方法是(C.引文追溯法)。 M9.某人打算去上海图书馆阅读一本期刊,其刊号是1007-2179,请选择在查询该期刊时应选择下列哪种检索途径?(C.ISSN) N10. “能树立正确的人生观、价值观,能够自觉清除信息垃圾,避开有害信息,抵制不良信息的侵蚀和干扰”,这句话描述了哪种信息能力?(A.信息免疫能力) 11.“能够分析、加工已获得的信息,并将其转化为自己能够利用的信息的能力”,这种能力描述了哪种信息能力?(C.信息处理能力) R12.如果需要检索某位作者的文献被引用的情况,应该检索(C.引文索引) 13.如果希望了解某种产品在使用中可能出现哪些故障,存在哪些缺陷,最好通过下列哪种渠道检索?( C.产品论坛)S14.学术论文写作的六个步骤的正确顺序是:(C.④①②⑤③⑥)

信息检索与利用(期末考试题)

《信息检索与利用·农业》试题 姓名申秀军学号w320206220257 专业会计学 一、单选题(20分,每题1分) 1、个人信息源又称为(B )。 A、文献信息源 B、口头信息源 C、生物信息源 D、实物信息源 2、文献是记录有知识的(A)。 A、载体 B、纸张 C、光盘 D、磁盘 3、下列哪种文献属于一次文献( A )。 A、期刊论文 B、百科全书 C、综述 D、文摘 4、下列哪种文献属于二次文献( D )。 A、专利文献 B、学位论文 C、会议文献 D、目录 5、下列哪种文献属于三次文献( C )。 A、标准文献 B、学位论文 C、综述 D、文摘 6、下列选项中属于连续出版物类型的选项有( A )。 A、人民日报 B、学位论文 C、科技期刊 D、会议文献 7、下列选项中属于特种文献类型的有( D )。 A、学位论文 B、图书 C、科技期刊 D、标准文献 8、纸质信息源的载体是(D) A、光盘 B、缩微平片 C、感光材料 D、纸张 9、《中国图书分类法》(简称《中图法》)将图书分成( A) A 5大部分22个大类 B 5大部分26个大类 C 6大部分22个大类 D 6大部分26个大类 10、《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在(A)类目下查找。 A、S类目 B、Q类目 C、T 类目 D、R类目

11、使用逻辑“与”是为了(B) A、提高查全率 B、提高查准率 C、减少漏检率 D、提高利用率 12、使用逻辑“或”是为了(A) A、提高查全率 B、提高查准率 C、缩小检索范围 D、提高利用率 13、利用文献末尾所附参考文献进行检索的方法是( C ) A、倒查法 B、顺查法 C、引文追溯法 D、抽查法 14、至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合, 称为(A)。 A、数据库 B、记录 C、字段 D、文档 15、广义的信息检索包含两个过程(B ) A、检索与利用 B、存储与检索 C、存储与利用 D、检索与报道 16、要查找李平老师所发表的文章,首选途径为( A ) A、着者途径 B、分类途径 C、主题途径 D、刊名途径 17、狭义的专利文献是指(C ) A、专利公报 B、专利目录 C、专利说明书 D、专利索引 18、中国国家标准的代码是( A ) A、GB B、CB C、ZG D、CG 19、政府出版物主要包括两大类型的文献(B ) A、专利与标准 B、行政文件与科技文献 C、图书与期刊 D、档案与标准 20、ISBN是( B)的缩写 A、国际标准刊号 B、国际标准书号 C、连续出版物代码 D、国内统一刊号 二、多选题(20分,每题2分) 1、文献的构成要素( ABC) A、信息内容 B、载体材料 C、信息符号 D、纸、光盘 2、下列各项哪些属于文献( AC ) A、图书、期刊 B、光盘、磁盘 C、光盘数据库 D、纸张 3、期刊论文的外部特征有( ABC ) A、文献题目 B、着者 C、文献出处 D、主题词 4、图书的外部特征有( BCD )

信息检索与利用报告

信 息 检 索 与 利 用 报 告 系别:土木工程系 专业:给水排水工程 班级:0914711 姓名:陈俊杰 学号:147109025 指导教师:阎旭

目录 1、报告概况 1.1、课题名称 1.2检索介绍 2、研究问题的信息检索过程和方法 2.1、检索设计 2.2、制定检索策略 2.3、选择检索方法 3、课题检索报告 4、检索效果评估 5、体会

信息检索与利用 ——我国管材工艺的现状及发展方向 1、报告概况 1.1、选择的课题及原因 【课题】我国管材工艺现状及发展方向 【原因】塑料管是近几十年来发展起来的新型管材。在国家产业政策的支持下,我国塑料管发展很快,“九五”期间,塑料管道国产化率达到80%以上,不仅在数量上,而且在品种、规格和质量上都得到了很大发展。 塑料管材也是我国“十五”期间重点推广的化学建材之一。《国家化学建材产业“十五”计划和2010年发展规划纲要》对塑料管道的发展目标:到2015年建筑电线穿线护套管90%采用塑料管,建筑雨水排水管70%采用塑料管;建筑给水、热水供应和供暖管80%采用塑料管,基本淘汰镀锌钢管。城市供水管道(dn400以下)70%采用塑料管,村镇供水管道70%采用塑料管,城市燃气塑料管(中低压管)的应用量达到60%;城市排水管道的塑料管使用量达到50%。所以管材的研究也成为热门。 1.2、需解决的问题 (1)我国管材工业的现状如何? (2)我们国家塑料管材的发展方向?

1.3、关键词分析 中国国内我国管材工艺应用现状 塑料管材发展方向发展趋势 2、研究问题的信息检索过程和方法 2.1检索设计 近几年国家对新型管材的广泛开发、应用及其应用前景的大力支持和推广。塑料管材有耐腐蚀、易安装、综合成本低、节能、流体摩阻小、不污染环境、不污染被输送水等优点。但是,在承压能力方面,由于塑料压力管的应用领域不是向极端高压方向发展,而是在一定的压力和管径范围里发展,所以一般可以达到设计应用的要求。 塑料管材的另一个优点是变形能力大,在地震等地质情况发生变化时,具有高伸长率的管材很有优势。在一定的使用压力之下,塑料管成功地取代了金属管,作为给水管、排水管、燃气管、农业排灌管、建筑用热水管、电力电缆护套管等,广泛应用于石油化工、建筑、市政、农业灌溉、电力通信等行业。 2.2制定检索策略 1)选择检索手段: 本课题的检索手段主要为计算机检索。 2)选择检索工具数据库: 中国学术期刊网络出版总库 3)编制检索式,选择检索字段:

相关文档
最新文档