《信息检索导论》课后习题答案

合集下载

信息检索技术习题答案(2012版)

信息检索技术习题答案(2012版)

答案******************************* 一 ********************************************填空1.数值型文字型(字符)语音型图像型2.原料成品3.信息4.自然人为5.数据文本声音图像6.语义差异传递载体7.外表整体内容8.收集传输加工储存(存储)9.信息形式信息内容10.内在的信息需要外在刺激11.标题词单元词叙词关键词12.线性结构非线性结构树形结构网状结构13.数据预处理索引生成查询处理检索14.信息需求信息集合15.出发点依据16.人工赋予自动生成名词解释1.数据:是指记载下来的事实,是客观实体属性的值,它是由原始事实组成的。

2.信息加工:是指对获取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。

3.信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。

4.检索标识:就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。

5.信息检索:可以从广义和狭义两个角度理解。

广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程,其中包括存与取两个方面。

狭义的信息检索仅指信息查找过程。

6.信息检索系统:是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系,是表征有序的信息特征的集合体。

7.检索效果:是指利用检索系统(或工具)开展检索服务时所产生的有效结果。

简答题1.简述了解用户信息需求的作用答:用户信息需求是信息系统发展的动力,也是制定信息政策的出发点和依据。

了解用户需求的特点、心理规律、查询行为及需求方式,有助于系统制订合理的信息搜集方针和信息资源的合理布局,从而提高服务效益和质量。

2020智慧树知道网课《信息检索》课后章节测试满分答案

2020智慧树知道网课《信息检索》课后章节测试满分答案

第一章测试1【判断题】(4分)在大多数情况下,检索的目的是为了找到相关文献,而不是答案。

A.错B.对2【单选题】(4分)关于信息的概念,下面不同定义中不正确的说法是()A.信息是用以消除随机不定性的东西B.信息是指对消息接受者来说预先不知道的报道C.信息是那些只能由计算机进行处理的数据资料D.在计算机技术中,信息是经过组合后具有一定意义,能表明客观属性的数据集合3【单选题】(4分)信息论的创始人是()A.巴达拉科B.维纳C.香农D.野中郁次郎4【单选题】(4分)文献是记录有知识的()A.载体B.纸张C.磁盘D.光盘5【判断题】(4分)文献是记录知识的一切载体,即用文字、图像、符号等手段记录人类知识的各种载体()A.对B.错6【单选题】(4分)文献虽然是信息、知识、记录符号和物质载体的统一体,它的内涵是()A.知识B.专利C.图书D.期刊7【判断题】(4分)知识是人们通过信息对自然办、人类社会以及思维活动规律的认识与掌握,是人的大脑通过思维重新组合的信息集合。

A.错B.对8【单选题】(4分)广义的信息检索包含两个过程()A.存储与利用B.检索与报道C.检索与利用D.存储与检索9【单选题】(4分)小刘计划今天与好友到郊外野营,他从报纸上获得了天气情况良好,于是他们出发了。

不料,中午时分狂风暴雨大作,于是他们埋怨天气预报不准确。

当他回到家里再拿出报纸核实,原来那是几天前的报纸。

经分析,由于小刘对信息的()特征没有做出慎重判断,以致野营不能顺利进行。

A.信息的价值性B.信息的时效性C.信息的来源D.信息的共享性10【单选题】(4分)逻辑运算符包括()A.逻辑非B.A,B和CC.逻辑或D.逻辑与11【单选题】(4分)使用分类语言对信息进行描述和标引,主要是可以把()的信息集中在一起A.A+B+CB.同一主题C.同一作者D.同一学科12【单选题】(4分)根据检索对象不同,信息检索可分为()A.分类检索、主题检索B.数据检索、事实检索、文献检索C.计算机检索、手工检索D.二次检索、高级检索13【单选题】(4分)通过追溯检索获得的相关文献与原文献相比在发表时间上()A.不确定B.晚C.相同D.早14【判断题】(4分)分类检索语言又称分类法,是用分类号和类名来表达信息的主题概念,并且按照知识门类的逻辑次序将信息系统地组织和划分的语言。

信息检索课考题及答案

信息检索课考题及答案

信息检索上机考试试卷学生姓名:学号:一、作文题:信息检索课主要内容综述。

(将老师课堂讲解的主要内容用自己的话作概述性的总结,以下方式所写论文都以零分计入成绩:①写成日记、②把书本内容抄一部分、③在网上摘一篇信息检索内容小结(与老师讲解内容完全不符)、④同学之间抄袭。

要求字数1000-1200字)(10分)信息检索课主要内容综述在我们迈入21世纪时,在这个信息化、数字化、全球化的知识经济时代,信息已经成为最重要的发展资源之一。

随着现代科学技术尤其是计算机技术和网络技术的迅猛发展,社会信息量速度爆增,信息呈现出爆炸式的增长趋势。

在信息的汪洋之中,存在着大量虚假信息和无用信息,海量规模的文献资源给广大读者带来了新的困惑,从找不到资源转变为不知如何最方便快捷地找到所需资源。

因此,信息检索能力已成为新时代人才的一项必备技能。

而作为新时代的大学生,信息检索能力的培养显得尤为重要。

这一学期,我们有幸学习了《电子文献检索教程》这门课程,使我初步懂得了一些信息检索的基本原理和基本技能,也将会为我往后的学习、工作生活打下坚实的基础。

信息检索是一门关于信息资源的存储、整理和查找的理论及方法的学问。

学习这门课主要是让我们明白信息检索的原理和方法及中外常用的检索工具,及最主要的电子资源文献检索方法和技巧。

在信息检索当中,检索系统也是至关重要的。

检索系统主要由计算机、通信网络、检索终端设备和数据库组成,检索有网络检索、联机检索、光盘检索等类型,检索技术主要有位置检索、字段限定检索、截词检索、布尔检索、自然语言检索等。

一般在不同的数据库里或查找不同的资源中会运用到不同的检索技术。

那么,如何在不同的数据库寻中查找不同的信息资源就至关重要了。

数据库主要有超星数字图书馆、CNKI中国知网、万方数据库、维普咨询中心网站、百链、中国期刊网、EBSCO以及其他外文数据库,其中不同的数据库有不同的数据资源,也有着不同的检索方法。

我们在实验课也着重练习了在不同的数据库、在同一数据库用不同的检索方法寻找信息资源。

信息检索答案

信息检索答案

一、名词解释(5x4=20分)1.截词检索:是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。

检索中,计算机会将所有含有相同部分标识的记录全部检索出来。

截词符一般用“?”或“*”表示,但不同的数据库中有所差别。

2.信息检索:信息检索(Information Retrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。

3.查准率:是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。

4.查全率:是指检出的文献数量占数据库中全部相关文献数量的比例。

5.引文索引:是一种将科技期刊、专刊、专题丛书等文献资料所发表的论文后所附的参考文献的作者、题目、出处等项目,按照引证与被引证的关系进行排列而编制的索引。

二、简答(5x6=30分)1.查找国内外学位与会议论文分别有哪些数据库?每类中分别举2个英文数据库(包括全称、简称与中译)和1个中文数据库。

(1)国内外的学位论文数据库包括索引与摘要数据库和全文数据库,如CALIS的《学位论文库》,万方数据资源系统《中国学位论文数据库》,CNKI的《优秀硕博士论文数据库》,美国博硕士论文库PQDD(ProQuest Digital Dissertations),美国学位论文网络数字图书馆NDLTD (Networked Digital Library of Thesis and Dissertations)等。

(2)会议论文数据库包括:会议论文索引与摘要,如CALIS会议论文数据库,万方数据资源系统《中国学术会议论文数据库》,OCLC会议数据库——《在会议上提交的文章索引》(Papers First),《会议出版物索引》(Proceedings),Web of Knowledge的会议录引文索引CPCI(Conference Proceedings Citation Index)。

2.布尔逻辑检索的主要运算符有哪些?它们各代表什么含义?请分别举一例说明。

信息检索答案

信息检索答案

1、信息素养或素质的具体内容有那些?答:信息素质是指用户在利用以计算机及其网络技术为代表的现代科学技术进行知识学习、成长的过程中,逐步形成的制动参与信息活动、自觉应用信息技术的意识、态度、理念及具备的获取、识别、加工、处理、传递、创造信息的能力和利用信息去解决实践问题的能力。

它包括强烈的信息意识、系统化的信息理念、综合信息能力等内容。

2、信息、知识、情报、文献的概念?文献的组成要素?答:信息的概念:1、信息是人们根据一定目的和需要,把从自然现象和社会现象中搜集的原始材料进行加工、处理,找出其中关系而形成的对象实体。

2、信息是有一定含义的、经过加工处理的、对决策有价值的的数据,即信息=数据+处理3、信息是人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关性的实体对象,信息可以被数字化。

知识的概念:知识是指人们在认识世界、改造世界中所获得的认知,包括通过阅读、学习等方式的认知和通过自己或他人的历练所积累的一切经验的总结。

情报的概念:是被人们所利用的信息、被人们感受并可交流的信息。

文献的概念:是记录有知识的一切载体。

文献的组成要素:不但包括现代图书馆的全部馆藏,同时也包括了档案馆、博物馆、声像馆和情报中心收藏的全部馆藏。

3、信息、信息资源包括那些类型?答:1)信息的类型:从产生信息的客体的性质来分,可分为自然信息(瞬时发生的声、光、热、电、形形色色的天气变化、缓慢的地壳运动、天体演化……)、生物信息(生物为繁衍生存而表现出来的各种形态和行为,如遗传信息、生物体内信息交流、动物种群内的信息交流)、机器信息(自动控制系统)和(人类)社会信息。

以信息所依附的载体为依据,可分为文献信息、口头信息、电子信息、生物信息等2)信息资源类型:根据存储媒介不同,信息资源可以划分为印刷型信息资源、电子信息资源、数字信息资源和多媒体信息资源。

4、文献有那些类型?将文献划分成这些类型的依据是什么?答:1)根据载体材料、存储技术、和传递方式划分可划分为:印刷型、缩微型、试听型和机读型文献信息源2)根据加工程度的不同划分可分为:一次文献信息源、二次文献信息源、和三次文献信息源3)根据文献信息源的内容划分可以分为:图书、期刊、报纸、科技报告、政府出版物、会议文献、专利文献、学位论文、标准文献、档案文献、产品样本5、信息(文献)检索的方法与途径,详细论述检索步骤?答:1、分析研究课题,明确检索要求:分析课题的主要内容、确定课题的文献类型、确定检索时间范围、分析用户的检索评价要求2、选择检索工具:根据检索课题的要求,选择最能满足检索要求的检索工具书,不同的资料类型就应该选用不同的数据库3、确定检索策略:确定检索途径、制定检索策略4、调整检索方案:确定了具体的检索方法之后,就要利用所用数据库,在一定的年代范围内具体查找,以获得文献线索。

信息检索参考答案

信息检索参考答案

名词解释信息是事物运动的状态与方式,是物质的一种属性。

,“信息即事物运动的状态与方式”这个定义具有最大的普遍性,不仅能涵盖所有其它的信息定义,还可以通过引入约束条件转换为所有其它的信息定义。

《四库全书总目》为我国古代最巨大的官修图书目录。

四库全书的馆臣们,对誊录入库的3400余种图书(称“著录书”)和抄存卷目的6700余种图书(称“存目书”)全部写出提要,这就是《四库全书总目提要》,或简称《四库总目》。

URL是Uniform Resource Location的缩写,译为“统一资源定位符”。

通俗地说,URL是Internet上用来描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上,特别是著名的Mosaic。

采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。

中国知网是全球领先的数字出版平台,是一家致力于为海内外各行各业提供知识与情报服务的专业网站。

目前中国知网服务的读者超过4000万,中心网站及镜像站点年文献下量突破30亿次,是全球倍受推崇的知识服务品牌。

综述是指就某一时间内,作者针对某一专题,对大量原始研究论文中的数据、资料和主要观点进行归纳整理、分析提炼而写成的论文。

综述属三次文献,专题性强,涉及范围较小,具有一定的深度和时间性,能反映出这一专题的历史背景、研究现状和发展趋势,具有较高的情报学价值。

阅读综述,可在较短时间内了解该专题的最新研究动态,可以了解若干篇有关该专题的原始研究论文计算机检索指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出需要的信息,继而再有终端设备显示或打印的过程。

《辞海》是中国最大的综合性辞典。

《辞海》是以字带词,兼有字典、语文词典和百科词典功能的大型综合性辞典。

简答信息素养的构成要素之间的关系是什么?布尔逻辑运算符的含义(书本276)什么是数字资源数字资源是文献信息的表现形式之一,是将计算机技术、通信技术及多媒体技术相互融合而形成的以数字形式发布、存取、利用的信息资源总和。

信息检索概论思考题答案

信息检索概论思考题答案

第一章信息检索概论思考题:1.什么是信息?简述信息的特点和分类?我们认为,信息是事物或事物之间不确定性的量度,即负熵。

掌握的信息越多,所需认识的事情的确定性就会越少。

信息由信源,信宿和信道(载体)构成。

信息的特点:(1)客观真实性:客观、真实是信息的最重要的本质特性(2)普遍性:信息是物质的普遍属性,物质是具有普遍性,所以信息也拥有该特性(3)针对性:信息的作用和价值可以随着接受者的不同而不同(4)传递性:过程:信息源(信息的发出者)——>编码—>信道(载体)—>译码—>信宿(信息的接收者)信息源:是信息的发出者信宿:是信息的接收者信息的传播是双向的,多维的。

信息源和信宿是相对的,也是可以相互转换的。

信道:就是在传播过程中,编码经过的物理通道(5)时效性:指信息发出、接收到利用的时间间隔及效率,也包括信息的本身更新速度。

客观物质不断的变化,反映事务的运动状态和运动方式的信息也会发展变化一般而言,随着时间的推移,信息的价值会逐渐减少也有反例:如考古信息(恐龙、古钱币),年代越久,使用价值越大衡量信息的时效性参数不只是时间参数,还有地理环境(6)可转换性:信息可以从一种形态转换成另一种形态(7)可处理性(可识别性):可以通过人们的感觉器官所感知,也可以通过仪表、器械来检测进而予以识别。

(8)可共享性:指同一内容的信息可以在同一时间里被若干个用户使用,此时信息载体本身的信息量不会被磨损、消失信息的类型:(1)按信息表现形式划分,可分为文字信息,图象信息,数值数据信息,语音信息。

▪文字信息:文字是人们为了实现信息交流、通信联系所创造的一种约定的形象符号。

▪图象信息:图象(形)是一种视角信息,它比文本信息直接,易于理解。

如,一幅画、一部电影。

▪数值数据信息:数值数据是“信息的数字形式”或“数字化的信息形式”。

▪语音信息:人讲话实际是大脑的某种编码形式的信息转换成的语言信息的输出,是一种最普遍的信息表现形式。

信息检索概论思考题答案

信息检索概论思考题答案

信息检索概论思考题答案第⼀章信息检索概论思考题:1.什么是信息?简述信息的特点和分类?我们认为,信息是事物或事物之间不确定性的量度,即负熵。

掌握的信息越多,所需认识的事情的确定性就会越少。

信息由信源,信宿和信道(载体)构成。

信息的特点:(1)客观真实性:客观、真实是信息的最重要的本质特性(2)普遍性:信息是物质的普遍属性,物质是具有普遍性,所以信息也拥有该特性(3)针对性:信息的作⽤和价值可以随着接受者的不同⽽不同(4)传递性:过程:信息源(信息的发出者)——>编码—>信道(载体)—>译码—>信宿(信息的接收者)信息源:是信息的发出者信宿:是信息的接收者信息的传播是双向的,多维的。

信息源和信宿是相对的,也是可以相互转换的。

信道:就是在传播过程中,编码经过的物理通道(5)时效性:指信息发出、接收到利⽤的时间间隔及效率,也包括信息的本⾝更新速度。

客观物质不断的变化,反映事务的运动状态和运动⽅式的信息也会发展变化⼀般⽽⾔,随着时间的推移,信息的价值会逐渐减少也有反例:如考古信息(恐龙、古钱币),年代越久,使⽤价值越⼤衡量信息的时效性参数不只是时间参数,还有地理环境(6)可转换性:信息可以从⼀种形态转换成另⼀种形态(7)可处理性(可识别性):可以通过⼈们的感觉器官所感知,也可以通过仪表、器械来检测进⽽予以识别。

(8)可共享性:指同⼀内容的信息可以在同⼀时间⾥被若⼲个⽤户使⽤,此时信息载体本⾝的信息量不会被磨损、消失信息的类型:(1)按信息表现形式划分,可分为⽂字信息,图象信息,数值数据信息,语⾳信息。

⽂字信息:⽂字是⼈们为了实现信息交流、通信联系所创造的⼀种约定的形象符号。

图象信息:图象(形)是⼀种视⾓信息,它⽐⽂本信息直接,易于理解。

如,⼀幅画、⼀部电影。

数值数据信息:数值数据是“信息的数字形式”或“数字化的信息形式”。

语⾳信息:⼈讲话实际是⼤脑的某种编码形式的信息转换成的语⾔信息的输出,是⼀种最普遍的信息表现形式。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《信息组织与检索》作业答案第一章布尔检索习题1-2考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;b. 画出该文档集的倒排索引(参考图1-3中的例子)。

Term-Documentmatrix:1234approach0010breakthrough1000drug1100for1011hopes0001new0111of0010patients0001schizophrenia1111treatment0010Inverted Index:approach -> 3breakthrough ->1drug ->1->2for ->1->3->4hopes ->4new ->2->3->4of ->3patients ->4schizophrenia ->1->2->3->4treatment >3注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便于查找。

这里我们暂不考虑词的正规化处理(如hopes->hope)。

补充习题1写出AND查询的伪代码●面向过程风格的伪代码:给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。

这里应用了“化归”思想(将新问题转化归为旧问题来解决)。

这里,比较两排序列表的首元素,排除较小的docId(不可能有匹配)后,我们构造出新的剩余列表,再次进行两列表的首元素的比较。

While p1 != null AND p2 != nullIf p1->docId==p2->docId //对两(剩余)列表的首元素进行比较insert(answer, p1);p1=p1->next;//构造新的剩余列表,迭代执行p2=p2->next;//Else if p1->docId < p2->docIdp1=p1->next;//p1->docId不可能有匹配;构造新的剩余列表Elsep2=p2->next;//p2->docId不可能有匹配;构造新的剩余列表End●面向对象风格的伪代码:注:为一个数据结构(对象)定义方法,通过方法操作自己的内部数据(List对象里隐含包含了一个成员变量,它是真正的链表或变长数组)。

While list1.currentItem() != null AND list2.currentItem() != nullIf list1.currentItem().getDocId() == list2.currentItem().getDocId()answer.insert(list1.currentItem());list1.moveToNext();list2.moveToNext();Else if list1.currentItem().getDocId() < list2.currentItem().getDocId()list1.moveToNext();Elselist2.moveToNext();End习题1-10写出OR查询的伪代码●面向过程风格的伪代码:给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId;查询结果存放在answer列表里。

While p1 != null AND p2 != nullIf p1->docId == p2->docIdinsert(answer, p1);p1=p1->next;p2=p2->next;//构造新的剩余列表,迭代执行Else if p1->docId < p2->docIdinsert(answer, p1);p1=p1->next;//构造新的剩余列表,迭代执行Elseinsert(answer, p2);p2=p2->next;//构造新的剩余列表,迭代执行EndWhile p1 != null//条件为真时,加入list1的剩余元素(此时list2已遍历到结尾)insert(answer, p1);p1=p1->next;ENDWhile p2 != null//条件为真时,加入list2的剩余元素(此时list1已遍历到结尾)insert(answer, p2);p2=p1->next;END●面向对象风格的伪代码:While list1.currentItem() != null AND list2.currentItem() != nullIf list1.currentItem().getDocId() == list2.currentItem().getDocId()answer.insert(list1.currentItem());list1.moveToNext();list2.moveToNext();Else if list1.currentItem().getDocId() < list2.currentItem().getDocId()answer.insert(list1.currentItem());list1.moveToNext();Elseanswer.insert(list2.currentItem());list2.moveToNext();EndWhile list1.currentItem() != nullanswer.insert(list1.currentItem());list1.moveToNext();ENDWhile list2.currentItem() != nullanswer.insert(list2.currentItem());list2.moveToNext();END补充习题2若一个文集有1000篇文档,有40篇是关于信管专业建设的。

我的信息需求是了解信管专业的专业建设情况,用某搜索引擎在这个文集上搜索,查询词为“信管”,搜出100篇包含“信管”的文档,这其中有20篇是信管专业建设方面的,其它80篇是关于信管的其它情况。

请问该查询的正确率和召回率是多少正确率=20/100=0.2召回率=20/40=0.5第二章词项词典及倒排记录表习题2-1a.在布尔检索系统中,进行词干还原从不降低正确率。

错;相当于扩充出同一个词干表示的多个词,会降低正确率。

b.在布尔检索系统中,进行词干还原从不降低召回率。

对。

c. 词干还原会增加词项词典的大小。

错。

d. 词干还原应该在构建索引时调用,而不应在查询处理时调用。

错;应同时做才能保证索引中和查询词的匹配。

习题2-2请给出如下单词的归一化形式(归一化形式也可以是词本身)。

a. ’Cos -> cosb. Shi’ite -> shiite('是隔音号)c. cont’d ->contd(contd. 可表示contained 包括;continued 继续)d. Hawai’i ->hawaiie. O’Rourke ->orourke习题2-3如下词经过Porter词干还原工具处理后会输出同样的结果,你认为哪对(几对)词不应该输出同样的结果?为什么?a. abandon/abandonmentb. absorbency/absorbentc. marketing/marketsd. university/universee. volume/volumes按Porter词干还原算法,这几组词都可以被还原为相应的词干。

但是这里问的是哪些组做词干还原不合适,原因是某组的两个词虽然来源于同一个词干,但是它们的意思不同,如果做词干还原处理会降低正确率。

c组不做词干还原。

marketing表示营销,market表示市场。

d组不做词干还原。

university表示大学,universe表示宇宙。

习题2-6对于两个词组成的查询,其中一个词(项)的倒排记录表包含下面16个文档ID:[4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180]而另一个词(项)对应的倒排记录表仅仅包含一个文档ID:[47]请分别采用如下两种策略进行倒排记录表合并并计算所需要的比较次数,同时简要地说明计算的正确性。

a.使用标准的倒排记录表。

比较:(4,47), (6,47), (10,47), (12,47), (14,47), (16,47), (18,47), (20,47), (22,47), (32,47), (47,47)。

共比较11次。

b.使用倒排记录表+跳表的方式,跳表指针设在P1/2处(P是列表长度)。

P=16。

也就说第一个列表的跳表指针往后跳4个元素。

下图蓝色表示安装了跳表指针的元素,其中120跳到180上。

[4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180]比较:(4,47), (14,47), (22,47), (120,47), (32,47), (47,47)。

共比较6次。

习题2-9下面给出的是一个位置索引的一部分,格式为:词项: 文档1: (位置1, 位置2, …); 文档2: (位置1, 位置2, …);angels: 2: (36,174,252,651); 4: (12,22,102,432); 7: (17);fools:2: (1,17,74,222); 4: (8,78,108,458); 7: (3,13,23,193);fear:2: (87,704,722,901); 4: (13,43,113,433); 7: (18,328,528);in:2:(3,37,76,444,851); 4: (10,20,110,470,500); 7: (5,15,25,195);rush:2:(2,66,194,321,702); 4: (9,69,149,429,569); 7: (4,14,404);to:2:(47,86,234,999); 4: (14,24,774,944); 7: (199,319,599,709);tread:2: (57,94,333); 4: (15,35,155); 7: (20,320);where:2: (67,124,393,1001); 4: (11,41,101,421,431); 7: (16,36,736);那么哪些文档和以下的查询匹配?其中引号内的每个表达式都是一个短语查询。

相关文档
最新文档