信息检索导论-王斌-第三次课后作业(13-21)

合集下载

信息检索导论-王斌-第三次课后作业(13-21)

信息检索导论第三次课后作业1、习题13-2答：(i)贝努利模型：三个文档具有相同的模型表示(ii)多项式模型：文档1和文档2相同，文档3与它们都不同。

文档1和文档2中“Lodon”都出现了两次，文档3中只出现了一次。

2、习题13-53、习题14-6在图14-14 中，3 个向量→a、→b及→c中哪一个满足：(i) 采用内积计算的情况下与→x最近？(ii) 采用余弦相似度计算的情况下与→x最近？(iii) 采用欧氏距离计算的情况下与→x最近？4、习题15-1一个数据集里支持向量的最小数目是多少（此时的数据集每个类别中都包含实例）？答：一个数据集里支持向量的最小数目是2个。

因为SVM分类模型希望得到在特征空间上间隔最大的分类器，即对于距离超平面最近的实例点，也希望能有足够的确信度将其分开，确定这样的超平面需要的支持向量最小数目是2个。

5、习题16-5 K-均值算法的两个停止条件为：(i) 文档的分配不再改变；(ii) 簇质心不再改变。

请问这两个条件是否等价？答：这两个停止条件是等价的。

当连续两次迭代之后，若文档的分配不再改变，则据此计算出的簇质心也不会再改变；当簇质心不再改变的时候，则K-均值算法计算出的文档的分配也就不再改变。

6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类，你预期的结果是什么？b. 当使用HAC 算法时，预期的结果是否仍然一样？答：a.预期的结果：文档根据语言的大致分成两类。

b.预期的结果不一样。

HAC是自底向上的聚类方法，最开始的时候每一篇文档都是一个簇，然后不断对簇进行两两合并，直到所有文档都聚为一簇。

层次聚类不需要实现确定簇的数据，如果要按照不同的语言将文档进行分类，则需要在层次结构中某处进行截断，在合适的位置截断也可以将文档大致分为两类。

7、习题18-11假定有一个文档集合，其中每篇文档可以是英文或者是西班牙文。

整个文档集如图18-4所示。

图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。

中国科学院大学现代信息检索课后习题答案

《信息检索导论》课后练习答案王斌最后更新日期 2013/9/28第一章布尔检索习题1-1 [*] 画出下列文档集所对应的倒排索引（参考图1-3中的例子）。

文档 1 new home sales top forecasts文档 2 home sales rise in july文档 3 increase in home sales in july文档 4 july new home sales rise习题1-2 [*] 考虑如下几篇文档：文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵；解答：breakthrough 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes 0 0 0 1new 0 1 1 1patients 0 0 0 1schizophrenia 1 1 1 1treatment 0 0 1 0b. 画出该文档集的倒排索引（参考图 1-3中的例子）。

解答：参考a。

习题1-3 [*] 对于习题1-2中的文档集，如果给定如下查询，那么返回的结果是什么？a.schizophrenia AND drug解答：{文档1，文档2}b.for AND NOT (drug OR approach）解答：{文档4}习题1-4 [*] 对于如下查询，能否仍然在O(x+y)次完成？其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。

如果不能的话，那么我们能达到的时间复杂度是多少？a.Brutus AND NOT Caesarb.Brutus OR NOT Caesar解答：a.可以在O(x+y)次完成。

信息检索技术-习题答案

《信息检索技术》（第三版）书后习题及参考答案（部分)第1章绪论【综合练习】一、填空题1．文献是信息的主要载体，根据对信息的加工层次可将文献分为_________文献、__________文献、___________文献和___________文献。

2．追溯法是指利用已经掌握的文献末尾所列的__________，进行逐一地追溯查找_________的一种最简便的扩大情报来源的方法。

3．用规范化词语来表达文献信息__________的词汇叫主题词.主题途径是按照文献信息的主题内容进行检索的途径,利用能代表文献内容的主题词、关键词、叙词、并按字顺序列实现检索.4．计算机信息检索过程实际上是将___________与____________进行对比匹配的过程。

5．无论是手工检索还是计算机检索，都是一个经过仔细地思考并通过实践逐步完善查找方法的过程。

检索过程通常包含以下几个步骤_________、__________、__________、__________、_________。

6.检索工具按信息加工的手段可以分文__________、____________、___________.7。

《中国图书馆图书分类法》共分___________个基本部类,下分________个大类。

8.索引包括4个基本要素：索引源、___________、___________、和出处指引系统.答案1。

零次，一次，二次，三次2.参考文献，引文3.内容特征4。

检索提问词，文献记录标引词5。

分析课题,选择检索工具，确定检索途径及检索式，进行检索，获取原文6。

手工检索工具，机械检索工具，计算机检索工具7.五，228.索引款目,编排方法二、判断题1．在检索信息时，使用逻辑符“AND”可以缩小收缩范围。

（）2．逆查法是由近及远地查找，顺着时间的顺序利用检索工具进行文献信息检索的方法。

( ）3．按编制方法划分，信息检索工具可以分为：手工检索工具、机械检索工具、计算机检索工具。

信息检索题目(含答案)

正确答案：C
A.分类语言
B.叙词语言
C.关键词语言
D.标题词语言
19.下列哪种属于二次文献（D）
A.专利文献
B.学位论文
C.会议文献
D.目录
20.下列哪种属于三次文献（A）
正确答案：C
A.标准文献
B.学位论文
C.综述
D.目录
21.CJFD是（D）。
A.中国重要报纸全文数据库
B.中国优秀博硕士学位论文全文数据库
63.“中文社会科学引文索引”(CSSCI)是由南京大学研制而成的。（对）
正确
64.张大千资源数据库是内江师范学院图书馆自建的。（对）
正确
65.我校图书馆旧馆(山顶球场图书馆)流通01周末开放。（错）
正确
66.我校图书馆的电子阅览室免费对全校师生开放。（对）
正确答案：错
67.我校图书馆2000年以前的图书主要存放在山顶球场图书馆。（对）
正确
79.机构指南，又叫机构名录，可通过它了解机构的基本信息。（对）
正确
80.《大清会典》是十通的一部分。（错）
正确
81.年表是换算不同历法的年、月、日的工具书。（对）
正确答案：错
82.地图集属于图录中的一种。（对）
正确
83.我校图书馆购买的有万方公司的中国学位论文全文数据库。（对）
正确
84.万方公司的中国学位论文全文数据库可通过学科分类导航和检索词检索的方式查找论文。（错）
26.在万方数据资源使用学位论文检索功能，检索苑光耀的硕士学位论文篇名是（A）。
正确答案：C
A.主动式集群网络服务器调度机制的研究
B.自调度集群网络服务的研究与实现
C.基于制造特征的数控加工在线检测技术研究

2020年信息检索导论期末考试试题

试题专用纸课程名称: 信息检索导论学生姓名：学号:培养单位：分数：一、选择题（单选，每题2分，共20分）1.关于布尔检索，以下说法正确的是（）A)在布尔检索系统中，进行词干还原从不降低正确率B)在布尔检索系统中，进行词干还原从不降低召回率C)词干还原会增加词项词典的大小D)词干还原应该在构建索引时调用，而不应在查询处理时调用2.关于倒排索引，以下说法错误的是（）A)词典的开销通常小于倒排记录表的开销B)倒排索引中往往会存储词项的频率C)词典中存储的都是词D)倒排索引可以加快搜索的速度3.关于向量空间模型的特点，下面说法不正确的是（）A)支持部分匹配和近似匹配，结果可以排序B)理论上不够严谨，往往基于直觉的经验性公式C)词项之间的独立性假设与实际不符D)应用于检索问题时，效果不如概率检索模型4.关于tf-idf，以下说法不正确的是（）A)一个罕见词的idf往往很高B)idf的大小是无限的C)词项的tf-idf权重可以超过1D)词项t在所有文档中出现，则权重取值很小5.关于隐式相关反馈，下面说法错误的是（）A)不需要用户显式参与，减轻用户负担B)对行为分析有较高要求C)一定能提升检索准确率D)某些情况下需要增加额外设备6.SVM中的正则化因子（也称为惩罚因子）是指（）A)交叉验证的次数B) 用到的核函数C)分类准确性和模型复杂度之间的权衡D) Lagrange乘子7.把一个连接的Web网络看作一个蝴蝶结结构，其中20%的页面为IN，60%页面在SCC区域，20%的页面为OUT。

假设从3个起始页面开始爬取网页，目标是尽可能多地访问此Web中的页面。

请问从下面哪一个选项中选取三个网页作为初始种子网页能爬取最多的网页？（）A) 从IN、OUT各选一页B) SCC选一页，IN选两页C) SCC选两页，IN选一页D) 从IN中选三页8.关于聚类结果评价的外部准则，不包括以下哪种方法（）A)兰迪指数（Rand Index）B) 残差平方和（RSS）C)归一化互信息（NMI）D) 纯度（Purity）9.假设有两个Web搜索引擎A和B，现从各自索引中随机均匀地生成大量网页。

信息检索习题以及答案

《大学生信息检索概论》模拟试题一、填空题1、文献的级次分为零次文献、一次文献、二次文献、三次文献2、《中图法》有五个基本部类，分别是马克思主义、列宁主义、毛泽东思想_、哲学；社会科学；自然科学和综合性图书，在此基础上又划分为_22_个大类。

3、按内容可将计算机检索系统的数据库类型分为：文献书目型数据库、事实型数据库、数值型数据库和全文型数据库。

4、我国标准可分为国家标准、部标准和企业标准三大类。

5、在实际检索中，文献的检索方法主要有：直查法、追溯法、工具法和综合法。

6、国际标准化组织简称：ISO 、本标准每 5 年修订一次二、选择题1、如果需要检索某位作者的文献被引用的情况，应该使用（ C ）检索。

A．分类索引B．作者索引C．引文索引 D．主题索引2、利用图书馆的据库检索期刊论文时，可供选择的中文数据库是（ D ）。

A．超星数字图书馆 B．万方学位论文 C．国研网 D．维普科技期刊 E.高校财经库3、如果检索有关多媒体网络传播方面的文献，检索式为（A D）。

A．多媒体and 网络传播 B．多媒体＋网络传播 C．多媒体or 网络传播D．多媒体*网络传播4、如果对某个课题进行主题检索时，可选择的检索字段有（ A D E ）。

A．关键词 B．作者 C．刊名 D．题名 E．文摘5、二次文献又称检索工具，包括：（ A C D ）。

A．书目B．百科C．索引D．文摘E．统计数据一、单项选择题（请将正确答案的序号填在括号内，每题分，共30分）1. 文献是记录有知识的（ A ）A 载体B 纸张C 光盘D 磁盘2. 下列哪种文献属于一次文献( A )A 期刊论文B 百科全书C 综述D 文摘3. 下列哪种文献属于二次文献( D )A 专利文献B 学位论文C 会议文献D 目录4. 下列哪种文献属于三次文献( C )A 标准文献B 学位论文C 综述D 文摘5. 下列选项中属于连续出版物类型的选项有（ C ）A 图书B 学位论文C 科技期刊D 会议文献6. 下列选项中属于特种文献类型的有（ D ）A 报纸B 图书C 科技期刊D 标准文献7. 纸质信息源的载体是（ D ）A 光盘B 缩微平片C 感光材料D 纸张8. 以刊载新闻和评论为主的文献是（ B ）A 图书B 报纸C 期刊D 会议文献9. 使用分类语言对信息进行描述和标引，主要是可以把（ B ）的信息集中在一起。

信息资源检索答案第二三次作业1.doc

1111111111111111111111试题1 单项选择题（5.0分得分:5.0难度:基本题）不同的数据库系统的字段代码是有所不同的，其中题名的常见表述有正确答案0 TI□AU □KW □AB 学生答案□□□试题2判断题（5.0分得分:5.0难度:水平题）期刊是有固定名称，有一定的出版规律，标有刊期序号的一种论章成册的出版物。

止确答案学生答案□真□0假□试题3单项选择题（5.0分得分:5.0难度:基本题）在进行信息检索的过程中, 公式“（检索出的相关信息量/检索出的信息总量）X 100%”计算的是：正确答案学生答案0查准率□查全率□□漏检率□□误检率□试题4单项选择题（5.0分得分:5.0难度:基本题）信息侵权主要包括侵犯和侵犯个人隐私权等。

正确答案学生答案□社会隐私权□□著作权□0知识产权□人权□试题5 多项选择题（5.0分得分:5.0难度:难度题）下列哪些语句能被检索式“information N/2 retrieval”命中（）正确答案学生答案[3 "information retrievaF,H "retrieval information^□0 "information computer aided retrievaF9□0 "retrieval of education in formation^□试题6单项选择题（5.0分得分:5.0难度:基本题）按照信息的载体类型，可将信息资源划分为：、缩微型、声像型、电子型和多媒体。

正确答案学生答案0印刷型□书本型□□视频型□□音频型□试题7多项选择题（5.0分得分:0.0难度:难度题）以下类型的文献属于三次文献的是（）正确答案□目录0词典0百科全书□科技报告学生答案□□□试题8判断题（5.0分得分:5.0难度:水平题）信息可以记载在印刷纸本中，也可以存储在声、光、电、磁等介质中，如磁带、光盘、硬盘等。

信息检索参考答案

一、选择题１、字段代码JN、DE、TI分别代表（A ）50页Ａ·刊名字段、主题字段、标题字段Ｂ·文摘号、文献类型、文摘字段Ｃ·分类号、机构来源、公司２、在信息检索技术中，算符AND、OR、NOT指的是哪一中信息检索技术方法（C ）Ａ、截词检索Ｂ、位置检索Ｃ、布尔检索3、在主题语言中，不能再分解的、最小的并经过规范化处理的词语是（ D ）A 关键词语言B标题语言C 叙词语言 D单元词语言３、查找“中国计算机学会”的有关资料使用下列那种工具书？（A ）Ａ、《学术世界》Ｂ、《世界知识年鉴》Ｃ、《世界地名录》４、在主题语言中，不能再分解的、最小的并经过规范化处理的是（D）Ａ、关键词语言Ｂ、标题语言Ｃ、叙词语言Ｄ、单元词语言５、中国高等教育文献保障体系的英文简称是（ C ）A. OCLCB. CALISC. CERNET６、全文搜索引擎以（ B ）检索为主。

Ａ网站Ｂ网页Ｃ网页全文6、布尔逻辑算符构造的检索提问式“A-B”的检索结果是（ A ）A 只含有A 的文献B 不含B的文献C 同时含有A和B的文献D 含有A而不含B的文献７、自然语言检索标识包括下列那一组选项（ C ）Ａ、类号、类名Ｂ标题词、叙词Ｃ、著者姓名、题名８、三次文献是在合理利用二次文献的基础上，对一次文献内容进行归纳综合撰写的专著。

下列属于三次文献的是（ C ）Ａ报纸、教材、期刊目录Ｂ图书、专利、产品资料Ｃ手册、述评、进展报告９、根据检索的目的和要求，信息检索常用的方法可分为（ B ）三种：Ａ合取法、交替法、限定法Ｂ直接法、追溯法、综合法Ｃ排除法、跟踪法、引文法10、就书目而言，下列何种书目为推荐书目（ C ）Ａ全国总书目全国新书目Ｂ馆藏目录专题目录Ｃ每周新书目中外名著目录11、字段代码AU、AB、 PY所代表的字段是（B）Ａ标题、注释、文摘类型Ｂ著者、文摘、出版年Ｃ叙词、分类、语言12、手册的别称很多，下列正确的一组是（A）Ａ指南、须知、便览Ｂ大全、提要、综录Ｃ题记入门、必备手册的别称很多有指南、便览、大全、必备、须知、入门等。

lecture10xmlretrieval信息检索导论王斌

▪ 专利: give me patens whose claims mention RSA public key encryption and that cite US patent 4,405,829
▪ 实体标记文本: give me articles about sightseeing tours of the Vatican and the Coliseum
12
现代信息检索
结构化检索(Structured retrieval)
基本配置：结构化或非结构化查询+结构化文档
结构化检索的应用场景
数字图书馆、专利数据库、博客、包含已标注命名实体（如人名、地名）的文本
例子
▪ 数字图书馆: give me a full-length article on fast fourier transforms
13
R列三个主要问题 ❶ 无序的DB系统可能返回大量文章，这些文章提到 Vatican、the
Coliseum和sightseeing tours，但是并没有按照它们和查询的相关度排序 ❷ 大部分用户都很难精确描述结构化的限制条件。比如，用户可能并不知道搜索系统支持对哪些结构化元素的查询 tours AND (COUNTRY: Vatican OR LANDMARK: Coliseum)? tours AND (STATE: Vatican OR BUILDING: Coliseum)? ❸ 用户可能对结构化搜索和高级搜索很不熟悉，或者他们压根就不想用这些搜索功能。
不相关的 ▪ 搜索引擎根据标记结果计算得到信息需求的一个新查询
表示。当然我们希望该表示好于初始的查询表示 ▪ 搜索引擎对新查询进行处理，返回新结果 ▪ 新结果可望（理想上说）有更高的召回率

(完整word版)《信息检索导论》课后习题答案

《信息组织与检索》作业答案第一章布尔检索习题1-2考虑如下几篇文档：文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵；b. 画出该文档集的倒排索引（参考图1-3中的例子）。

Term-Documentmatrix:1 2 3 4approach 0 0 1 0breakthrough 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes 0 0 0 1new 0 1 1 1of 0 0 1 0patients 0 0 0 1schizophrenia 1 1 1 1treatment 0 0 1 0Inverted Index:approach -> 3breakthrough ->1drug ->1->2for ->1->3->4hopes ->4new ->2->3->4of ->3patients ->4schizophrenia ->1->2->3->4treatment >3注意：倒排索引中的词表（dictionary）和每个词项的倒排列表（posting list）需要排序，便于查找。

这里我们暂不考虑词的正规化处理（如hopes->hope）。

补充习题1写出AND查询的伪代码面向过程风格的伪代码：给定两个指针p1和p2，分别指向两倒排列表list1和list2（链表实现）的首元素；令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。

这里应用了“化归”思想（将新问题转化归为旧问题来解决）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

信息检索导论第三次课后作业
1、习题13-2
答：(i)贝努利模型：三个文档具有相同的模型表示
(ii)多项式模型：文档1和文档2相同，文档3与它们都不同。

文档1和文档2中“Lodon”都出现了两次，文档3中只出现了一次。

2、习题13-5
3、习题14-6
在图14-14 中，3 个向量→a、→b及→c中哪一个满足：(i) 采用内积计算的情况下与→x最近？(ii) 采用余弦相似度计算的情况下与→x最近？(iii) 采用欧氏距离计算的情况下与→x最近？
4、习题15-1一个数据集里支持向量的最小数目是多少（此时的数据集每个类别中都包含实例）？
答：一个数据集里支持向量的最小数目是2个。

5、习题16-5 K-均值算法的两个停止条件为：(i) 文档的分配不再改变；(ii) 簇质心不再改变。

请问这两个条件是否等价？
答：这两个停止条件是等价的。

6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类，你预期的结果是什么？
b. 当使用HAC 算法时，预期的结果是否仍然一样？
答：a.预期的结果：文档根据语言的大致分成两类。

b.预期的结果不一样。

HAC是自底向上的聚类方法，最开始的时候每一篇文档都是一个簇，然后不断对簇进行两两合并，直到所有文档都聚为一簇。

7、习题18-11假定有一个文档集合，其中每篇文档可以是英文或者是西班牙文。

整个文档集如图18-4所示。

图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。

当然，该术语表只用于帮助理解，对检索系统来说是不可见的。

答：（1）词项-文档矩阵：
d1 d2 d3 d4 d5 d6
hello 1 0 0 0 0 1
open 0 1 0 0 0 0 house 0 1 0 0 0 0 profess0 0 0 1 0 0 and 0 0 0 0 0 1 welcom0 0 0 0 0 1 mi 0 0 1 0 0 0 case 0 0 1 0 0 0 hola 0 0 0 1 1 0 y 0 0 0 0 1 0 bienven0 0 0 0 1 0
（2）经过SVD分解，得到：
U2 = 0.00000 0.70711
0.00000 0.00000
0.00000 0.00000
-0.27639 0.00000
0.00000 0.50000
0.00000 0.50000
0.00000 0.00000
0.00000 0.00000
-0.72361 0.00000
-0.44721 0.00000
-0.44721 0.00000
Σ'2= 1.90211 0 0 1.84776
V2 = -0.00000 0.38268 -0.00000 -0.00000 -0.00000 -0.92388 -0.00000 -0.00000 1.00000 -0.00000 -0.00000 -0.00000
2-秩逼近矩阵为：
C2 = 0.00000 0.00000 1.30656 0.00000 0.00000 0.00000
0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 -0.20119 0.00000 0.00000 0.00000 0.48571 0.00000 0.00000 0.92388 0.00000 0.00000 0.00000 0.00000 0.00000 0.92388 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 -0.52672 0.00000 0.00000 0.00000 1.27161 0.00000 -0.32553 0.00000 0.00000 0.00000 0.78590 0.00000 -0.32553 0.00000 0.00000 0.00000 0.78590 (3) C C T 的元素(i,j)代表了文档i 和文档j 的相似度。

(4) 22C C T
的元素(i,j)代表了在新的2维空间中文档i 和文档j 的相似度。

与22C C T
中的(i,j)元素不同，是因为在新的低秩表示空间中，将共现上相似的词
项合在一起，隐含地参照了英语与西班牙语的术语对照表。

8、习题19-5Goto 方式根据报价的高低来对广告进行排序，出价最高的广告商获得最高的位置，出价第二高的次之，其余以此类推。

如果出价最高的广告商给出的广告与查询无关时会出现什么问题？为什么会出现这样的情况？
答：无关的广告永远不会被用户点击，由此生成的搜索引擎也就没有收入。

广告商可以推送这样的广告，在推广自己品牌的同时而没有任何花费。

9、习题20-1在分布式采集系统中，为什么按照主机进行划分会比按照每个URL 进行划分要好？
答：有两个好处：其一，使得更容易跟踪同一主机的连续请求之间经过的时间；其二，主机的robots.txt文件可以在爬行的节点处被缓存和重新利用。

10、习题21-3 对某个Web 网页x，假设给定了指向它的所有锚文本短语组成的集合，请给出某种启发式方法来从这个集合中选出针对x 的最具描述性的词项或短语。

答：若要从锚文本短语组成的集合中选出针对x的最具描述性的词项或短语，需要进行特征选择。

特征选择即从训练集合出现的词项中选出一部分子集，特征选择的指标包括互信息，2χ统计量及词项频率。

以2χ统计量为例，检测锚文本短语与Web网页x之间的独立性，2χ值越大则意味着独立性假设不成立。

如果某词项或者短语更能描述x，则两者的存在是相互依赖的，表现为2χ值越大。

THANKS !!!
致力为企业和个人提供合同协议，策划案计划书，学习课件等等
打造全网一站式需求
欢迎您的下载，资料仅供参考。