信息检索导论-王斌第二次课后作业(6-12)

合集下载

南大-信息检索第二次作业

学员答案：b说明：本题得分：2题号:3 题型:判断题本题分数:3ISI的网络数据库服务系统叫作Web of Science(简称WOS)，2001年升级为Web of Knowledge(简称WOK)，所以SCI的网络数据库的全称叫作SCI Expandd(简称SCIE)。

∙1、错∙2、对学员答案：2说明：本题得分：3题号:4 题型:判断题本题分数:3《经济大辞典：商业经济卷》由上海辞书出版社1986出版。

列有商品购销、运输、包装、商业统计、商业物价、商业会计等21类3650条词目，并附有建国以来有关政策、法规文件名称汇编。

∙1、错∙2、对学员答案：2说明：本题得分：3题号:5 题型:判断题本题分数:3《乌利希国际期刊指南》，可以按类查找各国经济、商务、金融等方面的刊物。

每个款目有39个著录项目，包括内容简介和被检索刊物收录情况，另有刊名索引、停刊索引、变名索引。

∙1、错∙2、对学员答案：2说明：本题得分：3题号:6 题型:判断题本题分数:3《中国合同大全》，经济管理出版社1991年出版。

详细介绍了各类合同的名词定义、规范文本和参考格式，同时附有相应的法规和典型的案例分析，融合同知识与法律法规于一体。

∙1、错∙2、对学员答案：2说明：本题得分：3题号:7 题型:判断题本题分数:3在《中国科学引文索引》中，检索式：IN=北京大学#SJ=北京大学学报，表示的意思是：检索北京大学作者在除《北京大学学报》以外的刊物发表论文的情况∙1、错∙2、对学员答案：2说明：本题得分：3题号:8 题型:判断题本题分数:3《全国报刊索引》的正文采用分类编排，先后采用过《中国人民大学图书分类法》和自编的《报刊资料分类表》，1992年之后改用《中国图书馆图书分类法》。

∙1、错∙2、对学员答案：2说明：本题得分：3题号:9 题型:判断题本题分数:3《中国企业、公司及产品数据库》是一个由原国家科委支持、联合全国近百家信息机构共同开发的、以信息检索为主要目标的技术经济数据库，始建于1988年。

现代信息检索导论作业讲评PPT课件

第17页/共20页
第五次作业第四题
• Query:
• banana slug
• Documents:
• (R) banana slug Ariolimax columbianus
• (R) Santa Cruz mountains banana slug
Ariolim banana Campus columbi Cruz Mascot mountai Santa
得Qm = (0.5, 2, -1, 0.5, -0.5, -1, 0.5, -0.5, 2) 负的weight变为0
Qm = (0.5, 2, 0, 0.5, 0, 0, 0.5, 0, 2)
第19页/共20页
感谢观看！
第20页/共20页
要求用C语言首先分句 Highlight整个查询出现的地方，而不是查询中某个单词程序应该生成一个HTML文件
第14页/共20页
第五次作业第二题
• Give three reasons why relevance feedback has been little used in web search.
90
80
70
60
50
40
30
20
10
• C.在25%召回率0水平上的插值正确率： 100%
0.125
0.25
0.375
0.5
0.625
0.75
• D.在33%召回率水平上的插值正确率：36.4%
第10页/共20页
第四次作业第二题
• RRNNN NNNRN RNNNR NNNNR • E.假定该系统所有返回结果的数目就是20，则MAP =
D1 = (1, 1, 0, 1, 0, 0, 0, 0, 1)

中国科学院大学现代信息检索课后习题答案

《信息检索导论》课后练习答案王斌最后更新日期 2013/9/28第一章布尔检索习题1-1 [*] 画出下列文档集所对应的倒排索引（参考图1-3中的例子）。

文档 1 new home sales top forecasts文档 2 home sales rise in july文档 3 increase in home sales in july文档 4 july new home sales rise习题1-2 [*] 考虑如下几篇文档：文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵；解答：breakthrough 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes 0 0 0 1new 0 1 1 1patients 0 0 0 1schizophrenia 1 1 1 1treatment 0 0 1 0b. 画出该文档集的倒排索引（参考图 1-3中的例子）。

解答：参考a。

习题1-3 [*] 对于习题1-2中的文档集，如果给定如下查询，那么返回的结果是什么？a.schizophrenia AND drug解答：{文档1，文档2}b.for AND NOT (drug OR approach）解答：{文档4}习题1-4 [*] 对于如下查询，能否仍然在O(x+y)次完成？其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。

如果不能的话，那么我们能达到的时间复杂度是多少？a.Brutus AND NOT Caesarb.Brutus OR NOT Caesar解答：a.可以在O(x+y)次完成。

《信息检索导论》课后习题答案

《信息组织与检索》作业答案第一章布尔检索考堪如卜几篇文档:文档1 文档2 文档3 文档4 breakthrough drug for schizophrenia new schizophrenia drugnew approach for treatment of schizophrenia new hopes for schizophrenia patients a. 画出文档集对应的词项一文档矩阵：b. 画出该文档集的倒排索引(参考图1・3中的例子)。

Ternv Documentmatrix:In verted Index: approach ・> 3 breakthrough ->1drug->1->2 for ->1->3->4 hopes- >4 new ->2->3->4 of ->3 patie nts ->4schizophrenia ->1->2->3->4 treatment >3注意：倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便于査找。

这里我们暂不考虑诃的止规化处理(如hopes->hope)。

approach 12 3 breakthrough 1 drug for 10 1 hopes new 0 11ofpatientsschizophrenia 1 treatment 4 0 0 0 1 1 1 011 0补充习题1写出AND査询的伪代码•而向过程风格的伪代码：给定两个指针pl和P2,分别指向两倒排列表listl和Iist2(链表实现)的首元素：令docld(pl) 表示pl所指向的元素的docld査询结果存放在answer列表里。

这里应用了"化归”思想(将新问题转化归为旧问题來解决)。

信息检索导论课后答案

信息检索导论课后答案【篇一：信息检索导论王斌译第一章课后习题答案】casts 1 1home 4 1 2 3 4in2 2 3increase 1 3july3 2 3 4new2 1 4rise2 2 4sales4 1 2 3 4top1 1把所有文档中的词抽取，按顺序排序。

倒排记录也要按顺序排列，文档频率（几个文档中出现该词）要写习题 1-2a题1234approach 0 0 1 0breakthrough1 0 0 0drug 1 1 0 0for 1 0 1 1hope 0 0 0 1new 0 1 1 1of0 0 1 0patient 0 0 0 1schizophrenia1 1 1 1treatment0 0 1 0矩阵行是词，按顺序排列；列方向是文档编号。

某文档出现某词，相应位置填 1，否则填 0 b 题approach 1 3breakthrough 1 1drug 2 1 2for3 1 3 4hope 1 4new3 2 3 4of1 3patient 1 4schizophrenia 4 1 2 3 4treatment 1 3习题 1-71． kaleidoscope or eyes87009+2133122． marmalade or skies 107913+2716583． tangerine or trees46653+316812按估计的记录个数，从小到大的顺序124113145173174p2 31 54 101q11 2 4 11 31 45 54 101 173 174相等把文档编号添加到结果集，两个一起往后移；不相等小的往后移习题 1-10answer -while p1!=nil or p2!=nildo if docid(p1)=docid(p2)then add(answer,docid(p1))p1-next(p1)p2-next(p2)else if docid(p1)docid(p2)add(answer,docid(p1))p1-next(p1)elseadd(answer,docid(p2))p2-next(p2) return answer【篇二：信息检索导论-王斌第三次课后作业 (13-21) 】xt>1 、习题 13-2答： (i) 贝努利模型：三个文档具有相同的模型表示(ii) 多项式模型：文档 1 和文档 2 相同，文档 3 与它们都不同。

信息检索第二次作业答案南通大学

一、利用搜索引擎来查找以下资料，简要写出检索步骤（包括你选用的检索工具和检索词） 1、请查出自己的姓氏起源分布并介绍一位同姓的历史名人。

“张”的姓氏起源：张姓是中国最大的姓之一，得姓历史悠久，族大支繁。

1999 年我国在昆明举办“世界园艺博览会” ，世博园内立了《源于河南的姓氏》碑。

其中，第三位便是“张姓源于濮阳” 。

张姓曾有 43 个望族，为百家姓之首。

张姓，具有三个明显的特点，一是得姓较早，源远流长；二是族大支繁，遍及全国，到处都有张氏族人；三是人才辈出，不可胜数，从古至今，历代皆有张氏的杰出人物，像张衡、张仲景、张謇、张澜等人为中华民族的繁荣昌盛贡献着力量。

关于张姓的始祖，历代史书中有如下记载： “黄帝第五子清阳之孙生挥，为弓正，观弧星始制弓矢，主祀弧星，因姓张氏” （见《元和姓纂》“挥造弧矢，受封于张，后）为弓氏。

张，望出濮阳。

” “张姓出于姬姓，至周而氏者祖于韩，其得望者十二，曰襄阳，洛阳，河东，始兴，冯翊，吴郡，平原，青河，河间，中山，曰魏，曰蜀。

（见袁桷《张氏宗谱序》 ” ）从以上记载看，张姓之源，可追溯到五千年前中华民族的共同始祖黄帝，是黄帝的直系后裔。

黄帝第五子青阳，生子曰挥。

这位叫挥的黄帝之后，正是张姓的始祖。

所以说张姓是黄帝的直系后裔，有一定道理。

这位名挥的黄帝后裔，非常聪明，他观看到天上的弧星，便仿其形状做了弓矢。

原来，天上有星名“天弓” ，简称“弧” ，属井宿，共九星，在天狼星东南。

八星如弓形，外一星像矢，在犬犬、南船两星座内。

《宋史·天文志》载： “弧矢九星在狼星东南，天弓也” 。

挥看到“天弓” ，由“天弓”之形受到启发，最早发明了弓矢这个古代重要的武器。

他也由此而被 “赐姓张氏” 。

不过，当初的“张”“非命姓氏之义也 ” ，。

因为弓矢发明之后，在使用之前，必须先用力气将弓张开，不然，就无法使用。

挥是因为这个缘故而命为“张氏”的。

文献检索与应用第二次作业题及答案.doc

第2次作业一、单项选择题（本大题共40分，共20小题，每小题2分）1.以下哪项检索屈于数据检索？A.历史成绩超过89分的学生人数B.查喜黄山有多高C.检索关于网络技术的文献D.某同类产品中，那种牌号的销量最大2.以卜•哪种文献不属于零次文献？A.实验记录B.手稿C.原始录甘D.专利索引3.国际标准连续性出版物编号的缩写形式为（）A.TSBNB.ISSNKTD.VIP4.布尔逻辑检索包括（）A.逻辑“与”和逻辑“异或”B.逻辑“与”和逻辑“或”C.逻辑“ + ”和逻辑“-”D.逻辑“与”、逻辑“或”和逻辑“非”5.以下哪个不属于文献的出版形式分类（）A.图书B.期刊C.零次文献D.会议文献6 •下面哪一个属于二次文献？A.专题评述B.中经网数据库C.图书D.学位论文7.以卜•哪一个属于三次文献？A.演讲稿B.会议论文KI期刊数据库D.年鉴8.关于情报、知识、信息的基木概念及其之间的关系，以下描述错误的是（）OA.知识是人类对信息木质的认识和掌握B.信息和知识的认识是同步的C.知识就是有用的信息D.情报是指由特定效用的传递着的知识9.关于信息检索，以下描述错误的是（）A.信息检索的类型有文献检索、数据检索和事实检索B.“查看月球的年龄”的信息检索屈于数据检索C.“班上平均成绩超过80分的学生人数统计”屈于数据检索D.文献检索的目的是要检索出包含所需要信息的文献10.关于情报、知识、信息的概念及其之间的关系，以下描述错误的是（）.A.从吋间上来看，知识滞后于信息B.情报具有效用性C.知识就是情报D.情报具冇社会性11・关于检索方法的四种描述，其小描述错谋的是（）。

A.检索方法分为常用法、追溯法和循环法B.循环法是上述追溯法和常用法的结合C.常用法，也叫工具法，就是利用文摘或题录等各种文献检索工具查找文献的方法D.常用法根据时间范围又分为顺查法和倒查法12.以下四项检索哪一项属于事实检索（）？A.检索关于铝合金的研究文献B.检索泰山冇多高C.检索关于网络技术的文献D.同学中来自陕西的同学人数13.以下的数据库，哪一个不属于国外权威引文数据库？（）A.SCIB.ETC.ISTPK114.要在SCI小查找重庆大学关于远程教育研究的文献，请问以下检索式正确的是（）A.AD二Chongqing Univ* and TI二distance educationB.AD二Chongqing Univ and TI=distance educationC.AD=Chongqing Univ* and AU=distance educationD.AD=Chongqing Univ or TI=distance education15.从物理构成來讲,数字资源检索系统曲（）几部分构成A.软件和数据库B.硕件、软件、数据库C.硕件系统和软件D.服务器和数据库16. IP地址由（）节数字组成A.两B.四C.三D.五17.以下对专利的四种论述，哪一个是错谋的？A.专利是指一个国家授予创造发明人在一定的时间内对该发明创造的独占实施权，包扌舌专利产品的生产、使用和销售.B. 专利有三种类型C. 专利具冇独占•性D. 只冇新的、水平较高的，能在工业上制造的产品或使用方法，才可以申请专利. 18. 以下四种期刊数据库哪一个不是中文期刊数据库？A. CNKIB. VIPC. 万方期刊D. Elsevier ScicncA. 信息检索的类型有文献检索、数据检索和事实检索；B. “杭州六和塔建于何年”的信息检索属于事实检索；C. “班上平均成绩超过80分的学生人数统计”展于事实检索;D. 文献检索的目的是要检索岀包含所需要信息的文献二、判断题（本大题共6分，共6小题，每小题1分）1. “检索销量最大的产品型号”属于事实检索（）。

信息检索与利用习题与答案

医学信息检索习题单项选择题1. 关于信息的说法错误的是（）A. 信息和物资、能量构成社会三大资源B. 信息的运动状态和方式是固定不变的C. 信息是客观事物的运动状态和特征的反映D. 信息的存储形式有多种多样2. 下列文献中属于一次文献的是（）A. 期刊论文B. 年鉴C. 目录D. 文摘3. 下列文献中属于二次文献的是（）A. 索引B. 述评C. 研究报告D. 专著4. 下列哪个途径是从文献的内部特征进行检索的？（）A. 刊名途径B. 号码途径C. 作者途径D. 分类途径5. 非规范化检索语言是指哪一项？（）A. 主题检索语言B. 关键词语言C. 标题词语言D. 叙词语言6. 计算机文献检索中，每一种文献特征对应于计算机数据库中的（）A. 一条记录B. 一篇文献C. 一个字段D. 一个文档7. 在CBMdisc检索中，如果在一个检索式中同时包含多个运算符，那么它们的运算优先级次序正确的为（）A. AND>OR>NOTB. ( )> OR >AND>C. AND NOT>OR>ANDD. ( )>AND NOT>AND>OR8. Medline光盘数据库的内容涵盖三种重要的纸本医学文献检索工具，它们是（）A. IM、Index to Dental Literature、International Nursing IndexB. BA、IM、EMC. BA、EM、International Nursing IndexD. BA、Index to Dental Literature、International Nursing Index9. 下面哪个检索式的作用与短语检索"digiatal camera"等价：（）A. digiatal (W) cameraB. digiatal (N) cameraC. digiatal AND cameraD. digiatal OR camera10. 检索工具的功能主要体现在（）A. 使用说明B. 目次表格C. 索引部分D. 附录部分11. 在中国知网中，要求比较全面的检索有关“手术治疗近视”方面的文献，较好的检索策略为（）（检索项：主题）A. 手术治疗近视B. 手术并且治疗并且近视C. 手术并且近视D. 术并且近视12. 在CBMdisc检索中，查找期刊《癌症》上的文献，其正确表达式为（）A. 癌症in SOB. SO=癌症C. 癌症in TAD. TA=癌症13. 使用CBMdisc检索主题途径“卡介苗接种预防结核”的文献，检索表达式为（）A. 卡介苗/治疗应用and 结核/预防与控制B. 卡介苗预防and 结核C. 卡介苗/预防and 结核/治疗D. 卡介苗and 预防and 结核14. 在Pubmed检索中，查找林立发表的文献，检索表达式应该是（）A. Lin-L in auB. Lin L [au]C. AU=Lin LD. Lin L = au15. 下列不是医学专业搜索引擎的是（）A. Medical MatrixB. Cliniweb InternationalC. HONselectD. CALIS16. 在Pubmed中检索有关“感冒的药物治疗”的循证医学文献，最佳途径为（）A. Search (Common Cold and drug therapy)B. Search (Common Cold and drug therapy) Limits: Systematic ReviewsC. Search (Common Cold /drug therapy) Limits: Systematic ReviewsD. Search (Common Cold and drug therapy and EBM)17. 以下各选项中，诸权利均属于知识产权范围的是（）A. 著作权、商标权、专利权和物权B. 发现权、发明权、商号权和姓名权C. 商业秘密权、新植物品种权、原产地名称权和知情权D. 商业秘密权、文学产权、制止不正当竞争权和原产地标志权18. 知识产权是一类（）A. 物权B. 无形财产权C. 人权D. 诉权19. 我国制定专利法的主要目的就是为了保护发明创造的（）A. 著作权B. 发明权C. 发现权D. 专利权20.《中华人民共和国专利法》开始实施的时间是（）A. 1984年3月12日B.1985年4月1号C. 1992年9月7日D. 1993年1月1日21．利用分类途径进行检索，其检索标识为（ )A. 主题词B. 关键词C. 分类号D. 分子式22. 以下哪个数据库提供同名作者检索功能（）A. 万方数据库B. 清华同方数据库C. 复印报刊资料全文数据库D. 维普中文科技期刊数据库23. 一体化医学语言系统最重要的部分是（）A. 超级叙词表B. 语义网络C. 情报源图谱D. 专家词典24. 已知名叫孙钱章的作者 99 年出版了一本书，若想找到书名及其他信息，应在下列哪个数据库中查找（）A. 维普中文科技期刊数据库B. 复印报刊资料全文数据库C. 超星数字图书馆D. 万方数据资源系统25. 美国国立医学图书馆网络系统（）A. 可以查看中医文献B. 不可以查看中医文献C. 能查看中医文献D. 以上都对26. 应用PubMed的哪一栏目可查阅先前输入的检索策略（）A. LimitsB. Preview/IndexC. HistoryD. Clipboard27. hypertensi*的意思是（）A. 检索含字符hypertensi的文献B. 检索含字符hypertension的文献C. 检索含字符hypertensi*的文献D. 检索含字符hypertensi？的文献28. 下列哪条不属于MEDLINE收录的索引来源（）A. Index MedicusB. preMEDLINEC. International Nursing IndexD. Index to dental Literature29. MeSH表的组成部分中不包括（）A. 字顺表B. 树状结构表C. 主题词变更表D. 分类类目表30. 检索wom?n的意思是（）A. 检索含字符wom?n的文献B. 检索含字women的文献C. 检索含字woman的文献D. 检索含字符womn的文献31. 应用PubMed的哪一栏目可以在显示检索结果之前预览检出结果的条数（）A. LimitsB. Preview/IndexC. HistoryD. Clipboard32. 检索文献数据库时，下列哪种方法不能扩大检索范围（）A. 主题词加权B. 用ORC. 用相关的主题D. 采用截词33. 能够查看PUBMED对输入的检索策略如何进行匹配的是（）A. DetailsB. cubbyC. limitsD. linkout34. 衡量某一检索系统的信号噪声比的一种指标（）A. 查全率B. 漏检率C. 查准率D. 检索效率35. 下面哪个是先组式规范检索语言( )A. 单元词语言B. 关键词语言C. 标题词语言D. 叙词语言36. 下列哪项属于文献的外表特征( )A. 著者B. 主题词C. 文摘D. 分类号37. 在我国检索时主要依据的分类体系为( )A. 杜威分类法B. 中图法C. 人大法D. 分类法38. MeSH字顺表中某主题词下的树状结构号为“"，其中“+”表示( )A. 该主题词的类别B. 文献的类型C. 该主题词还有下位概念D. 树状结构号不完整39. 下列哪项是查找会议文献的首选工具（）A. 会议录B. 图书C. 期刊D. 报纸40. SCI与其他文献检索刊物不同之处在于( )A. 它具有团体索引B. 它具有引文索引C. 它可以了解某著者发表论文情况D. 它可以了解科研的最新动态41. 世界上第一个计算机信息检索系统诞生于( )A. 1946年B. 1950年C. 1954年D. 1963年42. 按照国际上通用的分类方法，下列哪个数据库属于源数据库? ( )A. 二次文献数据库B. 期刊全文数据库C. 机构名录数据库D. 图书馆书目信息数据库43. 当需要查找最新文献信息时，应尽可能采用( )进行检索。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1、习题6-10
tf-idf = tf * idf
car的tf-idf值在三篇文档中分别为：
Doc1:27*1.65=44.55；Doc2:4*1.65=6.6；Doc：24*1.65=39.6；auto的tf-idf值在三篇文档中分别为：
Doc1:3*2.08=6.24；Doc2:33*2.08=68.64；Doc：0*2.08=0；insurance的tf-idf值在三篇文档中分别为：
Doc1:0*1.62=0；Doc2:33*1.62=53.46；Doc：29*1.62=46.98；best的tf-idf值在三篇文档中分别为：
Doc1:14*1.5=21.0；Doc2:0*1.5=0；Doc：17*1.5=25.5；
2、习题6-19
所用公式：wf = 1+logtf t,d, tf t,d>0
0, ot erwise
idf=log N
df
归一化：12+12+1.3012=1.922
1/1.922 = 0.521301/1.922 = 0.677
最后的相似度结果为：1.56+1.558=3.118
3、习题7-2
胜者表是提出的一种更快获取得分较高文档的一种方法，基本思路是考虑r篇的tf值。

但在实际应用中，还应考虑到文档长度以及用户对搜索结果的关注程度等因素，并希望只关注那
些不仅相关度高并且权威度也大的文档。

如果只根据tf值来选取最后的结果文档，很可能导致的情况是，搜索结果和查询虽然相关，但会有文档长度过长且不是用户想得到的结果的问题。

因此在考虑到全局的情况下，引入了g(d)和tf-idf来对胜者表进一步扩展和精确。

这样高分文档更可能在倒排索引的前期出现。

4、习题7-8
5、习题8-8
b. 系统1的返回结果中相关文档比较集中，靠前两个，靠后两个。

系统2的返回结果中相关文档比较分散。

系统1比系统2获得较高的MAP值。

排名靠前的相关文档对MAP值影响较大，相关文档位置越靠前，系统能获得越高的MAP值。

c. R1=2/4=0.5
R2=1/4=0.25
按照R正确性值来看，与MAP的排序结果一致。

6、习题9-3
7、习题9-7
矩阵C里的元素表示该词项是否在这些文档中同时出现，1表示同时出现，0表示没有同时出现。

8、习题11-3
9、习题12-6
D=(<the, 2>, <martian, 1>,<has, 1>,<landed, 1>,<on, 1>,<latin, 1>,<pop,
1>,<sensation, 1>,<ricky, 1>,<martin, 1>)
a. P(the) = 2/11 = 0.182, P(martian) = 1/11 = 0.091
b. P(sensation|pop) = 1, P(pop|the) = 0
10、习题12-7
该文档集的查询似然模型为：
每篇文档模型对应的概率: P d q∝P(d)[1−λP t M c+λP(t|M d)]
t∈q
P(click|doc1)=1/2*1/2+7/16*1/2=15/32, P(click|doc2)=1*1/2+7/16*1/2=23/32
P(shears|doc1)=1/8*1/2+2/16*1/2=2/16,
P(click shears|doc1)=15/32*2/16=15/256
对于查询click shears来说，最后得到的文档次序为：doc4, doc1, doc2, doc3。