国科大现代信息检索第二次作业

合集下载

中国科学院大学计算机领域信息检索期末考试答案

中国科学院大学计算机领域信息检索期末考试答案

域信息检索与利用实用技巧任课老师:李玲试题专用纸1、简答题:您在学习和研究过程中遇到下列问题时,常用哪些方法来解决?(10题,3分/小题,共30分)(1)查找期刊时,您常用的方法?答: 中文期刊一般用:中国知网、万方数据库、维普数据库等;外文期刊一般用:ACM、IEEE、Elsevier ScienceDirect、SpringerLink、ScienceOnline 、Taylor & Francis Online Journals 、Cambridge Journal等;可通过国科大图书馆进入上述网站首页,输入所需检索的期刊信息,如期刊名称、作者、发表年份等信息进行查询。

(2)查找中国科学院学位论文时,您常用的方法?答: 进入“中国科学院大学”首页→点击右下方“图书馆”→点击进入“中科院学位论文数据库”→进入检索界面,输入所需检索的论文信息,如:论文名称、作者、指导老师等。

(3)查找各国专利以及专利的被引用情况时, 您常用的方法?答:进入国家知识产权局官网“”,输入所需检索专利的发明名称、申请号、申请人(三者至少必填其一)进行检索,查看专利被引用情况。

(4)查找SCI期刊的影响因子,您常用的方法?答:通过国科大图书馆点击“ISI-SCIE”进入web of science平台查询界面,输入期刊的关键词、作者等信息,可通过“AND”进行多个关键词组合以缩小查询范围。

(5)查找标准文献时,有哪些注意事项?答:合理选择标准数据库(如中文期刊会议类检索工具选用CNKI、维普、万方等,查询专利选用国家知识产权局等数据库);注意文献的发表时间(如利用CNKI科技类期刊数据库查询只能查询1994年之后发表的文献,维普中文科技期刊库可查询1984年之后发表的文献)使用多个精确的关键字组合,以减小检索范围。

(6)文献管理时,您常用的方法?答:使用EndNote文献管理工具,进行分类管理方便后期查询。

域信息检索与利用实用技巧任课老师:李玲试题专用纸(7)获取无法直接下载的文献全文时,您常用的方法?答:可通过文献传递,向有权限的人求助;或通过查询Researchgate,付费网站获取;也可以邮件联系文献作者求助。

中国科学技术大学--信息检索作业答案(电子版)

中国科学技术大学--信息检索作业答案(电子版)

中国科学技术大学上海工程硕士第八期《信息检索》考试试题姓名:陶亮学号:SG15010018成绩:第一章息检索及其主要功用3、你通常利用什么样的文献传播渠道来获取有关文献信息?答:文献信息的传播渠道是多种多样的,归结起来有以下三种基本形式:(1)人际传播渠道:是通过人们之间的直接交流,如相互交谈、相互借还或传阅资料、交换意见、参加会议、听课、听讲座等。

(2)组织传播渠道:是通过一定的形式无偿或部分有偿地向社会公众提供文献资料的中介交流形式,如图书馆、档案馆、各类文献情报中心、学校、美术馆乃至教堂等。

(3)大众传播渠道:借助于各种传统及现代化手段来传播的一种方式。

如通过订阅杂志、购买图书、观看影视作品或网上浏览下载等形式。

以上三种形式各有所长,相互补充,长期共存,各自发挥着独特的功能。

在我的日常生活中,上述三种文献传播渠道都有,但人际传播和大众传播是最多的传播渠道。

4、对于信息检索的五大功用,你最有体会的是什么?最不了解的是什么?你认为这五大功用以外还可以总结出来有关信息检索的其他功用吗?(请简介)答:信息检索五大功用分别为:(1)开阔视野,正确决策:能够及时、系统地了解前人的工作经验与成果,掌握事物最新动态及发展趋势。

适时做出正确决策,使所开展的工作取得最快、最有效的进展。

(2)提高功效,事半功倍:能节省人们对有用信息进行搜集利用的时间及精力,提高工作效益,做到事半功倍。

同时还能培养人们的自学能力、科学研究及鉴赏能力。

(3)学习借鉴,推动创新:有利于及时把握各种信息,促进科技发明和发现不断涌现,同时对人们开展终身学习不断提升综合素质、创作出更多、更优秀的成果及文献也具有强大的支持和推动作用。

(4)规避风险,维护权益:可以避免重复劳动、少走弯路、免去低水平复制所带来的损失,使各种科研、经营、生产等活动实现投入少、收效高,还可使人们规避风险,利用知识产权保护法等法律规范,维护自身或单位(国家)的正当权益。

2-1 信息检索与利用 第2次上机作业 试题

2-1 信息检索与利用 第2次上机作业 试题

信息检索与利用第2次上机作业试题
1. 假设你现在准备申报“超细氮化钛的合成方法研究”的研究课题立项,请利用CNKI中国期刊全文数据库(旧平台)
(/kns50/Navigator.aspx?ID=1(多次刷新))的“高级检索”和“专业检索”进行文献检索,目的是判断该研究课题目前国内的研究现状。

1)写明整个搜索、检索过程,列出主要检索式;
2)各罗列与该课题密切相关的2条中文文献,写明文献的标题,作者,单位,来源刊,摘要等主要信息.
2.在国家知识产权局专利数据库(/zljs/)进行检索。

1)就“数字视频远程医疗会诊系统”的课题进行检索。

2)写明检索思路、步骤,主要检索式。

3)罗列与该课题密切相关的1个结果,并标明专利号(申请号)、发明名称、发明人、摘要等主要信息。

3. 悬赏:在512大地震之后不久,新语丝上出现了一篇帖子(译自美国《国家地理杂志》文章),指出早在1年前就有科学家在一篇科学论文中警告北川断裂带将有爆发强烈地震的危险(详情见链接
/bbs/viewthread.php?tid=7616506)。

为验证此消息的可靠性,请“不择手段”以多种思路尝试寻找文中所提及的那篇科学论文的原文(PDF 格式,给出链接地址即可)。

4. 请就信息检索课教学内容、方式等方面提出意见或建议。

文献检索与应用第二次作业题及答案.doc

文献检索与应用第二次作业题及答案.doc

第2次作业一、单项选择题(本大题共40分,共20小题,每小题2分)1.以下哪项检索屈于数据检索?A.历史成绩超过89分的学生人数B.查喜黄山有多高C.检索关于网络技术的文献D.某同类产品中,那种牌号的销量最大2.以卜•哪种文献不属于零次文献?A.实验记录B.手稿C.原始录甘D.专利索引3.国际标准连续性出版物编号的缩写形式为()A.TSBNB.ISSNKTD.VIP4.布尔逻辑检索包括()A.逻辑“与”和逻辑“异或”B.逻辑“与”和逻辑“或”C.逻辑“ + ”和逻辑“-”D.逻辑“与”、逻辑“或”和逻辑“非”5.以下哪个不属于文献的出版形式分类()A.图书B.期刊C.零次文献D.会议文献6 •下面哪一个属于二次文献?A.专题评述B.中经网数据库C.图书D.学位论文7.以卜•哪一个属于三次文献?A.演讲稿B.会议论文KI期刊数据库D.年鉴8.关于情报、知识、信息的基木概念及其之间的关系,以下描述错误的是()OA.知识是人类对信息木质的认识和掌握B.信息和知识的认识是同步的C.知识就是有用的信息D.情报是指由特定效用的传递着的知识9.关于信息检索,以下描述错误的是()A.信息检索的类型有文献检索、数据检索和事实检索B.“查看月球的年龄”的信息检索屈于数据检索C.“班上平均成绩超过80分的学生人数统计”屈于数据检索D.文献检索的目的是要检索出包含所需要信息的文献10.关于情报、知识、信息的概念及其之间的关系,以下描述错误的是().A.从吋间上来看,知识滞后于信息B.情报具有效用性C.知识就是情报D.情报具冇社会性11・关于检索方法的四种描述,其小描述错谋的是()。

A.检索方法分为常用法、追溯法和循环法B.循环法是上述追溯法和常用法的结合C.常用法,也叫工具法,就是利用文摘或题录等各种文献检索工具查找文献的方法D.常用法根据时间范围又分为顺查法和倒查法12.以下四项检索哪一项属于事实检索()?A.检索关于铝合金的研究文献B.检索泰山冇多高C.检索关于网络技术的文献D.同学中来自陕西的同学人数13.以下的数据库,哪一个不属于国外权威引文数据库?()A.SCIB.ETC.ISTPK114.要在SCI小查找重庆大学关于远程教育研究的文献,请问以下检索式正确的是()A.AD二Chongqing Univ* and TI二distance educationB.AD二Chongqing Univ and TI=distance educationC.AD=Chongqing Univ* and AU=distance educationD.AD=Chongqing Univ or TI=distance education15.从物理构成來讲,数字资源检索系统曲()几部分构成A.软件和数据库B.硕件、软件、数据库C.硕件系统和软件D.服务器和数据库16. IP地址由()节数字组成A.两B.四C.三D.五17.以下对专利的四种论述,哪一个是错谋的?A.专利是指一个国家授予创造发明人在一定的时间内对该发明创造的独占实施权,包扌舌专利产品的生产、使用和销售.B. 专利有三种类型C. 专利具冇独占•性D. 只冇新的、水平较高的,能在工业上制造的产品或使用方法,才可以申请专利. 18. 以下四种期刊数据库哪一个不是中文期刊数据库?A. CNKIB. VIPC. 万方期刊D. Elsevier ScicncA. 信息检索的类型有文献检索、数据检索和事实检索;B. “杭州六和塔建于何年”的信息检索属于事实检索;C. “班上平均成绩超过80分的学生人数统计”展于事实检索;D. 文献检索的目的是要检索岀包含所需要信息的文献二、判断题(本大题共6分,共6小题,每小题1分)1. “检索销量最大的产品型号”属于事实检索()。

国科大信息检索作业

国科大信息检索作业

国科大2013年秋季《现代信息检索》第一次作业(第一章到第五章)以下每题10分,共计100分。

1、习题1-4a.时间复杂度O(x+y)。

因为倒排记录表记录的文档号是按照从小到大排列的,在扫描Brutus对应的倒排表的时指针指向文档号为x,扫描Caesar对应的倒排记录表的指针对应的文档号为y,如果x<y那么x在结果集中,brutus指针后移,如果x=y,x不在结果集中,两个指针都后移,如果x>y,caesar指针后移。

b.时间复杂度是O(N),N是全部的文档数。

因为结果集的大小取决于文档数N,而不是倒排记录表的长度。

2、习题1-7对于原始的查询,按照倒排记录表的长度从小到大查询会节省查询复杂度(tangerine OR trees) = O(46653+316812)=O(363465)(marmalade OR skies) = O(107913+271658) = O(379571)(kaleidoscope OR eyes) = O(46653+87009) = O(300321)即顺序为:(kaleidoscope OR eyes) AND (tangerine OR trees)AND(marmalade OR skies)3、习题1-10UNION(p1,p2)answer ←{ }while p1!=NIL and p2!=NILdo if docID(p1)=docID(p2)then ADD(answer,docID(p1))p1<- next(p1)p2<-next(p2)else if docID(p1)<docID(p2)then ADD(answer,docID(p1))p1<- next(p1)else ADD(answer,docID(p2))p2<-next(p2)while p1!=NILdo ADD(answer,docID(p1))p1<- next(p1)while p2!=NILdo ADD(answer,docID(p2))p2<- next(p2)return(answer)4、习题2-7a.由24跳到75这一次跳转b.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (75,89)(75,89) (92,89) (75,89)(92,89) (81,89) (84,89) (89,89) (92,95) (115,95)(96,95) (96,97) (97,97) (100,99) (100,100) (115,101)总共21次比较c.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (39,89) (60,89) (68,89) (75,89) (81,89) (84,89) (89,89) (92,95) (96,95) (96,97)(97,97) (100,99) (100,101) (115,101) 总共19次比较56、习题3-116*6*6*6=12967、习题4-1倒排索引的构建需要两步:1.扫描文档,建立词项文档对。

现代信息检索作业Word版

现代信息检索作业Word版

运城学院《现代信息检索》系别:应用化学专业:化学班级:1101姓名:张丹学号:2011080145这个学期我学习了想《现代信息检索》这门课程,从中学到了很多关于信息检索的知识,以下就是我对这门课程的总结。

信息社会,人们把信息、物质与能量一起称为人类社会赖以生存发展的三大要素。

信息是促进社会经济、科学技术以及人类生活向前发展的重要因素。

一个国家的科技进步和社会发展起来越取决于对信息的开发与利用,谁能充分开发和有效地利用信息资源,谁就能抢占科学技术发展的制高点。

社会的信息化环境使社会对人才的要求更高,信息素质成为现代化人才必备的基本素质之一。

当今,信息呈爆炸式增长,不仅如此,信息载体也发生了巨大的变化,除传统纸介质信息外,每天都有大量的磁载体信息、电子版信息及各类网上信息涌现出来,这些浩如烟海的信息的多样性、离散性与无序性及其复杂的检索界面和使用方法,增加了信息利用的难度,极大地影响了人们获取信息的质量与效率。

信息检索方法是实现检索方案中的检索目标所采用的具体操作方法和手段的总称。

检索的方法很多,要检索过程中应根据检索系统的功能和检索者的实际需求,灵活运用各种检索方法,以达到满意的检索效果。

而检索方法大致有以下几种:1、顺查法,2、倒查法,3抽查法,4追溯法,5分段法,6浏览法。

顺查法:顺查法即根据课题所涉及的学科范围,从有关问题提出的最初年代入手,由远而近、逐年查找,直到查找的信息资料充足为止的方法。

这种方法适用于对某一课题的普查,能查找到相当长时期内国内外发表的全部相关文献资料,这种方法查得的信息资料比较全面,漏查的可能性小,查全率较高。

其不足之处是工作量大,费时费力。

倒查法:倒查法也称逆查法,即根据所查课题的时间范围,由近期向远期回溯查找文献资料的方法。

此法适用于一些新课题、新观点、创新理论、革新技术等信息资料的检索,重点查检近期的信息资料,检索是按时间顺序由近期的新内容往远期旧内容逐年查找。

课程科技信息检索作业二

课程科技信息检索作业二

课程:《科技信息检索》作业二学校年级:姓名学号:作业成绩:教师签名:第四章单一类型的科技文献检索一、填空一、图书的篇幅一般在______页以上,此刻正式出版的图书都有_________,如“ISBN7-118-02338-8/”,其中“7”是________,“118”是________,“02338”是________,“8”是________,而“”则是________。

二、“ISSN1002-1965”是____________,而“CN61-1167”是___________。

3、中国科技报告的主要检索工具是_____________,美国政府四大报告是________、________、________、________。

4、会议文献的出版形式通常有_________、_________、_________和_________ 。

国内会议文献的主要检索工具是__________,1999年后停出印刷版,改成__________。

五、专利一般分为通_________、_________和_________三种类型。

“中国专利公报”的年度积累本_________是检索中国专利的主要工具,英国德温特公司的_________是目前检索世界各主要国家专利的检索工具。

六、学位论文是高校毕业生为取得________而提交的论文。

____________是检索国内自然科学类学位论文的权威检索工具,1999年停刊后改成“中国学位论文数据库”。

7、中国标准可分为________、________、________三级,中国标准文献利用的分类法是_____________。

二、多项选择题一、查找国内已经出版的图书可用以下检索工具()。

A.全国总书目B.科技新书目C.社科新书目D.全国新书目二、科技报告的特殊性是指()。

A.非书非刊B.信息量大C.内容新颖D.有保密性E.控制流通范围F.产生于二战时期G.数量庞大3、会议文献按出版时间可分为会前、会间和会后文献,下列文献是属会后文献的是()A.议程和发言提要B.会议录C.会议论文集D.行政事物和情况报导文献E.讨论记录F.演讲词4、若是一份标准文献的标准号为Q/WG1-78,那么它可能是()A.国际标准B.区域性标准C.国家标准D.行业标准E.企业标准五、IEC是指()标准A.美国国家标准B.全欧标准C.国际标准化组织标准D.国际电子委员会标准三、简答题一、利用“全国报刊索引”和“中国报刊大全”,在检索结果上的最大区别是什么?二、简述会议文献的特点3、简述专利文献的特点4、简述科技报告文献的特点四、实习题1.就同一主题,进行两种以上单一文献类型的检索。

国家开放大学《科技文献检索》形考作业2参考答案

国家开放大学《科技文献检索》形考作业2参考答案

国家开放大学《科技文献检索》形考作业2参考答案1、纸质信息源的载体是()A. 感光材料B. 缩微平片C. 光盘D. 纸张2、图书馆所购买的下列数据库中可以检索期刊论文的是()A. 超星数字图书馆B. 书生之家数字图书馆C. 万方数据库资源系统D. 方正Apabi数字图书馆3、下面哪项工具是不属于书目检索范畴( )A. 《中文科技资料目录》B. 《中国期刊网全文专题数据库》C. 美国《医学索引》D. 《中国药学文摘》4、国际专利分类法等级分为()。

A. 5级B. 4级C. 6级D. 8级5、计算机文献信息检索发展的最高阶段是( )A. 国际联机检索B. 网络信息检索C. 光盘检索D. 脱机检索6、在机检中,当检索结果太少,查全率较低时,检索式可做如下调整()。

A. 减少同义词或同类相关词B. 进行扩展检索(族性检索),根据词表的分类结构体系扩展关键的检索词C. 增加限制概念,用逻辑"与"(and)将它们连接起来D. 使用适当的位置算符,排除误检,提高查准率7、下列说法中错误的是()。

A. 综述是对特定的问题利用有关的情报进行的综合性叙述;B. 综述是为了评述新知识。

C. 综述对某一特定问题从一定时间内的大量文献中摘取情报;D. 综述是研究所有问题的文章;8、根据全国科学技术名词委员会发布试用的新词的定名,Internet的规范称谓应该是()。

A. 因特网B. 互联网C. 网际网D. 万维网9、( ) 是一页书或一页文章展现在我们面前的样子,是经过检索或翻阅最后让我们仔细了解其中信息和知识的界面,是人与文献直接接触和面对以及交流的主要接口A. 文摘B. 文献C. 文本D. 索引10、美国《化学文摘》的主要特点不包括()A. 出版迅速B. 索引完备C. 摘录广泛D. 非核心期刊11、下列关于“核心期刊”叙述错误的是()A. 现在是指由《中国科技期刊引证报告》(中国科学技术信息研究所)、中国科学引文数据库、《中文核心期刊要目总览》(大学图书馆和高校图书馆期刊工作研究会)所界定的期刊。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

国科大2013年秋季《现代信息检索》第二次作业(第六章到第十五章)以下1—16每题6分,第17题3分,共计100分。

1. 习题 6—10 考虑图6—9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf 情况,采用图6—8中的idf 值来计算所有词项图6-9 习题 6—10中所使用的tf 值car 在三篇文档中的tf —idf 值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39。

6 auto 在三篇文档中的tf -idf 值分别为:Doc1:3*2.08=6。

24;33*2。

08=68。

64;0*2。

08=0 insurance 在三篇文档中的tf —idf 值分别为:Doc1:0*1。

62=0;33*1.62=53。

46;29*1.62=46。

98best 在三篇文档中的tf —idf 值分别为:Doc1:14*1。

5=21;0*1。

5=0;17*1.5=25。

52. 习题 6—15 回到习题6—10中的tf—idf 权重计算,试计算采用欧氏归一化方式处理后的文档向量,其中每个向量有4维,每维对应一个词项。

Doc1=(44.55,6.24,0,21), Len(Doc1)=49。

6451对其长度归一化得到Doc1=(0。

897,0。

126,0,0.423) Doc2=(6。

6,68。

64,53.46,0),Len (Doc2)=87。

2524对其长度归一化得到Doc2=(0.076,0.787,0.613,0)Doc3=(39。

6,0,46。

98,25.5),Len (Doc3)=66。

5247对其长度归一化得到Doc3=(0.595,0,0。

706,0。

383) 3.习题 6-19 计算查询digital cameras 及文档digital cameras and video cameras 的向量空间相似度并将结果填入表6-1的空列中。

假定N =10 000 000,对查询及文档中的词项权重(wf 对应的列)采用对数方法计算,查询的权重计算采用idf,而文档归一化采用余弦相似度计算。

将 and 看成是停用词。

请在tf 列中给出词项的出现频率,并计算出最后的相似度结果.相似度结果=1.56+1。

558=3.118 4.习题 7-1 图7—2中倒排记录表均按照静态得分g (d )的降序排列,为什么不采用升序排列? 一篇文档d 的最后得分定义为g(d)和某个与查询相关的得分的某种组合,一些文档具有高的g(d )值更有可能具有较大的最后得分,降序排列有助于提高top -k 检索的效率。

在这种排序下,高分文档更可能在倒排记录表遍历的前期出现.在实际受限的应用当中(比如,任意搜索需要在50ms 内返回结果),上述方式可以提前结束倒排记录表的遍历。

5.习题 7—8 平面上的最近邻问题如下:在平面上给出N 个数据点并将它们预处理成某种数据结构,给定查询点Q ,在N 个点中寻找与Q 具有最短欧氏距离的点。

很显然,如果我们希望能够避免计算Q 和所有平面上的点的距离时,簇剪枝就能够作为最近邻问题的一种处理方法。

请给出一个简单的例子来说明: 如果只选择最近的两个先导者,那么簇剪枝方法可能会返回错误的结果(也就是说返回的不是离Q 最近的数据点)。

如图所示,黄色圈代表查询,离查询最近的两个先导者为l1,l2,但是离查询最近的文档是红色圈代表的,不属于l1,l2,属于离查询较远的先导者l3,因此离查询最近的文档不会被返回。

6. 习题8-5 [**]正确率和召回率之间是否一定存在等值点?说明为什么一定存在或给出反例。

如果返回的相关文档数(RR)=0,正确率=召回率=0。

如果返回的不相关的文档(RN)=未返回的相关文档(NR),正确率也等于召回率。

如果一篇文档都不返回,正确率=1,召回率=0;如果返回全部的文档,正确率=相关文档数/总文档数,召回率=1。

假设返回的文档中排名靠前的都是相关文档,那么随着返回文档数的增加,RN由0变为N—相关文档数,且中间每一个值都能取到,NR由总共相关文档数变为0,同样能取到中间的每一个值。

RN从小变大,NR从大变小看,中间有一个相等的情况,这时候召回率=正确率.习题8—8 [*]考虑一个有4篇相关文档的信息需求,考察两个系统的前10个检索结果(左边的,相关性判定的情况如下所示:1 R N R N N N N N R R2 N R N N R R R N N N计算两个系统的MAP值并比较大小。

MAP(系统1)=(1/4)*(1+2/3+3/9+4/10)=0。

6MAP(系统2)=(1/4)*(1/2+2/5+3/6+4/7)=0.493由于只有一个查询,MAP=AP。

系统1的MAP值更大b.上述结果直观上看有意义吗?能否从中得出启发如何才能获得高的MAP得分?系统1返回的相关文档位置较分离,有的在前面有的在后面,系统2返回的相关文档较集中的中间位置.系统1获得了较高的MAP值.排名前面位置的相关文档数对MAP值的影响较大,相关文档排在靠前的位置可以获得较高的MAP得分。

c.计算两个系统的R正确性值,并与a中按照MAP进行排序的结果进行对比。

R正确率(系统1)=2/4=0。

5R正确率(系统2)=1/4=0。

25虽然R正确率只度量了正确率-召回率曲线上的一个点,但是经验上却证实它和MAP是高度相关的。

按照R 正确率和MAP排序得到的结果一致。

8. 习题9-3假定用户的初始查询是cheap CDs cheap DVDs extremely cheap CDs。

用户查看了两篇文档d1 和d2,并对这两篇文档进行了判断:包含内容CDs cheap software cheap CDs的文档d1为相关文档,而内容为cheap thrills DVDs 的文档d2为不相关文档。

假设直接使用词项的频率作为权重(不进行归一化也不加上文档频率因子),也不对向量进行长度归一化。

采用公式(9—3)进行Rocchio相关反馈,请问修改后的查询向量是多少?其中α = 1,β = 0。

75,γ = 0。

25。

q m⃗⃗⃗⃗⃗ =αq0⃗⃗⃗⃗ +β1|D r|∑d j⃗⃗⃗ −γ1|D nr|∑d j⃗⃗⃗修改后的查询向量q=(2.5,4。

25,0.75,1,0。

75,—0。

25),如果向量中权重分量为负值,那么该分量权重设为0.所以最终Rocchio向量为(2。

5,4。

25,0。

75,1,0。

75,0)9. 习题11—3 [**]令X t表示词项t在文档中出现与否的随机变量。

假定文档集中有|R|篇相关文档,所有文档中有s篇文档包含词项t,即在这s篇文档中X t=1。

假定所观察到的数据就是这些X t在文档中的分布情况。

请证明采用MLE 估计方法对参数(1|1,)t t p X R q ===进行估计的结果,即使得观察数据概率最大化的参数值为 p t = s/ |R |。

设D 是相关文档集,定义一个函数P (D |R =1)=∏P (d |R =1)=p t s t∈D (1−p t )|R|−s∂P(D|R =1)∂p t=s ×p t s−1(1−p t )|R|−s −p t s×(|R |−s)(1−p t )|R|−s−1令∂P(D|R=1)∂p t=0,得到p t =s/|R|10. 习题12—6 [*] 考虑从如下训练文本中构造LM : the martian has landed on the latin pop sensation ricky martin 请问:a. 在采用MLE 估计的一元概率模型中,P (the)和P (martian)分别是多少? P(the ) = 2/11 = 0.181818182 P (martian) = 1/11 = 0。

090909091b. 在采用MLE 估计的二元概率模型中,P (sensation |pop )和 P (pop|the)的概率是多少? P (sensation |pop) = 1 P(pop|the) = 011. 习题 12-7 [**] 假定某文档集由如下4篇文档组成:为该文档集建立一个查询似然模型。

假定采用文档语言模型和文档集语言模型的混合模型,权重均为0.5.采用MLE 来估计两个一元模型. 计算在查询click 、shears 以及click shears 下每篇文档模型对应的概率,并利用这些概率来对返回的文档排序.将这些概率填在下表中。

对于查询 click shears 来说,最后得到的文档次序如何?每篇文档模型对应的概率为:查询 click shears 的文档排序为:doc4,doc1,doc2,doc312. 习题 13—1 对于表13—2,为什么在绝大部分文本集中| ||V | < | |L ave 都成立?假设大多数文档集的词条数都大于100万,根据Heaps 定律,词汇表大小V 是文档集规模T 的一个函数,V=K *T b ,典型的K=44,b=0.49,V=K*T b =44*(1000000)0。

5=44000 |D |L d =文档集中的词条数=1000000,|C||V |=2*44000=88000 所以大多数文档集有|C||V |〈|D |L d13. 习题 13—2 [*] 表13—5中的文档中,对于如下的两种模型表示,哪些文档具有相同的模型表示?哪些文档具有不同的模型表示?对于不同的表示进行描述。

(i ) 贝努利模型。

(ii ) 多项式模型。

表13-5 NB 独立性假设存在问题的几个文档例子(1) He moved from London, Ontario , to London , England 。

(2) He moved from London , England, to London , Ontario. (3) He moved from England to London , Ontario.(i ) 贝努利模型:三个文档具有相同的模型表示。

(ii) 多项式模型:文档(1)(2)相同,与文档3不同.文档(1)(2)中’London’都出现了两次,文档(3)中’London’只出现了一次。

14. 习题 13—5 考虑coffee 中的出现频率。

根据(i) 2χ (ii) 互信息及 (iii) 频率的值,从上述4个词项中选出2个词项. (i )2χ对于brazil:E11=N *p(t )*p(c)=(51+1835)*(51+102)/100000=2.8856E00=N *(1-p(t))*(1—p (c ))=(98012+102)*(98012+1835)/100000=97963.8856 E01=N *(1-p(t ))*p (c )=(98012+102)*(51+102)/100000=150.1144 E10=N*p(t)*(1—p (c ))=(1835+51)*(98012+1835)/100000=1883.1144 X 2(D,t,c )=∑∑(N etec −E etec )2E e t e ce c ∈{0,1}e t ∈{0,1} =(98012-97963。

相关文档
最新文档