国科大现代信息检索第二次作业
2013年4月考试文献检索与应用第二次作业

2013年4月考试文献检索与应用第二次作业第一篇:2013年4月考试文献检索与应用第二次作业2013年4月考试文献检索与应用第二次作业一、单项选择题(本大题共80分,共 20 小题,每小题 4 分)1.关于情报、知识、信息的基本概念及其之间的关系,以下描述错误的是()。
A.知识是人类对信息本质的认识和掌握B.信息和知识的认识是同步的C.知识就是有用的信息D.情报是指由特定效用的传递着的知识2.专利包含的类型有:()A.发明专利B.实用新型专利C.外观设计专利D.以上全部3.以下哪项检索属于事实检索?A.检索关于铝合金的研究文献B.查喜泰山有多高C.检索关于网络技术的文献D.同学中身高低于平均身高的同学人数4.一个完整的IPC分类号为()级 A.三 B.四 C.五 D.六5.以下关于人工语言的四种描述,描述错误的是()?A.人工语言是根据信息检索的需要而由人工创制的B.人工语言将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制C.人工语言的检索效率不如自然语言D.人工语言可分为分类检索语言、主题检索语言、代码检索语言 6.关于搜索引擎的描述,错误的是()A.搜索引擎的类型有目录式搜索引擎,检索型搜索引擎,混合型搜索引擎,多元搜索引擎B.搜索引擎(search engines)是一种在互联网采取一定的策略搜集信息,并对信息进行提取、组织和处理,为用户提供检索服务的搜索工具C.多元搜索引擎自己拥有大量的信息,并将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排查、重新排序等处理后,作为自己的结果返回给用户D.常见中文搜索引擎有:Google中文搜索引擎、百度(baidu)中文搜索引擎、北大天网中英文搜索引擎和新浪搜索引擎等.7.以下哪类文献不属于文献的出版类型分类()? A.图书 B.期刊 C.手稿D.技术标准8.要查找“铸态组织模拟技术”课题的相关文献,以下哪个检索式是正确的()A.铸态组织 and 模拟技术 B.铸态组织模拟技术C.铸态组织 or 模拟技术D.铸态组织 not 模拟技术9.以下关于文献的四种描述,哪一个是错误的?A.文献的加工级别有零次文献、一次文献、二次文献和三次文献B.文献是指人类用来传递知识的各类印刷型书籍C.按照文献的载体形式,文献可分为手写型文献、印刷型文献、缩微型文献、视听型文献和电子型文献五种类型D.文献的基本要素有知识内容、信息符号和载体材料.10.关于电子图书的描述,错误的是()A.现有的电子图书数据库的缺点是,电子图书只能在线浏览,不能脱机阅读B.电子图书的出现降低了图书购买的成本C.电子图书的出现节省了存储空间,减小了管理强度D.电子图书,指以数字文件形式存储的图书,其中可以包含文本、图片、动画、声音等,人们可以把它下载到计算机、掌上电脑或专用的手持设备上进行阅读.11.图书的国际标准书号的缩写形式为()A.ISBN B.ISSN KI D.VIP 12.以下对专利的四种论述,哪一个是正确的?A.专利是指一个国家授予创造发明人在以后的时间内对该发明创造的独占实施权,包括专利产品的生产、使用和销售B.专利是指一个国家授予创造发明人在一定时间内对该发明创造的独占实施权,包括专利产品的生产、使用和销售C.专利是指一个国家授予创造发明人在一定时间内对该发明创造的独占实施权,包括专利产品的生产、使用和销售,一旦申请,受保护的范围为全球范围内D.只有新的、水平较高的,能在工业上制造的产品或使用方法,才可以申请专利13.客户端/服务器模式简称为()A.C/S模式B.B/S模式C.B/W/S模式D.N-Tier模式14.关于电子期刊,那种描述是错误的()A.电子期刊是数字形式存放的期刊B.核心期刊(Core Journal),指的是刊载与某一学科(或专业)有关的信息较多,且水平较高,能够反映该学科最新成果和前沿动态,受到该专业读者特别关注的那些期刊C.常用中文期刊数据库有:CNKI期刊数据库、万方期刊、维普期刊D.中国资讯行也属于期刊数据库15.下面哪一类文献属于二次文献?()A.演讲稿 B.期刊论文 C.学位论文D.PQDD学位论文数据库16.关于IP地址和域名的描述错误的是()A.IP地址由4节数字构成B.IP每节数字的取值范围从1到255C.域名是为了向一般用户提供一种直观明了的主机识别符,TCP/IP协议专门设计了一种字符型的主机命名机制,即是域名系统DNS 域名与地理位置无关 17.关于信息检索的描述,以下描述错误的是()。
中国科学技术大学--信息检索作业答案(电子版)

中国科学技术大学上海工程硕士第八期《信息检索》考试试题姓名:陶亮学号:SG15010018成绩:第一章息检索及其主要功用3、你通常利用什么样的文献传播渠道来获取有关文献信息?答:文献信息的传播渠道是多种多样的,归结起来有以下三种基本形式:(1)人际传播渠道:是通过人们之间的直接交流,如相互交谈、相互借还或传阅资料、交换意见、参加会议、听课、听讲座等。
(2)组织传播渠道:是通过一定的形式无偿或部分有偿地向社会公众提供文献资料的中介交流形式,如图书馆、档案馆、各类文献情报中心、学校、美术馆乃至教堂等。
(3)大众传播渠道:借助于各种传统及现代化手段来传播的一种方式。
如通过订阅杂志、购买图书、观看影视作品或网上浏览下载等形式。
以上三种形式各有所长,相互补充,长期共存,各自发挥着独特的功能。
在我的日常生活中,上述三种文献传播渠道都有,但人际传播和大众传播是最多的传播渠道。
4、对于信息检索的五大功用,你最有体会的是什么?最不了解的是什么?你认为这五大功用以外还可以总结出来有关信息检索的其他功用吗?(请简介)答:信息检索五大功用分别为:(1)开阔视野,正确决策:能够及时、系统地了解前人的工作经验与成果,掌握事物最新动态及发展趋势。
适时做出正确决策,使所开展的工作取得最快、最有效的进展。
(2)提高功效,事半功倍:能节省人们对有用信息进行搜集利用的时间及精力,提高工作效益,做到事半功倍。
同时还能培养人们的自学能力、科学研究及鉴赏能力。
(3)学习借鉴,推动创新:有利于及时把握各种信息,促进科技发明和发现不断涌现,同时对人们开展终身学习不断提升综合素质、创作出更多、更优秀的成果及文献也具有强大的支持和推动作用。
(4)规避风险,维护权益:可以避免重复劳动、少走弯路、免去低水平复制所带来的损失,使各种科研、经营、生产等活动实现投入少、收效高,还可使人们规避风险,利用知识产权保护法等法律规范,维护自身或单位(国家)的正当权益。
信息检索 第二次作业答案 南通大学

一、利用搜索引擎来查找以下资料,简要写出检索步骤(包括你选用的检索工具和检索 词) 1、请查出自己的姓氏起源分布并介绍一位同姓的历史名人。
“张”的姓氏起源: 张姓是中国最大的姓之一,得姓历史悠久,族大支繁。
1999 年我国在昆明举办“世 界园艺博览会” ,世博园内立了《源于河南的姓氏》碑。
其中,第三位便是“张姓源于 濮阳” 。
张姓曾有 43 个望族,为百家姓之首。
张姓,具有三个明显的特点,一是得姓较 早,源远流长;二是族大支繁,遍及全国,到处都有张氏族人;三是人才辈出,不可胜 数,从古至今,历代皆有张氏的杰出人物,像张衡、张仲景、张謇、张澜等人为中华民 族的繁荣昌盛贡献着力量。
关于张姓的始祖,历代史书中有如下记载: “黄帝第五子清阳之孙生挥,为弓正, 观弧星始制弓矢,主祀弧星,因姓张氏” (见《元和姓纂》“挥造弧矢,受封于张,后 ) 为弓氏。
张,望出濮阳。
” “张姓出于姬姓,至周而氏者祖于韩,其得望者十二,曰襄阳,洛阳,河东,始兴, 冯翊,吴郡,平原,青河,河间,中山,曰魏,曰蜀。
(见袁桷《张氏宗谱序》 ” ) 从以上记载看,张姓之源,可追溯到五千年前中华民族的共同始祖黄帝,是黄帝的 直系后裔。
黄帝第五子青阳,生子曰挥。
这位叫挥的黄帝之后,正是张姓的始祖。
所以 说张姓是黄帝的直系后裔,有一定道理。
这位名挥的黄帝后裔,非常聪明,他观看到天上的弧星,便仿其形状做了弓矢。
原 来,天上有星名“天弓” ,简称“弧” ,属井宿,共九星,在天狼星东南。
八星如弓形, 外一星像矢,在犬犬、南船两星座内。
《宋史·天文志》载: “弧矢九星在狼星东南, 天弓也” 。
挥看到“天弓” ,由“天弓”之形受到启发,最早发明了弓矢这个古代重要的 武器。
他也由此而被 “赐姓张氏” 。
不过,当初的“张”“非命姓氏之义也 ” , 。
因为弓矢发明之后,在使用之前,必须 先用力气将弓张开,不然,就无法使用。
挥是因为这个缘故而命为“张氏”的。
2019年春季 电大(国家开放大学) 信息检索与利用 形考任务2 答案

信息检索与利用形考2图书馆馆藏资源从文献的加工程度上来划分包括()选择一项或多项:A. 三次文献B. 一次文献C. 二次文献D. 零次文献反馈The correct answers are: 一次文献, 二次文献, 三次文献题目2正确获得3.00分中的3.00分标记题目题干()是国内第一个电子全文剪报产品,是科研人员课题查新、科研教学、企业决策和获取竞争信息的重要工具之一选择一项:A. 《中国重要会议论文全文数据库》B. 《外文科技期刊数据库》C. 《中国科技经济新闻数据库》D. 《中文科技期刊数据库》正确答案是:《中国科技经济新闻数据库》题目3正确获得3.00分中的3.00分标记题目题干目前,图书馆一般采用( )进行检索图书选择一项:A. ISBNB. GOOGLEC. ETCD. OPAC反馈正确答案是:OPAC题目4正确获得3.00分中的3.00分标记题目图书排列按索取号顺序排序,正确的是()选择一项:A. TM925/44; I247. 5/123; I247. 5/55; TP316/4;B. TP316/4; I247. 5/123; I247. 5/55; TM925/44C. I247. 5/55; I247. 5/123; TM925/44; TP316/4;D. I247. 5/123; I247. 5/55; TP316/4; TM925/44;反馈正确答案是:I247. 5/55; I247. 5/123; TM925/44; TP316/4; 题目5正确获得4.00分中的4.00分标记题目题干对检索式的制定应符合的要求为()选择一项或多项:A. 要满足所检数据库检索用词规范B. 要符合检索系统限制条件和组配原则C. 检索式应尽量简化D. 完整而准确地反映主题内容The correct answers are: 完整而准确地反映主题内容, 要满足所检数据库检索用词规范, 要符合检索系统限制条件和组配原则, 检索式应尽量简化题目6正确获得3.00分中的3.00分标记题目题干数字图书馆是对以数字化形式存在的信息进行收集、整理、保存、发布和利用的实体,其形式可以是具体的社会机构或组织,也可以是虚拟的网站或者任何数字信息资源集合。
文献检索与应用第二次作业题及答案.doc

第2次作业一、单项选择题(本大题共40分,共20小题,每小题2分)1.以下哪项检索屈于数据检索?A.历史成绩超过89分的学生人数B.查喜黄山有多高C.检索关于网络技术的文献D.某同类产品中,那种牌号的销量最大2.以卜•哪种文献不属于零次文献?A.实验记录B.手稿C.原始录甘D.专利索引3.国际标准连续性出版物编号的缩写形式为()A.TSBNB.ISSNKTD.VIP4.布尔逻辑检索包括()A.逻辑“与”和逻辑“异或”B.逻辑“与”和逻辑“或”C.逻辑“ + ”和逻辑“-”D.逻辑“与”、逻辑“或”和逻辑“非”5.以下哪个不属于文献的出版形式分类()A.图书B.期刊C.零次文献D.会议文献6 •下面哪一个属于二次文献?A.专题评述B.中经网数据库C.图书D.学位论文7.以卜•哪一个属于三次文献?A.演讲稿B.会议论文KI期刊数据库D.年鉴8.关于情报、知识、信息的基木概念及其之间的关系,以下描述错误的是()OA.知识是人类对信息木质的认识和掌握B.信息和知识的认识是同步的C.知识就是有用的信息D.情报是指由特定效用的传递着的知识9.关于信息检索,以下描述错误的是()A.信息检索的类型有文献检索、数据检索和事实检索B.“查看月球的年龄”的信息检索屈于数据检索C.“班上平均成绩超过80分的学生人数统计”屈于数据检索D.文献检索的目的是要检索出包含所需要信息的文献10.关于情报、知识、信息的概念及其之间的关系,以下描述错误的是().A.从吋间上来看,知识滞后于信息B.情报具有效用性C.知识就是情报D.情报具冇社会性11・关于检索方法的四种描述,其小描述错谋的是()。
A.检索方法分为常用法、追溯法和循环法B.循环法是上述追溯法和常用法的结合C.常用法,也叫工具法,就是利用文摘或题录等各种文献检索工具查找文献的方法D.常用法根据时间范围又分为顺查法和倒查法12.以下四项检索哪一项属于事实检索()?A.检索关于铝合金的研究文献B.检索泰山冇多高C.检索关于网络技术的文献D.同学中来自陕西的同学人数13.以下的数据库,哪一个不属于国外权威引文数据库?()A.SCIB.ETC.ISTPK114.要在SCI小查找重庆大学关于远程教育研究的文献,请问以下检索式正确的是()A.AD二Chongqing Univ* and TI二distance educationB.AD二Chongqing Univ and TI=distance educationC.AD=Chongqing Univ* and AU=distance educationD.AD=Chongqing Univ or TI=distance education15.从物理构成來讲,数字资源检索系统曲()几部分构成A.软件和数据库B.硕件、软件、数据库C.硕件系统和软件D.服务器和数据库16. IP地址由()节数字组成A.两B.四C.三D.五17.以下对专利的四种论述,哪一个是错谋的?A.专利是指一个国家授予创造发明人在一定的时间内对该发明创造的独占实施权,包扌舌专利产品的生产、使用和销售.B. 专利有三种类型C. 专利具冇独占•性D. 只冇新的、水平较高的,能在工业上制造的产品或使用方法,才可以申请专利. 18. 以下四种期刊数据库哪一个不是中文期刊数据库?A. CNKIB. VIPC. 万方期刊D. Elsevier ScicncA. 信息检索的类型有文献检索、数据检索和事实检索;B. “杭州六和塔建于何年”的信息检索属于事实检索;C. “班上平均成绩超过80分的学生人数统计”展于事实检索;D. 文献检索的目的是要检索岀包含所需要信息的文献二、判断题(本大题共6分,共6小题,每小题1分)1. “检索销量最大的产品型号”属于事实检索()。
科技文献检索作业及答案

科技文献检索1.使用《中文科技期刊数据库(维普)》同名作者功能,检索理工大学第一作者为明所发表的论文,请写出检索式,检中文献条数,并任选择其中的两篇以标准格式标注。
(5分)2.利用《中国学术期刊全文数据库(CNKI)》,检索一个你感兴趣的主题,在检索结果中以被引频次排序,在引用频次最高的前五名文献中任选其一,以标准格式标注出该篇文献及其二级参考文献,参考文献,共引文献,同被引文献,引证文献,二级引证文献,相似文献各一篇。
(10分)3.任选一个中文学位论文数据库,查找2007年至今,交通大学博士论文收录情况,写出检索数据库名称,检索式,检中文献条数,并任选两篇以标准格式标注。
(5分)4.使用BALIS馆际互借系统,借阅一本图书。
要求:写出该书所属图书馆及其索书号,并以标准格式标注出该书,BALIS馆际互借系统生成的订单号,并以无格式文本形式复制出“申请单撤销”界面所显示文字。
(5分)5.请写出检索中外文专利的主要资源,任选其中之一检索本学科专利。
写出检索的资源名称,检中文献条数,并以标准格式标注。
(5分)6.列出交通大学图书馆外文全文期刊数据库名称,并将本专业全文数据库列出。
(5分)7.利用本专业外文全文数据库检索本专业期刊论文,写出数据库名称、检索式,检中条数,并任选两条以标准格式标注。
(5分)8.利用PQDT数据库检索本专业学位论文,写出检索式,检中条数,并任选两条以标准格式标注。
(5分)9.利用Science direct(Elsevier)数据库,检索“ComputerScience(计算机科学)”领域 2011年全年25篇最热门的论文,将前两条以标准格式标注。
(5分)10.使用Engineering Village 查找2007年至今有关轨道交通(rail transit)方面,交通大学的作者(beijing jiaotong university或100044)以英文(English)发表的期刊论文(Journal article)。
国科大信息检索作业

国科大2013年秋季《现代信息检索》第一次作业(第一章到第五章)以下每题10分,共计100分。
1、习题1-4a.时间复杂度O(x+y)。
因为倒排记录表记录的文档号是按照从小到大排列的,在扫描Brutus对应的倒排表的时指针指向文档号为x,扫描Caesar对应的倒排记录表的指针对应的文档号为y,如果x<y那么x在结果集中,brutus指针后移,如果x=y,x不在结果集中,两个指针都后移,如果x>y,caesar指针后移。
b.时间复杂度是O(N),N是全部的文档数。
因为结果集的大小取决于文档数N,而不是倒排记录表的长度。
2、习题1-7对于原始的查询,按照倒排记录表的长度从小到大查询会节省查询复杂度(tangerine OR trees) = O(46653+316812)=O(363465)(marmalade OR skies) = O(107913+271658) = O(379571)(kaleidoscope OR eyes) = O(46653+87009) = O(300321)即顺序为:(kaleidoscope OR eyes) AND (tangerine OR trees)AND(marmalade OR skies)3、习题1-10UNION(p1,p2)answer ←{ }while p1!=NIL and p2!=NILdo if docID(p1)=docID(p2)then ADD(answer,docID(p1))p1<- next(p1)p2<-next(p2)else if docID(p1)<docID(p2)then ADD(answer,docID(p1))p1<- next(p1)else ADD(answer,docID(p2))p2<-next(p2)while p1!=NILdo ADD(answer,docID(p1))p1<- next(p1)while p2!=NILdo ADD(answer,docID(p2))p2<- next(p2)return(answer)4、习题2-7a.由24跳到75这一次跳转b.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (75,89)(75,89) (92,89) (75,89)(92,89) (81,89) (84,89) (89,89) (92,95) (115,95)(96,95) (96,97) (97,97) (100,99) (100,100) (115,101)总共21次比较c.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (39,89) (60,89) (68,89) (75,89) (81,89) (84,89) (89,89) (92,95) (96,95) (96,97)(97,97) (100,99) (100,101) (115,101) 总共19次比较56、习题3-116*6*6*6=12967、习题4-1倒排索引的构建需要两步:1.扫描文档,建立词项文档对。
信息检索习题及答案

注意:1、通读教材,根据页码提示完成下列题目。
2、最后一次上机课在线测试,范围不超出如下题目。
第一章一、单选1、报道范围主要为能源方面的科技报告为(D)。
A、ADB、PBC、NASAD、DOE{第7页}2、(C)是出版周期最短的定期连续出版物。
A、图书B、期刊C、报纸D、学位论文{第6页}3、(A)是高校或科研机构的毕业生为获取学位而撰写的。
A、学位论文B、科技报告C、会议文献D、档案文献{第6页}4、了解各个国家政治、经济、科技发展政策的重要信息源是(B )A、科技报告B、政府出版物C、标准文献D、档案文献{第8页}5、年鉴属于下列哪一类别(D)A、零次信息B、一次信息C、二次信息D、三次信息{第7页}(一次信息:图书、期刊论文、科技报告、会议论文、专利说明书及科技日记、杂记、实践记录)6、下列哪种文献属于一次文献(A )。
A、图书B、百科全书C、综述D、文摘{第4页}7、下列文献中属于一次信息的是(A )A、专利说明书B、百科全书C、目录D、综述{第4页}8、以下各项属于二次信息的是(A)A、索引B、期刊C、学位论文D、百科全书{第4页}(二次信息;目录、题录、文摘、索引、书目对一次信息有指引和报道作用)二、多选9、二次信息主要包括()等。
A、手册B、年鉴C、目录D、题录{第4页}10、信息的属性包括()A、客观性B、时效性C、传递性D、共享性{第3页}11、信息素质的内涵主要包括()。
A、信息意识素质B、信息能力素质C、信息道德素质D、信息职业素质{第9页}12、以下类型的信息属于三次信息的是()。
A、目录B、词典C、百科全书D、科技报告{第4页}附加:I)信息道德规范信息行为,主要包括()。
A、不制作、传播、消费不良信息B、不侵犯他人的知识产权、商业秘密、隐私权C、恰当使用与合理开发信息技术D、私下交易个人信息(第10页)II)根据信息的载体和表达方式的不同,信息源可分为()。
A、语言信息源B、二次信息C、实物信息源D、文献信息源(第4页)III)文献的基本要素有()。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
将结果填入表 6-1 的空列中。假定 N=10000000,对查询及文档中的词项权重(wf 对应的列)采用对数方法 计算,查询的权重计算采用 idf,而文档归一化采用余弦相似度计算。将 and 看成是停用词。请在 tf 列中 给出词项的出现频率,并计算出最后的相似度结果。 表6-1 习题6-19中的余弦相似度计算
文档ID 1 2 3 4 文档文本 click go the shears boys click clickclick click click metal here metal shears click here
为该文档集建立一个查询似然模型。假定采用文档语言模型和文档集语言模型的混合模型,权重均为 0.5。 采用 MLE 来估计两个一元模型。计算在查询 click、shears 以及 click shears 下每篇文档模型对应的概率,并 利用这些概率来对返回的文档排序。将这些概率填在下表中。对于查询 click shears 来说,最后得到的文档 次序如何? 查询似然模型: click 1/2 模型1 模型2 模型3 模型4 文档集模型 1 0 1/4 7/16 go 1/8 0 0 0 1/16 the 1/8 0 0 0 1/16 shears 1/8 0 0 1/4 2/16 boys 1/8 0 0 0 1/16 metal 0 0 1/2 1/4 2/16 here 0 0 1/2 1/4 2/16
排名靠前),相关性判定的情况如下所示: 系统 1 系统 2 a.
计算两个系统的 MAP 值并比较大小。
MAP(系统 1)=(1/4)*(1+2/3+3/9+4/10)=0.6 MAP(系统 2)=(1/4)*(1/2+2/5+3/6+4/7)=0.493 由于只有一个查询,MAP=AP。系统 1 的 MAP 值更大 b. 上述结果直观上看有意义吗?能否从中得出启发如何才能获得高的 MAP 得分? 系统 1 返回的相关文档位置较分离,有的在前面有的在后面,系统 2 返回的相关文档较集中的中间位置。 系统 1 获得了较高的 MAP 值。 排名前面位置的相关文档数对 MAP 值的影响较大,相关文档排在靠前的位置可以获得较高的 MAP 得分。 c. 计算两个系统的 R 正确性值,并与 a 中按照 MAP 进行排序的结果进行对比。 R 正确率(系统 1)=2/4=0.5 R 正确率(系统 2)=1/4=0.25 虽然 R 正确率只度量了正确率-召回率曲线上的一个点, 但是经验上却证实它和 MAP 是高度相关的。 按照 R 正确率和 MAP 排序得到的结果一致。 8. 习题 9-3 假定用户的初始查询是 cheap CDs cheap DVDs extremelycheap CDs。用户查看了两篇文档 d1
值来计算所有词项 car、auto、insurance 及 best 的 tf-idf 值。
图 6-9
习题 6-10 中所使用的 tf 值
car 在三篇文档中的 tf-idf 值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39.6 auto 在三篇文档中的 tf-idf 值分别为:Doc1:3*2.08=6.24;33*2.08=68.64;0*2.08=0 insurance 在三篇文档中的 tf-idf 值分别为:Doc1:0*1.62=0;33*1.62=53.46;29*1.62=46.98 best 在三篇文档中的 tf-idf 值分别为:Doc1:14*1.5=21;0*1.5=0;17*1.5=25.5 2. 习题 6-15 回到习题 6-10 中的 tf-idf 权重计算,试计算采用欧氏归一化方式处理后的文档向量,其
国科大 2013 年秋季《现代信息检索》第二次作业(第六章到第十五章)
以下 1-16 每题 6 分,第 17 题 3 分,共计 100 分。
1.
习题 6-10
考虑图 6-9 中的 3 篇文档 Doc1、Doc2、Doc3 中几个词项的 tf 情况,采用图 6-8 中的 idf
Doc1 car auto insurance best 27 3 0 14 Doc2 4 33 33 0 Doc3 24 0 29 17
qi d i
1.56 0 1.558
相似度结果=1.56+1.558=3.118 4. 习题 7-1 图 7-2 中倒排记录表均按照静态得分 g(d)的降序排列,为什么不采用升序排列?
一篇文档 d 的最后得分定义为 g(d)和某个与查询相关的得分的某种组合,一些文档具有高的 g(d)值更有可 能具有较大的最后得分,降序排列有助于提高 top-k 检索的效率。在这种排序下,高分文档更可能在倒排记 录表遍历的前期出现。在实际受限的应用当中(比如,任意搜索需要在 50ms 内返回结果) ,上述方式可以 提前结束倒排记录表的遍历。 5. 习题 7-8 平面上的最近邻问题如下:在平面上给出 N 个数据中寻找与 Q 具有最短欧氏距离的点。很显然,如果我们希望能够避免计算 Q 和所 有平面上的点的距离时,簇剪枝就能够作为最近邻问题的一种处理方法。请给出一个简单的例子来说明: 如果只选择最近的两个先导者,那么簇剪枝方法可能会返回错误的结果(也就是说返回的不是离 Q 最近的 数据点) 。 如图所示,黄色圈代表查询,离查询最近的两个
中每个向量有 4 维,每维对应一个词项。 Doc1=(44.55,6.24,0,21),Len(Doc1)=49.6451 对其长度归一化得到 Doc1=(0.897,0.126,0,0.423) Doc2=(6.6,68.64,53.46,0) ,Len(Doc2)=87.2524 对其长度归一化得到 Doc2=(0.076,0.787,0.613,0) Doc3=(39.6,0,46.98,25.5) ,Len(Doc3)=66.5247 对其长度归一化得到 Doc3=(0.595,0,0.706,0.383) 3. 习题 6-19 计算查询 digital cameras 及文档 digital cameras and video cameras 的向量空间相似度并
������∈������ ������ ������ ������ ������ = 1 = ������������ (1 − ������������ )|������ |−������
∂P(D|R = 1) ������−1 ������ = s × ������������ (1 − ������������ )|������ |−������ − ������������ × ( ������ − ������)(1 − ������������ )|������ |−������−1 ∂������������ ∂ P(D|R=1) 令 = 0,得到������������ = ������/|������|
所有文档中有 s 篇文档包含词项 t, 即在这 s 篇文档中 Xt=1。 假定所观察到的数据就是这些 Xt 在文档中的分 布情况。请证明采用 MLE 估计方法对参数 pt ( X t 1| R 1, q ) 进行估计的结果,即使得观察数据概率最 大化的参数值为 pt= s/|R|。 设 D 是相关文档集,定义一个函数P D R = 1 =
b
对于表 13-2,为什么在绝大部分文本集中|||V| <||Lave 都成立?
b 0.5
假设大多数文档集的词条数都大于 100 万,根据 Heaps 定律,词汇表大小 V 是文档集规模 T 的一个函数, V=K*T ,典型的 K=44,b=0.49,V=K*T =44*(1000000) =44000 |D|Ld=文档集中的词条数=1000000,|C||V|=2*44000=88000 所以大多数文档集有|C||V|<|D|Ld 13. 习题 13-2[*] 表 13-5 中的文档中,对于如下的两种模型表示,哪些文档具有相同的模型表示?哪 些文档具有不同的模型表示?对于不同的表示进行描述。 (i) 贝努利模型。 (ii) 多项式模型。 表13-5 NB独立性假设存在问题的几个文档例子
和 d2,并对这两篇文档进行了判断:包含内容 CDs cheap software cheap CDs 的文档 d1 为相关文档,而内容 为 cheap thrills DVDs 的文档 d2 为不相关文档。假设直接使用词项的频率作为权重(不进行归一化也不加上 文档频率因子) ,也不对向量进行长度归一化。采用公式(9-3)进行 Rocchio 相关反馈,请问修改后的查询 向量是多少?其中 α = 1,β = 0.75,γ = 0.25。 ������������ = ������������0 + ������ 词项频率表格 词 CDs cheap DVDs extremely software thrills 1 |������������ | ������������ − ������
������ ������ ∈������������
1 |������������������ |
������������
������ ������ ∈������������������
原始查询 2 3 1 1 0 0
d1 2 2 0 0 1 0
d2 0 1 1 0 0 1
修改后的查询向量 q=(2.5,4.25,0.75,1,0.75,-0.25),如果向量中权重分量为负值,那么该分量权重设为 0。所 以最终 Rocchio 向量为(2.5,4.25,0.75,1,0.75,0) 9. 习题 11-3 [**] 令 Xt 表示词项 t 在文档中出现与否的随机变量。假定文档集中有 |R|篇相关文档,