国科大信息检索作业
中国科学院大学计算机领域信息检索期末考试答案

域信息检索与利用实用技巧任课老师:李玲试题专用纸1、简答题:您在学习和研究过程中遇到下列问题时,常用哪些方法来解决?(10题,3分/小题,共30分)(1)查找期刊时,您常用的方法?答: 中文期刊一般用:中国知网、万方数据库、维普数据库等;外文期刊一般用:ACM、IEEE、Elsevier ScienceDirect、SpringerLink、ScienceOnline 、Taylor & Francis Online Journals 、Cambridge Journal等;可通过国科大图书馆进入上述网站首页,输入所需检索的期刊信息,如期刊名称、作者、发表年份等信息进行查询。
(2)查找中国科学院学位论文时,您常用的方法?答: 进入“中国科学院大学”首页→点击右下方“图书馆”→点击进入“中科院学位论文数据库”→进入检索界面,输入所需检索的论文信息,如:论文名称、作者、指导老师等。
(3)查找各国专利以及专利的被引用情况时, 您常用的方法?答:进入国家知识产权局官网“”,输入所需检索专利的发明名称、申请号、申请人(三者至少必填其一)进行检索,查看专利被引用情况。
(4)查找SCI期刊的影响因子,您常用的方法?答:通过国科大图书馆点击“ISI-SCIE”进入web of science平台查询界面,输入期刊的关键词、作者等信息,可通过“AND”进行多个关键词组合以缩小查询范围。
(5)查找标准文献时,有哪些注意事项?答:合理选择标准数据库(如中文期刊会议类检索工具选用CNKI、维普、万方等,查询专利选用国家知识产权局等数据库);注意文献的发表时间(如利用CNKI科技类期刊数据库查询只能查询1994年之后发表的文献,维普中文科技期刊库可查询1984年之后发表的文献)使用多个精确的关键字组合,以减小检索范围。
(6)文献管理时,您常用的方法?答:使用EndNote文献管理工具,进行分类管理方便后期查询。
域信息检索与利用实用技巧任课老师:李玲试题专用纸(7)获取无法直接下载的文献全文时,您常用的方法?答:可通过文献传递,向有权限的人求助;或通过查询Researchgate,付费网站获取;也可以邮件联系文献作者求助。
中国科学技术大学--信息检索作业答案(电子版)

中国科学技术大学上海工程硕士第八期《信息检索》考试试题姓名:陶亮学号:SG15010018成绩:第一章息检索及其主要功用3、你通常利用什么样的文献传播渠道来获取有关文献信息?答:文献信息的传播渠道是多种多样的,归结起来有以下三种基本形式:(1)人际传播渠道:是通过人们之间的直接交流,如相互交谈、相互借还或传阅资料、交换意见、参加会议、听课、听讲座等。
(2)组织传播渠道:是通过一定的形式无偿或部分有偿地向社会公众提供文献资料的中介交流形式,如图书馆、档案馆、各类文献情报中心、学校、美术馆乃至教堂等。
(3)大众传播渠道:借助于各种传统及现代化手段来传播的一种方式。
如通过订阅杂志、购买图书、观看影视作品或网上浏览下载等形式。
以上三种形式各有所长,相互补充,长期共存,各自发挥着独特的功能。
在我的日常生活中,上述三种文献传播渠道都有,但人际传播和大众传播是最多的传播渠道。
4、对于信息检索的五大功用,你最有体会的是什么?最不了解的是什么?你认为这五大功用以外还可以总结出来有关信息检索的其他功用吗?(请简介)答:信息检索五大功用分别为:(1)开阔视野,正确决策:能够及时、系统地了解前人的工作经验与成果,掌握事物最新动态及发展趋势。
适时做出正确决策,使所开展的工作取得最快、最有效的进展。
(2)提高功效,事半功倍:能节省人们对有用信息进行搜集利用的时间及精力,提高工作效益,做到事半功倍。
同时还能培养人们的自学能力、科学研究及鉴赏能力。
(3)学习借鉴,推动创新:有利于及时把握各种信息,促进科技发明和发现不断涌现,同时对人们开展终身学习不断提升综合素质、创作出更多、更优秀的成果及文献也具有强大的支持和推动作用。
(4)规避风险,维护权益:可以避免重复劳动、少走弯路、免去低水平复制所带来的损失,使各种科研、经营、生产等活动实现投入少、收效高,还可使人们规避风险,利用知识产权保护法等法律规范,维护自身或单位(国家)的正当权益。
信息检索 综合作业

信息检索综合作业姓名:_________ 专业:__________ 学号:__________一、理论知识1、信息源的分类?2、科技文献信息服务机构有哪些?3、信息检索的基本流程4、信息检索的评价5、电子资源(比如全文数据库、参考数据库、电子图书等)推荐及其推荐原因(2-3个)二、模拟检索题目:根据自己专业情况或自己的喜好进行选择题目,形成综述(字数不限),同时完成下面问题1、分析过程100字左右字的问题分析过程,要体现检索词和分析的过程2、选取的检索系统要注明所有使用的检索系统3、结果要求对同一选题分别进行期刊、会议、学位和网络搜索进行检索,检索结果要求如下:(1)期刊论文:检索项:(选取的检索项目写出)检索词及检索表达式检索结果:(总数量要少于300,不能出现“零”结果,选取一个结果进行描述给出全部外部特征包括作者、作者单位、出处等)(2)会议论文(要求同上)(3)学位论文(要求同上)(4)搜索引擎利用搜索引擎的高级检索的项目及搜索的词,用两种或两种以上的组合方式进行搜索并将搜索的数量写出,同样不能出现“零”结果。
结果的记载要求是要将组合方式写出,搜索的结果数量写出。
三、思考题1.信息检索的核心问题是什么,简要说明理由?2.信息检索课的心得与建议注意:1、不可抄袭,如果两人或多人的作业内容相同视为抄袭,抄袭的作业视为无效,成绩取消。
2、作业上交邮箱xinxijiansuo1@(周三上课)xinxijiansuo6@(周六上课)3、回答说明问题即可,可不必局限字数4、时间期限:2011年5月7号之前5、联系方式:图书馆206 8887057最后,希望同学们会有所收获,欢迎多多提意见,希望我们可以一起成长!谢谢!。
信息检索作业

【作业一】:1.因特网个人信息发布方式例举(三种):E-mail服务:sb.123@sian.co mBBS服务:沁水青山BBS http://bbs.w ust.e 网络聊天室:QQ http://www.qq.co m2.招生总人数:318;招生专业招生人数和考试项目:1、测试计量技术及仪器:13人①思想政治理论②英语或日语③数学④电路及数字电子技术或自动检测技术2、电子科学与技术:34人①思想政治理论②英语或日语③数学④电路及数字电子技术或信号系统与数字电路3、控制科学与工程:80人①思想政治理论②英语③数学④电路及数字电子技术4、计算机科学与技术:96人①思想政治理论②英语③数学④计算机学科专业基础综合5、电子与通信工程(专业学位):16人①思想政治理论②英语③数学④通信原理或信号系统与数字电路6、控制工程(专业学位):13人①思想政治理论②英语③数学④电路及数字电子技术3.玉神人:这件用青五琢成的圆雕立体人面像,部造型奇特,拱手直立、威严森然,是龙山文化时期被崇拜的神人形象,雕琢古拙简练,玉质晶莹,具有极高的艺术欣赏价值。
彩塑惜春作画像:彩塑惜春作画像,清,高36.5cm。
此彩色泥塑组像是我国著名的天津第一代"泥人张"张长林的作品。
《惜春作画》彩塑取材于清代小说《红楼梦》,以贾惜春在大观园暖香坞作画为内容。
惜春正在聚精会神地运笔作画,两旁少女二人一坐一立,正在会心地欣赏惜春的传神妙笔。
清代城市经济的发达促使泥塑木雕商品化,朴素大方,明朗健康。
耐人观赏的雕塑艺术品不仅可以点缀贵族官僚文人士大夫的高堂书房,而且也极适应城乡广大群众的需要。
"泥人张"的作品正是在这样的环境中发展起来的。
4.5. 2009年我国信息产业发展概况:2009年,国际、国内产业发展环境发生了跌宕起伏、难以预料的诸多变化,其对产业的短期发展带来不小的冲击和影响,也揭露出了产业发展长期以来积累起来的一些积弊;在警示产业发展模式调整的同时,也必将对产业的长期发展带来深远而深刻的影响。
信息检索平时作业

工程硕士《信息检索》课程平时作业学生姓名:程琢学号: 154612227 专业:控制工程自拟一个课题,对此课题进行课题分析,确定该课题国内外核心期刊,并进行文献检索,获取相关期刊论文及专利文献。
10月12日最后一次课时以班为单位上交。
本平时作业占信息检索总考核成绩30%。
课题名称(中文)工业4.0:“互联网+”时代的智能制造(英文) Industrial 4.0: "Internet Plus" era of intelligent manufacturing一、课题分析本课题可以分为哪些概念?按概念对课题重要程度写下这些概念、概念的同义词及英文表达(根据课题差别,概念数可多可少)序号概念名称中文同义词(含下位词)英文表达(含下位词及同义词)1工业4.0 工业,物联网 Industrial,Internet of Things2互联网网络,因特网 Network,Internet3智能制造自动化,人工智能 Automation,artificial intelligence二、确立课题核心期刊(一)确定课题国内核心期刊1. 查找方法:进入网址中国科学文献服务系统点击进入ScienceChina 中国科学文献服务系统输入学科类型点击检索按钮。
2. 查到国内核心期刊:45 种3. 抄下1种期刊名称并补充查找相关信息期刊刊名:自动化学报出版频率:月刊ISSN:0254-4156出版者/主办单位:中国自动化学会,中国科学院自动化研究所联系方式(通讯地址□√或电话□或E-mail□): 100190 北京市海淀区中关村东路95号《自动化学报》编辑部。
(二)确立课题国外核心期刊1. 查找方法:进入中南大学图书馆选择外文数据库中的JCR点击Select Categories 选择AUTOMA TION & CONTROL SYSTEMS点击Submit2. 找到国外英文核心期刊: 58 种3. 抄下1种期刊名称并补充查找相关信息(1)期刊刊名全称: IEEE Transactions on Industrial Electronics 影响因子: 6.498 出版频率:月刊出版国家或地区:美国ISSN:0278-0046出版者/主办单位:Institute of Electrical and Electronics Engineers联系方式(打√选择,并填写具体内容)(通讯地址□√或电话□或E-mail□)3 Park Ave, 17th Fl, New York, NY 10016 美国.三、文献检索(一)查找课题的中文期刊论文1. 检索平台:中国知网2. 检索策略(包括检索方式、检索字段、检索提问词及其逻辑组配关系)检索方式:高级检索主题=工业4.0 or 主题=智能制造 or 题名=互联网+3. 检出期刊论文篇数: 821 篇4. 抄下一条切题期刊论文论文题名:工业4.0和智能制造第一作者:张曙来源(包括期刊刊名、年、卷(期)及起始页码):机械设计与制造工程,2014,08:1-5(二)查找课题的外文期刊论文1. 检索平台:EI2. 检索策略(包括检索方式、检索字段、检索提问词及其逻辑组配关系)检索方式:快速检索 ((Industrial4.0) WN KY)OR((Intelligent Manufacturing) WN KY)3. 检出期刊论文篇数: 345 篇4. 抄下一条切题期刊论文论文题名: Guest editorial introduction to the focused section on mechatronics for intelligent manufacturing 。
国科大科技文献与网络资源检索 ISI+Web+of+science课堂实习题

ISI Web of Science课堂练习题
请根据您所在学科领域或课题研究方向,利用ISI Web of Science平台完成以下问题:1利用WOS 查找饶子和院士发表的有关SARS的文章,并列出被引次数最多的一篇
2获取本技术领域的主要研究国家、核心期刊、高产出研究人员和机构等信息。
3定制Web of Science的跟踪服务,了解技术领域每月的最新进展。
4查询自己的论文(或某一重要论文)引用情况,并定制该论文的引文跟踪服务。
5获取本领域的Top10期刊信息。
6 查找本领域重要的前5种国际会议。
7 查找化合物名称是Deoxycholic acid ,作为反应物的其中的一个化学反应。
8检索2008年以来中科院植物研究所(北京)所有被Web of Science所收录的期刊论文。
9在Biosis Proview中检索所有中国单位参与发表的子宫内膜易位症(endometriosis)病因学(etiology)的相关文献,并尝试找出其中的相关研究进展,并下载其中一篇最新发表的文章全文。
10查找文献“Did climate drive ecosystem change and induce desertification in Otindag sandy land, China over the past 40 years?”在ISI Web of Science中的被引用情况,并列表显示。
信息检索与利用作业模板

信息检索与利用作业模板课程报告课程名称:系别:班级:指导教师:学生姓名:时间:____________________ 二〇一二年月日实验1:各种类型中外文文献检索(6学时)目的:1.学会电子图书检索。
2.学会中文学位论文检索。
3.学会中文会议论文检索。
4.学会中文期刊论文检索。
5.学会国内重要专业人士、重要研究机构、重要文献、重要期刊等信息检索。
6.学会标准文献检索。
7. 学会科技成果检索。
8. 学会外文期刊论文检索。
内容:1.自选检索课题。
2.分析检索课题,确定检索标识,编写提问式。
3.利用超星电子图书(免费阅览室) 、中国知网数字出版平台、国家科技图书文献中心等相关数据库。
4. 在相关检索提问框中输入提问式实施检索,筛选命中文献,选择检索结果输出格式并输出结果。
如有必要可反复修改检索提问式优化检索结果。
5.记录检索过程,完成检索报告并提交。
要求:1.电子图书选择超星电子图书(免费阅览室)或其他电子书全文数据库中的1种数据库进行电子图书检索:数据库名称____________________________检索策略(表达式)______________________命中文献数____________选取其中1条文献题录书名:作者姓名:出版时间:总页数:章(或节)数:参考文献数:2.中文学位论文选择中国知网数字出版平台——中国优秀硕士学位论文全文数据库、中国博士学位论文全文数据库、国家科技图书文献中心——中文学位论文等数据库中的1种数据库进行学位论文检索:数据库名称______________________________________ 检索年限_______________________________________ 检索策略(表达式)________________________________ 命中文献数____________ 选取其中1条文献题录论文题目:作者姓名:导师姓名:授予学位级别:作者专业名称:学位授予单位:授予学位时间:论文总页数:3.会议论文选择中国知网数字出版平台——中国重要会议论文全文数据库、国家科技图书文献中心——中文会议论文等数据库中的1种数据库进行会议论文检索:数据库名称______________________________________ 检索年限_______________________________________ 检索策略(表达式)________________________________ 命中文献数____________ 选取其中1条文献题录论文题目:作者姓名:第一作者单位:会议名称:会议地点:主办单位:出处(会议录名称、出版时间、论文在会议录中的页码范围):4.中文期刊论文选择中国知网数字出版平台——中国学术期刊网络出版总库、国家科技图书文献中心——中文期刊等数据库中的1种数据库进行中文电子期刊检索:数据库名称______________________________________ 检索年限_______________________________________ 检索策略(表达式)________________________________ 命中文献数____________ 选取其中1条文献题录论文题目:作者姓名:第一作者单位:出处(出版物名称、年、卷、期、页码范围):5.国内重要专业人士、重要研究机构、重要文献、重要期刊等信息。
21春国家开放大学《科技文献检索》形考作业1-4参考答案

21春国家开放大学《科技文献检索》形考作业1-4参考答案形考作业11.机检时,用以下哪种算符可使文献检出结果增加()。
A.C截词符B.位置算符C.布尔逻辑符D.字段限定符2.下列获取文献信息的途径中,哪种途径属于非正规获取途径?彩蛋A.阅读学位论文B.收集专利说明书C.查询文献数据库D.参加学术会议3.人的姓名用做检索标识,应该()。
A.A、B 都可以B.姓在前、名在后C.A、B 都不对D.名在前、姓在后4.按照传递媒介来划分,下列哪项不属于情报的类型?()A.战术情报B.声像情报C.实物情报D.文字情报5.根据全国科学技术名词委员会发布试用的新词的定名,Internet的规范称谓应该是()。
A.万维网B.网际网C.因特网D.互联网6.下列说法中正确的是彩蛋A.情报调研仅以信息为对象B.情报调研仅以文献为对象C.情报调研是以文献信息为对象D.情报调研以实物为对象7.美国《化学文摘》(CA)属于()A.三次文献B.一次文献C.四次文献D.二次文献8.我国外观设计专利权有效期为自申请之日起彩蛋A.15年B.5年C.20年D.10年9.现代化学化工文献的特点不包括()A.文献数量增加速度迅猛B.文献种类繁多C.文献交叉重复,发表分散D.文献永不失效10.专利授权条件,即专利三性,不包括()A.新颖性B.时效性C.实用性D.创造性11.下面不属于三次文献的是()A.专题述评B.学位论文C.百科全书D.数据手册12.美国《科学引文索引》在1979年改为()A.双月刊B.年刊C.月刊D.季刊13.下列哪种文献属于三次文献彩蛋A.学位论文B.综述C.标准文献D.文摘14.《科学引文索引》,是自然科学领域基础理论学科方面重要的期刊文摘索引数据库。
创建于1961年,创始人是美国科学情报研究所(ISI)所长Eugene Garfield。
利用SCI可以检索数学、物理学、化学、天文学、生物学、医学、农业科学以及计算机科学、材料科学等学科方面自1945年以来重要的学术成果信息;SCI还被国内外学术界当做制定学科发展规划和进行学术排名的重要依据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国科大2013年秋季《现代信息检索》第一次作业(第一章到第五章)
以下每题10分,共计100分。
1、习题1-4
a.时间复杂度O(x+y)。
因为倒排记录表记录的文档号是按照从小到大排列的,在扫描Brutus对应的倒排表的时指针指向文档
号为x,扫描Caesar对应的倒排记录表的指针对应的文档号为y,如果x<y那么x在结果集中,brutus指针后移,如果x=y,x不在结果集中,两个指针都后移,如果x>y,caesar指针后移。
b.时间复杂度是O(N),N是全部的文档数。
因为结果集的大小取决于文档数N,而不是倒排记录表的长度。
2、习题1-7
对于原始的查询,按照倒排记录表的长度从小到大查询会节省查询复杂度
(tangerine OR trees) = O(46653+316812)=O(363465)
(marmalade OR skies) = O(107913+271658) = O(379571)
(kaleidoscope OR eyes) = O(46653+87009) = O(300321)
即顺序为:(kaleidoscope OR eyes) AND (tangerine OR trees)AND(marmalade OR skies)
3、习题1-10
UNION(p1,p2)
answer ←{ }
while p1!=NIL and p2!=NIL
do if docID(p1)=docID(p2)
then ADD(answer,docID(p1))
p1<- next(p1)
p2<-next(p2)
else if docID(p1)<docID(p2)
then ADD(answer,docID(p1))
p1<- next(p1)
else ADD(answer,docID(p2))
p2<-next(p2)
while p1!=NIL
do ADD(answer,docID(p1))
p1<- next(p1)
while p2!=NIL
do ADD(answer,docID(p2))
p2<- next(p2)
return(answer)
4、习题2-7
a.由24跳到75这一次跳转
b.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (75,89)(75,89) (92,89) (75,89)(92,89) (81,89) (84,89) (89,89) (92,95) (115,95)
(96,95) (96,97) (97,97) (100,99) (100,100) (115,101)总共21次比较
c.比较为(3,3) (5,5) (9,89) (15,89) (24,89) (39,89) (60,89) (68,89) (75,89) (81,89) (84,89) (89,89) (92,95) (96,95) (96,97)
(97,97) (100,99) (100,101) (115,101) 总共19次比较
5
6、习题3-11
6*6*6*6=1296
7、习题4-1
倒排索引的构建需要两步:
1.扫描文档,建立词项文档对。
2.对词项文档对进行排序。
第一步时间复杂度为O(T),文档大小为800000*200*6=9.6*108B,所需时间为:读入时间+建立词项-文档对的时间
为9.6*108(2*10-8)=19.2s
第二步时间复杂度为O(T log2T),所有倒排记录数为108。
花费的时间为2*( T log2T)*(磁盘寻道时间+一个词项文档对的传输时间+比较时间)=2*(108*log2(108))*(5*10-3+2*10-8*8+10-8)=26575424.76s≈307.59天≈308天
总时间为308天
8、习题4-3 对于n = 15个数据片,r = 10个分区文件,j = 3个词项分区,假定使用的集群的机器的参数如表4-1所示,那么在
MapReduce构架下对Reuters-RCV1语料进行分布式索引需要多长时间?
解答【整个计算过程是近似的,数字不一定对,但是要了解过程】:
(一)、MAP阶段【读入语料(已经不带XML标记信息了,参考表5-6),词条化,写入分区文件】:
(1) 读入语料:
基于表4-2,Reuters RCV1共有8*105篇文档,每篇文档有200词条,每个词条(考虑标点和空格)占6B,因此整个语料库的大小为8*105*200*6=9.6*108B (近似1GB,注表4-2对应于表5-1第3行的数据,而那里的数据已经经过去数字处理,因此实际的原始文档集大小应该略高于0.96G,这里近似计算,但是不要认为没有处理就得到表5-1第3行的结果)
将整个语料库分成15份,则每份大小为9.6*108/15 B
每一份读入机器的时间为:9.6*108/15*2*10-8=1.28s
(2) 词条化:每一份语料在机器上进行词条化处理,得到8*105*200=1.6*108个词项ID-文档ID对(参考表4-2和图4-6,注意此
时重复的词项ID-文档ID对还没有处理),共占1.6*108*8=1.28*109个字节,词条化的时间暂时忽略不计【从题目无法得到词条化这一部分时间,从表5-1看词条化主要是做了去数字和大小写转换,当然也感觉这一部分的处理比较简单,可以忽略】。
(3) 写入分区文件:每一份语料得到的词项ID-文档ID (Key-Value)存储到分区所花的时间为:
(1.28*109/15)*2*10-8=1.71s
(4) MAP阶段时间:
由于分成15份,但只有10台机器进行MAP操作,所以上述MAP操作需要两步,因此,整个MAP过程所需时间为
(1.28+1.71)*2=6.0s
(二)、REDUCE阶段【读入分区文件,排序,写入倒排索引】:
(1) 读入分区文件【读入过程中已经实现所有Key-Value对中的Value按Key聚合,即变成Key, list(V1,V2..)。
聚合过程在内存中
实现,速度很快,该时间不计。
另外,网络传输时间这里也不计算】:
根据表4-2,所有倒排记录的数目为1.6*108,因此3台索引器上每台所分配的倒排记录数目为1.6*108/3,而每条记录由4字节词项ID和4字节文档ID组成,因此每台索引器上需要读入的倒排记录表数据为1.28*109/3字节。
于是,每台索引器读数据的时间为1.28*109/3*2*10-8=8.5s
(2) 排序:
每台索引器排序所花的时间为1.6*108/3*log2(1.6*108/3)*10-8=13.7s
(3) 写入倒排索引文件【此时倒排文件已经实现文档ID的去重,假定只存储词项ID和文档ID列表,并不存储其他信息(如词项的
DF及在每篇文档中的TF还有指针等等)】:
需要写入磁盘的索引大小为(据表4-2,词项总数为4*105个) 4*105/3*4+108/3*4=4/3*108字节
索引写入磁盘的时间为:4/3*108*2*10-8=2.7s
(4) REDUCE阶段时间为:8.5+13.7+2.7=24.9
(三) 因此,整个分布式索引的时间约为6.0+8.5+13.7+2.7=30.9s
9、习题5-2
k=8:每8个词项节省的空间3*8-(3+8)=13,节省空间(400000/8)*13=0.65MB,空间使用7.6-0.65=6.95MB
k=16: 每16个词项节省的空间3*16-(3+16)=29,节省空间(400000/16)*29=0.725MB,空间使用7.6-0.725=6.875MB 10、习题5-8
原始间距序列的二进制为1001,110,11,111011,111 。
值为9,6,3,59,7
倒排记录表为9 15 18 77 84。