第十一章 查询与检索

第十一章  查询与检索
第十一章  查询与检索

第十一章查询与检索

11.1 图书的查询与检索

11.1.1超星数字图书馆

1.资源简介

2000年1月由北京世纪超星信息技术发展有限责任公司投资建设超星数字图书馆并在互联网上正式开通,改数字化的图书数据库为目前国内外最大的中文在线图书馆,提供24小时在线服务。超星数字图书馆包括计算机、教育、文化理论科学、数字、物理、化学、生物科学、力学、文学类、航空、航天类、环境、财政、金融、法律类、建筑科学、工业技术、工程技术、建筑、年鉴等50余大类的图书,全文总量4亿余页,论文300万篇,数据总量30 000GB,并且每天仍在不断的增加与更新。

2.超星数字图书馆的使用方法

目前超星用户可通过两种方式阅读使用,一是个人直接购买超星读书卡,成为其注册用户,二是利用镜像服务。新用户使用步骤如下:下载安装阅读器超星阅览器(SSReader)首次阅读图书需要下载安装在您的计算机上,阅读图书时,只需直接点击网页上的书名,便可自动调用超星阅览器来阅读图书了,阅读过程中可以写读书笔记、做书签、下载以及可以转化成相应的Word文档或图片。除阅读图书外,超星阅览器还可用于扫描资料、采集整理网络资源等。

3.检索功能

超星图书系统提供分类浏览、快速检索和高极检索方式。通过页

面左侧图书分类目录逐级进行查找图书;通过页面上方的快速检索和高级检索工具进行图书查找。系统支持多种字段的检索,支持用通配符?表任意的一个字符串,用%表示一个或多个任意的字符串的截词检索,构造表达式中的“and,or,not”运算分别可以用逻辑关系符“*,+,—”代替实现;字段限定包括文献的题名、作者、目次、关键词、分类号等字段。检索结果以入库时间为序,还可以选择书名和出版日期排序。结果每页可以按所选定的返回记录数显示,可以进行浏览和二次检索。

11.1.2书生数字图书馆(书生读吧)

1.资源简介

书生读吧现有近30万种电子图书,内容涵盖文学艺术、科学技术、政治经济等所有学科,并以每年六七万种的数量递增,且提供的基本上是1999年以后的图书。书生读吧(http:https://www.360docs.net/doc/3d6997345.html,/)是一个全球性的电子书门户网站。

2.阅读器

书生读吧电子图书借阅系统使用之前必须安装书生阅读器 4.10以上版本(可以在书生读吧主网站http:https://www.360docs.net/doc/3d6997345.html,/或镜像站点上进行下载)。书生阅读器提供给用户精显页面、快捷浏览、海量查询及个性化书架等功能,利用阅读器可以进行对文章内容的选择、复制、粘贴以及高亮条、下划线、圈注等等编辑。

3.检索功能

书生读吧提供一般检索、高级检索和分类检索功能。检索结果可

在线阅读,或收藏到藏书阁,或下载到本地。

一般检索时可从图书名称、ISBN号、出版机构、作者、图书提要、丛书名称六种途径对检索词进行限定查询。高级检索提供了图书名称、ISBN号、出版机构、图书作者、图书提要、丛书名称六种途径的复合式检索,读者可以通过对多个检索项的选择限定来提高检索精确性。同时还可利用“逻辑与”和“逻辑或”对检索词进行组配。全部电子图书按中图法分成31个大类,每一大类下又划分子类,子类下又有子类的子类,共4级类目,用户可按分类逐级浏览检索。

11.1.3Ebrary电子图书数据库

1.资源简介

Ebrary数据库整合了来自260多家学术、商业和专业出版商的3万多册权威图书和文献,覆盖了商业经济、计算机、技术工程、语言文学、社会科学、医学、历史、科技、哲学等主要科目的书籍种类,其中大部分内容是近三年新出版的,一般每个月都新增几百种图书。目前与Ebrary合作的主要出版社包括The McGraw-Hill Companies,、Random House、Penguin Classics、Taylor & Francis、Yale University Press、John Wiley & Sons、Greenwood等著名出版社。

2.检索功能

提供简单检索和高级检索方式,简单检索中只提供给用户一个检索框,用户只需输入检索字段(支持自然语言),点击“search”即可开始检索。点击“Advanced”,进入高级检索,高级检索能进行更多的检索限定与组配来获得精确的检索结果,Ebrary数据库按学科和出版单位进行分类收藏,可采用浏览方式检索。

11.2 期刊的查询与检索

11.2.1中国学术期刊全文数据库

1.资源简介

《中国期刊全文数据库(CJFD)》是CNKI发行的众多数据库之一,该库目前是国内外最大的连续动态更新的中文期刊全文数据库,收录1915年至今的8672种期刊,内容覆盖自然科学、工程技术、农业、哲学、医学、人文社会科学等各种领域,全文文献总量2200多万篇。产品分为理工A、理工B、理工C、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理10大专辑,专辑下分为168个专题和近3600个子栏目。

2.使用方式

CJFD集题录、文摘、全文文献信息于一体,体现一站式文献信息检索(one-stop access);数据库具有知识分类导航和引文连接等功能,除了可以构建成相关的知识网络外,还可用于个人、机构、论文、期刊等方面的计量与评价。

CAGViewer全文浏览器是中国期刊网的专用全文阅读器,它支持CAJ、NH、KDH、CAS、CAA和PDF格式文件。它可配合网上原文的阅读,也要阅读下载到本地的期刊全文。其主要功能包括浏览页面、提取页面、查找文字、切换显示语言、文本摘录、图像摘录、打印及保存、邮件、在线更新等部分。

3.检索功能

数据库平台提供浏览、初级检索、高级检索、专业检索、二次检索等方式。

1)浏览检索通过逐级点击分类导航体系中的各子类,检索结果将在选择下一级类目达到细化检索的目的。

2)初极检索检索界面由左上、左下、右上和右下四个区域组成,分别是为检索输入、目录导航、结果列表和结果摘要信息显示功能区。检索项提供篇名、关键词、作者、作者单位、摘要、参考文献、基金、全文、智能检索、刊名,中图分类、ISSN、年、期、主题等的检索选择,可结合学科类别、期刊范围、时间限制、结果排序和匹配关系对检索词和结果加以限制。如检索有关“2000年至2007年计算机信息自动化文献的有关篇名中含机器人的相关核心期刊上的论文”信息,输入篇名为“机器人”,选择“精确”匹配,时间为“2000”年至“2007”年,选择“核心期刊”,按“时间”排序、学科选择“计算机、无线电、电信和自动化”,得到结果。

3)结果处理与优化在右上区域中点击其中一篇论文名,有关该篇论文的摘要和题录信息显示在右下区域,点击论文名前的磁盘图标可以CAJ格式保存,在论文名前的小框打上色可以批量下载,或者可以通过点击右下区域内“CAJ和PDF下载”链接分别以CAJ和PDF格式下载保存。在此结果页面,不仅提供了论文的基本特征及下载全文的途径,还可浏览该论文的相关论文信息,通过点击“详细信息”或点击“读者推荐、相似文献、相关研究机构、相关文献作者、文献分类导航”可得到与此论文相似的文献、相关的研究机构和作者推荐等信息。同时对此检索结果可以进一步输入检索词及相关限定,点击“在结果中查找”去精确结果,也可重新利用高级检索或专业检索精确。

4)新版初极检索以上方法是旧版的初级检索,新版的初极检索界面,增加了词频控制和词扩展功能,如查询“2000年至2007年计算机信息自动化文献的有关篇名中含机器人的相关核心期刊上的论文”,选择主题为“机器人”词频为“2”(表示机器人作为主题出

现2次),点击“扩展”跳出“请选择交叉相关词”的对话框,选择“自动控制”后点击“确定”,则刚才输入框内的“机器人”生成为“机器人*(自动控制)”,其他项目的选择与限定与旧版的相同,检索结果的处理也相同。

5)新版的高极检索包括多项双词逻辑组合检索、双词频控制。多项是指可选择多个检索项;双词是指一个检索项中可输入两个检索词(在两个输入框中输入),每个检索项中的两个词之间可进行五种组合;并且、或者、不包含、同句、同段,每个检索项中的两个检索词可分别使用词频、最近词、扩展词;逻辑是指每一检索项之间可使用逻辑与、逻辑或、逻辑非进行项间组合。

如检索2000年至2007年有关机器人自动智能控制的相关论文,且作者不姓王、名不为华,可以输入为:选择输入全文中机器人出现5次以上,且全文中自动控制出现2次以上,并且扩展词选择为人工智能,并且作者姓名不包含王且不包含华,或者关键词为自动机器人且同句中有智能一词。

6)新版的专业检索专业检索比高级检索功能更强大,但需要检索人员根据系统的检索语法编制检索式直接输入在检索框内进行检索,适用于熟练掌握检索技术的专业检索人员。

例检索2000年至2007年有关机器人或智能机器人,且作者单位不是清华且不姓王的相关论文,右输入为“题名=智能机器人or题名=机器人)not(作者=王and作者单位=清华)”。

11.2.2维普中文科技期刊数据库

1.资源简介

维普中文科技期刊数据库收录了1989年以来有关自然科学,工程技术、农业、医药、经济管理、教育科学及图书情报等学科的8000

多种期刊和科技经济剪报,共有四个数据库,即中文期刊全文数据库、外文科技期刊题录数据库、中国科技经济新闻数据库与中文科技期刊引文数据库。

1)中文科技期刊数据库提供1990年至今的5000余种中文科技期刊题录文摘和引文及检索软件。分为自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报7个专辑。可从源文献和被引文献入口进行检索,检索字段包括:作者、题名、出处和任意字段。

2)外文科技期刊数据库(文摘版)提供1995年至今的5000余种外交科技期刊题录文摘及检索软件。分为自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报7个专辑。检索字段包括:作者、刊名、题名、文摘、ISSN号、刊号和任意字段。

3)中文期刊全文数据库收录了9000余种期刊,分为自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报7个专辑。专辑又细分为27个专题。

4)中国科技经济新闻数据库源于1992年至今的400多种中国重要报媒和5000多种科技期刊,累积数据量达120多万条,覆盖工业、农业、医药、经济、商业等行业的科研动态、企业动态、发展趋势等信息。分为科研、工业A、工业B、工业C、农业、医药、商业、经济、教育等9个专辑,23个专题。提供树型分类导航系统,有作者、标题、正文、出版地、报刊名、分类号、任意字段等多个检索入口。

2.使用方式

查看文摘或全文信息需先注册;要查看详细题录文摘和全文,需要、升级为正式用户,集团用户可直接采用IP登录,个人用户与公

司购买相应的服务即可。维普电子期刊全文采用特有的格式制作及传播,用户使用时必须首先下载并安装期刊全文阅读器——维普全文阅读器,才可对期刊全文进行浏览和阅读、打印及下载。

3.检索功能

以《中文科技期刊数据库》(http://https://www.360docs.net/doc/3d6997345.html,/Visitnew.asp?db=1﹠fs=3)检索方法为例,其提供简单检索、期刊导航、传统检索、分类检索和高级检索五种方式。

1)简单检索用户在首页注册登陆后,直接在搜索栏中输入检索词并点击搜索。可根据需要选择字段进行检索,多个检索次之间用格或者“*”代表“与”,“+”代表“或”,“-”代表“非”,可选择字段有题名或关键词、题名、关键词、文摘、作者、机构、刊名、分类号、参考文献、任意字段。

快速检索的搜索结果,包括符合当前搜索条件的全部文章和热点研究文章(热点研究文章即高被引文章,是通过引文统计分析得出的被引频次比较高的文章,也就是受注度比较高的文章)。结果显示有概要、文摘和全记录三种方式,在显示有该文章题录和摘要信息的同时,还提供全文链接、该文的参考文献、被引次数、耦合文献以及相关文章等信息。点击作者,系统自动检索数据库中同一作者的所有相关文章;点击刊名,该期刊同一年期的篇名目录;点击“阅读全文”或者“下载全文”,即可付费下载浏览全文。

2)期刊导航通过点击期刊导航提供的学科或按字母顺序,可以浏览到某种期刊所有所度中的所有卷期的内容;利用结果显示处的【刊名】链接,可以查看到这种期刊在某年度中的所有期,点击其中任意一期您就可以看到这一期的主要文章的题目、文摘等信息,可在阅读全文或下载。

3)传统检索用户登录《维普资讯网》首页,在数据库检索区,通过点击“传统检索”,即可进入传统检索页面。传统检索界面左侧为学科目录树,上方为输入区,右上为结果列表区,右下为单施展结果信息区。在获得第一次结果基础上若不满意,可进行二次检索。

4)分类检索分类检索即是可利用学科导航树选择学科范围检索,也可利用学科类别与检索词组合检索。

5)高级检索提供了向导检索和直接输入检索式检索。

向导式检索为读者提供5个分栏检索词输入框。可选择逻辑运算、检索项、匹配度外,还可以进行相应字段扩展信息的限定,包括查看同义词、查看变更情况、查看分类表、查看同名作者、查看相关机构等,检索词表帮助功能也在完善中,另外用户根据需要还可以点击“扩展检索条件”,通过增加时间条件、专业限制、期刊范围进一步限制检索范围。利用逻辑运算符与字段标识组合形成检索表达式可直接输入检索框检索,点击输入框下的“扩展检索条件”也可对相关检索条件进行限制检索。

11.3报纸的查询与检索

11.3.1中国重要报纸全文数据库(CCND)

1.资源简介

《中国重要报纸专题全文数据库》由清华大学与中国学术期刊(光盘版)电子杂志共同编辑出版,是我国规模较大的网上中文报纸全文数据库。该库收录2000年6月至今全国公开出版发行的1000种重要报纸,每年更新120万篇文章,至2006年3月31日,累积报纸全文文献近552万篇。文史哲、政治军事与法律、经济、教育与社会、科学、恋爱婚姻家庭健康六大专辑下分为43个专题文献数据库,网上数据每日更新。以Wed版(网上包库)、镜像站版、光盘版、流量

计费多种方式使用。

2.检索功能

CCND提供分类浏览、初级检索、高级检索和专业检索方式。

1)分类检索利用分类目录导航,按所需查找的主题逐级展开分类目录即可。如点击“恋爱、婚姻、家庭、健康”下“保健与养生”,右侧会出现了来自中国中医药报的内容。

2)初级检索通过在导航区选择查询范围,而后选择检索字段,输入检索词、选择检索年限、排序方式,点击检索即可。可用检索字段包括正标题、副标题、作者、报纸中文名、全文等。在第一次检索的基础之上,可重新选择检索字段,输入检索进行二次检索。

3)高级检索如需要查找有关“大学生及其素质教育的非晚报上的其他报纸上的信息”,可以“大学生”为“主题”或“标题”中包括“素质”并且结果中“不包含”“晚报”,同时点选“教育与社会专辑”,点击其中1篇期题录信息显示在右下框,点击“CAJ下载”或“PDF下载”就分别以CAJ和PDF格式保存或阅读。

4)专业检索“报纸导航”功能提供对报纸从“主题词”检索和从“地区”浏览的方式。

11.3.2全国报刊索引数据库

1.资源简介

全国报刊索引数据库由《全国报刊索引》编辑部负责研制和编辑。自1993年建库以来,《全国报刊索引数据库》的累计数据总量已超过1300万条,年新增数据达280万条。数据库中收录的报纸约为200多种,包括三种类型:中央一级的报纸、省市级报纸以及各类报纸(指行业报纸)。数据库中收录全国各地区(包括少量港、澳、台地区)的期刊8500多种,涉及哲学与社会科学以及自然科学与技术

科学领域,包括邮发与非邮发和公开出版的期刊。

每条记录的著录字段包括顺序号、分类事情、题名、著者、著者单位、报刊名、卷期年月、所在页码、关键词等十项。2000年开始数据分类标引采用《中国图书馆分类法》第四版。

2.检索功能

全国报刊索引数据库提供单字段检索、布尔检索和二次检索。先选择子数据库,再进行检索。检索时可以在不同的子数据库中进行切换。

1)单字段检索用户只需在检索途径中选择相应的字段,然后在检索式文本框中输入检索词。例如,要查找题名中有“教育”的文献,可先从检索途径中选择“B=题名”,再在检索式输入框中输入“教育”然后点击检索即可。

2)布尔检索若为多个字段和多个检索词,按可利用“-”代表逻辑“非”运算,“*”代表逻辑“与”运算,“+”代表逻辑“或”运算来组配表达,其中,“-”优先级最高,“*”次之,“+”最低。需要时可用小括号()将需要优先运算的括起来。

3)二次检索在一次检索结果基础上可进行二次检索。用户可在检索区点击“检索历史”按钮,则在简要信息区出现最近20次检索结果,用户可点击“浏览”超链接来察看以前的检索结果。

(1)索引词列表的使用。用户可在检索区点击“索引词”按钮,则在简要信息区出现索引词列表,选择列表框中适当的索引字段,可得到所希望的索引词列表,继而可在索引词输入框中输入一检索词,再按定位按钮,系统即在索引中进行定位,并将结果显示在简要信息区,这时,可点击索引词前的按钮,将其添加到检索式中。

(2)格式控制。用户可在检索区点击“格式控制”按钮,则在

简要信息区出现题录库和刊名库的字段列表,用户可从中选择所需的字段,用于显示、存盘或打印。同时还可将详细信息及存盘/打印的格式设定为字段方式或条目方式。

11.3.3 世界各国报纸全文库

1.资源简介

《世界各国报纸全文库》(Access World News)是由世界上历史悠久的著名学术出版公司之一的美国NewsBank公司出版,提供1300余种世界各国最受欢迎和普遍阅读的报纸全部电子版全文(含部分通读社资源),其中300余种是NewsBank公司所独有。提供的语种主要为英语,并包括一定数量的西班牙语报纸,以及法语、德语、意大利语、葡萄牙语等,是各类图书馆丰富和完善本馆的报纸资源必备的信息资源之一。

2.检索功能

在页面的左侧,《世界各国报纸全文库》为用户提供了“The World”和“Create Custom List”两种检索方式,在这两种检索方式下,均有基本检索和高级检索功能。“The World”为系统默认的检索模式。这一模式对检索数据库中所包含的某个国家和地区的报纸较为方便。如果只想就某一个或几个国家或地区的某一份或几份报纸检索时用“Create Custom List”(自定义模式)。

报纸浏览检索:点击首页检索页面中的地图或地图下面的国家和地区名称,进入报纸所在国家或地区并找到您所需要浏览的报纸,点击该报纸名称即可进入这份报纸的浏览界面了。

选中每个检索结果后都有一个“Save this Article”项,该文章即可被加入“Saved Article”页中,用户可以将Saved Article 页面中的文章,以电子邮件的方式发送到指定的邮箱中。利用“Saved

Article”上面的“Searches this Ses-sion”功能用户可以随时查阅检索过的检索。

1文献检索导论

Zhejiang University
文献检索导论
冀海峰/侯迪波
浙江大学控制科学与工程学系

Zhejiang University
1 文献的基本概念
文献的定义 文献的类型 现代科技文献的特点

Zhejiang University
1.1 信息、知识和文献
信息:事物运动的状态 与方式。 知识:人类对事物本质 认识的成果和结晶。 文献:记录知识 的一切载体。
文献 知识 信息

Zhejiang University
信息:
《辞海》:信息是指对消息接收者来说预先不知道的报道。 《传播学概论》:信息是用语言、文字、数字、符号、图象、声 音、情景、表情、状态等方式传递的内容。 《情报学概念》:信息是生物以及具有自动控制系统的机器通过 感觉器官和相应的设备与外界进行交换的一切内容。 香农(Shano): 信息是熵(不确定性)的减少。 维纳(Wiener): 信息就是信息,不是物质,也不是能量。 信息是事物属性的再现,是事物存在的方式、形态和运动规律的 表征,是事物具有的一种普遍属性。
知识:知识是人类在认识和改造世界的社会实践中获得 的对事物本质认识的成果和结晶。

Zhejiang University
1.2 文献的定义
文献是记录有知识的一切载体的统称。即用文字、 图像、符号、声音、音频、视频、编码等手段记 录的人类知识的各种载体。 文献的三要素:知识、载体、记录方式。 文献的属性:知识信息性:客观物质性;人工记 录性;动态发展性。

中国科学院大学现代信息检索课后习题答案

《信息检索导论》课后练习答案 王斌 最后更新日期 2013/9/28 第一章布尔检索 习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。 文档 1 new home sales top forecasts 文档 2 home sales rise in july 文档 3 increase in home sales in july 文档 4 july new home sales rise 习题1-2 [*] 考虑如下几篇文档: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients a. 画出文档集对应的词项—文档矩阵; 解答: breakthrough 1 0 0 0 drug 1 1 0 0 for 1 0 1 1 hopes 0 0 0 1 new 0 1 1 1

patients 0 0 0 1 schizophrenia 1 1 1 1 treatment 0 0 1 0 b. 画出该文档集的倒排索引(参考图 1-3中的例子)。 解答:参考a。 习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么? a.schizophrenia AND drug 解答:{文档1,文档2} b.for AND NOT (drug OR approach) 解答:{文档4} 习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。如果不能的话,那么我们能达到的时间复杂度是多少? a.Brutus AND NOT Caesar b.Brutus OR NOT Caesar 解答: a.可以在O(x+y)次完成。通过集合的减操作即可。具体做法参考习题1-11。 b.不能。不可以在O(x+y)次完成。因为NOT Caesar的倒排记录表需要提取其他所有词项对应的倒 排记录表。所以需要遍历几乎全体倒排记录表,于是时间复杂度即为所有倒排记录表的长度的和 N,即O(N) 或者说O(x+N-y)。 习题1-5 [*] 将倒排记录表合并算法推广到任意布尔查询表达式,其时间复杂度是多少?比如,对于查询 c.(Brutus OR Caesar) AND NOT (Antony OR Cleopatra) 我们能在线性时间完成合并吗?这里的线性是针对什么来说的?我们还能对此加以改进吗? 解答:时间复杂度为O(qN),其中q为表达式中词项的个数,N为所有倒排记录表长度之和。也就是说可以在词项个数q及所有倒排记录表长度N的线性时间完成合并。由于任意布尔表达式处理算法复杂度的上界为O(N),所以上述复杂度无法进一步改进。 习题1-6 [**] 假定我们使用分配律来改写有关AND和OR的查询表达式。 a. 通过分配律将习题1-5中的查询写成析取式; 12 b. 改写之后的查询的处理过程比原始查询处理过程的效率高还是低? c. 上述结果对任何查询通用还是依赖于文档集的容和词本身? 解答: a. 析取式为:(Brutus And Not Anthony And Not Cleopatra) OR (Caesar AND NOT Anthony AND NOT Cleopatra) b. 这里的析取式处理比前面的合取式更有效。这是因为这里先进行AND操作(括号),得到的倒排记录表都不大, 再进行OR操作效率就不会很低。而前面需要先进行OR操作,得到的中间倒排记录表会更大一些。 c. 上述结果不一定对,比如两个罕见词A和B构成的查询 (A OR B) AND NOT(HONG OR KONG),假设HONG KONG一 起出现很频繁。此时合取方式可能处理起来更高效。如果在析取式中仅有词项的非操作时,b中结果 不对。 习题 1-7 [*] 请推荐如下查询的处理次序。 d. (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes)

信息检索导论-王斌-第三次课后作业(13-21)

信息检索导论第三次课后作业 1、习题13-2 答:(i)贝努利模型:三个文档具有相同的模型表示 (ii)多项式模型:文档1和文档2相同,文档3与它们都不同。文档1和文档2中“Lodon”都出现了两次,文档3中只出现了一次。 2、习题13-5

3、习题14-6 在图14-14 中,3 个向量→a、→b及→c中哪一个满足:(i) 采用内积计算的情况下与→x最近?(ii) 采用余弦相似度计算的情况下与→x最近?(iii) 采用欧氏距离计算的情况下与→x最近?

4、习题15-1一个数据集里支持向量的最小数目是多少(此时的数据集每个类别中都包含实例)? 答:一个数据集里支持向量的最小数目是2个。因为SVM分类模型希望得到在特征空间上间隔最大的分类器,即对于距离超平面最近的实例点,也希望能有足够的确信度将其分开,确定这样的超平面需要的支持向量最小数目是2个。5、习题16-5 K-均值算法的两个停止条件为:(i) 文档的分配不再改变;(ii) 簇质心不再改变。请问这两个条件是否等价? 答:这两个停止条件是等价的。当连续两次迭代之后,若文档的分配不再改变,则据此计算出的簇质心也不会再改变;当簇质心不再改变的时候,则K-均值算法计算出的文档的分配也就不再改变。

6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类,你预期的结果是什么? b. 当使用HAC 算法时,预期的结果是否仍然一样? 答:a.预期的结果:文档根据语言的大致分成两类。 b.预期的结果不一样。HAC是自底向上的聚类方法,最开始的时候每一篇文档都是一个簇,然后不断对簇进行两两合并,直到所有文档都聚为一簇。层次聚类不需要实现确定簇的数据,如果要按照不同的语言将文档进行分类,则需要在层次结构中某处进行截断,在合适的位置截断也可以将文档大致分为两类。 7、习题18-11假定有一个文档集合,其中每篇文档可以是英文或者是西班牙文。整个文档集如图18-4所示。图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。当然,该术语表只用于帮助理解,对检索系统来说是不可见的。 答:(1)词项-文档矩阵: d1 d2 d3 d4 d5 d6 hello 1 0 0 0 0 1

信息检索基础知识练习题

1. 文献是记录有知识的(A) A 载体 B 纸张 C 光盘 D 磁盘 2. 下列哪种文献属于一次文献( A ) A 期刊论文 B 百科全书 C 综述 D 文摘 3. 下列哪种文献属于二次文献( D ) A 专利文献 B 学位论文 C 会议文献 D 目录 4. 下列哪种文献属于三次文献( C ) A 标准文献 B 学位论文 C 综述 D 文摘 5. 下列选项中属于连续出版物类型的选项有(C) A 图书 B 学位论文 C 科技期刊 D 会议文献 6. 下列选项中属于特种文献类型的有(D) A 报纸 B 图书 C 科技期刊 D 标准文献 7. 以刊载新闻和评论为主的文献是(B) A 图书 B 报纸 C 期刊 D 会议文献 8.《中国图书馆分类法》(简称《中图法》)将图书分成( A ) A 5大部分22个大类

B 5大部分26个大类 C 6大部分22个大类 D 6大部分26个大类 9. 利用文献末尾所附参考文献进行检索的方法是(C) A 倒查法 B 顺查法 C 引文追溯法 D 抽查法 10. 至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为(A) A 数据库 B 记录 C字段 D 文档 11. 广义的信息检索包含两个过程(B) A 检索与利用 B 存储与检索 C 存储与利用 D 检索与报道 12. 中国国家标准的代码是(A) A GB B CB C ZG D CG 13.下列数据库中可以检索期刊论文的是(A) A 万方数据库资源系统 B 超星数字图书馆 C书生之家数字图书馆 D 方正Apabi数字图书馆 14. 期刊论文记录中的“文献出处”字段是指:(C) A 论文的作者 B 论文作者的工作单位 C 刊载论文的期刊名称及年卷期、起止页码 D 收录论文的数据库 15. 以下检索出文献最少的检索式是(C) A a and b B a and b or c

《信息检索导论》课后习题答案

《信息组织与检索》作业答案 第一章布尔检索 习题1-2 考虑如下几篇文档: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients a. 画出文档集对应的词项—文档矩阵; b. 画出该文档集的倒排索引(参考图1-3中的例子)。 Term-Documentmatrix: 1234 approach0010 breakthrough1000 drug1100 for1011 hopes0001 new0111 of0010 patients0001 schizophrenia1111 treatment0010 Inverted Index: approach -> 3 breakthrough ->1 drug ->1->2 for ->1->3->4 hopes ->4 new ->2->3->4 of ->3 patients ->4 schizophrenia ->1->2->3->4 treatment >3 注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便

于查找。这里我们暂不考虑词的正规化处理(如hopes->hope)。 补充习题1 写出AND查询的伪代码 ●面向过程风格的伪代码: 给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。 这里应用了“化归”思想(将新问题转化归为旧问题来解决)。这里,比较两排序列表的首元素,排除较小的docId(不可能有匹配)后,我们构造出新的剩余列表,再次进行两列表的首元素的比较。 While p1 != null AND p2 != null If p1->docId==p2->docId //对两(剩余)列表的首元素进行比较 insert(answer, p1); p1=p1->next;//构造新的剩余列表,迭代执行 p2=p2->next;// Else if p1->docId < p2->docId p1=p1->next;//p1->docId不可能有匹配;构造新的剩余列表 Else p2=p2->next;//p2->docId不可能有匹配;构造新的剩余列表 End ●面向对象风格的伪代码: 注:为一个数据结构(对象)定义方法,通过方法操作自己的内部数据(List对象里隐含包含了一个成员变量,它是真正的链表或变长数组)。 While list1.currentItem() != null AND list2.currentItem() != null If list1.currentItem().getDocId() == list2.currentItem().getDocId() answer.insert(list1.currentItem()); list1.moveToNext(); list2.moveToNext(); Else if list1.currentItem().getDocId() < list2.currentItem().getDocId() list1.moveToNext(); Else list2.moveToNext(); End

文献检索基本知识

第二章文献检索基本知识 一、文献检索的基本概念 信息检索: 广义:将信息按照一定的方式组织和存储起来,并根据 用户的需求找出有关信息的过程。 狭义:指用户找出有关信息的过程。 信息检索的类型(根据不同的检索对象): 数据检索:检索的结果是数据。如某种材料的电阻;某变压器的参数;化学分子式、数据图表等<手册> 事实检索:检索的结果是事实结论。查询某一事物(事件)的性质、定义、原理以及发生的时间、地点过程等。如某产品是哪个厂家生产,哪个牌子的最好;第一颗人造卫星是什么时候升空的<年鉴> 文献检索:检索的结果是文献资料。查找相关文献的内容、出处、收藏单位等。如系统地查找水压伺服控制阀原理方面的相关文献<论文> 信息检索(Information Retrieval)与文献检索(Document Retrieval)是两个不同的概念,文献检索是信息检索的一种最基本的、最主要的形式。 二、检索语言:根据信息检索需要创造的一种人工语言 描述文献外部特征的语言 题名语言:一般按题名字顺逐字排检 著者语言:一般按姓前名后的字顺逐字排检 号码语言:如专利号、标准号、ISBN号、ISSN号 描述文献内容特征的语言 分类语言:根据学科内容等对文献进行分类。如图书分类号、国际专利分类号、标准分类号等 主题语言:自然语言,人工语言 自然语言:自然表达某一概念的语言,没有强制性的规定。通俗地说,就是对于一个概念你想怎么表达就怎么表达。在文献检索中,关键词(key words)等用的就是自然语言. 人工语言:人为规定的概念表达语言。通俗地说就是对于一个概念你必须使用规定的语言来表达。在文献检索中,主题词(subject)通常用的就是人工语言 图书分类号 1、中国图书馆图书分类法(中图法) 为全国公共图书馆和信息研究所等机构所采用,是我国通用的综合性书资料分类 法。 1973年试用版,1975年第一版,1980年第二版,1990年第三版,1999年第四版。 共分22个大类 例如: A马、列、毛、邓B哲学、宗教 S农业科学T工业技术 TN无线电电子学电信技术TN.3半导体技术

信息检索导论王斌译第一章课后习题答案

习题1-1 forecasts 1 1 home 4 1 2 3 4 in 2 2 3 increase 1 3 july 3 2 3 4 new 2 1 4 rise 2 2 4 sales 4 1 2 3 4 top 1 1 把所有文档中的词抽取,按顺序排序。倒排记录也要按顺序排列,文档频率(几个文档中出现该词)要写 习题1-2 A题 1 2 3 4 approach 0 0 1 0 breakthrough 1 0 0 0 Drug 1 1 0 0 For 1 0 1 1 Hope 0 0 0 1 New 0 1 1 1 Of 0 0 1 0 Patient 0 0 0 1 Schizophrenia 1 1 1 1 Treatment 0 0 1 0 矩阵行是词,按顺序排列;列方向是文档编号。某文档出现某词,相应位置填1,否则填0 B题 Approach 1 3 Breakthrough 1 1 Drug 2 1 2 For 3 1 3 4 Hope 1 4 New 3 2 3 4 Of 1 3 Patient 1 4 Schizophrenia 4 1 2 3 4 Treatment 1 3 习题1-7 1.Kaleidoscope OR eyes 87009+213312 2.Marmalade OR skies 107913+271658

3.Tangerine OR trees 46653+316812 按估计的记录个数,从小到大的顺序 1 2 4 11 31 45 173 174 P 2 31 54 101 Q 1 1 2 4 11 31 45 54 101 173 174 相等把文档编号添加到结果集,两个一起往后移;不相等小的往后移 习题1-10 Answer <- <> While p1!=Nil or p2!=Nil Do if docID(p1)=docID(p2) Then Add(answer,docID(p1)) P1<-next(p1) P2<-next(p2) Else if docID(p1)

文献翻译----信息检索导论

本科毕业设计 外文文献及译文 文献、资料题目:Introduction to Information Retrieval 文献、资料来源:网络 文献、资料发表(出版)日期:2008.3.20 院(部): 专业: 班级: 姓名: 学号: 指导教师: 翻译日期:

外文文献: Introduction to Information Retrieval The meaning of the term information retrieval can be very broad. Just getting a credit card out of your wallet so that you can type in the card number is a form of information retrieval. However, as an academic field of study, information retrieval might be defined thus: Information retrieval (IR) is finding material of an unstructured nature that satisfies an information need from within large collections. As defined in this way, information retrieval used to be an activity that only a few people engaged in: reference librarians, paralegals, and similar professional searchers. Now the world has changed, and hundreds of millions of people engage in information retrieval every day when they use a web search engine or search their email.1Information retrieval is fast becoming the dominant form of information access, overtaking traditional database- style searching. IR can also cover other kinds of data and information problems beyond that specified in the core definition above. The term “unstructured data” refers to data which does not have clear, semantically overt, easy-for-a-computer structure. It is the opposite of structured data, the canonical example of which is a relational database, of the sort companies usually use to maintain product inventories and personnel records. In reali ty, almost no data are truly “unstructured”. This is definitely true of all text data if you count He latent linguistic structure of human languages. But even accepting that the intended notion of structure is overt structure, most text has structure, such as headings and paragraphs and footnotes, which is commonly represented in documents by explicit markup. IR is also used to facilitate “semi-structured” search such as finding a document where the title contains Java and the body contains threading. The field of information retrieval also covers supporting users in browsing or filtering document collections or further processing a set of retrieved documents. Given a set of documents, clustering is the task of coming up with a good grouping of the documents based on their contents. It is similar to arranging books on a bookshelf according to their topic. Given a set of topics, standing information needs, or other categories, classification is the task of deciding which classes, if any, each of a set of documents belongs to. It is often approached by first manually classifying some documents and then hoping to be able to classify new documents

信息检索导论-王斌 第一次课后练习(1-4)

信息检索导论第一次课后练习(第1讲-第4讲) 1.习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么? a. schizophrenia AND drug b. for AND NOT (drug OR approach) 解答: 习题1-2的文档集如下: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients 词项文档对应如下: 词项docID 词项docId breakthrough 1 approach 3 drug 1 breakthrough 1 for 1 drug 1 schizophrenia 1 drug 2 new 2 for 1 schizophrenia 2 for 3 drug 2 for 4 new 3 hopes 4 approach 3 => new 2 for 3 new 3 treatment 3 new 4 of 3 of 3 schizophrenia 3 patients 4 new 4 schizophrenia 1 hopes 4 schizophrenia 2 for 4 schizophrenia 3 schizophrenia 4 schizophrenia 4 patients 4 treatment 3 它对应的倒排索引表如下: 词项文档频率倒排记录表 approach 1 → 3 breakthrough 1 → 1 drug 2 →1→2 for 3 →1→3→4 hopes 1 → 4 new 3 →2→3→4 of 1 → 3 patients 1 → 4 schizophrenia 4 →1→2→3→4 treatment 1 → 3

期刊检索基础知识

期刊检索基础知识 一、国内期刊分类 (1) 二、核心期刊概念 (2) 三、中国六大核心期刊体系 (2) 四、国际主要文献检索系统 (4) 五、文献的类型与标识 (8) 六、中国图书馆分类法简介 (10)

一、国内期刊分类 从广义上来讲,期刊可以分为非正式期刊和正式期刊两种。非正式期刊是指通过行政部门审核领取“内部报刊准印证”作为行业内部交流的期刊(一般只限行业内交流不公开发行),但也是合法期刊的一种,一般情况下,正式期刊都经历过非正式期刊过程。 正式期刊是由国家新闻出版署与国家科委在商定的数额内审批,并编入“国内统一刊号”的期刊。正式期刊,办刊申请比较严格,要有一定的办刊实力、有独立的办刊方针。 “国内统一刊号”是“国内统一连续出版物号”的简称,即“CN号”,它是新闻出版行政部门分配给连续出版物的代号。“国际刊号”是“国际标准连续出版物号”的简称,即“ISSN号”,我国大部分期刊都配有“ISSN号”。 期刊可以从不同角度划分类型。大致有以下几种划分角度: 1、按期刊的载体分类 可分为:印刷型、电子型、缩微型等媒体期刊。 2、按出版机构分类 可分为:学术团体,大专院校,政府机构,公司企业,商业机构,科研部门等主办的期刊。 3、按文种分类 可分为:中文期刊,外文期刊。 4、按刊期分类 可分为:定期期刊,如周刊、旬刊、半月刊、月刊、双月刊、季刊、半年刊、年刊等;不定期期刊。 5、按内容、用途分类 以《中国大百科全书》新闻出版卷为代表,将期刊分为四大类: (1)一般期刊,包括科普性、情报性、工具资料性、普通技术性期刊等,强调知识性与趣味性,读者面广,如我国的《人民画报》、《大众电影》,美国的《时代》、《读者文摘》等。 (2)学术性期刊,包括学报、公报、通报、会志、汇刊等,主要刊载学术论文、研究报告、评论等文章,以专业工作者为主要对象。 (3)行业性期刊,主要报道各行各业的产品、市场行情、经营管理进展与动态,如中国的《摩托车信息》、《家具》、日本的《办公室设备与产品》等。 (4)检索性期刊,包括文摘、题录、索引等,如我国的《全国报刊索引》、《全国新书目》,美国的《化学文摘》等。 6、按学科分类 以《中国图书馆图书分类法〃期刊分类表》为代表,可将期刊分为五个基本部类: (1)马列主义、毛泽东思想。 (2)哲学。 (3)社会科学。 (4)自然科学。 (5)综合性刊物。

信息检索导论课后习题答案

《信息组织与检索》作业答案第一章布尔检索 习题1-2 考虑如下几篇文档: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients a. 画出文档集对应的词项—文档矩阵; b. 画出该文档集的倒排索引(参考图1-3中的例子)。 Term-Documentmatrix: 1234 approach0010 breakthrough1000 drug1100 for1011 hopes0001 new0111 of0010 patients0001 schizophrenia1111 treatment0010 Inverted Index: approach -> 3 breakthrough ->1 drug ->1->2 for ->1->3->4 hopes ->4 new ->2->3->4 of ->3 patients ->4 schizophrenia ->1->2->3->4 treatment >3

注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便于查找。这里我们暂不考虑词的正规化处理(如hopes->hope)。 补充习题1 写出AND查询的伪代码 ●面向过程风格的伪代码: 给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。 这里应用了“化归”思想(将新问题转化归为旧问题来解决)。这里,比较两排序列表的首元素,排除较小的docId(不可能有匹配)后,我们构造出新的剩余列表,再次进行两列表的首元素的比较。 While p1 != null AND p2 != null If p1->docId==p2->docId //对两(剩余)列表的首元素进行比较 insert(answer, p1); p1=p1->next;//构造新的剩余列表,迭代执行 p2=p2->next;// Else if p1->docId < p2->docId p1=p1->next;//p1->docId不可能有匹配;构造新的剩余列表 Else p2=p2->next;//p2->docId不可能有匹配;构造新的剩余列表 End ●面向对象风格的伪代码: 注:为一个数据结构(对象)定义方法,通过方法操作自己的内部数据(List对象里隐含包含了一个成员变量,它是真正的链表或变长数组)。 While list1.currentItem() != null AND list2.currentItem() != null If list1.currentItem().getDocId() == list2.currentItem().getDocId() answer.insert(list1.currentItem()); list1.moveToNext(); list2.moveToNext(); Else if list1.currentItem().getDocId() < list2.currentItem().getDocId() list1.moveToNext(); Else list2.moveToNext();

相关文档
最新文档