信息检索

信息检索
信息检索

政府信息:是指国家组织、各国政府及其相关部门所发布的信息。包括:有关组织机构的宗旨、业务范围、人员、出版物、最新消息发布,还有各种法律、法规或相关政策信息,从统计数据到立法建议等,内容相当广泛。政策信息可以说是网上最有价值的一部分信息,由于出自官方,所以具有权威、可靠等特点。另一个突出的特点是价廉,其中大部分是免费信息,有许多没有版权限制的政府文件,可以免费检索、获得。

万维网:www是world wide web的缩写也可以简称为web,中文名字为“万维网”。它起源于1989年3月,由欧洲粒子物理实验室cern所发展出来的主从结构分布式超媒体系统。通过万维网,人们只要通过使用简单的方法就可以迅速方便的取得丰富的信息资料。

RSS:RSS是一种用于共享新闻的其他web内容的数据交换规范,起源于Netscape公司1997年发展的技术,是将用户订阅的内容传送给他们的通信协同格式。RSS原来是Rich Site Summary或RDF Site Summary的缩写,意思是把网站内容如标题、连接、部分内文甚至全文转换为“可扩展标示语言”的格式,以向其它网站提供信息,用户可以用一般的浏览器观看,也可以用一些特殊的RSS阅览器软件来阅读内容。由于RSS提供非常方便的新闻内容授权与供稿模式,所以,后来RSS也就演变为really simple syndication缩写。

BBS:是电子布告栏系统,BBS是Internet上的一种电子信息服务系统,BBS提供一块公共电子黑板,每个用户都可以再上面书写,可发布信息或提出看法,像日常生活中的黑板报一样,电子公共牌按不同的主题分成很多个布告栏,布告栏设立的数据是按大多数BBS使用者的要求和喜好,使用者可以阅读他人关于某个主题的最新想法,也可以将自己的观点毫无保留地贴到布告栏上。

白页:网上白页是专用于查找因特尔用户个人信息的特殊工具,这些个人信息包括电话号码、e-mail地址、邮政编码甚至家庭住址等。

链接:链接是web页的元素,它是指向其他信息资源的指针。

网络资源目录:是由人工发现、抓取、辨别网上信息,依靠编目、标引人员的知识,按照图书分类、学科分类或其他分类依据,建立主题树分层目录,将采集、筛选后的信息分门类别地放入各大类或子类下面。用户可以在这个分类结构中进行浏览。

中国期刊网:是中国知识基础设施工程的一个重要组成部分,于1999年6月正式启动,它的数据库主要有:中国期刊全文库,中国重要报纸全文库,中国优秀博硕士论文全文库,中国基础教育知识库,中国医院知识库,中国期刊题录数据库,中国专利数据库等。

黄页:是国际通用按企业性质和产品类别编排的工商电话号码薄,相当于城市或地区的工商企业的户口本,国际惯例用黄色纸张印制,故称黄页。

下位词:是概念上内涵更窄的关键词。

FTP:是因特网使用的文件传输协议。该协议的主要功能是完全从一个系统到另一个系统完整的文件拷贝,即在因特网的联网计算机之间传输文件。

搜索引擎:是利用一个称为Robot的程序自动访问web站点,提取站点上的网页,并根据网页中的链接进一步提取其他网页,或转移到其他站点上。Robot搜集的网页被加入到搜索引擎的数据中,供用户检索使用,然后在用户录入关键字后进行检索,检索结果中一并附以摘要。

搜索提供商:是指为其他搜索引擎提供检索结果或技术支持的服务商,其主要经营项目不是为普通搜索者提供搜索服务,而是为目前大多数主流搜索引擎提供质量较优的结果和技术支持。

CNKI平台:中国国家知识基础设施工程,是中国学术期刊、清华同方光盘股份有限公司创建。收录包括自然科学、工程科学、人文与社会科学等。收录的文献类型有期刊、博士硕士论文、报纸、图书、会议论文。

北大法律信息网:是北大英华科技公司和北大法制信息中心共同创办的大型综合性法律网

站。它是法律从业者的法律教学工作者查询和研究中国法律的重要的网络平台,其中的法律信息包括了英文版的中国的法律、法规、部门规章以及案例。北大法律信息网事一个综合性并每月更新的中国法律信息平台,提供的网络服务包括法规中心、天问咨询、教育频道、法学文献、法律导航、法律动态等。

HTTP:是浏览器与web服务器之间相互通信的协议。即www客户机和服务器用于在网上传输、响应用户请求的协议。

关键词:是直接来自文献本身,能够反映文献主题概念,具有实际检索意义的词语,以搜索引擎为代表的基于关键词的检索工具能够能利用全文索引技术,标引每一篇文档的每一个关键词,形成庞大的索引库,用户使用关键词进行检索,检索工具把用户输入的关键词与索引库中的词表进行匹配,所有出现该关键词的文档都将被检索到。

Archie:第一个网络信息检索工具FTP搜索引擎Archie它是一个基于关键词的检索工具。万方数据资源系统:是一个以科技信息为主,集经济、金融、社会、人文信息为一体的网络化信息服务系统。

元搜素引擎:是一种基于搜索引擎的网络检索工具,它是将多个搜索引擎集成在一起通过一个统一的检索界面接收并处理用户的查询提问,在进行检索时调用一个或者多个独立搜索引擎的数据库,检索结果是来自独立搜索引擎的检索结果或者是来自多个搜索引擎检索结果集合的综合,呈现给用户的检索结构既可以是引用原始的独立搜索引擎的页面,也可以是由元搜索引擎重新制定后的形势。

HTML:是一种专门编程语言,具体规定和描述了文件显示的格式,也即web的描述语言,用于编制通过www显示的超文本文件。

Blog:指的是使个人在网站上写日志供大众阅读,Blog出版系统的进步,以及普遍应用RSS 供稿机制的缘故,许多相似主题的Blog之间自然串联成为一个个社群,Blog是重要的新闻来源,逐渐受到人们重视,人们以Blog形式来共享观念与思想变得越来越流行,由于RSS 是XML格式档,所以它很容易被其他程序所使用,Blog以RSS文档形式为其内容提供一个提要,该RSS文档可以通过一个普通的URL获得。

Google:是由斯坦福大学博士生Larry Page与Sergey Brin于1998年9月开发。Google Inc.于1999年创立。

国家科技图书文献中心:由国家科技文献中心创建,是根据国务院领导的批示于2000年6月12日的一个虚拟的科技文献信息服务机构,由中国科技院图书馆、工程技术图书馆、中国科学技术信息研究所、机械工业信息研究所、冶金工业信息标准研究院,中国化工信息中心、中国农业科学院图书馆、中国医学科技院图书馆组成。

EconWPA:是由华盛顿大学经济学院组成创建的一个经济资源网络搜索引擎,可以免费检索经济学领域的学术文献,EconWAP主要致力于为作者提供免费发布经济学论文的平台。

文化信息:主要包括各类信息媒体的网站和世界各地图书馆的数字化馆藏及其联机公共查询目录。

浏览器:是一种应用于www的网络软件,它是运行在用户计算机上的客户程序,它不仅用于其它www服务器的链接,其更主要的用是帮助用户浏览、阅读和查询www信息资源。浏览器可以分为3大类:行式浏览器、文本浏览器和使用图形界面的浏览器。

定性评价:即按照一定的评价标准对被评站点的各方面特征、质量作出主观评判。一般有问卷调查、专家评议等方式。

超星数字图书馆:是国家“八六三”计划中国数字图书馆示范工程项目,由中国社科院、广东省立中山图书馆、深圳图书馆、美国加州大学等20几家单位和超星公司共同开办,已拥有数字图书30多万册,并以每天数百种的速度增加,其中部分可供免费浏览,浏览超星电子图书必须使用专门定制的浏览软件——超星图书阅览器,可在其网站内下载。

电子期刊:指通过计算机通信网络出版的一种电子期刊,有时也被成为网络期刊,目前电子期刊的编制单位众多,发展势头强劲,涵盖内容广泛,发行与订购方式、价格模式呈现多样化。其主要类型有:1)期刊数据库2)期刊网站3)集合型期刊4)电子邮件期刊

Baidu:1)编制者:1999年底李彦宏和徐勇于美国硅谷创建百度。2000年,百度回国发展,从此掀开了中文搜索引擎的新篇章2)数据库规模和范围:全国最大中文搜索引擎之一,百度以超过2亿的中文网页,全球独有的“超链分析“技术,快捷的反应速度,庞大的服务器群,接收来自全球各个国家的中文搜索请求。利用百度可检索的资源类型包括:网页资源、新闻、5万个flash图片、超过60万德MP3音乐的地理资源,另外百度按照主题分类方式组织建立的网站资源列表,收录了上万个质量很好的网站,并有专职人员负责维护和更新,是很好的网络资源。

Telnet:在远程计算机上登录,是自己的计算机暂时成为远程计算机的终端,进而可以实时访问,使用远程计算机中对外开放的相应资源,简言之,就是通过远程登录后,可以访问、共享的远程系统中的资源。

学科分类法:是以知识分类为基础,按照学科性质及从属,层次关系来组织网络资源,类目排序以文字顺序为标准。

休闲娱乐信息:被称为是网上“最成功”的领域,包括:旅游信息,任一旅游城市的风景名胜、特产、风俗、以及宾馆、饭店、住宿、交通等信息均为可在网上找到。购物信息,各种网上书店、网上商品、价格、销售信息。还有为任何一种可想象出的兴趣,爱好而开设的网站、讨论组、网络俱乐部等。

科研信息:主要指各专业学术研究所设立的网站及其相关信息,包括:目标、宗旨、成员、主要出版物、最新学术活动安排、各种学术性电子期刊、学科专题论坛、讨论组、各学科应用工具性、研究型计算机软件等。

专利文献:是非常重要的技术信息源,通过检索、利用专利文献可以获得有关先进技术的发明及应用的最新信息,对技术创新、成果开发等有积极地借鉴、参考、启迪作用。在研究工作中经常查阅专利文献可以缩短研究时间,节省研究费用。同时,专利文献还提供相关的法权信息,在引进国外技术和设备时通过查阅专利可以比较各国、各公司的技术、设备先进程度、核实有关专利项目以保护自身利益。

主题分类法:其特征是一个主题充当一个类目,类目像主题词一样按字顺序排列,而不是以逻辑顺序排列,一个类目又可以分为若干细目,同位类的细目也是按字顺序排列,这种分类实质上时分类法和主题法相互融合的产物。

QBIC:由IBM公司于20世纪90年代开发,是一个图像和动态影像检索系统。该系统由data population 和database query 两部分构成,data population负责对系统存储的图像进行多种特征抽取和维护特征索引库,data query负责对用户查询输入的对象进行同样的特征抽取,并将特征信息输入匹配引擎,检索出具有相似特征的图像,两部分中间使用一个过滤索引生成器相连,所有的查询,反馈过程都必须经过过滤索引生成器,才能进入匹配引擎,这样提高了系统的总体速度。

文档分析:主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出,其基本目的是为了获得最优秀的索引记录,使用户能很容易的检索所需的信息。文档分析首先要经历信息过滤的步骤,即将html文档的词从大量用于描述文档格式的标签中分离出来。OCLC FirstSearch:是由美国OCLC创建的,是一个非盈利,成员制的联机计算机图书馆服务和研究机构,也是世界上最大的文献信息服务机构之一,包括期刊论文、图书、专利、政府报告、报纸、学位论文、会议论文、视音频等文献类型。学科范围包括艺术和人文学科、商业管理和经济学、会议和会议录、消费事物和人物、教育、工程技术、综合性学科、一般参考、生命学科、医院与卫生科学、新闻和时事、公共事务和法律、社会科学。

目录性检索工具:一般称为网络资源目录又称分类站点目录、站点导航系统、专题目录或主题指南等。它是由网络开发者将网络资源收集后,以某种分类体系进行组织加工整理,并和检索法集成的一种可供分类浏览和检索的等级结构式目录。网络资源目录一般是通过引导网络用户的查询概念来帮助用户找到所需的网络信息。

桌面元搜索引擎:不是通过网上调用方式在线使用,而是直接在用户的计算机上运行,相当于用户自己拥有一个元搜索引擎,他们往往是一个个小型的软件,这种软件是应那些不大熟悉各大搜索引擎,或者说没有精力去逐一访问各个搜索引擎进行检索的用户的需求而产生。桌面元搜索引擎通常包括两个主要的功能模块:一个模块负责接收用户的检索提问,并翻译成对应不同搜索引擎的语法,通过网络接口连接多个在线搜索引擎,他们往往允许用户自定义检索式运行的搜索引擎集合,甚至可由用户添加新的搜索引擎;另一个模块负责结果的浏览,该模块往往由软件集成的web浏览器实现,各个搜素引起返回的结果在浏览器的不同窗口中显示。

年鉴:是指每年出版社的统计数据和事实的汇编,兼有限期性和回溯性内容,其包含的地区和科学领域可能较为宽广,也可能限于某一特定国家或特定的主题。

黄页信息服务:是指用于查询个人电环号码的网上信息查询服务,黄页就是电话号码薄,目前几乎世界每一个城市都有以这种纸张为载体所印制的电话号码薄。随着人们对网络的广泛利用,网页信息也被搬到网上,被称为“网上黄页”但“网上黄页”不是传统黄页的翻版,其内容广泛,服务功能更多样化,除电话号码外,还提供如公司名称、地址、传真、邮编、网址、产品、行业和公司简介等信息。

eBay:是世界最大最著名的拍卖网站,于1995年5月1日由皮埃尔奥美迪亚尔创办。eBay 易趣是全球最大的电子商务公司eBay和国内领先的门户网站,无线互联网公司TOM在线于2006年12月携手组建一家合资公司,1999年8月,易趣在上海创办,2002年易趣与eBay 结盟,更名为eBay易趣,并迅速发展成为国内最大的在线交易社区。

上位词:指概念上外延更广的关键词,或者可以说每一个关键词所覆盖的信息范围都是它的上位词所覆盖信息范围的子集。

URL:又称信息资源的统一定为格式或统一资源定位器,实际上是一个用以标识文档型及其所在网络地址的字符串,它的用途是用统一的方式指明因特网上信息资源的位置。URL包括3部分:所使用的传输协议,服务器名称,该服务器上定位文档的全路径名。

教育信息:主要有各大学所设立的网站及相关信息。

简述网络资源目录使用的分类法:主题分类法,学科分类法,图书分类法,分面组配法。简述自动归类的工作原理:自动归类是分析网页的内容特征,并与事先拟定的各种类别中的特征描述进行比较,然后将对象归入特征最接近的一类,并赋予相应的分类号。

简述在选择、使用各元搜素引擎时应注意的几个特点:1.所集成搜索引擎的数量和名称2.检索提问的输入及处理3.其他检索选项4.检索结果的处理

简述用关键词检索的技巧:1.有足够多的关键词2.清楚停用词和常用词3.注意关键词的分类和对象关键词4.使用截词检索和通配符5.选定合适的关键词级别6.利用同义词7.尽量使用词组检索8.使用英文专业术语检索。

简述因特网信息资源的定量评价:即利用数量分析方法,对调查统计数据进行分析,进而作出比较系统,客观的评价,目前对网络信息进行定量评价一般是以统计访问次数,登录情况,链接数量等进行统计分析,进而对用户兴趣,网站影响力,站点所提供信息的水平和可信度等做出评判。

论述进行网络信息资源评价的意义:从信息海洋中经过甄别,挑选出有学术价值或利用价值的精华部分,推荐给用户使用,可以较好的屏蔽一些信息污染或检索噪声,大大的提高用户利用因特网信息资源的效率。网络用户懂得评价可使自己的上网“冲浪“是建立在某种分

析,判断基础上的”智能型“的访问,还能对自己所搜集,获取到的信息资源的价值有所判断。能够使其在编辑,生产网络信息的过程中有所规范,以便在几个关键的方面注意按照标准的要求去做,进而提高,改善网络信息的质量。

简述因特网信息资源检索的标准:1检索范围大2检索效率高3检索工具强大4信息冗余大简述元搜素引擎与普通搜索引擎的区别:元搜索引擎与普通搜索引擎的区别在于普通搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多的是提供统一连接界面,形成一个由多个分布的,具有独立功能的搜索引擎构成的虚拟体系,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作。

简述网上参考信息源的主要类型:1百科知识检索网站2人物信息检索网站3地理信息检索网站4时事、新闻信息检索服务5机构信息检索网站6词语信息检索网站7统计信息检索网站

论述网络信息检索中的法律问题:1侵犯隐私的风险2搜素技术本身的争议和“安全港”规定3网页缓存功能的争议4搜索引擎营销中的法律纠纷

简述网络资源目录检索的局限性:受人工标引的限制,网络资源目录的搜索范围较搜索引擎要小许多,要保证目录结构的清晰性,每一类目下的条目也不宜过多,因此大大的限制了网络资源目录的容量。收录的网页数量和标引深度相对不足,很难检索到较专深的信息,且信息更新速度相对较慢。难于控制主题等级类目的质量,各系统的分类体系和标引方式不统一,不规范,如果检索者的检索思路与目录的划分标准不一致则会导致误差、漏查。

简述元搜索引擎的功能:元搜索引擎是搜索引擎的搜索引擎,换句话说用户只需将检索需求提交给元搜索引擎,元搜素引擎负责将用户提问发送到众多搜索引擎中去检索,并将得到的所有结果处理后一并提交给用户。

论述分类浏览和关键词检索的优缺点:分类浏览一般是基于网站分类目录。它浏览的对象是网站,目录分类的质量较高,检索效果好;但是成本高、信息更新慢、维护的工作量大。关键词检索的对象不是网站,而是符合条件的网页。关键词检索信息量大、更新及时、不需要人工干预;但是返回检索结果过多,检索效率不高。

简述搜索引擎的基本功能:1布尔检索2词组检索3禁用词检索4截词检索

简述影响搜索引擎进一步发展的瓶颈:1搜索引擎索引更新慢2检索结果的排序仍然不能令人满意3搜索引擎不能查找动态生成的网页

简述因特网信息资源的优缺点:优点1检索简单易行,利于上手2检索到的信息较新,时效性好3可以达到较高的检全率4符合检索语言的文献保障原则和用户保障原则。缺点1关键词怨言难以反映词间的相关关系2分散主题,影响查准率3自动标引无法完全解决标引不一致的问题

论述网络信息检索策略:1确定自己的问题是否适合Internet2了解Internet信息检索的特殊性3了解可用的检索工具4仔细分析自己的信息需求并选择合适的工具5根据检索结果调整检索策略6检索必须找到地方,选择合适的提问方式

简述高级检索功能:1布尔检索2截词检索3位置检索4加权检索5字符串检索6限制检索7概念检索8模糊检索9深入检索

简述因特网上信息资源的种类:1web信息资源2telnet3ftp信息资源4用户组信息资源5rss 信息资源

简述网络信息检索模型:1布尔检索模型2向量空间模型3概率模型4扩展布尔模型

对因特网存在的误解:1)认为因特网无所不包、无所不能,所有信息都在网上找到。2)认为因特网找到的下载下来的都是正确的。3)认为因特网可以完全取代其他的媒体和信息渠道。4)认为因特网上的信息无太多的利用价值仅仅限于聊天、菜谱、各种发烧友俱乐部等

非正式、娱乐性信息、缺乏严肃类信息。

因特网信息的特点:无限性和广泛性、多样性、共享性、廉价性、新颖性、无序性。

因特网上信息资源的种类:从媒体类型上分为:文本、图像、声音、视频多种信息;从访问权限上:开放信息、保密信息;从表现形式上分:全文型、事实型、数据型、目录型、实时型。

因特网信息资源的评价标准:1)目的:该网站的目的是什么?它的内容是否符合它的目的。2)范围:该网站所覆盖的主题领域,所提供的信息的广度、深度、时间范围及所包含的网络资源类型范围。3)内容:准确性、权威性、新颖性、独特性、可靠性、链结、图像和多媒体设计、信息展示和设计、可操作性。

关键词检索所提高的功能:布尔检索、截词检索、位置检索、加权检索、字符串检索、限制检索、概念检索、模糊检索、深入检索。

一个完整的搜索引擎应具备5个部分:搜索器、搜索引擎数据库、索引器、检索引擎、用户接口。

因特网检索工具的性能评价:1)收录范围。2)检索功能:检索功能直接影响信息检索的检全率、检准率、检索的灵活性、方便性及检索速度,是评价与选择因特网信息检索工具的核心指标。3)检索效率:包括检全率、检准率。4)检索结果的处理与展示:这是最直观的指标。5)用户界面设计。

国外搜索引擎的检索功能:1)基本检索:布尔检索、词组检索、禁用词检索、截词检索、同义词检索、Google不区分大小写。2)网页特殊搜索:特殊文档检索、字段搜索。3)网页目录。

元搜索引擎的分类:桌面元搜索引擎、ALL-IN-ONE式元搜索引擎、并行检索式元搜索引擎。ALL-IN-ONE式元搜索引擎与并行检索式元搜索引擎区别:ALL-IN-ONE方式的元搜索引擎又称搜索引擎元目录,检索的还是某一搜索引擎的数据库,与普通单一搜索引擎的检索是一样的。只不过是设立了又一层门户,通过其组织、检索界面,为用户选择合适的检索工具提供积极的帮助,以克服用户面对众多的检索工具的茫然和无所适从。

并行检索式元搜索引擎是将多个搜索引擎集成在一起,提供一个统一的检索界面,用户发出检索请求后,提问式被被同时分别提交、发送个哦多个独立搜索引擎,同时检索多个数据库,最终输出的检索结果是经过聚合、去重之后反馈的多个独立搜索引擎查询结果的综合。

元搜索引擎与普通搜索引擎的区别:普通搜索引擎与元搜索引擎的主要区别在于普通搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多的是提供一连接界面,形成一个有多个分布的、具有独立功能的搜索引擎构成的虚拟整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作。元搜索引擎中各嘟噜搜索引擎被称为“目标搜索引擎”或者“成员搜索引擎”,他们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出。

中国期刊检索系统:中国期刊网是中共只是基础设施工程简称CNKI的一个重要组成部分,与1999年6月正式启动。它的数据库主要有:中国期刊全文库、中国重要报纸全文库、中国优秀博硕士论文全文库、中国期刊基础教育知识库、中国医院知识库、中国期刊题录数据库、中国专利数据库等。其中中国期刊全文库收录了1994年以来6600多种中文学术期刊,其中全文库收录期刊5000多种,数据每日更新。内容涉及理、工、农、医、教育、经济、文史哲等9个专辑,126个专题。

法律信息检索工具:因特网上关于法律专业的信息纷繁复杂、数不胜数,在众多中外法律信息网络检索工具中,LexisNexis最为著名。

图像检索原理:从20世纪70年代开始,有关图像检索的研究就已经开始,当时主要是基于

文本的图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。到90年代后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索(content-based image retrieval ,简称CBIR)技术。CBIR属于基于内容检索(content-based retrieval ,简称CBR)的一种,CBR中还包括对动态视频、音频等其他形式多媒体信息的检索技术。

常用的迸发式元搜索引擎:Dogpile,https://www.360docs.net/doc/9317633389.html,; Vivisimo,https://www.360docs.net/doc/9317633389.html,; MetaCrawler,https://www.360docs.net/doc/9317633389.html,; ProFusion,https://www.360docs.net/doc/9317633389.html,; 搜星https://www.360docs.net/doc/9317633389.html,。Dogpile,https://www.360docs.net/doc/9317633389.html,:编织者、收录范围。

收录范围:WWW资源、Usenet资源、FTP资源、拍卖信息、音频资源、信息资源。

简述因特网信息检索工具的工作原理:1网页抓取2文档分析3建立索引4文档表示5归类和聚类。

简述基于统计的自动分类系统的工作原理:基于统计的自动分类系统,它忽略文本的语言学结构,将文本作为特征项集合来看,利用加权特征项构成向量进行文本表示,利用信息对文本特征进行加权。

简述主题分类法的特征:主题分类法的特征是一个主题充当一个类目,类目像主题词一样按字顺排列,而不是以逻辑顺序排列。一个类目又可分为若干细目,同为类的细目也是按字顺排列,这种分类实质上是分类法和主题法互相融合的产物。

论述布尔检索模型原理优缺点:布尔检索模型原理简单易理解,容易在计算机上实现并且具有检索速度快的优点。但是最终出的检索结果没有相关性的排序;不够精确,不能反映不同的索引项对一个文档的重要程度的差异。

简述网络资源目录的使用方法:网络资源目录像其他网页一样,超链下标有下划线或者显示超链标志(光标手),以区别于其他文本的颜色,选择一级类目后,看到的二级类目于它页面相似,也会是一个简单的类目清单,或者提供一些目录之外的超链。这样也许在二级类就能找到感兴趣的网点,不必再深一层浏览,如果深入到二级类目,会发现更多的是外部web 网页的清单。

简述目录型检索工具的优缺点:目录型检索工具所收录的网络资源经过专业人员的鉴别、筛选,所以其信息质量优保证,检索的准确性较高,但其数据库的规模相对较小,收录范围不够全面,更新周期较大,可能会产生死链接。

简述向量空间模型的基本思想:文档和检索提问都可以用向量表示,检索过程就是计算文档向量与检索提问向量之间的相似度,可以根据相似度的不同,对结果进行排序,可以根据检索结果,进一步做相关反馈检索。

论述搜索引擎的局限:由于信息采集、组织标引、匹配检索等过程缺乏人工控制,缺乏概念予以控制而导致的虚假匹配较多见,检索噪声太大,虽返回了大量的检索结果,但其中会掺和许多不相关信息,用户要花一般只会浏览检索结果的前二、三项,如果有用信息排在检索结果的后页,即使被检索出了也不会被用户看到。

简述中文检索系统CNKI平台:CNKI是中国知识基础设施工程的英文简称,该工程是以实现全社会知识信息资源共享为目标的国家信息化重点工程,被国家科技部等五部委确定为“国家级重点新产品重中之重”项目。CNKI平台由中国学术期刊、清华同方光盘股份有限公司创建收录范围包括自然学科,工程学科,人文与社会学科等,是一个全面支持知识信息资源建设、共享、增值应用、增值服务、运营管理以及网络出版的数字图书馆系统软件平台。它是各大图书馆、情报局、教育城域网中心以及各大单位信息中心建立具备全球知识资源共享、个性化知识服务及网络出版功能的数字图书馆,学习中心或资源信息中心必不可少的基础平台。

简述科研信息及包含的内容:主要指各专业学术机构所设立的网站及其相关信息。包括:目标、宗旨、成员、主要出版物、最新学术活动安排、各种学术性电子期刊、学科专题论坛、讨论组,各学科应用的工具性、研究性计算机软件等。

简述基于内容的图像检索系统及其体系结构:基于内容的图像检索时根据图像、图像的内容语义以及上下文联系进行查找,以图形语义特征为线索从图像数据中检出具有相似特性的其它图像。因为图像的规模一般要大于纯粹的文本信息,因此给予内容的图像检索在检索的速度和效率是上要求更高。通过基于内容的技术检索web图像,首先需要从web中剥离图像,组成图象集,对图像集中的各个对象进行基于内容的特征分析、相似度匹配。

论述进阶检索技巧:1猜测URL2右截断网站3利用网页快照4注意多义词5避免拼写错误6利用浏览器的查找功能8使用辅助关键词9使用自然语言检索10注意单词的大小写11站内搜索12字段检索。

简述搜索引擎的“瓶颈”问题:1搜素引擎索引更新慢2检索结果的排序仍然不能令人满意3搜索引擎不能查找动态生成的网页

简述网络信息检索工具的评价指标体系:1系统功能设置2用户界面3数据库内容结构4对国内外搜索引擎的准确性、易用性、可选择性、检索效果的分析、比较。

从网络信息检索技术方面论述网络信息检索的热点与发展:1智能检索2语义检索3P2P检索4信息检索信息化。

google搜索引擎检索性能评价

Google搜索引擎检索性能评价 2012/12/9

Google搜索引擎检索性能评价 摘要: 网络信息和信息检索技术的发展推动了搜索引擎实践的发展,使得搜索引擎评价研究成为信息检索领域的研究热点之一。本文以搜索引擎检索结果的相关性为核心指标,对Google搜索引擎的检索性能进行了评价,旨在帮助用户在利用搜索引擎时选取恰当的检索策略。 关键词:搜索引擎信息检索评价相关性 Abstract: The development of Internet information and technologies of information retrieval accelerates the development of search engine. It has made the study of evaluation of search engine to be one of the popular issues in the field of information retrieval. This paper takes relevance of retrieval results as index to evaluate the performance of Google. The finding can be used to assist users in formulating an appropriate search strategy. Keywords:search engine; information retrieval; evaluation; relevance 前言 研究背景: 根据2012年7月由中国互联网络信息中心(CNNIC)公布的中国互联网络发展状况统计报告显示截至2012年6月底,中国网民数量达到5.38亿,互联网普及率为39.9%。伴随着如此巨大规模的网络用户而来的是海量的互联网信息,面对这些信息,用户们不免迷失于此,网络信息资源的无限增长与用户有限的效用信息需求之间的矛盾便日益凸显[1]。因此用户利用搜索引擎辅助,以尽可能得到自己所需信息也就是很自然的了。据上述报告,截至2012年6月底,搜索引擎用户规模达到4.29亿,较2011年底增长2121万人,半年增长率为5.2%;在网民中的渗透率为79.7%,使用比例与2011年6月、12月基本持平,是仅次于即时通信的第二大网络应用。但是,即使使用搜索引擎,也难免不能获取所需信息,研究表明,公认最好的搜索引擎,其检索结果中的相关信息也不会超过50%。[2]所以如何使搜索引擎用户能够获取所需信息,在信息研究领域便显得尤为重要。而这则一定离不开搜索引擎的评价研究,通过调查搜索引擎的检索性能并进行评价研究,对搜索引擎的改进将起到很大帮助。 研究目的 从上个世纪90年代初到现在,短短的20余年间搜素引擎的发展发生了巨大的变化,不断地有新的搜素引擎出现,同时也有一些搜素引擎退出了历史舞台。因此搜索引擎市场千变万化,要对它们全部进行评价研究还不现实。经过综合考虑搜素引擎的流行度与所占市场份额,笔者选取Google作为典型案例加以分析。Google当前以83.33%的搜索量占据搜素引擎

信息检索相关性

近十年我国信息检索相关性研究现状分析——基于共词分析的视角 摘要:相关性是信息检索领域的核心研究的内容之一,对其进行深入研究将有助于提高信息检索的效率,推动信息检索的研究。本文将通过共词分析的方法,利用知识图谱对其进行可视化分析研究。 关键词:信息检索;相关性;共词分析 前言 相关性一直以来都是信息检索领域的核心研究内容之一,其概念的起源可以追溯到17世纪的早期图书馆用户认识到查找相关信息的问题。但由于客观原因,相关性只是作为一种朦胧意识停留在人们头脑中,直到20世纪20年代少数学者Lotka(1926)、Zipf(1949)、Urquhart (1959)、Price(1965)才陆续从各个领域开始了相关性的研究工作。在信息科学界Saracevic 认为Bradford是最先使用相关性一词的学者。其在20世纪30年代发表的《文献的混沌状态》一文中首次提出“主题相关”的概念。而此后关于“相关性”的探讨并未引起学界更大范围的关注。直到1958年国际科学信息会议(ICSI)的召开,相关性(Relevance)才作为信息科学领域的一个重要概念被学术界认可。至此“相关性”逐渐成为信息科学尤其是信息检索领域经久不衰的研究课题,甚至知识交流学派的代表人物Saracevic认为信息科学之所以成为独立学科,而不再隶属于图书馆学或文献学的原因就在于它开展了相关性的研究也在于相关性能够解释科学交流中的诸多问题。足见“相关性”在信息科学中的重要地位。当前,各国学者已对信息检索的相关性问题展开了深入研究,本文将通过共词分析法,使用知识图谱对其进行可视化处理分析。 1.信息检索相关性基本概念 对信息检索相关性基本概念方面的研究工作始于20世纪50年代末,各国学者借助数学工具及各种概念提取方法从各个角度对“相关性”的含义及内容进行了深入剖析。而相关性的基本概念研究以1976年为边界经历了前后两个阶段第一阶段1959-1976的主要成果有Maron和Kuhns利用概率论定义相关性的概念,提出相关性并非只是简单的是/非选择问题。Rees认为相关性受文档所包含的信息概念的影响,认为相关信息是对用户原来所具备的知识而言有用的信息Goffman和Newill把相关性当成连接有效性的一种测度,并试图用数学方法证明相关性(Relevance)与关联性(Relation)之间具有等价关系。Saracevic 则建议从文档、词与文献引用等各种文献特征上来定义检索的相关性。Cooper利用数理逻辑给相关性做了一个明确的定义。Wilson则在Cooper研究的基础上对数理逻辑相关性描述做了进一步扩充,并将“情境相关性”的概念首次引入到相关性的研究中,这些成果成为第二阶段研究工作的基础。在第二阶段,1977年至今,由于相关性各领域研究成果的相继出现,使相关性的概念描述也呈现出许多新的时代特征。首先是从面向用户及认知方法的观点重新审视相关性,认为相关性是个多维的认知概念,在很大程度上依赖于用户个人对信息的理解以及信息需求的情境。相关性是一个动态的概念它依赖于信息与用户某一特定时间所需信息之间关系质量的评价,以用户的观点来看,相关性是个复杂的、系统的、可测度的概念。其次是一些学者试图给信息检索定义一个逻辑模型来理解相关性概念这项工作由Rijsbergen开创之后又吸引了众多学者的参与。 2.信息检索相关性共词分析 2.1数据收集处理 本文研究的数据收集是以中国知网(cnki)中文数据库中的期刊文献为基础,期刊来源为SCI、EI、CSSCI,以“信息检索”并含“相关性”作为主题进行检索,检索年限为2004年至2013年,共检索文献95篇。对其关键词进行统计分析,共有关键词202个,对其进行词频统计,将词频超过2次的关键词作为高频关键词,共有高频关键词42个(表1),本文的数据分析将基于这些高频关键词。

索引与查询性能

第14章索引与查询性能 索引中文词典解释根据一定需要,把书刊中的主要内容或各种题名摘录下来,标明出处、页码,按一定次序分条排列,以供人查阅的资料。如果一本书籍没有目录,要想快速检索出想要查询的资料,就只有逐页查找,这种方式效率极其底下。数据库中的索引也类似于书籍目录相同的功能。 索引是有效使用数据库系统的基础,当表中的数据量较小时,使用索引和不使用索引带来的性能差异不大;但当表中的数据量极大时,就一定需要索引的辅助才能有效的存取数据。 一般索引建立的是否适当,是决定性能好坏的关键。并由于更改索引结构不会影响数据字段的定义,也就是前端程序可以照常存取,因此当上线后的应用程序使用效率比较低的时候,可以尝试建立或优化所以,从而提高应用软件的性能。 SCMDB示例数据库中表的数据量较小,无法演示使用索引带来的效率提升。本章采用微软示例数据库AdventureWorks作为演示数据库。希望通过以下的测试,给读者一个感性认识。 【演示】查询表SalesOrderDetail中销售订单编号在48077-48080范围内的订单编号、产品ID以及订单数量。 【分析】表SalesOrderDetail的记录数为121317,其中Sales前缀为架构名称。通过参数set statistics time on开启统计时间。图14-1所示为在表SalesOrderDetail使用聚集索引后的演示效果,时间执行时间仅仅为1毫秒。图14-2所示为删除聚集索引后的运行时间为27毫秒。表中的数据量越大,使用索引与不使用索引带来的性能上的差异性越大。 图14-1 使用索引进行查询 图14-2 没有使用索引进行查询 14.1 索引的分类 SQL Server中索引分为两种类型:聚集索引(Clustered Index)和非聚集索引(Non Clustered Index),也可称为聚簇索引和非聚簇索引。

信息检索-多选题

多选题 1. 当检出的文献量小于期望时,可以尝试以下方法扩大检索范围: A.删除某些用AND连接的次要的检索词。 B.增加用OR连接的检索词。 C.检索词后用截词符。 D.选用上位主题词扩检。 2. 当检出的文献量过多,其中一部分文献并非真正需要时,可以尝试以下方法缩小检索范围: A.增加用AND连接的检索词。 B.减少用OR连接的检索词。 C.选用下位主题词检索。 D.在原用副主题词的基础上,增加其它副主题词来检索。 3. In terms of information literacy, an information literate student is able to A.determine the nature and extent of the information needed and access needed information effectively and efficiently. B.evaluate information and its sources critically and incorporate selected information into his or her knowledge base and value system. https://www.360docs.net/doc/9317633389.html,e information effectively to accomplish a specific purpose individually or as a member of a group. D.understand many of the economic, legal, and social issues surrounding the use of information and access and use information ethically and legally. 4. Management of Information is one of the seven requirements in Global minimum essential requirements (GMER) in medical education, which requires a medical practitioner to be able to A.search, collect, organize and interpret health and biomedical information from different databases and sources. B.retrieve patient-specific information from a clinical data system. https://www.360docs.net/doc/9317633389.html,e information and communication technology to assist in diagnostic, therapeutic and preventive measures, and for surveillance and monitoring health status. D.understand the application and limitations of information technology. 5. 下列关于信息的描述,正确的是: A.信息可分为自然信息、生物信息、机器信息和社会信息。 B.信息是客观存在的。 C.信息是客观事物的反映,可被人们感知和认识。 D.信息可以口头、书面、信息技术等方式进行传递。 6. 知识是: A.人们在认识和改造客观世界实践中获得的认识和经验的总和。

信息检索第一次作业

信息检索课作业一 姓名: 张雯馨专业:数学1701 学号 20172499 一、填空(10题) 1、广义的“信息检索”是指将信息资源按照一定的方式(组织)和(存储) 起来,并根据用户的信息需求按照一定的程序找出有关信息的过程和方法。 2、在信息检索方法中,回溯法也称为引文法或(参考文献法),是利用文献末尾 所附的参考文献或引用文献,由近及远地进行逐一追踪检索。 3、在检索方法中,输入aero* 能够检出aeroplane、aeronautics、aerodynamic、 aerobic等词的记录,这种方法称为(截词)检索。 4、信息检索评价的效果主要有两项指标:(查全率)和(查准率)。 5、分类法有很多种,中国古代最著名、最常用的是“四分法”。诗集、词集、词 韵一类的书应收入四分法中的(集)部。 6、《普通高等学校图书馆规程》总则第二条规定:高等学校图书馆(以下简称" 图书馆)是学校的文献信息资源中心,是为人才培养和科学研究服务的(学术) 机构。 7、印度著名的图书馆学家阮冈纳赞提出了“图书馆学五定律”,包括:书是为了 用的、每个读者有其书、每本书有其读者、节省读者的时间、(图书馆是一个生 长着的有机体)。 7、文献有四个构成要素:信息知识、记录符号、(载体材料)、制作方式。 9、中国专利分为发明专利、(实用新型专利)和外观设计专利。 10、AND、OR、NOT属于信息检索方法中的(布尔)逻辑检索。 二、单项选择(10题) 1、《中图法》的类号采用拉丁字母和阿拉伯数字相结合的混合号码制,一个字母

标志一个大类。其中I和T分别代表( C )类目。 A.文学,艺术 B.艺术,交通运输 C.文学,工业技术 D.艺术,工业技术 2、“图书馆学”一词,最早由谁提出来的?( B ) A.刘国钧 B.施莱廷格 C.阮冈纳赞 D.刘向(西汉) 3、如果想查找历年的统计数据,应通过哪类检索工具?( D ) A.字典 B.百科全书 C.手册 D.年鉴 4、CAJViewer是下列哪个数据库全文的阅读软件?( C ) A.读秀学术搜索 B.维普期刊全文库 C.清华同方(CNKI) D.中国数字图书馆 5、WITH是位置运算符,“information(W)retrieval”表示information与retrieval两个词同时出现在( A )中。 A.字段 B.文摘 C.题名 D.记录 6、文献类型标识有不同的含义,如M代表图书,J代表期刊,那么,D代表什么?( B ) A.会议文献 B.学位论文 C.专利 D.标准 7、下列哪个数据库属于文摘型数据库?( A ) A.ScienceDirect(Elsevier) B.Springer 电子图书 C.Medline D.JSTOR数据库 8、位置检索是常用的计算机信息检索技术,如:water(3W)pollution的含义是:( C ) A. water 和 pollution必须同时出现在文献中,且必须间隔3个词,词序可以颠倒。 B. water 和 pollution必须同时出现在文献中,且必须间隔3个词,词序不可以颠倒。 C. water 和 pollution 必须同时出现在文献中,且最多间隔3个词,词序不可以颠倒。 D. water 和 pollution 必须同时出现在文献中,且最多间隔3个词,词序可以颠倒。 9、关于“读秀学术搜索”文献传递服务功能中,下列哪个说法是正确的?( D )

文献检索的基本内容

1、CA由哪两部分组成 CA有文摘和索引两大部分组成 2、布尔逻辑算符的名称、符号和作用。 (1)逻辑与用符号“and”或“*”表示,其逻辑表达式为:A and B或A*B;其意义为检索记录中必须同时含有检索词A和B的文献,才能命中文献。用途及检索功能:用于缩小检索范围,提高查全率。 (2)逻辑或用符号“or”或“+”表示,其逻辑表达式为:A or B或A+B;其意义为检索记录中凡含有检索词A或检索词B,或同时含有检索词A或B的,均为命中文献。 (3)逻辑非用符号“not”或“-”表示,其逻辑表达式为“A not B”或“A-B”其意义为检索记录中含有检索词A,但不能含有检索词B的文献,才能算中文献。用途及检索功能:用于缩小检索范围,提高查准率。 3、在CNKI数据库上,检索一篇专业相关文献并写出以下内容: 文献题目:乙烯氢酯基化合成丙酸酯的催化及反应工程研究 作者姓名:徐魁文献出处:中国博士学术论文全文数据库 关键词:催化;化学反应工程;乙烯;甲酸甲酯;丙酸甲酯;氢酯基化反应;叶轮;质量传递 摘要:甲酸甲酯作为新的碳源,在羰基合成化学中的作用越来越受到重视。丙酸甲酯是重要的有机化工原料,在过去的研究中大多是利用CO+CH3OH与乙烯氢酯基化反应而合成。随着甲酸甲酯化学的兴起,利用甲酸甲酯使烯烃氢酯基化反应合成羧酸酯的研究便成为这一领域研究的热点。本文针对乙烯与甲酸甲酯氢酯基化反应合成丙酸甲酯的催化反应过程,主要研究了适合该反应的催化剂体系、催化反应工艺条件和催化反应动力学规律,在此基础上进一步探讨了乙烯与甲酸甲酯氢酯基化反应在间歇搅拌反应釜中实施的条件,并根据间歇搅拌反应釜的特点,设计出了适合该反应体系的虹吸式涡轮搅拌器。主要的研究内容与结论如下:1.在高压间歇搅拌反应釜拌中,就CH3ONa、PdCl2、Pd(OAc)2和RuCl3等四种物质,在多种溶剂、促进剂和配位体作用下,分别评价了它们对乙烯和甲酸甲酯氢酯基化反应的催化活性,通过实验得出,CH3ONa基本没有活性,过量的CH3ONa将导致甲酸甲酯发生严重的脱羰基化反应。PdCl2和Pd(OAc)2在DME 作溶剂,配位体Ph3P和dppb作用下,表现出一定的活性,丙酸甲酯的收率为5.45%;在DMF作溶剂时,RuCl3的实验结果表明其活性最高,由N(C2H5)3分别和N(C2H5)4I、N(CH3)4I、C2H5I、n-C4H9I等四种碘化物组成最理想的促进剂,当催化剂、碘化物、三乙胺的比列为1:2:5或1:2:10时活性最好,

常见的检索技术

常见检索技术 作者:陈亚萍学号:1101212925 手工检索(manual retrieval)是一种传统的检索方法,即以手工翻检的方式,利用工具书(包括图书、期刊、目录卡片等)来检索信息的一种检索手段。 与之对应的计算机检索(computer-based retrieval)简称机检,是指利用计算机通过各种数据库查找所需文献信息的方法,检索过程是由人操纵计算机完成的,其匹配是由计算机进行的。在检索过程中,人是整个检索方案的计设者和操纵者。利用机器及计算机,配合以相应的搜索语言和逻辑对相关课题进行检索是检索技术的发展趋势。 检索表达式,又称检索式、检索提问式,是机检中用来表达检索提问的一种逻辑运算 式。构建检索表达式需要用到相关逻辑检索及检索技术。 (一)常用检索方法概述 1.布尔逻辑运算检索——是指利用布尔运算符连接各个检索词,然后由计算机进行相应逻辑 运算,以找出所需信息的方法。它使用面最广、使用频率最高。 2.位置运算检索——位置算符检索是用一些特定的算符(位置算符)来表达检索词与检索词 之间的临近关系,并且可以不依赖主题词表而直接使用自由词进行检索的技术方法。 3.截词检索与词根检索——截词检索是预防漏检提高查全率的一种常用检索技术,大多数系 统都提供截词检索的功能。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,这样既可节省输入的字符数目,又可达到较高的查全率。词根检索是指输入某一单词,系统会自动匹配与该词具有相同词根的其他词。 4.字段检索——限定如主题、关键词等某个字段进行检索。 5.全文检索——将文件中所有文本与检索项匹配的文字资料检索方法。 6.精确检索——指检索词与结果完全匹配的检索技术。与之对应的模糊检索,则是指检索词 的基础上进行相应的扩展。 7.其他检索技术(禁用词、嵌套、限制词、大小写敏感词等) (二)分述 1.布尔逻辑检索(Boolean retrieval) 乔治·布尔(George Boole,1815年11月-1864年),爱尔兰数学家,哲学家。1848年,布尔出版了T he Mathematical Analysis of Logic,这是他对符号逻辑诸多贡献中的第一次。1854年,他出版了《The Laws of Thought》,这是他最著名的著作。在这本书中布尔介绍了现在以他的名字命名的布尔代数。由于其在符号逻辑运算中的特殊贡献,很多计算机语言中将逻辑运算称为布尔运算,将其结果称为布尔值。布尔逻辑在检索中主要分为与、逻辑或、逻辑非。 (1)逻辑与 示例数据库:CNKI 检索式:智能机器人*控制

网上搜索的方法和技巧

网上搜索的方法和技巧 我们已经知道网上有多种多样的教育资源,从技术上讲,它们是在Internet的多种服务功能的支持下实现的,包含WWW、e-mail、Usenet、FTP、BBS等,其中发展最快,也是最为流行的是WWW。因此我们着重介绍WWW信息的检索方法。 据1999年底的统计,网上大约有15亿个网页,并且以每天增加190万个网页的速度在增长,到2002年已达到80亿个网页。要想在这么大的一个资源库中查找一条具体 的信息,犹如大海捞针一般。因此,有人发出这样的感叹:"我们淹没在数据资料的的海 洋中,却又在忍受着知识的饥渴"。 现在出现了许多种在网上查找信息的方法。这些方法可以分为两类:一类是有既定目标的查找,一类是没有目标的查找,而后者往往是指一种网上"冲浪"游戏。在具有既定目标的情况下,如果已有信息线索,可以用浏览器航行的办法寻找信息对象;如果信息线索未定,则需要利用搜索工具首先获得信息线索。 搜索工具又有传统工具和现代工具之分。传统工具是在索引数据库中进行主题树/目录检索或KWDSEs(关键词搜索引擎)进行建设而索引库的建设是一个极其繁重的任 务,现在已经可以利用"机器人"程序来帮忙,它们通过跟踪最新建立的HTML网页的URL对整个网络进行浏览,可以在网上从这一个网站爬到另一个网站,并记录下它们访问过的网页的各自特征(这种只有十来年历史的搜索技术就被称为传统工具了,你觉得 奇怪吗?)。而现代搜索工具是利用智能代理来工作,它们不是对整个网络进行索引,而 是在接到一个新任务时就出发,去搜索网上资源并提取有价值的信息。因此,智能代理 是利用神经网络技术进行搜索,它试图去发现自然语言与样本网页的模式及它们之间的 相互关系,这些将与新近发现的网上资源相匹配,最后以一串网址的形式供用户访问。 图2_3_10显示了网上信息检索工具的选择方法。

基于内容的视频分析与检索

摘要文章简要介绍了从基于内容地视频分析与检索问题地提出到所涉及地关键 技术以及目前研究状况,并简要介绍了现阶段在这方面地研究热点及以后要做地工作. 一、问题地提出: 互联网地出现给人类带来了很大地便利,特别是实现资源共享之后地互联网,但面对这浩如烟海地资源到底哪些是对自己有利用价值地呢?而90年代以来,多媒体技术和网络技术地突飞猛进,人们正快速地进入一个信息化社会.现代技术已能运用各种手段采集和生产大量各种类型地多媒体信息数据,出现了数字图书馆、数字博物馆、数字电影、可视电话、交互电视、会议电视、点播视频服务、远程教育以及远程医疗等多种新地服务形式和信息交流手段,在众多地多媒体信息中最大也是最主要地一种就是视频信息,人类接受地信息约有70%来自视觉, 视频所携带地信息量远远大于语音和数据.在视频信息高度膨胀地今天,随之而来地问题就是对海量视频信息地高效检索和浏览,即人们如何快速有效地查看大量地视频信息,并从中找出自己感兴趣地内容.b5E2RGbCAP 传统地视频信息检索方案是使用文字标示符进行检索,具体到对视频帧地查询是借助对帧图像地编号和注释来进行地,首先给帧图像加上一个对其描述地文字或数字注释,然后在检索时对注释进行检索,这样一来对帧图像地查询就变成了基于注释地查询.这种方法虽然简单,但不能完全满足对视频数据检索地需要,首先视频数据量很大,用手工方式添加注释工作量很大,而且效率很低;其次视频内容丰富很难用文字标签完全表达;再次文字描述是一种特定地抽象,特定地标签只适合特定地查询;最后文字标签是靠观察者加上去地,因此受主观因素地影响,[1].从而需要一种客观全面地视频自动检索方法,不同地观察者可能有不同地描述基于内容地视频检索(Content-Based Video Retrieval,CBVR>应运而生.它根据视频地内容及上下文关系,对大规模视频数据库中地视频数据进行检索.提供这样一种算法:在没有人工参与地情况下,自动提取并描述视频地特征和内容.区别于传统地基于关键字地检索手段.融合了图像理解、模式识别、计算机视觉等技术.p1EanqFDPw 近年来随着多媒体信息在娱乐、商业、生产、医学、安全、国防、军事等领域地大量应用,基于内容地视频检索技术己经成为近年来国内外研究地热点问题研究视频数据地高效分类、处理和索引技术,建立和完善视频信息地快速浏览检索机制,开发功能强大、使用便捷地视频信息浏览检索系统,既具有极大地理论价值,也具有巨大地应用潜力.DXDiTa9E3d 二、解决方案: 视频标注:视频标注是通过人工地方式将某一段视频进行主观地属性标注,然后以文本地方法进行检索.视频标注技术己相当成熟,但有其固有地不足,第一,要人工手动完成,工作量极大,且效率很低.第二,某些视频和感知特征很难用文字来描述.第三,主观性很强,没有统一地标准,不同地人对同一段视频有不同地理解,必然导致不同地标注结果.RTCrpUDGiT 视频摘要:视频摘要以自动或半自动地方式,从原视频中提取有意义地部分,

大学生信息检索习题以与答案(2)

《大学生信息检索概论》模拟试题 一、填空题 1、文献的级次分为零次文献、一次文献、二次文献、三次文献 2、《中图法》有五个基本部类,分别是马克思主义、列宁主义、毛泽东思想_、哲学;社会科学;自然科学和综合性图书,在此基础上又划分为_22_个大类。 3、按内容可将计算机检索系统的数据库类型分为:文献书目型数据库、事 实型数据库、数值型数据库和全文型数据库。 4、我国标准可分为国家标准、部标准和企业标准三大类。 5、在实际检索中,文献的检索方法主要有:直查法、追溯法、工具法和 综合法。 6、国际标准化组织简称:ISO 、本标准每5年修订一次 二、选择题 1、如果需要检索某位作者的文献被引用的情况,应该使用( C )检索。 A.分类索引B.作者索引C.引文索引D.主题索引 2、利用图书馆的据库检索期刊论文时,可供选择的中文数据库是( D )。A.超星数字图书馆 B .万方学位论文 C .国研网 D .维普科技期刊 E. 高校财经库 3、如果检索有关多媒体网络传播方面的文献,检索式为( A D )。 A.多媒体and 网络传播 B .多媒体+网络传播 C .多媒体or 网络传播D.多媒体 * 网络传播 4、如果对某个课题进行主题检索时,可选择的检索字段有( A D E)。A.关键词 B .作者C.刊名D.题名 E .文摘 5、二次文献又称检索工具,包括:( A C D)。 A.书目B.百科C.索引D.文摘E.统计数据 三、名词解释题 1、文献 用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理 解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。 2、体系分类语言 体系语言是以科学分类为基础,运用概念的划分与概括的逻辑方法,形成一 个概念等级体系,按知识门类的逻辑次序,按照从总到分,从一般到具体,从低 级到高级,从简单到复杂的原则进行概念的综分,层层划分,累累隶属,逐步展 开而形成的一个等级体系。 3、引文语言 引文语言是根据文献所附参考或引用文献的特征进行检索的语言。 4、事实检索 以事项为检索内容的文献信息检索 5、二次文献 对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、 作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定 的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检

法律检索方法和技巧

法律检索——方法和技巧 一、学习法律检索的重要性 第一,无论你在律师行业中是什么身份处于何等地位,是初出茅庐还是经验老道,法律检索都贯穿你的执业生涯全程。这里的法律检索,是一个相对广义的概念,不仅仅包括在数据库里找具体法条。在座的每一位,可能都曾经有过这样的时候:资深律师或者合伙人交给你一沓材料,或者你刚刚听客户滔滔不绝讲了三个小时还拿到一大堆文件,你看来看去就是发现不了其中需要研究的地方,哪些是会引起争议的点。而当你们成长为资深律师或者合伙人,本身仍然要参与案件或者项目,也需要自己去进行法律研究。在合伙人与助理磨合还没有非常默契的时候,在合伙人对助理的工作能力、检索能力、认真程度尚不能完全确信的时候,他势必要亲自验证或者说核查你搜索到的是否就已经穷尽了所有正确的答案。所以,我说法律检索是做律师一辈子的工作内容之一。 第二,无论你擅长的是什么业务类型,是做诉讼还是非诉讼业务,法律检索都是必备技能之一。以诉讼业务为例,无非就是“接案子”和“做案子”。大家都有个最基本的常识,那就是法院判案要“以事实为基础,以法律为准绳”。这里的事实和法律,都需要我们通过法律检索或者说法律研究来协助法官完成,以使得判决更加有利于你这一方。在这我来说说法律检索在接案过程中的重要作用。在梳理事实现状与了解客户要求的基础上,只有做好法律检索才能制定出更加完备的策略报告,才能提供更加充实、可行、准确的诉讼方案,甚至于通过完整的法律检索得到的答案决定你主观是否要接这个案子。我曾经听过大成所张健律师“诉讼策略报告如何写作”的讲座,他谈到“在你不具备经验的时候,你只能靠逻辑”。我想这里还可以补充一点,即便是“经验”也是可以通过法律检索去获得的,比如说某种案情的案件原告如何起诉被告如何答辩,你完全可以通过在数据库中搜索同类型案件裁判文书来学习、观摩与模仿。前阵子听说律师代理案件的政府指导价要取消了,律师的价值将会由市场决定,那么你如何才能脱颖而出或者说不被远远甩在后面,让客户认可你的价值,就需要你能拿出比别人更多更好的方案,取决于你发现了哪些问题以及就这些问题你找到了什么样的答案。 第三,无论社会发展到什么程度,变幻莫测的交易模式、产品以及专业术语怎样层出不穷,法律检索仍然是每位律师必须掌握的基本功之一。我每天都会关注行业新闻,几乎几天就会出现一个新的产品或者交易架构,但是我认为从根本上讲,暂时还没有脱离民商法的基本法律概念或者说基本的法律关系。在座的助理们来自不同的合伙人团队,大家平时接触的业务也都不尽相同。我就举两个金融方面的例子来印证我刚才的观点。第一个某银行计划操作一个“信贷资产证券化项目”,考虑选用“债权转让+权利完善措施”的模式,需要律师帮他们做一个完整的法律论证。第二个互联网金融方面的争议解决,李某通过

检索效果的评价指标

检索效果的评价指标 克兰弗登(Cranfield)在分析用户基本要求的基础上,提出了6项检索系统性能的评价指标,它们是收录范围、查全率、查准率、响应时间、用户负担和输出形式。 (1)查全率 查全率(recall factor)是指检出的相关文献量与检索系统中相关文献总量的百分比,是衡量信息检索系统检出相关文献能力的尺度,可用下式表示: 查全率=检出的相关文献总量/系统中的相关文献总量×100%即R=b/a * 100% 设R为查全率,P查准率,M表示漏检率、N表示误检率,m为检出文献总量,a为检索系统中的相关文献总量,b为检出的相关文献总量。 例如,要利用某个检索系统查某课题。假设在该系统数据库中共有相关文献为40篇,而只检索出来30篇,那么查全率就等于75%。 (2)查准率 查准率(Pertinency factor)是指检出的相关文献量与检出文献总量的百分比,是衡量信息检索系统精确度的尺度,可用下式表示: 查准率=检出的相关文献总量/检出文献总量×100% 即P=b/m*100% 例如,如果检出的文献总篇数为50篇,经审查确定其中与课题相关的文献只有40篇,另外10篇与该课题无关。那么,这次检索的查准率就等于80%。 检索效果2 检索系统的响应时间是指从发出检索提问到获得检索结果平均消耗的时间。主要包括:

①用户请求到服务器的传送时间;②服务器处理请求的时间;②服务器的答复到用户端的传送时间;④用户端计算机处理服务器传来信息的时间。 提高检索效果的措施 1."提高用户信息素质 2."选择好的检索工具和系统 3."优选检索词 4."合理调整查全率和查准率 不同的检索课题对文献信息的需求不同,用户应根据课题的需要,适当调整查全率和查准率,优化检索策略,以达到最佳检索效果。 (1)提高查全率 提高查全率时,调整检索式的主要方法有: ①降低检索词的专指度,从词表或检出文献中选一些上位词或相关词。 ②减少AND组配,如删除某个不甚重要的概念组面(检索词)。 ③多用OR组配,如选同义词、近义词等并以“OR”方式加入到检索式中。 ④族性检索,如采用分类号检索。 ⑤截词检索。 ⑥放宽限制运算,如取消字段限制符,调松位置算符等。 (2)提高查准率 提高查准率时,调整检索式的主要方法有: ①提高检索词的专指度,增加或采用下位词和专指性较强的检索词。

文献检索期末重点内容

通过感觉器官或相应设备同外界交换内容的总称 评价和使用信息的能力,是信息社会劳动者必须掌握的终身技能。具有信息素养的日呢,也就具备了终身学习的能力。 是调节信息生产者,信息加工者,信息传播者及信息使用者之间相互关系的行为规范的总和。 ~ 审校过程并由正式的出版发行渠道传播的信息 利用专门的工具,从大量的情报信息资料中,查找出特定的,所需要的情报信息资料的过程。 使信息存贮和检索这两个过程所采用的特征标识达到一致,以便有效的获取和利用文献信息的过程。 它不直接解答用户的提问,而是提供与提问有关的文献线索或原始文献。 利用各种统计数字、图表、化学结构式、计算式等工具来实现的。

质是一系列表达信息内容的概念及其相互关系的概念标识系统。 属性集中文献信息,提供用户从课题的学科分类角度检索文献信息的方法 分类检索语言:学科、专业属性(目的)、分类号(语言或标识)、类目(学科名)上下位类(大类和小类)、分类表(标准和依据)、分类检索(途径)2主题检索语言:主题概念(目的)、主题词/副主题词(语言或标识)、主题检索(途径)3著者检索:有关作者(目的)、作者姓名,姓前名后(语音或标识)著者途径(途径) 从课题的主题概念检索文献信息的方法 切工具和设备的统称 检索引擎,是一种能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统。 数据库是检索系统的信息源,也是用户检索的对象。结构:1、文档,文档一般分为顺排文档和倒排文档2、记录;字段组成类型1、文献型2、事实型3、数据型4、多媒体型 分类叙述附有参考书目按词典形式编成的大型

工具书有工具书之王美称 术语及短语,并解释其概念、意义和用法的工具书 用图形或表格的形式直观的反映客观事物和科学知识,并配以简要通俗的文字说明的特定类型的参考工具书。特点:直观形象,简明清晰。 人物传记和机构名录。主要用于查找有关人物或机构的背景资料 加以浓缩并按特定的方法排检专供查阅,参考的特定类型图书。基本功能是解答有关事实和数据方面的疑难问题。 进展动向,成就成果,统计资料内容等,按年度编辑出版的一种动态性工具书 具有法律效力。 途径,提供相关资料的工具书。 利用统计学及数学逻辑思维方法等,对文献的应用和被引用现象进行分析,用来评价论文的质量,某机构或著者的学术水品和预测某学科的发展趋势的一种定量方法。

爱信誉图书馆_参考文献_引用文献的追踪检索策略研究

□ 赵 慧 杜秋雨 一、引言 在专利申请中,存在一部分偏向于基础研究的专利申请,在这一领域中多数以高校、研究机构作为申请人,相较于这一领域的公司申请,这些大学、研究院所的发明专利申请,更有前瞻性,审查员针对这类申请的检索,一般情况下,在专利数据库中基本上很难检索到非常相关的文献。还有一类专利申请,为涉及前沿技术的公司申请,虽然申请人不是高校、研究机构,但是针对这类专利申请的检索,也需要关注非专利文献库。当遇到这些专利申请时,审查员如何实现快速全面的检索从而避免漏检,亟需深入的研究。 参考文献/引用文献的追踪检索策略研究 摘要:在专利审查中,会遇到申请人为高校、研究机构、或本领域的前沿技术的情形,针对这类申请的检索,通过以发明人或申请人为入口可以检索到相关的对比文件,但是时间晚于本申请的申请日时,这时可以尝试在检索到的申请人发表的论文、学位论文的参考文献、引用文献中进行追踪,或者在相关的会议论文中进行追踪;如果以发明人或申请人为入口检索不到相关的对比文件,那么可以以关键词或者发明人、申请人结合关键词在Google Scholar 或ISI Web of Knowledge 等外网检索资源中进行拓展检索,如果检索到的相关文献时间仍不可用,则继续关注其参考文献、引用文献,通常这一方法可以很快的检索到相关的对比文件,获得事半功倍的效果。本文将通过几个实际案例来表现如何进行参考文献/引用文献的追踪,从而拓宽检索的思路,避免漏检。 关键词:参考文献 引用文献 追踪 检索 下面,笔者将结合几个实际案例来具体探讨以下三种情形的追踪检索: ⑴直接以申请人、发明人为入口进行检索后,如何进行追踪。 ⑵以关键词为入口追踪检索后,如何进行再追踪。⑶以申请人、发明人结合关键词为入口追踪检索后,如何再追踪。 通过对这三种情形的追踪检索的研究,拓宽检索的思路,以期对该领域的检索策略的完整性做一个补充。 二、案例分析及研究 (一)直接以申请人、发明人为入口检索后的追踪【案例一】 申请号:200910069163.4 发明名称:一种基于电磁层析成像的钢水流速测量方法和装置 申请人:天津大学发明人:尹武良 申请日:2009年6月5日1.初步检索 审查员在检索时,首先选择在中国全文期刊数据库(CNKI )中以发明人“尹武良”为检索入口,进 行了检索,其中涉及本申请发明人的文章共有9篇, 本文作者:赵慧

文献检索内容

1、什么情况下用分类检索途径进行检索? 在知道一定内容,但不知道什么书或有哪些著者的情况下使用分类检索途径进行检索。查阅时,可采取由大到小,由广而狭,逐步缩小的办法尽量找到最细的类目,就能在该类目下找到所需要的书。 2、例如:要找一本关于商业广告方面的书,但既不知道具体书名,又不知道著者姓名,那就只有查分类目录了。 其查找步骤为:A、找“经济F”大类,B、在它的若干小类中找到F7“贸易经济”,C、再找“贸易经济理论与方法”、“贸易计划与管理体制”……“商品流转与市场”等更小的类目,D、再往下找即可找到“广告宣传”这个类目。 3、什么情况下用主题途径 在了解用于表达文献内容的主题标识(标题、叙词、关键词)的基础上,选择主题途径进行检索。 例如:我们查有关“价格”问题的全面资料,用分类途径,往往事倍功半,因为“价格”这一经济范畴几乎遍及各个经济领域和部门,检索时必须从“政治经济学”、“世界各国经济概况”、“经济计划与管理”以及各部门经济中查找,结果花很多时间、精力,还不能查准、查全,如果通过主题检索途径,那么在“价格”这一标题下,可以一揽子查找有关价格的全部文献资料,收到事半功倍的效果。 4、进行检索策略的制定时要注意的问题: 选择检索工具时要注意质量。 选择一种最省时、省力的方案。 不可超越主客观条件所允许的范围去制定检索策略。 5、索引条目的著录格式: 文献顺序号题名/责任者//出处复印资料 期数和页码 例: 0316 科技管理中的五大悖论/丁福虎//中国 文献顺序号题名责任者 科技论坛(京),2004.3.101-103 出处年份、期数和页码 6、著录格式: 顺序号文献题名/责任者(第一作者所属单位,邮编)// 报刊名.—年,卷(期).—页码 例: 050107832 深圳中小广告企业面临的危机和发展对策/胡莹 顺序号文献题名责任者 (深圳大学文学院,518060)//深圳大学学报:人文社科版 第一作者所属单位,邮编报刊名 (深圳).—2004,21(5).—22-25 年,卷(期)页码 7、网络信息资源的特点: (1)信息量大,传播广泛(2)信息层次多,品种多样 (3)自由发布,交流直接(4)信息传播速度快,变化频繁 (5)检索方便,价廉实惠(6)分散无序,缺乏管理 (7)内容庞杂,质量不一 8、搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户。 利用搜索引擎进行检索的优点是:省时省力,简单方便,检索速度快、范围广,能及时获取新增信息。缺点在于,由于采用计算机软件自动进行信息的加工处理,且检索软件的智能性不是很高,造成检索的准确性不是很理想,与人们的检索需求及对检索效率的期望有一定差距。 9、A、空格:其作用与逻辑“与”相同。B、逗号:其作用类似逻辑“或”,也是查找那些至少含有一个制定关键词的页面,区别是,

CNKI检索技巧

CNKI数据库使用方法 一、简单检索 点击检索方式选择区的“简单检索”按钮,进入简单检索界面。简单检索提供了类似搜索引擎的检索方式,检索者只需要输入所要找的检索词,点击“简单检索”进行检索,就可查到与检索词相关的文献。 二、标准检索 点击检索方式选择区的“标准检索”按钮,进入标准检索界面。系统提供了检索范围和文献内容特征两部分的检索控制,另外通过分类导航区和数据库选择区的内容选择,能够精确地检索到相关文献。 (一)检索范围控制条件 该部分可对发表时间、文献来源、国家及各级科研项目、作者四部分进行限定和选择。所有检索框在未输入关键词时默认为该检索项不进行限定,即如果所有检索框不填写时进行检索,将检出库中的全部文献。 1.发表时间 提供了具体时间、最近一周、一月、半年、一年选项,能够精确地对时间范围进行限定;具体时间输入可通过日历表进行选择,将光标移至输入框时,系统自动弹出日历表。 2.文献出版来源 是指在检索中限定文献的来源范围、出版媒体、机构或提供

单位等。可直接在检索框中输入出版媒体、机构的名称关键词,也可以点击检索框后的“文献来源列表”按钮,跳转至“文献出版来源”检索界面进行检索,在检索结果中选择文献来源输入检索框中。此项限定功能提供了精确和模糊检索。 3.国家及各级科研项目 是指在检索中可限定文献的支持基金,可直接在检索框中输入基金名称的关键词,也可以点击检索框后的“基金列表”按钮,跳转至“科研基金检索”界面进行检索,在检索结果中选择基金输入检索框中。此项限定功能提供了精确和模糊检索。 4.发文作者控制 是指在检索中可限定文献的作者和作者单位。可通过点击“+”图标增加多个作者和作者单位(最多可增加至4个),扩大检索范围,提高查准率。此项限定功能提供了精确和模糊检索以及逻辑运算(并且、或者、不含)选项。 (二)文献内容特征部分 提供了基于文献的内容特征的检索项:全文、篇名、主题、关键词、中图分类号。可通过点击“+”图标增加多个条件(最多可增加至4项),提高查准率。 1.扩展词推荐 在检索框中输入一个检索词后,点击检索框后的扩展按钮

相关文档
最新文档