第二讲 网络信息检索基本方法
第二讲网络信息检索基本方法

Exercise 2:
❖ 查找华中科技大学罗俊院士1999年以来发表的文章? ❖ AU=Luo Jun AND(CS= Huazhong Univ* )AND
PY>=1999 ❖ 查找2002年出版或发表的关于克隆人立法方面的英文著作或论文。 ❖ “The legislation of human cloning” or human clone
【实例】在OCLC中输入communication n satellite;
④nN ( Near N)算符
❖ 表示两个检索词之间可以插入 n 个词并且词序可以颠 倒
❖ 表达式:A(nN)B:AB两词靠近,次序可变,中间 最多可加n个词。
【实例】在EBSCO中输入communication n3 satellite; 比较:在EBSCO中输入source and law、source w2 law
❖ 运算优先级顺序为NOT、AND、OR,可以用括号“( )”改变它们的运算顺序。 如A and (B or C),检索顺序为先B或C,然后再与A
实例:
❖ 【实例】在搜索引擎中输入“电视台-中央电视 台”,查询结果不包含“中央电视台”。
逻辑算符举例
①查找关于“动物保护”的文献: ❖ “动物 AND 保护”
②查找有关冬虫夏草的文献: ❖ “冬虫夏草 or 冬虫草 or 虫草”
③查找关于能源方面的文章,但关于“核能”的不要: ❖ “energy not nuclear”(energy - nuclear)
④检索西红柿种植技术的相关文章: ❖ (西红柿+番茄)*(种植+栽培+培育)
网络信息检索基本方法2

三、开放存取仓储
2)开放存取仓储的类型
(1)学科仓储是按照学科领域进行组织的开放存 取仓储,以arXiv为代表。 arXiv是最早、最大和最成 功的学科仓储,在物理学领域内有相当高的知名度和权 威性。学科仓储原来主要用于自然科学领域,随着因特 网的发展,现在社会科学领域也纷纷建立了学科仓储, 如,认知科学领域的CogPrint和经济学领域的RePEc。
二、开放存取期刊
2)开放存取期刊举要 (1)开放存取期刊目录( Directory of Open Access Journals,简称
DOAJ ,http : //) 由瑞典兰德大学图书馆(Lund University Libraries)、开放社会协会 (the Open Society Institute,OSI)与学术出版与学术资源联盟 ( The Scholarly Publishing and Academic Resources Coalition, SPARC ) 联合整理的OA期刊目录。DOAJ创立于2003年5月,其目的有两个: 一是增 加开放获取期刊的显示度,方便使用开放获取期刊;二是促进开放获取期 刊的使用, 增加开放获取期刊的影响力。其目标是收录涵盖所有学科和 语种的OA期刊。 截止2012年10月,DOAJ 收录的开放获取期刊已达到8,285种,数据库 收录论文915,800篇。其中4,108种期刊提供全文检索,占收录期刊的 49.6%。该系统收录的均为学术性、研究性的同行评议或经编辑部严格审 核的期刊,具有免费、全文、高质量的特点,并完全允许用户阅读、下载、 复制、传播、打印、检索或链接全文,对学术研究有很高的参考价值。收 录主题主要包括: 农业及食品科学、美学及建筑学、生物及生命科学、经 济学、化学、地球及环境科学、一般主题、健康科学、历史及考古学、语 言及文学、法律及政治学、数学及统计学、哲学及宗教学、物理及天文学、 一般科学、社会科学、工程学等17 种主题。
网络信息检索第二课

(2)Internet的发展阶段
1985年,美国国家科学基金会(NSF)规划建立了15个超级计
算中心及国家教育科研网,用于支持科研和教育的全国性规模的计算 机网络NSFNET,并以此作为基础,实现同其他网络的连接。 NSFNET成为Internet上主要用于科研和教育的主干部分,代替了 ARPANET的骨干地位。
第四代:分类细致精确(jīngquè)、数据全面深 入、更新及时的主题搜索。
14
精品PPT
搜索引擎的原理(yuánlǐ)
搜索引擎 (search engine) 并不是真正搜索互联网,它搜索的实际上 是预先整理好多个网页(wǎnɡ yè)索引数据库。
图 2-1 搜索引擎基本结构
15
精品PPT
搜索引擎的工作(gōngzuò)过程
5
精品PPT
A类网络地址:最高位为0,网络地址字段的长度仅仅为7位,主机地 址长度24个位,001.hhh.hhh.hhh---127.hhh.hhh.hhh,每个A类网 络地址包括(bāokuò)1600多万台主机,可以用于大型网络。
6
精品PPT
B类网络地址:最高两位为10,分别为网络地址字段和主机地址分配了 14个和16个二进制位,128.001.hhh.hhh---191.254.hhh.hhh,每个B类 网络地址包括(bāokuò)6万多台主机,适用于中等规模的网络。
其特点是由系统先将网络资源信息系统地归类,用户可以清晰方 便地查找到某一类信息,用户只要查询该搜索引擎的分类体系,层 层深入即可。
比较适合于查找综合性、概括性的主题概念,或对检索准确度 要求较高的课题。
不足之处在于搜索范围(fànwéi)比以全文为主的搜索引擎的范围 (fànwéi)要小得多,加之这类搜索引擎没有统一的分类体系,用户对 类目的判断和选择直接影响到检索效果,同类目之间的交叉,又导 致许多内容的重复,类目太细,用户无所适从。
网络信息检索途径和方法

网络信息检索方法与途径作为知识经济时代不可缺少的工具,因特网正将全世界丰富的信息资源带到我们每个人的面前。
可以说,人们所需要的信息绝大多数都可在因特网上获得,而且大多数都可以免费获得,关键在于能否准确地找到。
用户若想花最少的时间和金钱,获得网络上丰富的信息,掌握一定的检索方法和技巧必不可少。
图书馆作为信息的集散地,在网络的影响下纷纷向着电子化、数字化、网络化方向发展,为了使更多的读者充分利用图书馆资源并实现资源共享,众多图书馆建立了馆藏机读目录数据库并提供网络服务。
目前。
网上有6000多个电子图书馆,包括美国国会图书馆在内的600多所著名公共图书馆、大学图书馆及4000多个学术机构的馆藏机读书目数据库,通过网络对外开放,它可以完全不受时间、距离的限制,这也是在网络环境下的图书馆优于传统图书馆的地方。
网络的开放性及交互性使得网上有很多动态性很强的信息,如网上新闻、政策法规、通告、会议消息、论文集、研究成果、产品消息、广告、BBS等,这些网上动态信息都是网络信息资源的重要组成部分。
网络信息检索是一种基于超文本方式的信息查询方式,超文本查询是以结点为单位组织各种信息,一个结点是一个“信息块”。
在信息的组织上采用网状结构,结点之间通过关系链加以链接,构成表达特定内容的信息网络。
网络信息检索策略设计遵循快、准、全及低成本的原则,以实现检索策略最优化。
与传统信息检索相比,网络信息检索具有如下特点:(1)具备网状链拉结构。
能够按照不同查询条件链接结构,按照不同查询条件链接点信息,以供浏览、查询,具有较强的索引功能。
(2)信息丰富。
结点媒体多样化,每个结点都能集成文本、图形、图像、声音、视频、动画等多种媒体,并能用多窗口图形界面予以表现。
(3)导航能力强。
可引导读者在复杂的网络信息图中漫游而不至于迷失方向。
用户可以利用导航机制了解其所在网络图中的位置。
(4)良好的编辑功能。
包括修改、增加、删除结点和链接的能力,对结点内的信息也具有良好的编辑能力,可以进行多窗口编辑。
第二章信息检索

位置运算
同句检索: 要求参加检索运算的两个检索词必须在同一自然 句中出现。
位置运算符: (S)--sentence
同字段检索:对同句检索条件进一步放宽,可以使用同字段 检索。
为了保证信息能存得进、取得出,就必须使信息存储所依 据的规则与信息检索时所依据的规则尽量做到一致。
提问(检 索)语言
匹配
信息标 识语言
信息检索的基本原理
信息处理人员
用户
信息分析、著录、标引
检索语言
信息需求分析
信息的表示
数据库 匹配比对 输出检索结果
检索提问
三、信息检索的类型
按信息检索的内容,信息检索可分为:
逆查法:也叫倒查法,与顺查法相反,是利用所选定 的检索工具,按照由新到旧、由近及远、由现在到过去的 逆时序逐年前推查找,直至满足课题要求为止的查检方法。
这种方法多用于新课题、新观点、新理论、新技术的 检索,检索的重点在近期信息上,只需查到基本满足需要 时为止。倒查法的目的是要获得某学科或研究课题最新或 近一段时间内所发表的文献或研究进展状况。此方法省时, 查得的信息有较高的新颖性,但查全率不高。
2、题名途径 通过文献的题名来查找, 包括文献的篇名、书名、 刊名等。
第三节 信息检索途径
3、分类途径 按学科分类体系来检索文 献。这一途径是以知识体 系为中心分类排检的,较 能体现学科系统性,反映 学科与事物的隶属、派生 与平行的关系。
4、主题途径 通过反映文献资料内容的主 题词来检索文献,便于用 户对某一问题、某一事物 和对象作全面系统的专题 性研究。
2017第二讲(1)-信息检索概述 二

6. 输出检索结果
根据检索系统提供的检索结果输出格式,选择需要的 记录以及相应的字段(全部字段或部分字段),将结果显 示在屏幕上、存储到磁盘或直接打印输出,网络数据库检 索还可以提供电子邮件发送,整个检索完成。
第三节 检索效果的评价
• 检索效率 检索效率是衡量检索效果好坏的指征,一般通 过查全率和查准率两方面来反映。 查全率:指系统在进行某一检索时检索出的相关文 献与系统文献库中的相关文献总量之比率。 查准率:指系统在进行某一检索时,检索出的相关 文献量与检索出的文献总量之比率。 与查全率和查准率相对应的指标是漏检率和误检率。
检索效果的评价公式
查全率=被检出相关文献量/相关文献总量 =(a/a+c)×100%
例如:查有关“雷尼替丁的含量测定”的文献
运用布尔逻辑技术的检索式可写成: 雷尼替丁 AND 含量测定
其作用是缩小检索范围,提高查准率。
逻辑或:是一种具有概念并列关系的组配
用OR(or)或 +算符表示 A OR B:表示让系统查找含有检索词A或B,或同时包 括检索词A和检索词B的信息。
如:查有关 “维生素C”的文献 (“维生素C”: vitamin C 又称 L-ascorbic acid抗坏血酸)
例: 自行车(模糊) 扩展概念:脚踏车、单车等
精确检索
也称精确匹配或完全匹配,结果中包含与检索词完全相同的内容。
提示
目前计算机数据系统除了提供专业检索要 写检索表达式检索外,更多的会提供其他 检索途径如基本检索、高级检索等,其检 索界面以检索输入框及检索条件限定框的 格式让用户根据已知条件一步步构建检索 表达式来检索文献(构建原理是一致的)
trace elements not zone 微量元素 not 锌
网络信息的检索方法

使用搜索引擎
• 利用分类目录或关键字,在在特定的搜索引擎中 查找所需信息 • 例:要了解火星的相关信息,可访问新浪搜索引 擎,在其分类目录中,搜索“科学技术->天文-> 日月行星”,或直接运用关键词“火星”进行搜 索
2.2.1 网络信息检索的方法
讲述人:.. 学号: ..
动动手:
• 目前世界上濒危动物华南虎的数 量是多少? • 查阅其相关资料,并找出答案。
网络信息检索的发展趋势
• 互联网的繁荣,给检索工作带来了一个全新的发展 空间,信息检索的对象已从过去相对封闭,由独立 数据库集中管理的信西内容扩展到如今开放、动态、 更新更快、分布广泛、管理松散的网络内容;网络 信息检索从一开始的一般人难以学会的标准化检索 发展到现在,已经成为简单的、大众化的实用工具。
查询在线数据库
• 利用网上的在线数据 库进行查询 • 例;要了解中国能源 经济状况,可访问中 国科学院科学数据库: http://www/
注意:
这里的一些术语,如 “网络实名”、“关 键
词”,可通过网络信息 检索的方法进行深入 的了解。
任务
• 保护野生动物之宣传大作战
• 继续检索相关信息,并将已得到 的信息加以整理后制作相关ppt, 以呼吁人们保护野生动物 • 要求:三种检索方法配合使用,展“目前世界上濒危动物 华南虎的数量是多少”知识竞赛。注意进行方式的优化 和信息的筛选,做好分析和比较,并详细记录检索过程。 根据表2-6,分析这些方法的差异性及其各自的优势。
网络信息检索的方法
直接访问网页
使用搜索引擎 查询在线数据库
直接访问网页
第二讲 网络信息资源检索

宽带应用领域
网络电视 宽带电影
网上多媒体 娱乐 实时通讯 与交流
网络游戏
网络多媒体 课堂
1.3 Internet 的互联原理
(1)通信的保证机制——TCP/IP协议 (2)地址的标识技术——IP地址和域名DN (3)运作的基本模式——客户机/服务器系统 (4)URL(网址)
(1)TCP/IP协议
•用户可通过有名或匿名连接方式对远程服务器进行访 问,查看和索取需要的文件。用户可将本地文件上载 (upload)给远程主机,更多情况是从远程主机上下载 (download)文件。(包括文本、图像、声音、多媒体、 软件或数据文件等)
(3)远程登录(Telnet)
是指本地计算机通过 Internet访问远程计算机上的硬 件资源、软件资源和信息资源 的过程。 随着 www的普及,Telnet已少 有使用。
查询检索器
定期搜集信息
利用能够从互联网上自动收集网页的 Spider系统程序,自动访问互联网,并沿着任 何网页中的所有URL爬到其它网页,重复这过 程,并把爬过的所有网页收集回来。 搜索引擎在搜索网站时,总是更为全面 和经常地搜索常用的网站(例如用户经常点击 和带有许多链接的网站)
建立索引数据库
HTTP (Hyper Text Transfer Protocol)
超文本传输协议: HTTP是Web客户机和 服务器用于在网上传输、 响应用户请求的协议。 就是告诉浏览器去访问 使用HTTP的Web页。
第二节 搜索引擎的使用技巧
2.1 搜索引擎的工作原理
搜索引擎的英译名为Search Engine,是收录网页 全文索引的数据库。指通过网络搜索软件或网站登陆 等方式,将互联网上大量网站的页面收集到本地,经 过加工处理而建库,从而能够对用户提出的各种查询 作出响应,提供用户所需的信息。 搜索引擎也不能真正理解网页上的内容,它只能机 械的匹配网页上的文字 至少由三部分组成: 爬行器(定在网页标题中: intitle:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
运算优先级顺序为NOT、AND、OR,可以用括号“( 如A and (B or C),检索顺序为先B或C,然后再与A
)”改变它们的运算顺序。
逻辑算符举例
①查找关于“动物保护”的文献: “动物 AND冬虫夏草 or 冬虫草 or 虫草”
③查找关于能源方面的文章,但关于“核能”的不要: “energy not nuclear”(energy - nuclear) ④检索西红柿种植技术的相关文章: (西红柿+番茄)*(种植+栽培+培育)
3. 邻近检索(proximity search)
又称为位置算符检索,用来规定检索系统原始记录中的检索词之间的特 定位置关系
文献记录中词语的相对 次序或位置不同,所表 达的意思可能不同
同样一个检索表达式 中词语的相对次序不 同,其表达的检索意 图也不一样 Eg:“粉末的 掺合与颜料包 装”
布尔逻辑运算符和词组 检索虽然能有效的扩大 和缩小检索范围,但 无法对检索词之间的 相对位置进行限制
③(N)(Near)算符
表示两个检索词为相邻关系,两个词之间不能插入任何词,但词序可 以颠倒。 表达式:A(N)B :AB两词靠近,次序可变。 举例:building (N) construction可检索出building– construction, construction building, constructionbuilding的记录
Exercise1:
查找电子图书的标准 (Digital book OR electronic book OR e-book OR online book) AND standard
Goolge的默认运算符就是逻辑“与”,用空格、 “AND”和“+”都表示,而逻辑“非”只均表 示逻辑“或”。 在ISI Web of Knowledge平台上,逻辑算符 “AND”、“NOT”、“OR”不区分大小写,但不支 持以“*”、“-”、“+”代替。 在Science Direct中,逻辑“非”是用“AND NOT” 表示,而不是我们常用的“NOT”。
英语类
1. 听力特快 英语节目:空中美语、空中英语听力 2. 普特英语 3. 大耳朵英语网 每天都有听力更新,可以直接点击收听, 听英语广播时,在下面的原文可以划词,随时翻译, 网站会自动将所划得词加到生词本里。 每天的记单词、单词测试 4.旺旺英语
LOGO
第二讲
2010-9-13
常用的截词法
有左截、右截、中间截断和中间屏蔽4种形式,而目前用的较多的 是以下三种形式:
(1)前截词(左截)——同根词检索 *ology
(2)中间截词——用于中美拼写不同和单复数 输入wom?n,可检出woman,women colo?r 可检出的词为colour(英音)、color(美音)。 (3)后截词(词尾截词) Cat?,检出cat, cats(有限截断)——用于单复数 Cat*,检出Cat,Cats,catalog,catalogue, category……(无限截断)——同根词检索
我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检 索出的文献更确切地符合用户要求,提高查准率。
①(W)—WITH算符
表示两个检索词紧挨着,词序必须按此前后的顺序排列,顺序不能 颠倒,中间不能有其他词,但可以有空格和标点符号。也可以用() 表达式:A(W)B AB两词靠近,次序为A先B后。 举例:communication (w) satellite 或者 communication()satellite,只检索出communication satellite, communication - satellite的记录 需要特别提示的是: 词组检索与WITH算符有所不同,其间不允许有任何符号。例如: digital library,若用digital(w)library,检索结果中会出 现digital-library,而用“digital library”,则只会检出 digital library的记录。
思考:比较3个检索式检索结果的不同
“Information retrieval”/TI
Information AND retrieval /TI
Information(F) retrieval
不仅要求在题名字段中,还要求两者必须与输入的形式完全相同 只要求在题名字段中,而不严格限制它们是短语,如“information organization methods for effective retrieval” 只需要在同一个字段中
字段限制检索就是通过限制字段和限制字段的范围来缩小检索结 果,达到精确检索的方法。 检索方式主要有:限定字段检索和限定范围检索 (1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。
①前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊 名(JN)、出版年(PY)、语种(LA)等字段后, 例如:AU=Evans,A., LA=Chinese
⑤(F)——Field
(F)表示在此运算符两侧的检索词必须同时出现在文献记录的同 一字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺 序不限,夹在两个词之间的词的个数也不限。
⑥(S)算符
(S)算符表示在此运算符两侧的检索词必须同时出现在 文献记录的子字段或同一段话中,两个词次序不限,中间 插入词的数量也不限。
组成数据库的最小单位是记录,一条完整的记录中的每一个著录事项为字段。
一般来说,数据库的记录基本包括下列字段: 题名(TI,title)、 关键词(KW,keyword)、 主题词(DE, descriptor)、 文摘(AB,abstract)、 全文(FT, Full text)、 作者(AU,author)、 作者机构(CS,Coporate Source) 期刊名称(JN,Journal)、 出版国(CO,Country)、 出版年份(PY,Publication Year)、 语种 (LA,Language)
IEEE可以为学生提供什么?
•需要参加IEEE国际会议的支助 •需要IEEE学生奖学金 •想参加IEEE论文竞赛或者创意大赛 •想和IEEE Fellow交流 •…
学生奖学金与竞赛信息
/web/membership/students/scholarshipsaward scontests/SAG_homepage.html
2.词组检索(phrase search)
通常在所检索词上加“”对所检索词视为词组处理,表示检索与“”内形 式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精 确检索”(exact search)。 例如:“动物保护”,表示动物保护是个词组,检索结果动物和保护不能 分开。若不加“”,检索结果可以是动物保护、动物多样性保护、动物栖 息地保护、动物资源保护等形式。
②(nW) 算符
表示两个检索词之间插有n个词,但顺序不能颠倒。
表达式: A(nW)B AB两词靠近,次序为A先B后,中间最多 可加n个词。
举例:communication(2w)satellite,只检索出 communication satellite、communicationsatellite,communication through satellite、 communication on the satellite词组的记录。
②后缀方式,将检索词放在字段代码之前,之后用字段限定符号:in 或/;如: Furniture/TI即家具一词出现在题目中。
(2)限定范围检索:是通过使用限定符来限制信息的检索范围,以达到 优化检索的方法。 不同的检索系统略有不同,常通过使用的有:“=、<= 、>=、<、 >、:” 等。 表达式:字段名=(<= 、>=、<、>、) 例如: PY>=1995 即限定出版年份为1995及以后的文献; PY=1996:2005即1996年至2005年的文章
④(nN)算符
表示两个检索词之间可以插入 n 个词并且词序可以颠倒 表达式:A(nN)B:AB两词靠近,次序可变,中间最多可加n 个词。
举例:information(1N)retrieval可检索出information retrieval , information and retrieval, retrieval of information的记录。 information(3N)retrieval,可检出information retrieval,retrieval information,retrieval of information,retrieval of law information,retrieval of Chinese law information等,retrieval和 information最多可插入3个词。
Science Direct用双引号“”表示宽松短语检索,标点符号、连 字符、停用字等会被自动忽略,如检索式为“heart attack”会 检出包含“heart attack”和“heart-attack”的检索结果。
在该数据库中,精确检索是用“{}”表示。
邻近检索有时又被称为位置算符检索。 因此,我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系, 从而使检索出的文献更确切地符合用户要求,提高查准率。 在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。下面 以全球最大的联机检索系统Dialog为例来说明位置算符的用法,OCLC也 是如此。
特别提示:“*”、“?”的比较 “*”,无限截词,代表0-无数个字符如regard*, 代表 regard, regarding, regardless等。 “?”,有限截词,代表0-1个字符,如library?,library, librarys。