第五章网络信息检索
信息检索概论05-2CNKI

•
安徽工业大学图书馆信息检索教研室
2)中国博士学位论文全文数据库
China Doctoral Dissertations Full-text Database(CDFD) • 该库是目前国内相关资源最完备、高质 量、连续动态更新的中国博士学位论文 全文数据库。收录全国985、211工程等 重点高校,中国科学院、社会科学院等 研究院所的博士学位论文。截止2012年 3月,收录来自397家博士培养单位的博 士学位论文全文文献 19.4万多篇。
1
CNKI概述
2 CNKI数据库检索指南
安徽工业大学图书馆信息检索教研室
中国知识资源总库(CNKI)
安徽工业大学图书馆信息检索教研室
5.2 中国知识资源总库—CNKI
• • • • • • • • • 5.2.1 CNKI概述 新平台 /kns/default.htm 老平台 /index.htm 十大专辑 主要数据库 5.2.2 KDN知识发现网络平台暨KNS60简介 5.2.3 CNKI数据库检索指南 5.2.4 其它常用功能 5.2.5 个性化定制服务
安徽工业大学图书馆信息检索教研室
5.2.1 CNKI概述
• 《中国知识资源总库》是一个大型动态知识库、 知识服务平台和数字化学习平台。目前,《总库》 拥有国内9000多种期刊、620多家博士培养单位优 秀博硕士学位论文、73万篇全国二级以上学会/协 会的重要会议论文、700多种报纸、2000余种年鉴、 3000余种工具书、标准、专利、科技成果、政府 文件、互联网信息汇总以及国内外上千个各类加 盟数据库等知识资源。 • 《总库》中数据库的种类不断增加,数据库中的 内容每日更新,每日新增数据上万条。
• 智能检索、复合排序
网络信息检索技术(5篇材料)

网络信息检索技术(5篇材料)第一篇:网络信息检索技术网络信息检索技术网络信息检索中,基本的检索技术有布尔逻辑检索、截词检索、位置检索、限制检索等。
一、布尔逻辑检索逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。
布尔逻辑检索就是采用布尔关系运算符来表达检索词与检索词之间逻辑关系的检索方法,目前最常用的布尔逻辑运算符主要包括逻辑“与”(AND)、逻辑“或”(OR)、逻辑“非”(NOT)。
(一)逻辑“与”逻辑“与”,也称为逻辑乘,用AND表示,是用来组配不同含义检索词之间的限定关系。
检索词A、B以AND(或“*”)相连,即A AND B(或A*B),表示同时包含A、B两词的文献才是命中记录,因而逻辑“与”运算用于对检索词进行限定,从而缩小检索范围,提高检索结果的查准率。
例如,要查找children education(儿童教育)方面的文献,检索逻辑式可表示为“children * education”或者“children AND educa tion”。
运算的结果是同时含有检索词children和检索词education的文献才被检索出来。
(二)逻辑“或”逻辑“或”,也称为逻辑加,用OR或者“+”表示,是用来组配同义或者同族检索词之间的并列关系。
检索词A、B若以OR或“+”相连,即A OR B(或A+B),表示只要含有A、B之一或者同时包含A、B的文献都是命中记录。
因而逻辑“或”运算可用于扩大检索范围。
例如,要查找“汽车”方面的文献,因为汽车在英语中可以用car 或者automobile表示,所以为了将有关汽车的文献全部检出,避免漏检,检索逻辑式就可表示为“car OR automobile”或者“car + automobile”。
运算的结果是含有car或者automobile任意一个或者同时两个的文献均被检索出来。
(三)逻辑“非”逻辑“非”用NOT或者“-”来表示,是用来组配概念的包含关系,可以从原检索范围中排除一部分,因而使用逻辑“非”运算可以缩小检索范围。
第五章信息检索系统

第二页,编辑于星期五:十八点 十七分。
第一节 信息系统及其种类
信息系统的特点:
(1)涉及的数据量大。 数据一般需存放在辅助存储器中,内存 中只暂存其中当前要处理的一小部分数 据。
3
第三页,编辑于星期五:十八点 十七分。
(2)绝大部分数据是持久的,不随程序运行 结果消失,长期保留在计算机系统中。
40
第四十页,编辑于星期五:十八点 十七分。
评论性文摘: ➢浓缩原文内容,并包括文摘员的分析
和见解。
41
第四十一页,编辑于星期五:的篇目按照一 定的排检方法编排,供人们查找篇目出处 的工具。
42
第四十二页,编辑于星期五:十八点 十七分。
➢它按照论文的篇名顺序排列,按“篇” 报道。
著者途径
➢ 许多检索系统备有著者索引、机构(机构 著者或著者所在机构)索引;
➢ 利用这些索引从著者、编者、译者、专利 权人的姓名或机关团体名称字顺进行检索 的途径统称为著者途径。
56
第五十六页,编辑于星期五:十八点 十七分。
序号途径
➢ 有些文献有特定的序号,如专利号、报告号、 合同号、标准号、国际标准书号和刊号等。
10
第十页,编辑于星期五:十八点 十七分。
两者区别
➢ 都用于信息的存储和检索,两者之间 没有严格的、绝对的界限;
➢ 检索工具可称为检索系统,检索系统 也可以称为检索工具。
11
第十一页,编辑于星期五:十八点 十七分。
➢ 检索工具是比较狭义、具体的概念, 代表某种有形的实体;
➢ 检索系统是个比较广义、概括的概 念,代表某种复杂的集合体。
信息系统的种类
➢ 管理信息系统 ➢ 地理信息系统 ➢ 指挥信息系统 ➢ 决策支持系统 ➢ 办公信息系统
计算机信息检索(第五章)

数据库的排列
顺排文档:按照文献顺序号(计算机数
据库中称存取号)大小来排列的资料文 档。号码越大,资料越新。 倒排文档:按照检索标识(记录中出现 的词)的字顺排列,并给出每个检索标 识在文档中出现的次数(词频)和所在 地址(存取号)。
检索策略的设计
对于检索策略,目前尚未有一个公认的
定义,国内代表性的提法有三种,分别 从检索过程、检索目的,以及用户方面 给出定义,但不管哪一种,都从不同角 度概括了检索策略的本质和内容,认为 检索策略是为实现检索目标而作的全面 策划。因此,编制和调整检索策略的意 义极其重大。其一般流程可分为:
Soil and water Conservation(水土保持)
Soil Conserving foliage(保土耕作法) Bank protection work(护岸工程)Sand control(治沙) Fixed cline(固定沙丘)
效益
Value
Beneficial result, efficiency 效能 usefulness
检索技术及其实现
AND
A and B 逻辑与。A和B都为真 时,结果才为真 。从检索结果来看,是 缩小检索范围,减少输出量。
检索技术及其实现
OR
A or B 逻辑或。A或B中只要 有一个为真时,结果就为真。从检索结 果来看,是扩大检索范围,增加输出量。
检索技术及其实现
NOT
A not B 逻辑非。A为真、B 为假时,结果才为真。从检索结果来看, 是从检索内容中剔除一部分内容,因而 减少输出量(尽量少用)。 多概念组配时,需使用括号。
概
述
光盘检索阶段(1980~) :70年代末至80
第五章数字信息资源检索概述

使用各类组配算符、使用检索限定、 选择检索入口,其检索功能与简单检 索基本一致,但检索结果更为准确。
命令检索(command search)
字段代码 TI AU KW DE
CS
AB DT
JN
PY ISSN/ISBN FT
中文数据库常用字段
题名 作者 关键词 主题词
机构(作者单位)
文摘 文献类型
期刊名称
出版年 ISSN/ISBN 全文
其它检索技术
嵌套检索(优先算符,nesting):即用括 号将优先检索的检索式括起来,系统会首先检 索括号中的概念。如:
3 检索费用较低。
电子资源的主要检索方式
二次检索
简单检索
高级检索
命令检索
简单检索(simple search 、easy search 、quick search 、
basic search)
简单检索,又称基本检索、快速检索,即为 用户提供一个简单的检索界面,帮助非专业或 初入门用户方便提交的检索式。
检索技巧
❖检索结果过少,漏掉了相关文献?
放宽检索要求,提高检全率[扩检]
去掉某个方面的检索要求; 放宽检索范围:学科领域、时间、文章类型,关键词出
现的字段等; 将描述检索主题的词想全,包括同义词及缩写形式;
如:NPC OR Nasopharyngeal carcinoma
使用单数单词检索,可以检索到大多数单词单数、复数 和所有格,不规则单词除外; 如:city 可以检索出 city,cities,city’s,cities’
《网络信息检索》教案

《网络信息检索》教案一、教学目标1. 让学生了解网络信息检索的基本概念和意义。
2. 培养学生运用网络信息检索工具获取信息的能力。
3. 提高学生筛选、评估和运用网络信息资源的能力。
二、教学内容1. 网络信息检索的概念与意义2. 常用网络信息检索工具及其使用方法3. 网络信息检索的技巧与策略4. 网络信息的筛选与评估5. 网络信息检索的实际操作训练三、教学方法1. 讲授法:讲解网络信息检索的基本概念、意义和常用工具。
2. 演示法:展示网络信息检索的实际操作过程,让学生跟随操作。
3. 练习法:让学生通过实际操作练习网络信息检索的技巧与策略。
4. 讨论法:分组讨论网络信息的筛选与评估方法,分享实际操作经验。
四、教学准备1. 网络环境:确保教学场所具备稳定的网络连接。
2. 教学工具:准备投影仪、计算机等教学设备。
3. 教学资源:收集各类网络信息检索工具和实例。
五、教学过程1. 导入:介绍网络信息检索的基本概念和意义,激发学生的学习兴趣。
2. 讲解:讲解常用网络信息检索工具及其使用方法,让学生了解网络信息检索的基本技巧。
3. 演示:演示网络信息检索的实际操作过程,让学生跟随操作。
4. 练习:让学生通过实际操作练习网络信息检索的技巧与策略。
5. 讨论:分组讨论网络信息的筛选与评估方法,分享实际操作经验。
6. 总结:总结本节课的重点内容,强调网络信息检索的注意事项。
7. 作业:布置相关练习题,巩固所学内容。
六、教学评价1. 形成性评价:通过课堂练习和学生实际操作,及时了解学生的学习进度和掌握情况。
2. 过程性评价:观察学生在讨论中的参与程度,评估其筛选和评估网络信息的能力。
3. 总结性评价:课后作业和课程考试,评估学生对网络信息检索知识的掌握和实际操作能力。
七、教学拓展1. 邀请专业人士进行讲座,分享网络信息检索在实际工作中的应用经验。
2. 组织学生参观图书馆或信息中心,了解传统信息检索与网络信息检索的异同。
3. 开展网络信息检索竞赛,激发学生的学习兴趣和竞争意识。
什么是网络信息检索

什么是⽹络信息检索⼀、⽹络信息检索的概念⽹络信息检索(NIR:Network Information Retrieval)⼀般指因特⽹检索,是通过⽹络接⼝软件,⽤户可以在⼀终端查询各地上⽹的信息资源。
这⼀类检索系统都是基于互联⽹的分布式特点开发和应⽤的,即:数据分布式存储,⼤量的数据可以分散存储在不同的服务器上;⽤户分布式检索,任何地⽅的终端⽤户都可以访问存储数据;数据分布式处理,任何数据都可以在⽹上的任何地⽅进⾏处理。
⼆、⽹络信息检索的技巧与使⽤1、主题指南与搜索引擎结合使⽤主题指南将信息系统地进⾏归类,可使⽤户⽅便地查找到某⼀⼤类信息,但其搜索范围较搜索引擎要⼩许多。
搜索引擎查询较为全⾯⽽充分,可以提供最全⾯、最⼴泛的搜索结果,但所提供的信息不像主题指南那样层次结构清晰,显得繁多⽽杂乱。
由于主题指南和搜索引擎各有优势,两者可以相互结合,取长补短,合理运⽤,以产⽣最佳结果。
总之,选择合适的搜索引擎是信息检索⾄关重要的⼀步。
搜索引擎在查询范围、检索能⼒、效率等⽅⾯各具特⾊,针对不同⽬的的检索,应选⽤不同的搜索引擎。
2、缩⼩检索范围(1)采⽤恰当的检索表达式。
在检索表达式的构造中,可采⽤把⼀个短语作为⼀个整体进⾏查询的办法,或者采⽤强制包含或排除特定关键词的办法限定检索范围。
(2)限定检索范围。
当检索的范围过⼤时,可以对检索词的年代、语种、数量、学科等检索范围进⾏限定。
这些限定检索的运⽤可以有效控制检索的相关性,从⽽提⾼检准率,使检索结果接近⽤户需求。
(3)利⽤进阶检索功能。
进阶查询(RefineQuery)是指利⽤前⼀次检索的结果作为后⼀次检索的依据,逐步缩⼩检索范围。
(4)搜索⼒求具体化。
检索⽂献信息资源时,要明确检索课题的需求,限定查询范围,选择确切的检索词,使检索要求具体化、明确化。
这样,有利于提⾼⽂献信息资源检索的查准率。
3、扩⼤检索范围(1)使⽤同义词或近义词检索。
⽬前,检索软件的智能化程度较低,容易漏检与关键词意思相近或⼀致的内容。
信息检索课件 第5讲 网络信息检索PPT69页

71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
信息检索课件 第5讲 网络信 息检索
26、机遇对于有准备的头脑有特别的 亲和力 。 27、自信是人格的核心。
28、目标的坚定是性格中最必要的力 量泉源 之一, 也是成 功的利 器之一 。没有 它,天 才也会 在矛盾 无定的 迷径中 ,徒劳 无功。- -查士 德斐尔 爵士。 29、困难就是机遇。--温斯顿.丘吉 尔。 30、我奋斗,所以我快乐。--格林斯 潘。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)多元搜索引擎(metasearch engine)
• 多元搜索引擎(metasearch engine或megasearch engine)
又称为集合式搜索引擎。多元搜索引擎是将多个搜索引擎集 成在一起,并提供一个统一的检索界面。它可分为两种类型: 搜索引擎目录和元搜索引擎。 – 搜索引擎目录: 也即检索工具的检索工具,它将主要的搜索引擎集中起 来,并按类型或按检索问题等编排组织成目录,帮助、导引 用户根据检索需求来选择适用的搜索引擎。 它集中罗列检索工具,并将用户导引到相应的工具去检 索; 检索的还是某一搜索引擎自己的数据库,与普通单一 搜索引擎的检索是一样的。只不过是设立了又一层门户,通 过其组织、检索界面,为用户选择适用的检索工具提供积极 的帮助,以克服用户面对众多的检索工具的无所适从。较典 型的搜索引擎目录有:All-in-One,CUSI, iTools!等。
(1)目录型检索工具(subject directory)
• 目录型检索工具也称作catalogue • 目录型检索工具 是按照某种主题分类体系编制的一种可供检 索的的等级结构式目录。在每个目录类及子类下提供相应的 网络资源站点地址,并给以简单的描述。 • 优点:目录型检索工具经过信息管理专业人员、分类专家的 人工设计和编制,所收录的网络资源经过专业人员的鉴别、 选择和组织,保证了检索工具的质量,提高了检索的准确性。
新浪搜索
• 新浪搜索引擎是面向全球华人的网上资源查询系统, 提供网站、中文网页、英文网页、新闻、软件、游戏 等查询服务。是互联网上最大规模的中文搜索引擎之 一。 • 新浪搜索具有URL自动检测功能,并提供个性化服务 给经常使用新浪搜索的用户:所见即所得——我的书 签、桌面上搜索引擎——新浪点点通两种服务。 • 新浪搜索提供“分类检索”和“关键词查询”两种查 找方式。
三、重要的网络检索工具 • • • • •
目录型网络检索工具 Yahoo! ( http://www.yahoo.com) InfoSeek (http://infoseek.go.com) 搜狐 (http://www.sohu.com.cn) 新浪搜索 (http://search . sina . cn) 网易搜索 (http : //www . yeah . net)
• 局限性: – 其更新、维护的速度或周期要受系统人员工作时间的制约,导致检索 工具的新颖性不够; – 若用户不熟悉其分类体系或对类分标准理解与系统人员不一致,就会 影响其检索; – 在某些主题下收录范围不够全面,使检索到的信息数量有限。
• 目录型检索工具比较适合于查找综合性、概括性的主题概念, 或对检索准确度要求较高的课题。最著名的目录型检索工具 是Yahoo!(URL:www . yahoo.com)。
网络信息检索工具的一般构成
自动索引程序: – 大多数网络检索工具一般采用一种称为Robot(又称 Spider,Crawler,Worms,Wanders等)的网络自动跟踪索 引程序 数据库:
– 自动索引程序将采集和标引的信息汇集成数据库,作为 该网络检索工具提供检索服务的基础。不同的网络检索 工具的数据库的收录范围不同,标引方式也不同,规模 大小不同。 检索代理软件: – 当用户提出检索查询时,由检索软件负责代理用户在数 据库中进行检索。不同的网络检索工具所采用的检索机 制、算法有所不同,布尔逻辑检索是较普遍采用的一种 机制。
前表示该词出现在检索结果中。
• 评价:Infoseek庞大的全文数据库保证了它的查全率,而它独特的检索 算法和检索功能,又提高了它的查准率,同时由于其丰富的服务内容, 使得Infoseek由一个检索工具变为一个强大的信息服务中心。 Infoseek 曾被PC Week杂志称为最全面的检索工具
搜狐
• 原名http// • 搜狐是由爱特信公司1998年开始研制的。搜狐是针对国际互联网上中文信 息日渐丰富、查找困难的实际情况,根据中国人的文化传统专门为中国用 户度身设计推出的网络分类式查找引擎。曾被路透社誉为“the most popular website destination in China”。 • 搜狐的全面战略及内容合作伙伴有英特尔(Intel),道· 琼斯(Dow Jones), 热连线(Hot Wired),时代华纳,NBA和新华社等。 • 搜狐提供了一个分类详尽的Web目录,采用树型结构对站点进行层次性分 类,根据相应的网页内容,将所有的网页分为地区类、工商经济类、计算 机与互联网、教育等18个类别,在18个大类下面又分成几百个小类。在关 键词检索方面,搜狐自动在全部网页目录中利用全文检索的办法找到相关 网页。
第五章 网络信息检索
一、网络信息资源 二、网络信息检索工具 三、重要的网络检索工具
一、网络信息资源
网络信息资源的特点 网络信息资源的类型
1。网络信息资源的特点
– – – – – 无序性 开放性 动态性 多样性 用户广
2。网络信息资源的类型
(1)按信息的内容划分为:
政府信息,科研信息,教育信息,文化信息,娱乐消闲信息 等
(2)按采用的网络传输协议不同划分为:
万维网信息资源,Telnet信息资源,FTP 信息资源,用户服 务组信息资源,Gopher 信息资源
(3)按网络信息资源传播范围划分 : 光盘局域网信息资源 传统联机检索信息资源 Internet网络信息
二、网络信息检索工具
1。网络信息检索工具及一般构成 • 网络信息检索工具是指在因特网上提供信息检索服务的计 算机系统,其检索对象是存在于因特网信息空间中各种类 型的网络信息资源。 • 早期的搜寻FTP资源的Archie,检索Gopher网站资源的 Veronica和Jughead,查询 Usenet新闻组资源的WAIS等, 以及Yahoo, Alta Vista, Lycos等 Web检索工具。 • 所谓Web检索工具是指利用超文本(超媒体)技术在因特 网上提供网上信息资源导航、检索服务的专门Web 服务器 或网站。由于Web检索工具既以Web 形式提供服务,又以 Web资源为检索对象,检索范围还涉及其他网络资源形式, 如Usenet ,Gopher , FTP等,所以Web检索工具成为人们 获取因特网信息资源的主要检索工具和手段。
Yahoo!
• Yahoo 是“Yet Another Hierarchical Officious Oracle”的缩写。 Yahoo!是最早开发的互联网搜索引擎,是Internet搜索工具的 “元老”,也是目前WWW环境中最著名最常用的搜索工具。它 是由美国斯坦福大学两位博士生开发的。 • Yahoo!不同于其他搜索工具在于它提供了全面的分类体系。它提 供14个宽泛的类目,用户可以利用它的引擎以关键词检索方式查 询它的目录。Yahoo!目录的最大特点在于信息的分类工作由十几 位专家手工进行,与其他由计算机自动分类的搜索引擎相比, Yahoo!的目录更具科学性。 • Yahoo!提供分类查询方式。 • Yahoo!也提供主题查询方式。通过简单关键词或关键词高级检索 方式进行信息查询。 • Yahoo!提供强大的全球信息查询功能,目前已有法国、意大利、 挪威、瑞典、加拿大、澳大利亚、日本等13个国际站点。
• 元搜索引擎 是将多个搜索引擎集成在一起,提供一个统一的检索界面;且将一个检索 提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合,去重 之后输出检索结果。它是一种集中检索的方式,与Dialog联机检索中的跨 文档检索 OneSearch非常类似。 • 优点:省时,不用就同一提问一次次地访问所选定的搜索引擎,每次均要 输入同样的检索词等。且检索的是多个数据库,检索的综合性、 完整性也 有所提高。 • 缺点:由于不同的搜索引擎的检索机制、算法及对提问式的解读均不同, 没有一个共同规范,使检索的准确性要相对差一些,并且速度也较慢。有 时多元搜索引擎检索出的结果可能还不如单个搜索引擎检索出的结果多, 或给出的检索结果描述可能也不够详细,使用户虽得到了更多的检索结果, 却缺少做进一步判断、阅读的相关指导信息。为此,有些检索人员提出避 免使用多元搜索引擎。但仍有些检索专家建议,在查询一些较模糊的提问, 或就某一课题的网络资源进行快速调查、摸底、综览时使用多元搜索引擎。 较常用的多元搜索引擎有:Dogpile,Metacrawler,Inference Find, SavvySearch,Highway61等。
2。网络信息检索工具的类型:
网络检索工具一般可分为: – Web 资源检索工具:以Web 资源为主要检 索对象, 又以Web形式提供的检索工具。 – 非Web 资源检索工具:即以非Web 资源为 检索对象的检索工具, Archie,Veronica,WAIS 等。
Web 资源检索工具 • (1)目录型检索工具(subject directory) • (2)搜索引擎(search engine) • (3)多元搜索引擎(metasearch者:Infoseek属于Infoseek Corporation 公司,创立者是Steve Kirsch ,1995年提供服务。曾在PC Computing中,被评比为最佳的搜 索服务节点。 • 服务范围与规模:其提供的搜索服务除WWW节点搜索外,还有 Gopher、FTP、Usenet Newsgroup的文章查询,并且提供与电脑相关 的报纸、杂志、电传新闻(news wires)、工商信息、电影/书籍/录影 带评论等全文搜索。 • 检索性能: 管道检索,这是Infoseek的独特功能,即用管道符()连 接两个或更多的检索词。 Infoseek有一套自定义的标识符,例如词组 检索要求把词组用“”括起来;对所要搜索的关键词加方括号[ ],表 示方括号内的词在文字中出现时,其间隔不超过100个词。“+”放在单词
(2) 搜索引擎(search engine)
• 搜索引擎的工作原理:
– 发现、搜集网页信息。首先需要有高性能的Robot程序去 自动地在互联网中搜索信息 – 索引库的建立。建立信息索引就是创建文档信息的特征 记录,使检索者能够快速地检索到所需信息 – 检索及结果输出。代替用户在数据库中查找出与提问匹 配的记录,并返回结果且按相关度排序输出。