6第六章 网络信息资源检索
《信息检索与利用》课程标准

江苏省新闻出版学校出版与发行专业(五年制高职)《信息检索与利用》课程标准一、概述(一)课程性质《信息检索与利用》是新闻出版与发行专业的专业基础课,通过系统的理论讲授与专门的实践操作训练,旨在帮助学生强化科技信息需求与表达,深入掌握科技信息查询与数据分析的知识、方法与技能,提高学生灵活运用信息资源体系、检索工具和方法解决科技类信息问题的能力,进而促进学生在现代信息环境下基于资源的学习和研究能力的增长,以达到全面强化学生的信息素质的目的。
并通过实践技能训练,提高学生的实践能力、创新能力和职业能力,为学生就业打下坚实的理论基础和职业基础。
(二)课程基本理念注重培养学生的专业思维能力和专业实践能力,把创新意识的培养贯穿于整个教学中。
采用理论与实践相结合的教学方法,培养学生分析问题、解决问题的能力。
通过理论讲述使学生掌握信息检索与数据分析的基本原理和基本方法;通过项目学习与训练使学生进一步理解掌握信息检索与利用的基本方法。
(三)课程设计思路以就业为导向,以能力为本位,以职业技能为主线,以情境单元课程为主题,尽可能形成基于职业岗位、工作过程的课程体系。
在具体学习项目的选择和编排中,以情境单元为基础,通过实训、案例分析、情景模拟、实战训练、上机操作等相结合的形式培养学生分析问题、解决问题的实际能力,以及对理论知识的深化了解。
本课各部分具体内容及课时分配如下表:二、课程目标(一)总目标通过对《信息检索与利用》课程学习,使学生学会信息检索与利用的基本概念、基本理论、基本方法,树立良好的信息检索理念,学会运用信息,培养学生发现、分析和解决问题的能力,熟练掌握信息检索与利用的策略和技术,养成良好的职业道德和职业思想。
(二)具体目标1.素质(1)具备较高的信息素养,理解合理合法构建专业信息资源体系在知识创新中的重要作用。
(2)掌握信息检索的基础知识(信息检索方法、信息检索策略、信息检索步骤、信息检索结果的识别)。
(3)掌握一定的统计分析方法。
信息检索实验指导书

《信息检索》实验指导书目录实验一搜索引擎搜索初阶 (3)实验二搜索引擎搜索高阶 (4)实验三CNKI数据库的使用 (5)实验四Springer Link的使用 (13)实验五商情数据库系统的使用 (17)实验六超星数字图书馆的使用 (19)实验一搜索引擎搜索初阶【实验目的】了解搜索引擎的类型及服务功能,掌握搜索引擎的初级使用技巧。
【实验内容】利用现有的搜索引擎(Baidu、Google),使用简单搜索功能进行网络信息的检索。
【实验步骤】打开IE浏览器,在地址栏中输入Google搜索引擎的网址,打开搜索引擎。
1.搜索结果要求包含两个及两个以上关键字示例:搜索所有包含关键词“搜索引擎”和“历史”的中文网页。
2.搜索结果要求不包含某些特定信息示例:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页。
3.搜索结果至少包含多个关键字中的任意一个示例:搜索如下网页,要求必须含有“搜索引擎”和“历史”,没有“文化”,可以含有以下关键字中人任何一个或者多个:“Archie”、“蜘蛛”、“Lycos”、“Yahoo”。
4.通配符的使用示例:搜索所有包含""以*治国"”的网页。
5.关键字的字母大小写示例:分别以“GOD”和“god”为关键词进行搜索,比较搜索结果。
6.搜索整个短语或者句子示例:搜索所有包含“搜索引擎的使用技巧“的网页。
7.搜索引擎忽略的字符以及强制搜索示例:搜索关于www起源的一些历史资料。
搜索:“www的历史internet”。
实验二搜索引擎搜索高阶【实验目的】掌握搜索引擎的高级使用技巧。
【实验内容】利用现有的搜索引擎(Baidu、Google),使用高级搜索功能进行网络信息的检索。
【实验步骤】打开IE浏览器,在地址栏中输入Google搜索引擎的网址,打开搜索引擎。
1.对搜索的网站进行限制示例:搜索中文教育科研网站()上关于搜索引擎技巧的页面。
★ 第六章 网络信息资源管理

★课前索引【本章提要】本章主要讲解了网络信息资源这种重要而又独特的信息资源的管理。
在介绍网络信息资源类型和特点的基础上,从多个层次对网络信息资源的组织进行了探讨,并着重对网络信息资源的检索进行了详细论述。
介绍了网络信息检索的过程、网络信息检索的工具,并对搜索引擎这一众所周知的最常用网络检索工具进行了多角度探讨。
在此基础上,本章从检索技术的角度,对网络检索技术做了较大篇幅的讨论,并结合常用的搜索引擎进行了案例分析。
本章最后对网络信息资源的评价进行了研究。
【学习目标】1、网络信息资源的类型及特点;2、网络信息资源组织的方法;3、网络信息检索的过程;4、网络信息检索的工具;5、搜索引擎的基本概念、类型及其作用;6、网络信息资源的评价。
【学习指南】本章的重点是第1节、第3节、第4节。
【预习思考题】1、网络信息资源主要有哪些类型?2、和传统信息资源相比,网络信息资源具有什么特点?3、目前网络信息资源的组织主要有哪些方法?4、请简述网络信息检索的过程。
具体的网络信息检索技术主要有哪些?5、网络信息检索的工具有哪些?6、搜索引擎主要有哪些类型?各类搜索引擎各有什么特点?7、网络信息资源评价主要从哪几个方面进行考虑?◇第一节网络信息资源概述本节内容一、网络信息资源类型二、网络信息资源的特点一、网络信息资源的类型★网络信息资源的分类有多种标准,根据不同的分类标准,可以将网络信息资源分为不同的类型。
第一,网络信息资源从内容范围上可以分为五个大类:学术信息,教育信息,政府信息,文化信息,有害和违法信息等。
第二,按信息源提供信息的加工深度分,可分为一次信息源、二次信息源、三次信息源等。
第三,依据信息源的信息内容则可将网络信息资源分为以下类型:一是联机数据库,即各类数据库是联机存储电子信息源的主体。
二是联机馆藏目录。
三是电子图书。
四是电子期刊。
五是电子报纸。
六是软件与娱乐游戏类。
七是教育培训类。
八是动态性信息。
第四,如果认为网络中的信息存取方式所要达到的功能是在简单地模拟和再生人类信息传播方式的话,那么参照非网络环境中信息存取方式的方法对网络信息资源进行归类,主要有六种网络信息资源的类型。
网络信息资源检索复习要点

网络信息资源检索复习要点1.什么是网络信息资源?网络信息资源检索的特点是什么?如何评价网络信息资源?网络信息资源是指信息资源以电子数据的形式存放在非印刷型的介质中,并通过网络通信手段,在计算机等终端上再现的信息的总和。
特点:检索范围大、检索效率高、工具强大、信息冗余大。
评价:第一,网络上信息资源量的爆炸式增长,使得人们从中淘取有用信息的难度越来越大。
第二,因特网的松散、开放性等特点,决定了网络信息空间秩序混乱,网上信息良莠不齐、真伪混杂、整体质量水平下降,人们选择信息更加困难。
另外,在互联网上,信息不仅很容易被出版、传播,而且也极容易被篡改。
2.学位论文指的是什么?学位论文是高校研究生、毕业生为获得学位进行科学研究而写出的学术性论文。
按学位不同可分为学士论文、硕士论文和博士论文。
3.什么是搜索引擎和元搜索引擎?搜索引擎也叫关键词检索工具,其实就是定期搜索因特网(以WWW为主)并收集新网页信息的计算机程序。
元搜索引擎是为弥补搜索引擎费事费力之不足而出现的网上辅助检索工具。
一般的独立搜索引擎检索范围仅限于其本身的数据库,而元搜索引擎则将用户的检索提问同时送达多个独立搜索引擎的不同数据库中进行检索,在很短时间内就能从这些数据库中检出相关记录的集合。
4.利用搜索引擎时,在选择关键词时应注意哪几点?选择专指性强的词、多角度选词、选择限制主题的词5.垂直搜索引擎的概念、特点及其优势是什么?垂直搜索引擎即专业或专用搜索引擎,它专门用来检索某一主题范围或某一类型信息,追求专业性与服务深度是它的特点。
优点在于垂直搜索引擎不但可保证此领域信息的收录齐全与更新及时,而且检索深度和分类细化远远优于综合搜索引擎。
垂直搜索引擎的检出结果虽可能较综合搜索引擎少,但检出结果重复率低、相关性强、查准率高,适合于满足较具体的、针对性强的检索要求。
6.什么是元搜索引擎,有什么优缺点?一次搜索多个搜索引擎,并将结果返回给用户。
优点:能同时搜索多个搜索引擎,能在一定程度上提高查询的广度。
网络信息资源管理

第六章网络信息资源管理第一节网络信息资源概述●网络作为继报纸、广播、电视之后的第四大媒体,具备这三类媒体的许多优点,也自有其独特性。
●网络信息资源的分类网络信息资源按信息源提供信息的加工深度分,可分为一次信息源、二次信息源、三次信息源等。
依据信息源的信息内容则可将网络信息资源分为以下类型:一是联机数据库,二是联机馆藏目录,三是电子图书,四是电子期刊,五是电子报纸,六是软件与娱乐游戏类,七是教育培训类,八是动态性信息。
如果从科学的正式交流渠道与非正式交流渠道的思想出发,网络信息资源可以分为稳定的信息资源和不稳定的信息资源两类。
●网络信息资源的特点网络信息资源作为一种新型的信息源,它有自己不同于其他传统信息资源的特点:第一,以网络为传播媒体。
第二,以多媒体为内容特征。
第三,以超文本形式组织信息。
第四,传播方式的多样性、交互性。
第五,变化更新快。
第二节网络信息资源的组织●网络信息资源的组织网络信息资源的组织是指对网上的各种概念、数据(包括声音、图像、软件等)、事实、文献等,通过分析、标引(分类的和语词的)、著录(信息特征的描述)、链接(把相关的信息加以联系)、排序、存储等手段,形成一个有序的、便于用户理解和查询的信息系统的过程。
●网络信息资源组织的重要性网络信息资源的特点决定了人们查找利用它们十分困难,而且也使组织网络信息资源变得十分必要,原因主要表现在以下三个方面:一是在Internet上存在着大量可获得的有价值、可利用的信息。
二是为了检索的便易,这些资源需要组织。
三是为了方便人们对网络信息资源进行管理与控制。
●网页的链接结构网页的链接结构通常可以分为两种基本形式:树状结构(层级结构)和网状结构(平级结构)。
●文件的组织在网络信息资源中,文件的组织通常有以下方法:一是将文件分级存放;二是按文件所属的栏目进行存放。
●Internet常用的网络信息资源的组织方法目前Internet上最为通用的网络信息资源的组织方法有以下几种:一是主题树方式;二是文件组织方式;三是数据库组织方式;四是网络信息指引库;五是超媒体组织方式。
第六章 网络信息资源检索与利用

6.2 主要搜索引擎及其使用 6.2.4 常用搜索引擎及其使用
1、关键词型搜索引擎 、 常用英文关键词搜索引擎
1)基本检索。选择一个搜索引擎, )基本检索。选择一个搜索引擎, 然后在检索主页的检索文本框中输入检 索词( ),可以使用双引号来实现词 索词(组),可以使用双引号来实现词 组精确检索,或者在检索词前加“ 组精确检索,或者在检索词前加“+”, 表示该检索词一定出现, 表示该检索词一定出现,检索词前加 表示该检索词一定不出现。 “-”,表示该检索词一定不出现。 2)高级检索。在高级检索页面的 )高级检索。 文本框中输入相应内容,从语言、域名、 文本框中输入相应内容,从语言、域名、 地区、检索词(包含、不包含、 地区、检索词(包含、不包含、出现的 位置等)、日期、页面内容( )、日期 位置等)、日期、页面内容(页面包含 的媒体类型, 的媒体类型,如mp3、图片、视频、音 、图片、视频、 频、Java、脚本、PDF、Word文 、脚本、 、 文 ),以及是否阻止非法内容等方面限 档),以及是否阻止非法内容等方面限 制检索范围。 制检索范围。用户可对检索结果的输出 进行定制。此外, 进行定制。此外,HotBot还设计了桌 还设计了桌 面工具栏,安装后, 面工具栏,安装后,用户可在浏览器上 直接输入检索词进行检索。 直接输入检索词进行检索。
浏览方式
网络信息 检索的一般 方法
查询方式
随意浏览
分类体系 浏览
6.2 主要搜索引擎及其使用
6.2.1 搜索引擎的概念 6.2.2 搜索引擎的功能 6.2.3 搜索引擎查询信息的具体步骤 6.2.4 常用搜索引擎及其使用
6.2 主要搜索引擎及其使用
6.2.1 搜索引擎的概念
搜索引擎(Search Engine)是用来对网 搜索引擎 是用来对网 络信息资源管理和检索的一系列软件, 络信息资源管理和检索的一系列软件,是一种在 Internat网上查找信息的工具。它将各站点按主 网上查找信息的工具。 网上查找信息的工具 题内容组织成等级结构。 题内容组织成等级结构。用户可以依照这个目录逐 层深入,直至找到所需信息。 层深入,直至找到所需信息。
医学信息检索习题

第一章:绪论一、名词解释:1.信息2.医学文献3.主题词4.数据库5.查准率二、填空:1.情报具有_________、__________、___________、____________等属性。
2.常见的三次文献有__________、___________、____________等。
3.按照存储内容,数据库有__________、___________、____________等类型。
4.描述文献外表特征的检索语言有__________、___________、____________等。
5.常用的限制字段检索符号有__________、___________等。
三、单选:1.下列哪种文献的存储密度最高?A.印刷型B.缩微型C.视听型D.机读型2.下列哪项不能体现检索工具的根本质量?A.装帧版式B.标引程度C.收录范围D.时差3.下列哪项是计算机检索中的截词符?A.in B.not C.+ D.*4.下列哪项不是检索工具的评价指标A.检索途径B.页面设计精美C.文献时差长短D.著录内容详略5.下列哪项可以扩大检索范围?A.AND B.NOT C.OR D.()四、简答1.按照级别不同,文献分为哪几类?在检索中各有何意义?2.简述印刷型检索工具的一般结构。
3.计算机检索中常用的检索符号有哪些?它们对检索结果有何影响?答案一、名词解释1.信息:指事物存在或运动方式与状态的表现形式或反映,是现实世界事物的反映,它提供了客观世界事物的消息、知识,是事物的一种普遍属性。
2.医学文献:利用不同手段将医学文献记录在不同载体上就形成文献。
3.主题词:表达文献信息的实质内容,经规范化处理的名词术语。
4.数据库:计算机检索中某专业文献信息的集合。
5.查准率:信息检索中检得的相关文献量与检出所有文献量的百分比。
它是评价检索准确性的指标。
二、填空1.情报具有知识性、传递性、效益性、竞争性等属性。
2.常见的三次文献有综述、教科书、手册等。
网络信息资源检索与利用 知识点

第一章1、情报定义:情报室人们用来解决特定问题所需要的,经过激活过程活化了的,具有使用价值的知识或信息。
2、文献定义:文献是记录知识的一切载体,即用文字、图形、符号或者声频等技术手段记录知识的物质载体。
或固化在物质载体上的知识。
文献具有三个属性即文献的知识性、记录性、物质性。
3、信息、知识、情报和文献的关系信息是物质存在的方式、形态和运动规律的表征,人脑对物质属性的感知形成信息,信息是起源,是基础;文献是信息、知识、情报的存储载体和重要的传播工具,信息知识和情报的内容只有记录在物质载体上才能构成文献;文献通过传递、应用于理论和实践又会产生新信息。
4、文献信息源文献信息也称文献资源,是用一定的记录手段将系统化的信息内容存储在各类载体上而形成的一类信息源。
5、文献信息源类型按照信息源的载体类型划分:印刷型缩微型声像型电子型按照信息源的加工程度划分:1)零次文献:零次文献是指尚未经过系统整理形成正式文献的零散资料或最原始的记录,如书信、手稿、笔记等。
2)一次文献:一次文献又称原始文献,是作者对自己研究的成果或创造性活动成果的直接记录。
一般是指公开出版的著作,期刊论文、科技报告、会议文献、学位论文、专利文献等。
3)二次文献:二次文献是将大量分散、无序的一次文献经过筛选、分析、整理,按其内容特征和外部特征进行提炼、浓缩,并按照一定的逻辑顺序和科学体系编制而成的系统化的文献。
二次文献包括目录、文摘、索引等,它们是二次文献的核心。
4)三次文献:三次文献是通过二次文献提供的线索,对某一范围的一次文献进行分析、综合研究、归纳、整理等深加工所生成的文献,包括素萍,百科全书、报告、年鉴、手册、字典等。
6、信息检索:广义上说信息检索是指将信息按照一定的方式组织和储蓄起来。
并根据信息用户的需求查找出相关信息的过程。
7、著录:是根据一定的规则,对文献的内容和形式特征进行分析、选择和记录的过程。
8、标引:1)按照标引的的工作方式分类:分为人工标引、计算机辅助标引、自动标引。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
检索结果修正——在上一次检索结果的范围
内调整检索方案,以期达到更精确的相关信
息。
检索结果排序——自动分析查询到的页面,
根据相关性算法将相关性最大的网页排在前
面。
提供最新收录的新站——向用户公布搜索引 擎新收集了哪些网站。
4
搜索引擎的利用
搜索引擎的使用
常用搜索引擎的使用
搜索引擎的使用
Google搜索引擎语法规则:
1、逻辑关系语法是and、or、not。
1)空格默认为and,即:苹果 电脑=苹果and电脑.
2)但OR、NOT必须大写,小写会被忽略。 如:(苹果OR 联想NOT 方正) 电脑 2、词组或短语检索用“”可以精确匹配。 –J Clin Immunol, 检索结果30,800,000
熟悉经常使用的查询工具及其特性是搜索成功的基础
确定使用哪一类搜索引擎,这是信息检索关键的一步
关键词的选择是运用搜索引擎成功的重要因素 仔细研究该搜索引擎使用说明 使用操作符改善检索过程 要经常监控WWW站点上各个主要搜索引擎的排名情况
(如:)
Google scholar初级检索界面
搜索结果
检索语法规则和表达式:
与Google基本相同,OR要大写.
• 1、主题词:
支持精确检索“”
• 2、著者:
author: NANPING XU • 3 、著者+主题词: • author: Nanping Xu membrane • author: Nanping Xu "microfiltration membranes " author:徐南平
(精确)
被引用次数:推荐使用!
相关文章:查找同属这组学术研究成果的其他文 章,可能是初始版本,其中有预印本、摘要、会 议论文或其他改写本 。
网页搜索:Google 搜索中关于该研究成果的信 息。
图书馆搜索:找到藏有这项学术成果的图书馆。
Google的产品——Google Books
/ /
常见的搜索引擎
1. Google ()
Google是美国斯坦福大学27岁博士生佩基和26岁布林在1998 年创立,短短两年间,便赢得搜索速度最快和搜索结果最精确 的美誉,该网站每天的浏览人数高达4000万人次。 可检索的网页高达30亿多。
推出新的搜索服务Google Scholar。 • • 这是Google和许多科学和研究机构合作的结果,也是 其计划的第一步,最终公司将为研究人员提供学术性论
文、书籍、摘要及技术报告等在内的搜索服务。
• 新的搜索服务提供大量的科学文献引用资料,同时也 为用户提供在线无法找到的图书馆资料.
(3)要及时修改查询策略
•调整你的查询策略,改换搜索引擎。
•通过搜索引擎查找自己想要的网址或信息是最快捷的
方法,也是最佳途径。
•如果要检索一个一般性(或综合性)的题目,不妨试
一下像Yahoo这一类的目录式分类搜索引擎,准会意
外地发现许多相关的网站;而要检索一个有关某个特
定的(或不太清楚的)人或事物的信息,最好使用像 InfoSeek或AltaVista这一类的全文搜索引擎。
全文搜索引擎
目录索引
全文搜索引擎
由一个称为蜘蛛(Spider)的机器人程序以某种 策略自动地在互联网中搜集和发现信息,通过从互联 网上提取的各个网站的信息(以网页文字为主)而建 立的数据库中,再根据用户的查询检索与用户查询条 件匹配的相关记录,然后按一定的排列顺序将结果返 回给用户。
从搜索结果来源的角度再分:
(1)确定你要采用的查询方式
所需要的信息类型选定查询方式、查询范
围、查询时间等,采用什么样的限制方法。
(2)选定一个合适的搜索引擎
这也是最关键的一步,如果要想查中文信息最好
选用中文站点,查英文信息最好选用英文站点;另外
还要根据所需信息内容选定站点,如需查询网址要选
网址索引做得好的站点,例如Yahoo!或Sohu等站点, 如需查询网页信息或一些学术信息,最好去查一些大 学站点开发的搜索引擎,如北京大学的“天网搜索引 擎”等。
每个月Google属下的一万台计算机都要大海捞针似地对互联
网进行搜索,每秒钟搜索的网页数量高达1000页,然后再把它 们编成索引。
索引自1998年前开始积累,现在的条目数量已达到13亿多。
Google中文主页
特点:
–1)傻瓜式的。 –2)无所不能。 –3)全世界任何角落里的资料均能搜索到。 • 例子:学习、生活中所需资料 1、国民生产总值 2006 2、How to give the presentation in Conference? 3、上海浦东机场班车 4、关于轮椅上的博士生侯晶晶的资料 5、南京治疗肠癌的专家是谁? • 科研工作中所需资料 1、寻找科研成果的转化对象 2、实验所需仪器设备和原料的生产厂家 ——万分之一电子天平,高速搅拌机、碳纤维
–―J Clin Immunol ‖ 检索结果314,000
–―J Clin Immunol‖ ISSN, 检索结果256,000 3、不区分英文字符大小写,如:GOD=God=god
Google 高级检索
过滤与选择
限定文献语种、 文件类型
指定网域搜索:
有一些词后面加上冒号对Google 有特殊的含义。
一种是拥有自己的检索程序并自建网页数据库, 搜索结果直接从自身的数据库中调用。 一种是租用其他引擎的数据库,并按自定的格式 排列搜索结果,如Lycos引擎、sohu、sina等。
目录索引式搜索引擎
以人工方式或半自动方式搜集信息,由编辑员
查看信息之后,人工形成信息摘要,并将信息按照一 定的主题进行分类,建立层次目录。大目录下面包含 子目录,子目录下面又包含子目录,如此下去,建立 具有包含关系的层次目录。 收集的信息大多面向网站,提供目录浏览服务。
现在的搜索引擎——第四代搜索引擎放的网页已达30亿
搜索引擎的搜索引擎
搜索引擎之间出现了分工协作,并有了专业的搜索引擎 技术和搜索数据库服务提供商。
国外的Inktomi本身并不是直接面向用户的搜索引擎, 但向包括Overture(原GoTo)、LookSmart、MSN、HotBot 等在内的其他搜索引擎提供全文网页搜索服务。
搜索引擎的使用
1、从头开始——分析你想要的信息的类型,选
择一个合适的搜索引擎去找到你需要的信息。
2、选定信息搜索方法
选定信息搜索方法
要想有一个满意的搜索结果,您必须制定一个很好 的查询策略,选定—个适合自己的信息搜索方法是检索 信息的关键,为此, 需要做好以下工作: (1)确定你要采用的查询方式 (2)选定一个合适的搜索引擎 (3)要及时修改查询策略
搜索引擎的发展:
现代意义上的搜索rchie
1993年Matthew Gray开发 的World wide Web Wanderer ————被称为“蜘蛛” 程序
第一个用于监测互联网发展 规模的“机器人”程序
—以文件名查找文件的系统
第六章 网络信息资源检索
网络能带给我们什么?
学习、生活中所需的资料 1、考研、考博信息 2、出国留学的所有信息 3、火车时刻表、航班、万年历等 4、旅游信息等 …… 科研工作中所需的资料 1、查找相关领域的最新研究进展 2、查找科研成果的转化对象 3、查找原始文献的出处
网络信息资源检索
概述:
多语种检索—— 限制检索结果的语言,
Infoseek/Go(还提供检索结果的自动翻译服
务)、Google
过滤检索——在检索中自动将一些网站信息过
滤掉,或者是将一些重复的网页去除掉。
智能检索:能够自动地分析检索结果,为用户 提供最满意的信息。
多媒体检索
基于描述:用一个关键词来描述所要查找的图片或 是音乐,如用“rocket ”来查找火箭的图片。 基于内容:用一些视觉特征(颜色、形状、纹理) 来查找多媒体信息,如用户首先点选画面中随机产 生的图片中比较符合需求的图片,找到较为相似的 图片,再从中点选更为接近要求的图片,经过数次 互动后,用户可以愈来愈接近想查找的图片。
网络信息检索一般要通过信息的收集、整理、 分类、索引从而产生数据库以供检索。
网络信息检索困难原因分析
• 信息资源分散 • 信息数量庞大 • 检索软件智能低
1 搜索引擎的发展与含义
Data
迅速、准确获取自已 最需要的信息 网络信息资源每4个月 翻一番 信息内容涉及广泛
?为什么要出现
搜索引擎
信息类型众多
最早现代意义上的搜索引擎
1994年7月,Michael Mauldin将John Leavitt的蜘蛛 程序接入到其索引程序中,创建了Lycos。
1995年4月,斯坦福(Stanford)大学的两名博士生, David Filo和美籍华人杨致远(Gerry Yang)共同创办 了超级目录索引Yahoo。
从而对用户提出的各种检索作出响应,提供用户所需
的信息或相关指针。
工作原理
搜索引擎
Web服务器 Web站点
Web站点 客 户 浏 览 器 信 息 检 索 信 息 组 织 机 制 信 息 采 集 机 制
网 络
FTP站点 新闻组 Web站点
数据库
2 搜索引擎工作流程与类型
在互联网中发现、搜集网页信息
信息搜集 系统 索引数据 库
对信息进行提取和组织建立索引库
根据用户输入的查询条件,在索 引库中快速检出文档,进行文档 与查询的相关度评价,对将要输 出的结果进行排序,并将查询结 果返回给用户。
查询接口
涉 及 的 相 关 技 术
网络技术 数据库技术 自动标引技术 检索技术 自动分类技术