网络检索技术

合集下载

网络信息检索作业

网络信息检索作业

网络信息检索作业1.网络信息资源检索常用的检索技术有哪些?答:网络信息资源检索常用的检索技术有(1)布尔逻辑检索(Boolean search)(2)截词检索技术(Truncation search)(3)短语检索(4)临近检索(5)加权检索技术(Weigh search)2.搜索引擎主要分几类,例举各代表性的搜索引擎。

答:(一)按检索方式、方法可划分为:目录型搜索引擎、索引型搜索引擎(1)目录型搜索引擎有代表性的目录型搜索引擎有:Yahoo! 、Galaxy、Look Smart、中文雅虎、新浪、搜狐、网易等。

(2)索引型搜索引擎有代表性的索引型搜索引擎:中英文Google、Hotbot、AltaVista、Ask Jeeves、百度、天网等。

(二)按搜索功能可划分为:独立型搜索引擎、元搜索引擎(1)独立型搜索引擎大多数网络检索工具都是独立型的。

(2)元搜索引擎常用的元搜索引擎有:Dogpile、Metacrawler、Vivisimo、万纬搜索、搜乐搜索等。

(三)按检索内容、主题可划分为:综合型搜索引擎和专业型搜索引擎(1)综合型搜索引擎常用的Yahoo!、百度、Google等。

(2)专用型搜索引擎如医学领域、化学领域、专利信息查询等专门性的网络检索工具。

3.什么是开放存取?答:含义:对某文献的开放存取是指它在 Internet公共领域里可以被免费获取,并允许任何用户阅读、下载、复制、传递、打印、搜索、超链接,也允许用户为之建立索引,用作软件的输入数据或其他任何合法用途。

用户在使用该文献时不受财力、法律或技术的限制,而只需在存取时保持文献的完整性,对其复制和传递的惟一限制,或者说版权的惟一作用应是使作者有权控制其作品的完整性以及作品被正确接受和引用。

4.网络参考信息有哪些类型?答:(1)百科知识检索网站(2)人物信息检索网站(3)地理信息检索网站(4)机构信息检索网站(5)术语信息检索网站(6)统计信息检索网站。

网络信息检索

网络信息检索

网络信息检索网络信息检索是指通过互联网进行信息搜索并获取所需内容的过程。

随着互联网的快速发展,网络信息检索已经成为人们获取信息的一种主要方式。

首先,网络信息检索可以帮助人们高效地获取所需的信息。

在过去,人们需要通过查阅书籍、资料等方式获取信息,而现在只需要在搜索引擎中输入关键词,就可以迅速地找到相关的信息。

这样不仅节省了时间,还能增强信息的实时性和准确性。

其次,网络信息检索使得信息的获取更加全面和多样化。

通过互联网,人们可以获取到世界各地的信息,涵盖了各个领域的知识。

不论是新闻、科技、娱乐还是学术研究,只要有网络连接,人们就可以同时获取到大量的信息资源。

这种全面性和多样性使得人们能够更好地了解世界、拓宽视野。

此外,网络信息检索还使得信息的共享变得更加便捷。

通过网络信息检索,人们可以轻松地把自己的观点、知识和经验分享给其他人。

无论是通过博客、社交媒体还是专业的知识分享平台,人们都可以发布和传播自己的文章、视频、图片等形式的媒体内容,实现了信息的自由流动。

然而,网络信息检索也存在一些问题。

首先,网络信息的真实性和可信度存在一定的挑战。

虽然现在有一些算法和方法来筛选和过滤信息,但仍然存在一些虚假信息和谣言,给人们带来困惑和误导。

其次,网络信息检索也可能导致信息过载的问题。

由于网络上信息呈爆炸式增长,人们有时很难找到自己真正需要的信息,也容易被各种信息所干扰。

综上所述,网络信息检索在今天的互联网时代扮演着极为重要的角色。

它不仅提供了高效、全面和多样化的信息获取方式,还促进了信息的共享与交流。

然而,我们也需要保持对信息真实性的判断力,并学会应对信息过载的问题,以更好地利用网络信息检索为我们的学习、生活和工作带来便利和价值。

网络信息检索是当今互联网时代的重要工具和技术。

它不仅改变了我们获取信息的方式,还为我们提供了全球范围内的知识、娱乐和资源。

本文将继续探讨网络信息检索的重要性,并进一步讨论它的应用领域、技术挑战和未来发展趋势。

网络信息资源检索技术

网络信息资源检索技术

军队由于扼杀自由和抢劫,已经沦为一把双刃剑,对谁都没有 安全感。 关键词拟定: 军队 army 扼杀自由 liberticide 双刃剑:double-edged sword 抢劫 由于同义词、近义词太多:<robbery>
<mugging> <hijack> <heist> <highjack> <plunder> <stick-up> <spoilation> <dacoity> <pillage> <brigandage> <rob of> <rifle> <expilare> <despoilation> <mugged> <prey> 所以建议舍弃。由以上三个词已经可以构成
在百万上千万的网页中,使得它们事实上不能被用来帮助 找到什么有用的信息(除非和别的关键词一起使用),比如说 “气温”,有无数个网站提供跟“气温”相关的信息,从 地方天气预报到学术论文到气象学科普等等,所以使用更 多的关键词或更明确的关键词来检索要比单纯检索“气温” 好得多,例如设计一个类似“北京冬季气温零下”这类特 殊的搜索关键词。 3、在检索提问时避免使用行为关键词,谨慎使用修饰词。----第3个检索技巧
其实上面,Jan在列检索词时罗列了太多的无用词,例如 building,daylight似乎没有必要。我们可以更改一下: 第一、该鸟应为食肉类动物:可以定检索词为“猛禽”,英 文为raptor,bird of prey。我们利用中文来进行检索; 第二、该鸟的体形:类似于乌鸦。鸦类在鸟类中体形较大, 大致在50—70厘米之间。可以利用50厘米来进行检索; 第三、该鸟的毛色:灰白相间; 第四、该鸟的喙:黄黑相间。 利用Google检索,找到“泡泡社区--‖逛‖中国濒危珍稀动 物————鸟类”,网址为 /040410/959254-2.html 上面有各种鸟类的图片,可以确定所看到的鸟类应为“游 隼”。 第五、利用“游隼*生活习性”来检索到以下网址: /dispbbs.asp?boardid=36&id=1466 野生动物保护论坛。

网络信息检索技术

网络信息检索技术

网络信息检索技术网络信息检索中,基本的检索技术有布尔逻辑检索、截词检索、位置检索、限制检索等。

一、布尔逻辑检索逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。

布尔逻辑检索就是采用布尔关系运算符来表达检索词与检索词之间逻辑关系的检索方法,目前最常用的布尔逻辑运算符主要包括逻辑“与"(AND)、逻辑“或"(OR)、逻辑“非”(NOT)。

(一)逻辑“与”逻辑“与”,也称为逻辑乘,用AND表示,是用来组配不同含义检索词之间的限定关系。

检索词A、B以AND (或“*")相连,即A AND B (或A*B),表示同时包含A、B两词的文献才是命中记录,因而逻辑“与”运算用于对检索词进行限定,从而缩小检索范围,提高检索结果的查准率。

例如,要查找children education (儿童教育)方面的文献,检索逻辑式可表示为“children * education”或者“children AND education” o运算的结果是同时含有检索词children和检索词education的文献才被检索出来。

(二)逻辑“或”逻辑“或”,也称为逻辑加,用OR或者"+”表示,是用来组配同义或者同族检索词之间的并列关系。

检索词A、B若以OR或“+”相连,即A OR B(或A+B),表示只要含有A、B之一或者同时包含A、B的文献都是命中记录。

因而逻辑“或” 运算可用于扩大检索范围。

例如,要查找“汽车”方面的文献,因为汽车在英语中可以用car或者automobile表示,所以为了将有关汽车的文献全部检出,避免漏检,检索逻辑式就可表示为“car OR automobile”或者“car + automobile” o运算的结果是含有car或者automobile任意一个或者同时两个的文献均被检索出来。

(三)逻辑“非”逻辑“非”用NOT或者"-”来表示,是用来组配概念的包含关系,可以从原检索范围中排除一部分,因而使用逻辑“非”运算可以缩小检索范围。

网络搜索与信息检索技术

网络搜索与信息检索技术

网络搜索与信息检索技术随着互联网的快速发展和普及,人们获取信息的方式也发生了翻天覆地的变化。

通过网络搜索引擎,我们可以轻松地获取到庞杂而丰富的信息资源,而其中背后起着重要作用的就是网络搜索与信息检索技术。

本文将为您详细介绍网络搜索与信息检索技术的定义、原理和应用领域。

一、网络搜索与信息检索技术的定义网络搜索与信息检索技术是通过利用计算机和互联网的力量,对海量的、分散的、异构的信息资源进行收集、分析、筛选和组织,以提供准确、有效、个性化的搜索结果的一种技术手段。

二、网络搜索与信息检索技术的原理1. 数据收集:网络搜索与信息检索技术通过网络爬虫程序定期抓取互联网上的各类网页,并存储为一个个的索引文件,以备后续的处理和查询。

2. 数据分析:在数据收集的基础上,搜索引擎会对抓取到的网页进行分析和处理,提取出页面的关键字、标题、描述等信息,并建立相应的索引文件,用于加速后续的搜索过程。

3. 查询处理:当用户输入查询关键词后,搜索引擎会通过与索引文件的对比,找到与查询条件匹配的网页,并按照一定的算法进行排名,以显示最相关的结果。

4. 结果展示:搜索引擎将根据排名规则,将搜索结果展示给用户。

常见的展示方式包括网页链接、摘要和相关图片等。

三、网络搜索与信息检索技术的应用领域1. 学术研究:学术界通过网络搜索与信息检索技术可以方便地查找到大量相关的期刊论文、学位论文等,为科研工作者提供了便捷的文献检索工具。

2. 商业应用:在商业领域,网络搜索与信息检索技术被广泛应用于市场调研、竞争情报等领域,帮助企业了解市场动态,预测趋势,优化产品和服务。

3. 搜索引擎优化:对于网站营销人员而言,网络搜索与信息检索技术是其工作的核心。

优化网站的结构和内容,提高网站在搜索引擎中的排名,有助于增加流量和提升用户体验。

4. 社交媒体:社交媒体平台通过网络搜索与信息检索技术,可以根据用户的兴趣和需求,推荐相关的朋友、话题和资讯,提供个性化的服务。

信息检索技术在互联网搜索中的应用

信息检索技术在互联网搜索中的应用

信息检索技术在互联网搜索中的应用互联网的快速发展使得我们可以在网上轻松获取各种信息。

但是因为信息的爆炸性和网络的匿名性,我们不得不在浩如烟海的信息中寻找出自己所需要的资料。

然而,人工的搜索难免会有误判和疏漏,而信息检索技术则是一种有效的方法来处理这些问题。

信息检索技术是一种处理和组织信息的技术。

它通过分析和处理信息来帮助用户快速找到他们需要的信息。

这种技术可以应用于各种各样的工作中,例如智能客服、搜索引擎、大数据分析等。

在这篇文章中,我们将重点分析信息检索技术在互联网搜索中的应用。

一、信息检索技术信息检索技术是一种基于自然语言处理和数据挖掘的技术。

它通过处理和解释用户的搜索词汇,帮助用户找到他们所需要的信息。

信息检索技术通常是通过搜索索引来实现的。

搜索索引是一种包含搜索引擎所找到的网页的数据库。

通过搜索索引,搜索引擎可以从海量数据中快速查询用户所需要的信息。

信息检索技术的核心是分词、索引和排序。

分词指的是将用户的搜索词汇拆分成各个单词。

这个过程是通过自然语言处理技术来实现的。

分词的目的是让搜索引擎能够更好地理解用户的搜索词,从而更准确地匹配信息。

索引是将搜索引擎所搜集到的网页和内容分门别类地存放在数据库中。

这样,当用户使用搜索引擎进行搜索时,搜索引擎可以更快速地找到用户所需要的信息。

排序是将搜索引擎所找到的所有网页按照用户的需求按照相关性、可信度、时间等多个指标进行排序。

通过排序,搜索引擎可以帮助用户更快地找到他们所需要的信息。

二、信息检索技术在搜索引擎中的应用信息检索技术的应用非常广泛,其中最常见的就是搜索引擎。

搜索引擎是一种通过搜索索引来帮助用户查找互联网上信息的工具。

搜索引擎利用信息检索技术帮助用户快速地找到他们所需要的信息。

在搜索引擎中,信息检索技术负责将用户的搜索关键词拆分成各个单词,并将这些单词与搜索索引中的内容进行匹配。

通过匹配,搜索引擎可以找到与用户的搜索词相关的网页。

然后,搜索引擎会通过排序来显示与用户需求相关的信息。

网络信息检索的原理及技术

网络信息检索的原理及技术

1.1搜索引擎综合分类
(1)全文搜索引擎 (2)目录搜索引擎
(3)元搜索引擎
网络信息检索的原理及技术
全文搜索引擎的工作原理
网络信息检索的原理及技术
常用的中文搜索引擎
网易搜索引 擎
雅虎中国搜 索引擎
搜狐搜索 引擎
北大天网中英 引擎
网络信息检索的原理及技术
网页1链出个数
+ —网—页—2—级—别—...+—网—页—N—级—别—
网页2链出个数
网页N链出个数
网络信息检索的原理及技术
9.7网络信息检索的研究热点
• 9.7.1 海量数据的存储与处理
A
Group
B
Group
C
Group
(1)海量数据的 磁盘列存储技术
(2)海量数据 存储模式
• DC元数据规范最基本的内容是包含十五个元素的元 数据元素集合,用以描述资源对象的语义信息。
题名Title 创建者Creator 日期Date 主题Subject 出版者Publisher 类型Type 描述Description
其他责任者Contributor 格式Format 来源Source 权限Rights 标识符Identifier
中进行存储和获取。如果提供数据元的组织同时提供描述数 据元的元数据,将会使数据元的使用变得准确而高效。用户 在使用数据时可以首先查看其元数据以便能够获取自己所需 的信息。
(随便告诉大家元数据是元数据是一种二进制信息,用以对存储在公共语言 运行库可移植可执行文件 (PE) 或存储在内存中的程序进行描述)
• (大家可以想象下我们经常使用PPT中的那个超级链接,个人觉得和那 个很相似)
网络信息检索的原理及技术

网络信息检索技术简介.ppt

网络信息检索技术简介.ppt

数字图书馆标准体系
1. 数字资源加工和描述标准体系 ,这类
标准体系的内容主要涉及:数字文件 格式标准、数字文件标识标准、数字 对象描述性元数据模式框架和具体描 述格式、元数据内容描述体系。
2. 数字资源生命周期标准框架,围绕数
字资源创建、描述、组织、检索、服 务和长期保存的整个生命周期来规划、 设计、组织标准规范。
互联网信息检索基础平台
解决方法:以Web技术中的Webservice为 核 心,结合OAI元数据采集系统构 建馆内资源整合系统。
二.组织间的信息共享整合
各个高校科研机构一般都有很多自有的特 色数据资源,但这些资源的使用一般都限 于各个单位内部,缺乏一种协调管理和共 享机制,各单位投入大量的资金,建立的 信息资源的使用效率极为低下,而且存在 很多资源重复建设问题。
标准在数字图书馆建设中的重要性
通过从图书馆自身建 设和资源共享两方面分 析,
可以说,在数字化网 络化环境下,任何孤立、 封闭的数字图书馆系统 都将失去生存和发展的 能力,而实现一个开放、 互操作和集成的数字图
书馆系统的基础是标准 规范。
数字图书馆与互联网基础研究
随着数字图书馆研究的进一步发展, 数字图书馆基本概念已经扩展成为“新一 代互联网的信息管理模式”研究。
数字图书馆与互联网基础研究
➢ 数字图书馆的一个较为公认的定义就是:数字图 书馆是采用现代高新技术支持的数字信息资源系 统,是下一代互联网上信息资源的管理模式,它 将从根本上改变目前互联网上信息分散、不便使 用的现状。
➢ 数字图书馆研究和互联网基础体系研究已经相互 融合而不再是毫不相关的两个独立领域。
➢ 标准制定时以简单易行为原则,同时加 强和国际化组织的合作。在图书馆这样 的环境中,一些看似精美,但复杂程度 较高的标准一般都难以实施。而要让数 字图书馆的解决方案真正成为整个互联 网的解决方案,和一些互联网标准化组 织如IETF(Internet Engineering Task Force)、W3C(World Wide Web Consortia)等合作,数字图书馆研究要 进一步发展,走国际化合作的道路是必 由之路。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的PageRank就是这种思路的成功体现
(3)查询服务
如上述,从一个原始网页集合S开始,预处理过程中得到的是对S的 一个子集的元素的某种内部表示,这种表示构成了查询服务的直接基 础。对每个元素来说,这种表示至少包含如下几个方面:
原始网页文档 URL和标题 编号 所含的重要关键词的集合(已经它们在文档中出现的位置信息) 其他一些指标(如重要程度,分类代码)
倒排索引 相关排序
搜索引擎的发展趋势
索引
搜索引擎主要针对全文进行索引以及检索,所谓全文检索, 就是给定一个字符串或字符串逻辑表达式,对文档库进行相 应的检索,查找出与指定表达式相匹配的文档,并将包含这 些文字信息的文档作为检索结果返回给用户。
目前主流的全文索引模型主要有倒排索引 (Inverted index)、 署名文件(Signature Files)、位图(Bitmaps)和 Pat 数组(Pat Arrays)等。倒排索引的目前多数搜索引擎的一种全文索引模 型。
(2)网页预处理
网页预处理是指从网页集合形成倒排文件的过程。主要包括四个方 面:
关键词提取 HTML文档比较随意,格式不规范,为了支持后面的查询服务,需要
从网页源文件中提取出能够代表它的内容的一些特征,即关键词。对于中
文来说,就是要根据一个词典,用一个所谓“切词软件”,从网页文字中 切
出所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了, p={t1,,t2,…,tn}。 重复或转载网页的消除
一个就够了”。因此,消除内容重复或主题内容重复的网页是预处理阶段 的
一个重要任务。 链接分析
HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关
网页重要程度计算 为结果排序服务的,但既然是在预处理阶段形成的,就是和用户查
询无关的。“被链次数较多的网站较为重要”。作为Google创立核心技 术
基于字符串匹配的分词方法
这种方法又称为机械分词方法,它是按照一定的策略将待分析的汉字字 串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串, 则匹配成功(识别出一个词)。按照扫描方长度优先匹配的情况,可以分为最 大或最长匹配,和最小或最短匹配;按照是否与词性标注过程相结合,又可 以分为单纯分词方法和分词与标注相结合的一体化方法。
查询方式和匹配 查询方式指的是系统允许用户提交查询的形式。用一个词或者短语来直
接表达信息需求,希望网页中含有该词或者该短语中的词,是主流的搜索引 擎查询模式。对查询式进行分词,去停用词后与索引词进行匹配。包含了查 询词的文档被认为是相关的文档。 结果排序 文档摘要
搜索引擎给出的结果是一个有序的条目列表,每个条目有三个基本的元 素:标题,网址和摘要。其中的摘要需要从网页正文中生成。
不同的。
由于对海量的信息进行高质量的人工分类已经不太现实,Yahoo!这 种靠人工整理网站目录取得较高精度查询结果的优势逐渐退化。
搜索引擎是一种在web上应用的软件系统,它以一定的策略在web上 搜集和发现信息,在对信息进行处理和组织后,为用户提供web信息查 询服务。
独立搜索引擎、元搜索引擎
一些著名的搜索引擎:Google, AllTheWeb, Ask Jeeves, HotBot, Lycos,搜索引擎北大天网开始提供服务。 早期搜索引擎主要使用基于文档内容信息的匹配和排序算法,较典型的 包括布尔模型、向量空间模型、概率检索模型、模糊集合模型、扩展布 尔检索模型等。第一代搜索引擎往往以反馈结果的数量来衡量检索结果 的好坏,即“求全”
第二代搜索引擎
1998年推出的Google搜索引擎,因其采用了独特的PageRank技术, 使之很快后来居然成为当前全球最受欢迎的搜索引擎。随着Google的出 现,第二代搜索引擎诞生。
1993年Matthew Gray开发了world wide Web Wanderer,它是世界 上第一个利用HTML网页之间的链接关系来监测认web发展规模的“机器 人”(robot)程序。刚开始它只用来统计互联网上的服务器数量,后来则 发展为能够通过它检索网站域名。
第一代搜索引擎
1994年4月,第一个搜索引擎WebCrawler (http: //www. webcrawler. com)在美国诞生。同年5月, Lycos (http: //www. lycos. com)也在美国出 现。
1994年4月,斯坦福大学的两名博士生,David Filo和Gerry Yang共 同创办的Yahoo!门户网站就是典型的分类目录式网络搜索。Yahoo! 网站成功地使网络信息搜索的概念深入人心。
在很多时候,人们也称这类的网站提供的信息搜索功能为搜索引擎, 但是从技术上讲,这类门户网站提供的搜索服务与后述搜索引擎是很
2000年,最大的商业中文搜索引擎上线。 第二代搜索引擎依靠机器抓取,建立在超链分析基础之上,提高了查准 率,检索思想、方法和目标有了根本性的改变。
第三代搜索引擎
从2003来开始,致力于解决现有搜索引擎服务的问题。一个是以 Google为主的“技术驱动型”理念,还有雅虎、搜狐等;一个是
Jwmguagua (精武门呱呱)为主的“服务驱动型”理念。
倒排索引 相关排序
搜索引擎的发展趋势
搜索引擎的工作原理
现代大规模高质量的搜索引擎一般采用三段式的工作流程, 即:网页搜集、预处理和查询服务。
(1)网页搜集
面对ቤተ መጻሕፍቲ ባይዱ量的用户查询,系统不可能每来一个查询就到网上“搜集”一 次。大规模搜索引擎服务的基础应该是一批预先搜集好的网页(直接
的或间接的)。 网页数据库维护的基本策略:
中文分词原理
中文信息和英文信息有一个明显的差别:英语单词之间用 空格分隔;而在中文文本中,词与词之间没有天然的分隔符, 中文词汇大多是由两个或两个以上的汉字组成的,并且语句 是连续书写的。这就要求在对中文文本进行自动分析前,先 将整句切割成小的词汇单元,即中文分词(或中文切词)
自动分词的基本方法有: 基于字符串匹配的分词方法 基于理解的分词方法 基于统计的分词方法
动态方式:即在响应查询的时候,根据查询词在文档中的位置,提取出周围的
文字来,在显示时将查询词标亮。这是目前大多数搜索引擎采用的方式。
WWW
用 户 接 口
检 索 器
索引DB
索 引 器
原始DB
控 制 器
搜 集 器
用户行为 日志DB
日志分析器
SE的体系结构
TES系统结构
提纲
网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术
搜索引擎出现只有十多年的历史,但在web上已经有了确定不移的地 位。据CNNIC统计,2009年搜索引擎服务的使用率排名第三,约为 73%。虽然它的基本工作原理己经相当稳定,但在其质量、性能和服务 方式等方面的提高空间依然很大,研究成果层出不穷,是每年WWW学 术年会的重要论题之一。
提纲
网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术
具体的搜集过程: “爬取”:将网页集合看做一个有向图,爬取程序从给定的其实 URL集合S开始,沿着网页链接,按照某种策略遍历网页集合。 让网站让网站拥有者主动向搜索引擎提交它们的网址,系统在一定 时间内(2天到数月不等)定向向那些网站派出“蜘蛛”程序,扫描 该网站的所有网页并将有关信息存入数据库中。 在第一次全面网页搜集后,系统维护相应的URL集合S,往后的搜集 直接基于这个集合。每搜到一个网页,如果它发生变化并含有新 的URL,则将它们对应的网页也抓回来,并将这些新URL也放到 集合S中;如果S中某个URL对应的网页不存在了,则将它从S中删 除。
网络搜索技术
提纲
网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术
倒排索引 相关排序
搜索引擎的发展趋势
提纲
网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术
倒排索引 相关排序
搜索引擎的发展趋势
网络搜索概述
(1)网络搜索与传统信息检索的区别
检索对象集的规模和更新速度不同 传统的IR的对象一般是规模相对有限、内容相对稳定的馆藏;而网 络检索面对的是浩如烟海的web网页,而且网页的更新速度相当快, 也存在网页被删除的情况。
目前,搜索引擎已经成为了主流的网络搜索方式。本次 报告只涉及搜索引擎中的基本原理和主要技术。
(3)搜索引擎发展历史
搜索引擎发展端倪
1990年加拿大麦吉尔大学 (universityofMcGiu)计算机学院的师生开 发了一个软件Archio,公认为是现代搜索引擎的鼻祖。为了便于人们在 分散的FTP资源中找到所需的东西,它通过定期搜集并分析FTP系统中 存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。
静态方式:即独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出 一些文字,例如截取网页正文的开头512个字节(对应256个汉字),或者将每一个段落 的第一个句子拼起来,等等。这种方式对查询子系统来说是最轻松的,不需要做另外 的处理工作。但这种方式的一个最大的缺点是摘要和查询无关,当用户输入某个查 询,他一般是希望摘要中能够突出显示和查询直接对应的文字,希望摘要中出现和他 关心的文字相关的句子。
与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来 了便利,这种现象对于广大的网民来说是有正面意义的,因为有了更多的 信息访问机会。但对于搜索引擎来说,则主要是负面的;它不仅在搜集网页 时要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,无意义
地消耗了计算机显示屏资源,也会引来用户的抱怨,“这么多重复的,给 我
技术驱动型对第三代搜索引擎这样描述:第三代搜索,是对整个网页做 一种分析和数据挖掘,不仅要找到更多的结果,而且要更加智能化、人性 化、更加精确,能够理解用户需要什么结果,然后进行聚合和整理。
服务驱动型对第三代搜索引擎的描述是:“第三代全能搜索”概念认为, 随着搜索引擎服务在互联网市场的重要性日益突出,以信息搜索为主体的 服务模式,已经显露出单一化的趋势。搜索引擎技术的发展需要在进一步 优化搜索技术的前提下,寻找更大的服务市场和更大的经济运行空间。
相关文档
最新文档