搜索引擎发展综述

合集下载

搜索引擎技术的现状及发展趋势

搜索引擎技术的现状及发展趋势
数据库系统, 数据最大的特点就是半结构化。而搜 索引擎文本信息处理的首要任务就是将这些异构 的、 半结构化的信息的结构化处理, 否则一切分析 工作无从谈起。解决这一问题 , 就必须要有一个半 结构化数据模型来描述 Web 上的数据。并且 , 还 需要一种半结构化数据抽取技术。 移动代理 ( Mobile Agent ) 技术 是一种新型分 布式计算技术, 是指在网络上具有移动能力的、 能 够自主运行的、 按照用户的要求完成指定任务的程 序。移动代理技术是新一代分布式计算技术 , 移动 代理与传统分布式计算技术完全不同。在移动代 理模式下 , 客户机向服务器提交的不再是一些简单 的请求, 而是包含代码和数据的移动对象。移动对 象代表用户 , 按照 程序靠近数据! 的原则 , 在服务 器间自主的移动 , 完成数据处理的任务。基于移动 代理的模式之上的应用程序可以大大节省网络带 宽, 有效克服网络延时带来的种种问题, 可以智能 化的自主异步执行。它克服了搜索引擎传统的 数 据靠近程序! 的运行模式 , 大大降低了网络的数据 流量 , 节省了网络资源。 XML( eXtensible Markup Language ) 是一种中介 标示语言( Meta markup Language) , 可以提供描述结 构化资料的格式, 它是类似于 HTML, 被设计用来 描述数据的语言。XML 提供了一种独立的运行程 序的方法来共享数据 , 它是用来自动描述信息的一 种新的标准语言 , 它能使现有网络技 术把 Internet 的功能由信息传递扩大到人类其他多种多样的活 动中去 , 例如电子商务 等[ 8] 。ML 的出现为我们 提供了半结构数据模型抽取的思路。即对站点信 息经过半结构化抽取以后, 产生信息的 XML 语言
3 引擎技术的发展趋势
搜索引擎的发展已经取得了非常令人瞩目的 成就。随着网上信息数量、 种类的不断增加、 服务 需求水平的不断提高, 用户对搜索引擎提出了更高 的要求。当前 , 计算机技术日新月异的发展也为研 制开发高性能的搜索引擎提供了便利条件。 3. 1 各种搜索引擎正在走向不断融合 各种搜索引擎技术并不是一个并行发展的过 程, 而是一个不断融合不断自我完善的过程。这一 点, 上网用户在应用搜索引擎时就会深有体会。元 搜索引擎的出现便是一个典型的例子 , 目录式搜索 引擎的优点是信息准确 , 缺点是信息量小, 目录 的维护耗费的人力资源大; 机器人搜索引擎的优点 是信息量非常大, 耗费的人力资源很小, 但精确度 难以做得很高 ; 而元搜索引擎 则集中了两者 的优 点。 3. 2 基于 Web 的文本信息挖掘技术 基于 Web 的文本信息挖掘技术是将数据挖掘 的思想应用到 Web 文本信息处理中的一项技术 , 它涉及到文本分类、 索引、 聚类、 查询匹配等各项技 术, 它在 Web 个人浏览辅助工具中有着 广泛的应 用。由于引入了数据挖掘、 人工智能的处理方法 , 基于 Web 的文本信息挖掘技术大大提高了文本分 类的准确度、 文本索引对文本描述的全面性以及用 户查询匹配的精度。搜索引擎 Excite 通 过模式提 取和识别抽象化搜索条件与文档之间的关系, 大大 提高了文档的查全率。有人提出了应用模糊方法 构建智能搜索引擎的思想, 即在搜索引擎中引入模 糊方法, 来构建更有效的搜索引擎 [ 7] 。 3. 3 Robot 技术向分布式 、 智能化方向发展 如前所述, Robot 技术大大降低了人工搜集信 息的难度 , 但它的盲目性也给网络带来了麻烦。随 着分布式处理技术的发展, Robot 技术也正在由集 中式向分布式发展 , 即一个 Robot 只对特定区域进 行信息采集, 各个 Robot 之间协同工作 , 这样就大 大提高了 Robot 进 行信息采集的速 度。基于 Web 的文本信息挖掘技术通过对 Robot 采集 的信息的 处理 , 例如站点摘要处理、 站点更新速度处理等, 可 以为 Robot 的路径选择、 运行周期等加以控制 , 从 而降 低 Robot 的盲 目 性, 大大 提 高 Robot 的 智 能 性[ 8] 。 另外 , 随着网络应用的增多, Robot 搜索的范围 也不仅限于 Html 文档, 现在已经出现了搜索 FTP、

医学文献检索试题(含答案)

医学文献检索试题(含答案)

医学文献检索试题(A)《医学信息检索》试题一、名词解释(共 5 题,每题 3 分,共 15分)1. 信息素养:是指判断何时、何地需要信息,并能有效的定位、获取、评价和利用信息的一系列能力的总和。

2. 引文检索:是以被引用文献为检索起点来查找引用文献的过程。

3. 索引:将内容中有检索意义的标识提取出来,按某种方式进行排序,以便于查询。

4. 书目数据库:是一种提供文献的各种特征,如文献篇名、作者、文献出处、摘要、馆藏单位的数据库。

5. 元搜索引擎:也称集成搜索引擎,是建立在异地搜索引擎基础上的虚拟智能整体,本身不一定建立网络信息索引数据库。

检索时,用户通过统一的检索界面,可同时链接多个或多种独立搜索引擎进行查询,将检索结果作出相关度排序后显示给用户。

二、单项选择题(共 15 题,每题 2 分,共 30 分)1. 关于信息的说法错误的是( b )。

A.信息是客观事物的运动状态和特征的反映B.信息是客观的C.信息是无形的,不断变化发展的D.信息的存储形式有多种2. 以下属于二次文献的是( c )。

A.述评B.研究报告C.索引D.专著3. 检索文献数据库时,下列哪种方法不能扩大检索范围( a )。

A. 主题词加权B. 用ORC. 用主题词扩展D. 采用截词4. 哪个途径是从文献的内部特征进行检索的( a )。

A. 分类途径B. 号码途径C. 作者途径D. 刊名途径5. 下列说法中错误的是( d )。

A. 综述是有关研究某一问题或某些问题的文章B. 综述是从一定时间内的大量的文献中摘取的情报C.综述是对特定的问题利用有关的情报进行的综合性叙述D.综述的目的是建立新知识6. 计算机文献检索中,每一种文献特征对应于计算机数据库中的( c )。

A. 一条记录B. 一篇文献C. 一个字段D.一个文档7. 下面哪个检索式的作用与短语检索"digiatal camera"等价:( a )。

A. digiatal (W) cameraB. digiatal (N) cameraC. digiatal AND cameraD. digiatal OR camera8. Medline光盘数据库的内容涵盖三种重要的纸本医学文献检索工具,它们是( d )。

智能搜索引擎发展现状及关键技术

智能搜索引擎发展现状及关键技术

能够实现信息服务的智能化 、人性化 、高效化 ,
数的增长 ,人们将 怎样在 网络上搜索 自己需要 的信息 。传统的搜索 引擎技 术在 日益庞大的信 息量面前逐渐显得力不从心。 在 这样的状 况下 , 智能搜索引擎技术应运 而生 ,也成为 当前搜索
第三代搜索 引擎 的智能化、人性化特征 ,不再 为 用 户 检 索 互 联 网信 息 提 供 了方 便 ,其 发 展 是 局 限于机械的 关键词检索 ,可以直接对用户输 入的检索词进行语义分析整合 ,满足了用户更 快 、更准、更方便的查询需求。
章 中有较全面 的综述 ),由此来提高搜索结果
的质量 。
的各个领域 。数据挖掘 又可称为数据库 中的知 识发现 ,指的是从存放数据库 、数据仓库货其 他信息库中的大量数据中获取有效的、 新颖 的、
潜在 有 用 的 、 最 终 可 理解 的模 式 的 过程 [ 5 】 。
从第 一代 搜索 引擎 到第 二代 搜索 引擎 是
参考文献
[ 1 ] 浅析 第 三 代 搜 索 引 擎 的 发 展 … .包 瑞 . 晋 图 学 刊,2 0 1 0 年第4 期 ( 总第
1 1 9期 ) .
基于 关键 词和特 殊算法 的搜索 ,是 依靠机 器 条进行 匹配 ,在 待分析 汉字串 与词典 中已有的
抓取 的、建立在超链分析 基础上的大规能满足网民的 检索需求 ,用户在信息检索过程 中有仍存在查 全率、查准率低 , 检索 多媒 体信息 的能力 差等。

个长期的过程 。目前的搜索 引擎 主要提供 基
于 文 字 内容 的 信 息 检 索 服 务 ,而 对 于 进 一 步提
高检索结果的相关 、个性化检索服务 、支持多 媒 体检 索、支持 自然语 言检索 、 增 强检 索界

搜索引擎检索功能的性能评价研究

搜索引擎检索功能的性能评价研究

搜索引擎检索功能的性能评价研究搜索引擎作为现代社会获取信息的重要工具,其检索功能的性能直接影响着用户的信息获取体验。

随着互联网信息的爆炸式增长,搜索引擎检索功能的重要性日益凸显。

本文将介绍搜索引擎检索功能的基本概念、作用及其发展现状,并综述当前的性能评价研究现状、常用指标和评价方法,最后对比不同指标或评价方法的优缺点,分析其适用场景和应用前景,并提出未来发展方向。

搜索引擎检索功能是指搜索引擎通过一定的算法和策略,从互联网海量的信息中提取出与用户输入的关键词相关的有用信息。

这些信息可以是网页、图片、视频等多种形式。

搜索引擎检索功能的主要作用是帮助用户快速、准确地找到所需信息,提高信息获取的效率和准确性。

随着互联网信息的不断增加,搜索引擎检索功能的性能也面临着越来越大的挑战。

对于搜索引擎检索功能的性能评价研究,当前常用的指标包括准确率、召回率、F1得分、平均绝对误差等。

其中,准确率是指检索到的结果中与用户输入关键词相关的比例,召回率是指所有与关键词相关的结果中被检索到的比例,F1得分是准确率和召回率的调和平均数,平均绝对误差则反映了检索结果与真实结果之间的差异。

还有一些新的评价指标,如语义匹配度、用户满意度等,但这些指标的客观性较差,主观性较强。

评价方法方面,主要有基于排序的评价方法和基于分类的评价方法。

基于排序的评价方法是根据检索结果与用户输入关键词的相关程度对结果进行排序,将排在前面的结果视为更有用的结果。

常见的基于排序的评价方法有PageRank算法、BM25算法等。

而基于分类的评价方法则是将检索结果分为与关键词相关的类别和无关的类别,通过分类准确率等指标来评价检索结果的性能。

不同指标或评价方法都有其优缺点。

准确率和召回率是经典的指标,简单易懂,但无法全面反映检索结果的性能。

F1得分则在一定程度上解决了这个问题,但仍然存在一定的局限性。

平均绝对误差指标直观易懂,但计算复杂度较高且无法反映检索结果的全局性能。

文献检索综述报告

文献检索综述报告

文献检索综述报告
一、引言
文献检索是学术研究的重要环节,能够帮助研究者快速找到所需资料,为研究提供有力支持。

本报告将对文献检索的方法、技巧和工具进行综述,以期为研究者提供有益的参考。

二、文献检索方法
直接检索法:直接通过关键词、作者、标题等关键信息在图书馆、数据库等资源库中查找文献。

引文追踪法:通过已知的文献,追踪其引用的文献,从而找到相关领域的核心文献。

综合检索法:结合以上两种方法,通过多种渠道和途径查找文献,以获得更全面的资料。

三、文献检索技巧
使用关键词:关键词的选择对于检索结果的影响非常大,应选择与主题相关的关键词进行检索。

筛选文献:在获取大量文献后,应仔细筛选,选择与主题相关、质量较高的文献进行阅读和引用。

使用高级检索功能:大多数数据库都提供高级检索功能,如限定时间范围、限定学科领域等,应充分利用这些功能提高检索效率。

四、文献检索工具
图书馆资源:图书馆是文献检索的重要场所,包括纸质书籍和电子资源。

网络资源:网络上也有许多免费的学术资源,这些资源可以作为补充。

学术搜索引擎:这些搜索引擎能够帮助研究者快速找到相关文献。

五、结论
文献检索是学术研究的重要环节,需要掌握一定的方法和技巧。

通过合理使用文献检索工具和资源,研究者可以快速找到所需资料,为研究提供有力支持。

在未来的研究中,随着技术的不断发展,文献检索的方法和工具也将不断更新和改进,为研究者提供更加便捷和高效的服务。

大众网络健康信息搜寻行为研究综述

大众网络健康信息搜寻行为研究综述

总结来说,国外健康信息搜寻行为研究虽然取得了一定的成果,但仍有许多 问题需要进一步研究和探讨。未来,这一领域将朝着更加精细化、个性化的方向 发展,为人们提供更高质量、更个性化的健康信息搜寻服务。
感谢观看
健康信息搜寻行为研究的另一个重要内容是信息质量评估。一些学者从可信 度、准确度、全面度等方面对搜索结果进行评价。例如,有学者提出了一种基于 机器学习的网页可信度评估方法,取得了较好的效果。另外,还有一些学者通过 对比不同搜索引擎的搜索结果,来评估其信息质量。例如,有学者对比了Google 和Bing搜索引擎在搜索特定关键词时的结果,发现Google的结果在可信度和准确 度上较Bing更高。
1、信息质量与可信度:如何保证网络健康信息的准确性和可信度是一个重 要的问题。未来的研究可以探索如何利用人工智能和自然语言处理技术来评估和 提升健康信息的质量。
2、个性化与定制化:针对不同用户的需求和特征,如何提供个性化的健康 信息搜寻服务是一个值得研究的问题。未来的研究可以探索如何利用大数据和机 器学习技术来提供定制化的搜索健康信息搜寻行为模式主要分为以下几类:
1、搜索引擎主导模式:用户通过搜索引擎,如Google、Bing等,输入关键 词进行健康信息搜寻。这种模式是最常见的一种网络健康信息搜寻方式。
2、健康网站主导模式:用户通过访问专门的健康网站,如WebMD、Mayo Clinic等,获取各种健康信息。
二、研究方法
国外学者采用多种方法对健康信息搜寻行为进行研究。其中,文献综述是最 常用的方法之一。这些综述主要涉及心理学、社会学、计算机科学、医学等学科。 此外,还有一些实证研究采用问卷调查、观察、访谈等方法来收集数据。
三、研究内容
1、用户行为研究
用户行为是健康信息搜寻行为研究的重要内容之一。一些研究表明,用户在 搜寻健康信息时通常会使用关键词搜索,并且对于搜索结果的选择具有一定的盲 目性。另外,一些学者还对用户的搜索过程进行了研究,提出了相应的优化策略 来提高搜索效率。

文献检索技术综述与发展趋势

文献检索技术综述与发展趋势

文献检索技术综述与发展趋势随着信息时代的到来,文献检索技术在学术、商业和日常生活中发挥着越来越重要的作用。

从图书馆的纸质图书资料检索,到现在的数字化、网络化文献资源检索,文献检索技术的发展可谓日新月异。

一、文献检索技术的历史回顾在早期的文献检索中,人们主要依靠手工翻阅纸质资料,如书籍、报纸等,来查找所需信息。

随着科技的发展,图书馆开始采用卡片式检索方式,用户可以通过查找卡片柜来获取相关信息。

到了20世纪70年代,随着计算机技术的兴起,文献检索开始进入计算机化时代,出现了第一批商业化的文献数据库,如Dialog、ORBIT等。

二、文献检索技术的现状1. 数字化检索当前,数字化已成为文献检索的主要形式。

通过将传统文献资料数字化,人们可以更加方便地通过网络进行检索。

数字化检索的优势在于,它突破了地域和时间的限制,用户可以在任何地点、任何时间进行检索操作。

此外,数字化检索还提高了检索效率,用户可以通过关键词、主题等条件快速定位到相关文献。

2. 搜索引擎的出现搜索引擎是现代文献检索的重要工具之一。

通过搜索引擎,用户可以快速找到相关的网页、图片、视频等资源。

其中,Google、Baidu 等搜索引擎已成为人们日常生活中不可或缺的一部分。

3. 人工智能在文献检索中的应用近年来,人工智能技术在文献检索领域的应用逐渐增多。

人工智能技术可以帮助用户更加准确地定位到相关文献,提高检索效率。

例如,自然语言处理技术可以识别用户的自然语言提问,智能推荐技术可以根据用户的历史检索记录推荐相关文献。

三、文献检索技术的发展趋势1. 个性化检索服务随着大数据和人工智能技术的发展,文献检索将更加注重个性化服务。

系统可以根据用户的需求和兴趣,为其推荐相关的文献资源。

这将使用户的检索体验更加人性化、智能化。

2. 语义检索技术语义检索技术是指通过理解文献的语义信息来进行检索的方法。

随着自然语言处理技术的进步,语义检索将成为未来发展的重点方向。

如何找期刊发表综述

如何找期刊发表综述

如何找期刊发表综述
在寻找期刊发表综述的过程中,首先需要明确自己的研究方向和兴趣所在。


定了研究方向之后,接下来就是要寻找合适的期刊来发表综述。

那么,如何找到适合自己的期刊呢?
首先,我们可以通过网络搜索来寻找相关的期刊。

通过搜索引擎输入自己感兴
趣的研究方向和关键词,可以找到大量的相关期刊。

在搜索的过程中,可以使用一些专业的学术搜索引擎,如Google Scholar、Web of Science等,这些搜索引擎可
以帮助我们找到更多的相关期刊和文献。

其次,我们可以通过参考他人的综述文章来找到适合的期刊。

阅读一些已经发
表的综述文章,可以帮助我们了解到哪些期刊比较适合自己的研究方向。

通过参考他人的文章,我们可以找到一些比较有影响力的期刊,这些期刊往往会更容易被同行认可。

另外,我们还可以通过参加学术会议和交流活动来了解相关的期刊信息。

在学
术会议上,我们可以和其他研究者进行交流,了解到一些最新的研究成果和发表综述的期刊。

通过参加学术交流活动,我们可以建立起与其他研究者的联系,获取到更多的期刊信息。

除此之外,我们还可以向导师和同行请教,寻求他们的建议和意见。

导师和同
行通常会有丰富的发表经验,他们可以给我们一些建议,帮助我们找到适合的期刊。

总的来说,寻找期刊发表综述并不是一件容易的事情,需要我们花费一定的时
间和精力。

但只要我们有明确的研究方向,善于利用各种资源,相信我们一定可以找到适合自己的期刊,成功发表综述。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

搜索引擎发展综述李锐lirui@(中科院计算技术研究所北京100080)摘要:本文简述了搜索引擎的起源和发展,介绍了国内外的研究现状,对其分类、性能评测、关键技术等方面做了一定的讨论,在此基础上对其发展趋势作了大胆的预测。

关键词:搜索引擎;Web挖掘;信息检索Internet自诞生以来不断成长,其内容不断丰富,整个网络逐渐堆积成一个前所未有的超大型信息库。

Internet作为一个信息平台在人们的日常生活和工作中发挥着越来越重要的作用,人们越来越多地通过Internet获取信息。

在互联网发展初期,网站相对较少,网页数量亦较少,因而信息查找比较容易。

然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,以至于迷失在信息的海洋中不知所措,出现了我们所说的" 信息丰富,知识贫乏"的奇怪现象。

搜索引擎正是为了解决这个"迷航"问题而出现的技术。

搜索引擎(Search Engine简称SE)是一个信息处理系统,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的,一般包括信息搜集、信息整理和用户查询三部分。

从用户的角度来看,它就是一个帮助人们进行信息检索的工具。

1. 发展回眸现代意义上的搜索引擎的祖先,是1990年由美国蒙特利尔大学的学生Alan Emtage等人发明的Archie。

Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。

Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。

由于专门用于检索信息的Robot程序像蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(Spider FAQ)程序。

世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。

刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。

真正意义上的搜索引擎出现于1994年7月。

当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。

同年4月,Stanford大学的两名博士生,David Filo和美籍华人杨致远(Jerry Y ang)共同创办了超级目录索引Y ahoo,并成功地使搜索引擎的概念深入人心,Y ahoo也被称为第一代搜索引擎。

从此搜索引擎的发展也进入了黄金时代。

1998年9月,同样是Stanford大学两位博士生Larry Page和Sergey Brin在风险投资公司的资助下,成功开发了新一代搜索引擎——Google。

它具有比Y ahoo先前使用的技术更快、更准确搜索到所需信息的特点,被视为第二代搜索引擎的代表。

现在Internet 上已有数千个能提供检索服务的站点,这些站点的搜索引擎在收录的范围、内容、检索方法上都各有不同,采用的技术也各具特色。

比较著名的有Google,Y ahoo,AltaVista,Dogpile,百度等。

目前,搜索引擎的研究、开发十分活跃,各大搜索引擎公司都在投巨资研制搜索引擎系统,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品,搜索引擎已经成为信息领域的产业之一。

它要用到了信息检索、人工智能、数据库、数据挖掘、自然语言理解等领域的理论和技术,具有综合性和挑战性。

又由于搜索引擎有大量的用户,由此衍射出许多商机,具有很好的经济价值。

根据iResearch艾瑞市场咨询《2003年中国搜索引擎研究报告》的研究数据显示,中国的搜索引擎市场2003年达到了5.2亿元人民币,比2002年的2.3亿一年增长了127%,显示了搜索引擎市场的强劲增长;雅虎表示未来5年全球搜索市场将由今年的30亿美元增长至110亿美元。

搜索引擎作为连接互联网的一座桥梁,越来越受到人们的重视,亦引起了世界各国计算机科学界、信息产业界和商界的高度关注,已投入了不少的人力、物力,也取得了不俗的成绩。

2. 分类搜索引擎依其所用技术原理,主要可以分为以下三类:2.1. 目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。

信息大多面向网站,提供目录浏览服务和直接检索服务。

该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。

典型代表是:Y ahoo(现已采用Robot技术)、LookSmart、Open Directory等。

2.2. 基于Robot搜索引擎:基于Robot 的搜索引擎多提供对全文的检索,有时也叫做全文搜索引擎(Full Text)。

通过Robot程序从互联网上搜集信息而建立索引数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。

这类搜索引擎的代表是:Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等;国内代表为:百度(Baidu),"天网"、OpenFind等。

2.3. 元搜索引擎:这类搜索引擎没有自己的数据库,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行去重、排序等处理后,作为自己的结果返回给用户。

服务方式为面向网页的全文检索。

这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。

著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。

除上述三大类引擎外,还有以下几种非主流形式:集合式搜索引擎、门户搜索引擎:如AOL Search、MSN Search等、免费链接列表(Free For All Links,简称FFA)等。

3. 性能指标搜索引擎是一种互联网信息检索工具,因此对其性能评价可以参考传统型文献检索工具的质量评价标准,结合搜索引擎在信息组织加工及检索服务提供方式等内容进行;又因为它直接跟踪网络信息并面向网络信息用户,对它的评价因该立足于用户的利益立场。

通俗地讲,能令大多数网络用户满意的搜索引擎就是一个好的搜索引擎。

通常情况下,我们可以从以下几个方面来衡量一个搜索引擎的性能:3.1. 召回率(Recall):又称查全率,指搜索引擎提供的检索结果中相关信息文档数与网络信息中存在的相关信息文档数之比, 因检索结果是在对检索需求与搜索引擎的索引数据库中的文档进行匹配后的文档集合, 这一指标也是搜索引擎对网络信息覆盖率的真实反映。

3.2. 精度(Precision):又称查准率,是搜索引擎提供的检索结果与用户信息需求的匹配程度, 也是检索结果中有效信息的文档数与搜索引擎提供的全部文档数之比。

3.3. 检索速度:又称响应时间,检索速度一般而言取决于两个因素, 即与带宽有关的网络速度及搜索引擎本身的速度, 只有在二者均获得可靠的技术支持的情况下, 才能保证理想的检索速度。

对于一个检索系统来讲,召回率和精度很难做到两全其美:召回率高时,精度低;精度高时,召回率低。

对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够覆盖所有的网络资源,所以召回率很难计算。

目前的搜索引擎系统都非常关心精度。

对于上面的衡量方法,有其不足之处,还有其他方面的因素没能考虑,在文献[7]中以用户为导向运用层次分析法建立一个分析模型,文献[8]中提出了一些较好的衡量方法。

影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。

另外,我们可以从对搜索引擎的功能要求角度对它进行评价。

在笔者看来,一个理想的搜索引擎系统应该具备以下功能要求:①涵盖较多的互联网资源,资源更新周期不是很长,对于某些特殊信息可以实时更新,这些是查全率的保障之一。

②具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、软件、FTP、MP3、Flash、图像、影视等)选择、等待时间控制、返回结果数量控制、结果时段选择、过滤功能选择、结果显示方式选择等。

③强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自然语言检索等)。

④详尽全面的检索结果信息描述(如网页名称、URL、文摘、结果与用户检索需求的相关度等)。

⑤支持多种语言检索,比如提供中英文搜索等。

⑥可对结果进行自动分类,如按照域名、国别、资源类型、区域等进行分类整理。

⑦可以针对不同用户提供个性化服务。

4. 原理和关键技术当今搜索引擎的主流是基于Robot的网页搜索系统,本文主要叙述这方面的技术。

搜索引擎的原理,可以看作三步:从互联网上抓取网页→ 建立索引数据库→ 在索引数据库中搜索排序。

①从互联网上发现、搜集有用网页信息利用高性能的Spider程序去自动地在互联网中搜索信息。

一个典型的"网洛蜘蛛"工作的方式,是查看一个页面,并从中找到相关信息,然后它再从该页面的所有URL中出发,爬行到相关页面,重复这过程,直到把爬过的所有网页都收集回来。

搜索引擎的Spider一般要定期重新访问所有网页,更新网页索引数据库,以反映出网页文字的更新情况。

②将收集到的信息进行分类整理,建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

③用户检索过程当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

上面简述了搜索引擎的工作原理,从这里不难看出搜索引擎的基本构成:搜索器、索引器、检索器和用户接口等。

下面介绍几种与之相关的关键技术:① Robot技术,网络机器人Robot(通常也称为网络蜘蛛Spider、爬行者Crawler等)可以用在针对互联网的数据统计、数据搜索、链接维护等方面。

搜索引擎中的网络机器人主要完成两个功能,即分析、获取互联网的链接和读取各链接所对应的网页内容。

相关文档
最新文档