搜索引擎技术与发展综述

合集下载

搜索引擎的发展现状

搜索引擎的发展现状

搜索引擎的发展现状搜索引擎是指通过互联网搜索技术,根据用户输入的关键词,在互联网上检索相关信息并返回给用户。

搜索引擎的发展始于上世纪90年代,经过几十年的发展,已经成为人们获取信息的主要途径之一。

下面将对搜索引擎的发展现状进行阐述。

首先,搜索引擎的覆盖范围更广。

过去的搜索引擎主要面向网页搜索,用户只能通过输入关键词检索网页信息。

而现在的搜索引擎不仅可以搜索网页信息,还能搜索图片、新闻、视频、音乐、地图等多种类型的内容,用户可以根据自己的需求选择不同的搜索方式。

搜索引擎的多媒体搜索功能使用户能够更方便地找到所需信息。

其次,搜索引擎的搜索结果更加精确和个性化。

传统的搜索引擎只依靠关键词匹配来返回搜索结果,但随着人工智能和机器学习技术的发展,搜索引擎已经能够根据用户的搜索历史、地理位置、个人偏好等信息进行个性化推荐。

此外,搜索引擎还能通过分析用户的搜索行为和点击行为,提供更加准确的搜索结果。

例如,当用户搜索某个关键词时,搜索引擎可以根据用户的点击行为,提供与该关键词相关的其他信息,从而提升用户的搜索体验。

再次,搜索引擎的搜索速度更快。

过去,搜索引擎在搜索结果中往往会出现一些与用户搜索关键词无关的广告或垃圾信息,影响了搜索的速度和精确度。

而现在的搜索引擎通过算法的优化和广告筛选,能够更快地返回与用户搜索关键词相关的信息,提升了搜索的效率和准确性。

此外,搜索引擎还通过建立全球分布式的搜索节点,将搜索服务尽可能地靠近用户,进一步提高了搜索的速度。

最后,搜索引擎的发展也带来了一些挑战。

一方面,随着互联网上信息的迅猛增长,搜索引擎面临海量信息的处理和索引问题。

另一方面,搜索引擎还面临信息的真实性和可信度问题,因为互联网上的信息内容时刻发生变化,有些信息可能存在虚假、夸大、不准确等问题,这就对搜索引擎的算法和技术提出了更高的要求。

综上所述,搜索引擎正处于不断发展的阶段。

通过不断优化算法、提升搜索速度、增加搜索内容和个性化推荐等手段,搜索引擎正在不断提升用户的搜索体验,为用户提供更加精确、个性化、高效的搜索服务。

搜索引擎技术的现状及发展趋势

搜索引擎技术的现状及发展趋势
数据库系统, 数据最大的特点就是半结构化。而搜 索引擎文本信息处理的首要任务就是将这些异构 的、 半结构化的信息的结构化处理, 否则一切分析 工作无从谈起。解决这一问题 , 就必须要有一个半 结构化数据模型来描述 Web 上的数据。并且 , 还 需要一种半结构化数据抽取技术。 移动代理 ( Mobile Agent ) 技术 是一种新型分 布式计算技术, 是指在网络上具有移动能力的、 能 够自主运行的、 按照用户的要求完成指定任务的程 序。移动代理技术是新一代分布式计算技术 , 移动 代理与传统分布式计算技术完全不同。在移动代 理模式下 , 客户机向服务器提交的不再是一些简单 的请求, 而是包含代码和数据的移动对象。移动对 象代表用户 , 按照 程序靠近数据! 的原则 , 在服务 器间自主的移动 , 完成数据处理的任务。基于移动 代理的模式之上的应用程序可以大大节省网络带 宽, 有效克服网络延时带来的种种问题, 可以智能 化的自主异步执行。它克服了搜索引擎传统的 数 据靠近程序! 的运行模式 , 大大降低了网络的数据 流量 , 节省了网络资源。 XML( eXtensible Markup Language ) 是一种中介 标示语言( Meta markup Language) , 可以提供描述结 构化资料的格式, 它是类似于 HTML, 被设计用来 描述数据的语言。XML 提供了一种独立的运行程 序的方法来共享数据 , 它是用来自动描述信息的一 种新的标准语言 , 它能使现有网络技 术把 Internet 的功能由信息传递扩大到人类其他多种多样的活 动中去 , 例如电子商务 等[ 8] 。ML 的出现为我们 提供了半结构数据模型抽取的思路。即对站点信 息经过半结构化抽取以后, 产生信息的 XML 语言
3 引擎技术的发展趋势
搜索引擎的发展已经取得了非常令人瞩目的 成就。随着网上信息数量、 种类的不断增加、 服务 需求水平的不断提高, 用户对搜索引擎提出了更高 的要求。当前 , 计算机技术日新月异的发展也为研 制开发高性能的搜索引擎提供了便利条件。 3. 1 各种搜索引擎正在走向不断融合 各种搜索引擎技术并不是一个并行发展的过 程, 而是一个不断融合不断自我完善的过程。这一 点, 上网用户在应用搜索引擎时就会深有体会。元 搜索引擎的出现便是一个典型的例子 , 目录式搜索 引擎的优点是信息准确 , 缺点是信息量小, 目录 的维护耗费的人力资源大; 机器人搜索引擎的优点 是信息量非常大, 耗费的人力资源很小, 但精确度 难以做得很高 ; 而元搜索引擎 则集中了两者 的优 点。 3. 2 基于 Web 的文本信息挖掘技术 基于 Web 的文本信息挖掘技术是将数据挖掘 的思想应用到 Web 文本信息处理中的一项技术 , 它涉及到文本分类、 索引、 聚类、 查询匹配等各项技 术, 它在 Web 个人浏览辅助工具中有着 广泛的应 用。由于引入了数据挖掘、 人工智能的处理方法 , 基于 Web 的文本信息挖掘技术大大提高了文本分 类的准确度、 文本索引对文本描述的全面性以及用 户查询匹配的精度。搜索引擎 Excite 通 过模式提 取和识别抽象化搜索条件与文档之间的关系, 大大 提高了文档的查全率。有人提出了应用模糊方法 构建智能搜索引擎的思想, 即在搜索引擎中引入模 糊方法, 来构建更有效的搜索引擎 [ 7] 。 3. 3 Robot 技术向分布式 、 智能化方向发展 如前所述, Robot 技术大大降低了人工搜集信 息的难度 , 但它的盲目性也给网络带来了麻烦。随 着分布式处理技术的发展, Robot 技术也正在由集 中式向分布式发展 , 即一个 Robot 只对特定区域进 行信息采集, 各个 Robot 之间协同工作 , 这样就大 大提高了 Robot 进 行信息采集的速 度。基于 Web 的文本信息挖掘技术通过对 Robot 采集 的信息的 处理 , 例如站点摘要处理、 站点更新速度处理等, 可 以为 Robot 的路径选择、 运行周期等加以控制 , 从 而降 低 Robot 的盲 目 性, 大大 提 高 Robot 的 智 能 性[ 8] 。 另外 , 随着网络应用的增多, Robot 搜索的范围 也不仅限于 Html 文档, 现在已经出现了搜索 FTP、

当今搜索引擎技术及发展趋势

当今搜索引擎技术及发展趋势

当今搜索引擎技术及发展趋势随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。

目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。

搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。

据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。

用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。

搜索引擎正是为了解决这个“迷航”问题而出现的技术。

搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。

搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。

搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。

一、分类按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。

信息大多面向网站,提供目录浏览服务和直接检索服务。

该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。

这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。

2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。

服务方式是面向网页的全文检索服务。

该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。

搜索终总结

搜索终总结

搜索终总结引言在信息时代,搜索引擎成为人们获取信息的重要工具。

随着互联网的迅速发展,搜索引擎在人们的生活中扮演着愈发重要的角色。

本文将对搜索引擎进行总结,包括搜索引擎的发展历程、搜索引擎的工作原理、常见的搜索引擎技术以及搜索引擎的未来发展等方面进行介绍。

搜索引擎的发展历程搜索引擎的发展可以追溯到20世纪90年代中期。

最早的搜索引擎是由人工编辑的目录式搜索,如Yahoo!。

但这种方式不仅耗时耗力,也存在主观性较大的问题。

随后,基于关键词的搜索引擎开始兴起,如AltaVista和Excite。

它们通过遍历互联网页面,建立索引,以提供更快速、准确的搜索结果。

然而,随着互联网规模的迅速膨胀,这种搜索方式也逐渐暴露出效率低下的问题。

2000年,谷歌引入了一种全新的搜索算法PageRank,凭借其独特的排序方式,使搜索结果更加准确和相关。

此后,谷歌逐渐崛起为搜索引擎领域的巨头,并且成为了我们常用的搜索引擎之一。

同时,其他搜索引擎也在不断进化和创新,如百度、必应等。

搜索引擎的工作原理搜索引擎的工作可以分为三个主要步骤:爬取、索引和检索。

爬取搜索引擎通过爬虫程序(又称蜘蛛程序)遍历互联网上的页面,将页面内容下载到搜索引擎的数据库中。

爬虫程序根据链接关系,从一个页面跳转到另一个页面,不断扩展爬取的范围。

索引在爬取的过程中,搜索引擎会分析页面的结构和内容,并建立索引以便后续的检索。

索引可以理解为搜索引擎的目录,包含了所有网页的关键信息,如网页标题、关键词、摘要等。

索引的建立需要考虑诸多因素,如页面质量、关键词的权重等。

检索当用户输入搜索关键词后,搜索引擎会通过查询索引,找到与关键词相关的网页。

搜索引擎会根据算法确定搜索结果的排序,将最相关的网页展示给用户。

常见的排序算法有PageRank、TF-IDF等。

常见的搜索引擎技术除了基本的爬取、索引和检索外,搜索引擎还应用了一系列技术来优化用户的搜索体验,如下所示:自然语言处理(NLP)NLP技术帮助搜索引擎更好地理解用户的搜索意图。

搜索引擎技术及研究

搜索引擎技术及研究

搜索引擎技术及研究引言随着计算机网络技术的飞速发展,人们要在互联网的海量信息中查找自己所需的信息,就要使用搜索引擎,搜索引擎已经成为人们获取信息的重要手段。

搜索引擎从广义的角度来讲,是指互联网上提供用户检索接口并且具有检索功能的网站,它能帮助人们在互联网中查找到所需要的信息;从狭义的角度来讲,搜索引擎是指根据某种策略、运用特定的计算机程序从网络上搜集要查找的信息,对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展现给用户的系统。

1 搜索引擎的发展历程搜索引擎是伴随互联网的发展而产生和发展的,互联网已成为人们学习、工作和生活中不可缺少的平台,几乎每个人上网都会使用搜索引擎。

搜索引擎大致经历了四代的发展。

1.1 第一代搜索引擎1994年第一代真正基于互联网的搜索引擎lycos诞生,它以人工分类目录为主,代表厂商是yahoo,特点是人工分类存放网站的各种目录,用户通过多种方式寻找网站,现在也还有这种方式存在。

1.2 第二代搜索引擎随着网络应用技术的发展,用户开始希望对内容进行查找,出现了第二代搜索引擎,也就是利用关键字来查询。

最具代表性、最成功的是google,它建立在网页链接分析技术的基础上,使用关键字对网页搜索,能够覆盖互联网的大量网页内容,该技术可以分析网页的重要性后,将重要的结果呈现给用户。

1.3 第三代搜索引擎随着网络信息的迅速膨胀,用户希望能快速并且准确的查找到自己所要的信息,因此出现了第三代搜索引擎。

相比前两代,第三代搜索引擎更加注重个性化、专业化、智能化,使用自动聚类、分类等人工智能技术,采用区域智能识别及内容分析技术,利用人工介入,实现技术和人工的完美结合,增强了搜索引擎的查询能力。

第三代搜索引擎的代表是google,它以宽广的信息覆盖率和优秀的搜索性能为发展搜索引擎的技术开创了崭新的局面。

1.4 第四代搜索引擎随着信息多元化的快速发展,通用搜索引擎在目前的硬件条件下要得到互联网上比较全面的信息是不太可能的,这时,用户就需要数据全面、更新及时、分类细致的面向主题搜索引擎,这种搜索引擎采用特征提取和文本智能化等策略,相比前三代搜索引擎更准确有效,被称为第四代搜索引擎[1]。

搜索引擎发展与技术创新研究

搜索引擎发展与技术创新研究

搜索引擎发展与技术创新研究搜索引擎已经成为我们日常生活中的必需品,它为我们提供了快捷准确的检索结果,这一切离不开搜索引擎在技术层面上的不断创新和发展。

本文将对搜索引擎的发展和技术创新进行研究和探讨。

一、搜索引擎的发展历程搜索引擎的发展历程可以追溯到20世纪90年代,当时的搜索引擎基本上只支持对文本的简单搜索。

在2000年初,Google横空出世,它采用了PageRank算法,可以更好地识别网站的相关性和重要性。

由此,Google迅速成为了互联网上占有率最高的搜索引擎。

在之后的几年中,随着Web2.0时代的到来,出现了一些新型的搜索引擎,它们可以将用户提交的不同类型的内容(如新闻、图片、视频)进行整合搜索,大大提高了搜索的精准度和综合性。

另外,移动搜索也成为了新的趋势,搜索引擎需要更好地适应移动设备的环境和场景,提高搜索体验。

二、搜索引擎的技术创新1.机器学习与人工智能随着人工智能和机器学习的发展,搜索引擎可以更好地理解和满足用户的需求。

比如,Google的“智能答案”功能就可以通过机器学习技术,快速地为用户提供准确的回答。

另外,搜索引擎还可以通过了解用户的搜索历史和兴趣,为其提供更加个性化的搜索结果。

2.自然语言处理通过自然语言处理技术,搜索引擎可以更好地解决语言障碍,理解并解释用户的搜索意图。

比如,谷歌有一个名为Bert的算法,可以更好地理解用户的搜索内容,然后展示出更加准确、相关的结果。

3.图像识别和处理搜索引擎还可以通过图像识别和处理技术,支持用户通过上传图片进行搜索。

比如,Google的“图像搜索”功能就可以通过上传图片,搜索与图片中物体相关的信息。

4.语音搜索语音搜索也成为了搜索引擎技术创新的重要领域。

比如,苹果的Siri可以通过语音命令为用户提供相关信息。

同时,搜索引擎在语音搜索方面也在不断创新和完善,推出更加准确、流畅的语音搜索功能。

三、搜索引擎未来的发展未来搜索引擎的发展将更加注重智能化、个性化、场景化。

搜索引擎的现状和发展趋势

搜索引擎的现状和发展趋势

搜索引擎的现状和发展趋势期末课程论文论文标题:搜索引擎的现状与发展趋势课程名称:信息检索技术课程编号:1220500学生姓名:潘飞达学生学号:1100310120所在学院:计算机科学与工程学院学习专业:计算机科学与技术课程教师:王冲2013年7月 1 日【摘要】搜索引擎包括图片搜索引擎、全文索引、目录索引等,其发展历史可分为五个阶段,目前企业搜索引擎和网站运营搜索引擎运用范围较广。

在搜索引擎的未来发展中,呈现出个性化,多元化,智能化,移动化,社区化等多个趋势。

【关键词】发展过程、发展趋势、检索技巧、个性化、智能化1 搜索引擎简介搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

百度和谷歌等是搜索引擎的代表。

其工作作原理分为抓取网页,处理网页和提供检索服务。

抓取每个独立的搜索引擎都有自己的网页抓取程序,它顺着网页中的超链接,连续地抓取网页。

由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。

其中,最重要的就是提取关键词,建立索引文件。

搜索引擎是根据用户的查询请求,按照一定算法从索引数据中查找信息返回给用户。

为了保证用户查找信息的精度和新鲜度,搜索引擎需要建立并维护一个庞大的索引数据库。

一般的搜索引擎由网络机器人程序、索引与搜索程序、索引数据库等部分组成。

系统结构图2搜索引擎的工作原理第一步:爬行搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。

搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。

现代搜索引擎与信息检索技术的发展趋势分析

现代搜索引擎与信息检索技术的发展趋势分析

现代搜索引擎与信息检索技术的发展趋势分析随着互联网的迅速发展,搜索引擎已经成为我们获取信息的主要途径。

在过去的几十年里,搜索引擎和信息检索技术经历了巨大的变革和创新,拥有巨大的发展潜力。

本文将重点分析现代搜索引擎与信息检索技术的发展趋势,并探讨可能的未来发展方向。

一、人工智能与机器学习在搜索引擎中的应用随着人工智能和机器学习的快速发展,搜索引擎正在逐渐向智能化方向发展。

通过学习和分析用户的搜索行为和偏好,搜索引擎可以提供更加个性化和精确的搜索结果。

人工智能技术还可以帮助搜索引擎自动提取并理解文档中的语义信息,从而更加准确地回答用户的问题。

未来,我们可以期待搜索引擎成为一个能够主动向用户提供信息、解答问题的智能助手。

二、语义搜索技术的发展传统的搜索引擎主要通过关键词匹配来检索相关的信息。

然而,关键词匹配往往难以准确理解用户的意图。

随着语义搜索技术的发展,搜索引擎可以更好地理解用户的查询意图,并根据意图提供相关的信息。

语义搜索技术基于自然语言处理和知识图谱等技术,将搜索结果与搜索意图进行语义匹配,从而提供更加准确和有用的搜索结果。

未来,语义搜索技术有望成为搜索引擎的重要发展方向,提升用户搜索体验。

三、移动搜索的崛起随着智能手机和移动设备的普及,移动搜索正在迅速崛起。

移动搜索具有其特殊的搜索场景和用户需求,如位置相关的搜索、即时反馈等。

因此,搜索引擎需要针对移动设备进行优化,提供更加精确和实时的搜索结果。

未来,移动搜索将继续发展,并且可能成为主流搜索方式。

四、大数据和信息可视化在信息检索中的应用随着互联网时代的到来,数据量呈指数级增长。

大数据技术可以帮助搜索引擎有效地处理和分析海量的数据,从而提供更加准确和全面的搜索结果。

信息可视化技术可以帮助用户更加直观地理解和浏览搜索结果。

未来,大数据和信息可视化技术有望在搜索引擎中得到广泛应用,提升用户的搜索体验。

五、垂直搜索的发展传统的搜索引擎主要针对通用搜索进行优化,难以满足特定领域或行业的搜索需求。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

工程技术 Computer CD Software and Applications 2012年第14期— 24— 搜索引擎技术与发展综述孙宏,李戴维,董旭阳,季泽旭(中国电子科技集团第十五研究所信息技术应用系统部,北京 100083)摘 要:随着信息技术的飞速发展和互联网的广泛普及,信息检索技术越来越受到重视。

阐述了搜索引擎的产生与发展,并对搜索引擎的核心技术、评价指标和工作原理进行了深入研究。

介绍了一些著名的搜索引擎。

在此基础上,对搜索引擎的发展方向进行了预测。

关键词:信息技术;信息检索;搜索引擎中图分类号:TP311.52 文献标识码:A 文章编号:1007-9599 (2012) 14-0024-03一、引言 信息技术如今迅速发展,Internet 也得到了广泛的普及,网络上的信息量正在以指数趋势上升。

其信息来源分布广泛,种类繁多。

如果不能对信息进行有序化管理,用户将很难从如此海量的信息中提取出他们需要的信息。

目前,搜索引擎已经成为人们获取信息的主要手段之一。

搜索引擎就是在繁琐复杂的互联网信息中通过特定的检索策略,对信息进行搜索与分类,通过分析用户提交的请求,按照用户的要求和习惯进行组织,从而达到用户快速检索特定信息的目的。

目前搜索引擎提供的搜索方式主要有整句、主题词、自由词等等,用以适应不同用户的需求。

二、搜索引擎的产生与发展蒙特利尔大学的Alan Emtage 实现了最初的搜索引擎,称为Archie 引擎,Archie 引擎可以在特定的网络中进行相关的信息检索。

由于其工作原理与现代搜索引擎非常接近,我们通常认为他开创了现代搜索引擎领域。

搜索引擎的发展大致经历过了三代:(1)第一代搜索引擎是1994年Michael Mauldin 将John Leavitt 的“网络爬虫”程序接入到其索引程序中的Lycos 。

由于结构和技术相对不成熟,它的搜索速度比较慢,更新速度也不能满足用户的检索要求。

(2)美国斯坦福大学的David Filo 和美籍华人杨致远合作开发成功了第二代搜索引擎,它创立了一些用户关心的目录,用户可以通过目录进行检索。

(3)Google 的正式推出标志着第三代搜索引擎的诞生。

其集成了搜索、分类、多语言支持等功能,同时提供了摘要、排序、快照等功能,另外与强大的硬件系统配合,大大改变了互联网用户检索网络信息的方式。

第三代搜索引擎主要结构如图-1所示。

查询接口的作用是用户进行交互,即提取用户的输入,并将检索结果返回。

检索器依据用户的需求,可以方便地索引库中查找相应的文档,按照相关度规则进行重排后返回。

索引器负责对文档建立索引,使文档以便于检索的方式重新组织。

分析器负责对收集器收集的信息进行分析和整理。

信息收集器的主要任务是对互联网上的各种信息进行收集,同时记录信息URL 地址(网络爬虫完成这项工作)。

图1 搜索引擎结构图三、搜索引擎的工作原理 搜索引擎不是搜索互联网,它搜索的是预先整理好的索引数据库;同样,搜索引擎也不能理解网页上的内容,它只能匹配网页上的文字。

搜索引擎的工作流程如图-2所示。

图2 搜索引擎的工作流程 搜索引擎的工作流程可主要分为四个步骤:通过网络爬虫(Spider )从互联网上根据相关算法(深度优先、广度优先)抓取网页,抓取网页后对网页中的信息进行加工,加工后将处理后的信息保存到索引数据库中。

当用户在索引数据库中搜索查询相关的信息资源时,搜索结果通过搜索引擎的处理后,对返回结果进行排序,展现给用户。

即:(1)利用网络爬虫从互联网上抓取网页:利网络爬虫,按照某种搜索策略,沿着URL 链接爬到其他网页,重复这些过程,并把所有爬过的网页抓取回来。

(2)建立索引数据库:对爬取到的网页进行分析,提取相关关键信息,得到每一个网页针对页面中文字及链接中每一个关键词的重要性,屏蔽掉不重要的词语后,用信息建立网页索引数据库。

(3)处理用户的查询请求:系统接收到用户要查询的关键字后,调用检索器进行搜索,并将返回的结果进行相关度排序,最后按照优先度降序的方式存储在返回结果集合中。

(4)将查询结果返回给用户:搜索结果以网页的形式将结果集中的返回给用户。

方便用户查看。

按照上面的步骤就可以简单的架构一个搜索引擎系统供用户使用。

目前有很多开源的搜索引擎产品已经完成了上述相关内容,使用者只需要进行相应的配置就可以使用,大大的简化了搜索引擎的开发。

目前,比较流行的开源搜索引擎有Nutch 、Solr 等等。

四、搜索引擎的核心技术搜索引擎的核心技术包括索引技术和检索技术。

(一)索引技术顺序查找,即通过线性匹配文本进行查找是一种不使用索引进行检索的例子。

它无需对文档中的信息进行预处理。

这种检索方式在文本较大时检索速度会变得非常慢,通常情况下不使用这种检索方式。

2012年第14期 Computer CD Software and Applications 工程技术— 25 —一种解决方法是对文档进行预处理,在文档间建立一种便于检索的数据结构,把这种数据结构称为索引。

常用的索引方式主要有三种:倒排索引、后缀数组索引和签名文件索引。

倒排索引的运用最为广泛。

倒排文件的索引机制是一种面向单词的机制,它可以极大地提高检索速度。

倒排文件数据结构由词汇和出现情况组成。

对于文档中的每个单词,都有一个列表来记录单词在所有文本中出现的位置(位置可以是单词的位置,也可以是字符的位置)。

倒排索引技术对关键字的检索非常有效。

倒排索引将文本看成单词的序列,所以当使用倒排索引解决如短语查询的复杂查询时,需要花费较高的代价。

使用后缀数组结构可以有效地解决这些复杂查询,但它的生成过程比较复杂,所以应用情况不如倒排文件使用的广泛。

签名文档的方式目前已经不被使用,故不做相关的介绍。

(二)检索技术常见的信息检索模型根据查找信息的实现方式不同分为:布尔模型、向量空间模型、概率论模型和神经网络模型等等。

其中布尔模型比较广泛,在实验环境中向量空间模型最为流行,下文将主要对布尔模型和向量空间模型进行介绍。

1.布尔模型在布尔模型中,文档通过来自一个词典的一个关键词条的集合来表示。

通过看文档中的词条是否满足查询的条件来进行查询与文档的匹配过程。

查询由一些逻辑操作符号(如AND 、OR 和NOT )连接起来的关键词组成的。

布尔模型目前被广泛的应用在商用信息获取系统中。

它有很多优点,如实现容易、计算代价相对较少、查询语言容易表达等等,但是,它存在三个方面的缺点:(1)布尔模型操作符的使用方法较难掌握,因此对于搜索引擎的初学者来说很难将一个查询公式化;(2)查询串中不能说明关键词的相对重要性; (3)很难将文档进行相关性来排序。

2.向量空间模型在向量空间模型用向量表示信息库中的文本以及用户的查询。

文档向量是一个n 元组,其中的每个坐标都通过对应关键词的权重表示。

权重越大,则相应关键词对于该文档来说越重要。

查询向量与文档向量相似,查询向量中的权重表示对应关键词对于用户来说的重要程度。

向量模型的优点如下:(1)向量模型可以对查询向量中关键词权重的赋值; (2)向量模型可以对文档进行相关度排序; (3)向量模型比布尔模型的准确度高。

然而,向量模型也有一些缺点:(1)向量模型中,关键词是被假设为相互独立的,而实际上一个文档中的关键词可能存在一定的联系;(2)查询中,不能像布尔模型一样使用关键词之间的逻辑关系。

五、搜索引擎的评价指标目前,互联网上存在很多搜索引擎。

所以,若对一个搜索引擎的优劣进行评价十分具有意义。

兰卡斯特和费恩于1973年提出了5项评价指标来衡量信息检索系统的性能,它们分别是:查准率、覆盖范围、查全率、用户负担、响应时间和检索结果输出格式。

这些评价指标对于衡量一个搜索引擎的性能具有很大的指导作用。

此外还可以从下述几方面进行评价:死链比率、索引数据库更新频率、数据库的规模和内容、用户界面等等。

目前,查准率、查全率、死链比率、响应时间、索引库更新频率是评价一个搜索引擎优劣的最通用的5个性能指标是。

(1)查准率:查准率是搜索结果中与关键字有关的信息量与检索结果的全部信息量的比值。

实际应用中,查准率不太容易确定。

原因是可能用户为了查找某一特定信息或类似信息而输入一个关键词,所以一般情况下只要检索到的关键词的意义与用户输入相近,就认为查准率满足精度要求。

(2)查全率:查全率的定义是搜索引擎查询到的结果中的有关信息数量和搜索引擎数据库中有关信息数量的比值。

如果一个搜索引擎的查全率很低,由于用户通过这种搜索引擎查询到的信息量太少,导致其没有太大的使用价值,即用户很难得到真正有用的信息。

(3)死链比率:使用搜索引擎搜索时,永远无法获取的结果我们称之为死链接,搜索引擎没有及时更新索引数据库是造成死链接的主要原因。

(4)响应时间:响应时间指用户输入检索请求到搜索引擎返回检索结果的时间间隔。

在用户选择搜索引擎时,首先考虑的是搜索引擎本身的响应速度,如:一个查全率和查准率都很高的搜索引擎,如果其响应速度非常慢,则用户显然不会选择。

响应时间在很大程度上也受到外界因素的影响,如网络状况等。

因此,在对比不同搜索引擎的响应时间时,必须在相同的时间,相同的软硬件条件及相同的检索请求下进行。

(5)索引库更新频率:索引库更新频率指的是搜索引擎索引数据库更新周期的长短。

用户能否及时获得较新的信息直接受到搜索引擎索引数据库更新频率的影响,所以这项指标尤为重要。

六、著名的搜索引擎介绍搜索引擎自1994年出现发展至今,已取得了长足的进步,信息检索工具、搜索引擎也是层出不穷,下面将简要介绍一些著名的搜索引擎。

(1)Google :Google 是全球最大的机器搜索引擎, Google 每天提供 2 亿次查询服务,占全球搜索引擎查询市场份额的29.2 %,无可争议的世界第一; Google 通过对80多亿网页进行整理,为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。

(2)Lycos :Lycos 作为全世界最早的搜索引擎之一。

每月以 3700 万次的独立访问排名第 5大用户最常访问的网站。

调查得知,Lycos 主要搜索结果来自于 Alltheweb 。

(3)AltaVista :AltaVista 是全世界功能最完善,搜索精度较高的全文搜索引擎之一。

目前, AltaVista 数据库已存有超过 12 亿个 Web 文件,并且经过升级,其搜索精度已达业界领先水平。

不过该搜索引擎已于2003年被Y ahoo 收购。

(4)百度:百度一直是全球最大的中文搜索引擎,一直占据着搜索引擎市场的半壁江山。

随着Google 在中国市场的持续挺进和战略调整,以及其他搜索引擎(如雅虎中国、网易有道、新浪爱问、腾讯搜搜、中搜等)的异军突起,百度维持目前的优势压力越来越大。

相关文档
最新文档