搜索引擎的现状和发展趋势

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

期末课程论文

论文标题:搜索引擎的现状与发展趋势

课程名称:信息检索技术

课程编号:1220500

学生姓名:***

学生学号:**********

所在学院:计算机科学与工程学院

学习专业:计算机科学与技术

课程教师:王冲

2013年7月1 日

【摘要】

搜索引擎包括图片搜索引擎、全文索引、目录索引等,其发展历史可分为五个阶段,目前企业搜索引擎和网站运营搜索引擎运用范围较广。在搜索引擎的未来发展中,呈现出个性化,多元化,智能化,移动化,社区化等多个趋势。

【关键词】

发展过程、发展趋势、检索技巧、个性化、智能化

1 搜索引擎简介

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。

其工作作原理分为抓取网页,处理网页和提供检索服务。抓取每个独立的搜索引擎都有自己的网页抓取程序,它顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。

搜索引擎是根据用户的查询请求,按照一定算法从索引数据中查找信息返回给用户。为了保证用户查找信息的精度和新鲜度,搜索引擎需要建立并维护一个庞大的索引数据库。一般的搜索引擎由网络机器人程序、索引与搜索程序、索引数据库等部分组成。

系统结构图

2搜索引擎的工作原理

第一步:爬行

搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛

网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。

第二步:抓取存储

搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

第三步:预处理

搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

⒈提取文字

⒉中文分词

⒊去停止词

⒋消除噪音搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告

5.正向索引

6.倒排索引

7.链接关系计算

8.特殊文件处理

除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。

第四步:排名

用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

3搜索引擎的发展过程

搜索引擎的发展起源可以追溯到第一个Gopher搜索工具Veronica。后来的搜索引擎的发展分为五个阶段。

第一阶段,出现World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址。第二阶段,出现了以概念搜索闻名的Excite以及元搜索引擎 Dog-pile。第三阶段,即yahoo的出现。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。Yahoo以后陆续有 Google等提供搜索引擎服务,但不可否认的是,Yahoo几乎成为20世纪90年代的因特网的代名词。第四阶段,一种新的搜索引擎形式出现了,即元搜索引擎。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第五阶段的代表是智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。

4 搜索引擎的发展趋势

当然,发展到现今这个阶段,搜索引擎技术和商业经营模式已经处于一个成熟和相对稳定状态。搜索引擎服务商要进一步发展必然要突破现有的技术和商业经营模式制约,而通过市场整合走综合化道路对于搜索引擎服务商来说是一个不错的选择。这样既可以发挥他们在搜索引擎领域的技术、市场优势,又可以实现从单一搜索引擎业务到综合门户业务的跨越式发展。

个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。搜素引擎经过多年的发展后,功能越来越强大,提供的服务也越来越多样化。目前搜索引擎已达数千种,因此行业竞争也越来越激烈。日前,百度发布的新版首页在业界激起了热烈反响,其认为个性化推荐是网络搜索的未来这是国内搜索引擎首次试水“个性化推荐”。

在未来的搜索引擎发展进程中,也将出现许多其他趋势。首先,多元化搜索会有不少竞争和成长的空间。搜索引擎服务从提供单一的文字、图片搜索,向提供音乐、视频、资讯、软件、文件等多元化的搜索发展。其次,搜索引擎会提供更具有个性化和智能化的针对性搜索。例如根据用户自身平时使用的搜索习惯和可能从事的行业特点,能够深度理解你要搜苹果还是水果还是要搜公司,更深度理解。第三,移动化。中国普通网民移动化的浪潮已经存在,随着手机等移动工具的使用,搜索引擎为我们提供的移动搜索也将进一步发展。第四,社区化。社区搜索整合的目标是为用户提供一站式服务,比如在Facebook、QQ里搜索与某个用户相关的内容,依托社区网友的内容,可以实现更准确的搜索,其目标就是为了用户提供一站式的服务。

此外,未来的搜索引擎还将在以下几个方面改进和发展。一、搜索细化搜索条件。给出的搜索条件越具体,搜索引擎返回的结果也会越精确。二、用好搜索逻辑命令。搜索引擎基本上都支持附加逻辑命令查询,常用的是“+”号和“-”号,或与之相对应的布尔逻辑命令AND、OR和NOT。用好这些命令符号可以大幅提高我们的搜索精度。三、精确匹配搜索。除利用前面提到的逻辑命令来缩小查询范围外,还可使用引号。

5 检索技巧

1高级查询

双引号(" ")

给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。

使用加号(+)

在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。

使用减号(-)

在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。

通配符(*和?)

相关文档
最新文档