中外搜索引擎研究的现状与发展

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中外搜索引擎研究的现状与发展

夏旭李健康

(第一军医大学图书馆广州510515)

摘要:

以WWW网络搜索引擎的发展历程为基础,综述了WWW网络搜索引擎的定义、检索机制、检索规则、词表应用、分类研究、比较研究等方面取得的新进展,探讨搜索引擎发展走向与思路。同时就目前中外搜索引擎普遍存在的问题进行分析,希能对国内中文搜索引擎的开发和准确、快速、全面检索WWW网络乃至因特网信息资源有所启示。

关键词:搜索引擎研究进展综述信息资源管理

由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新,而且还提供快速访问网上信息资源的各种搜索引擎(Search Engines),用于快速搜索WWW网络乃至因特上的有用信息,使得通过WWW网络获取网络信息资源成为国内外研究的一大热点。基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出,拉开了搜索引擎核心技术争夺战的序幕。可以预言,在今后一段相当长的时间里,搜索引擎还将有长足的发展和进步,检索功能将更趋向于集成化和更具亲和力、更显人性化。

1 搜索引擎的定义、检索机制、检索规则和词表应用

1.1 定义

搜索引擎,Search engines,又称搜索机,Web搜索器,是伴随WWW网络出现的检索网上信息资源的新工具。实质上是一种网页网址检索系统,有的提供分类和关键词检索途径,有的仅提供关键词检索途径。它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,能够自动对WWW资源建立索引或进行主题分类,并通过查询语法为用户返回匹配资源的系统。搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游,不断搜集各类新网址及网页,形成数以千万甚至上亿条记录的数据库。它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球WWW网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。具有检索面广、信息量大、信息更新速度快,特定主题的检索专指性强等特点。

1.1.1 常规搜索引擎和元搜索引擎

自带索引数据库的搜索引擎通常被称为常规搜索引擎或独立搜索引擎,相应地,集多种常规搜索引擎于一体的搜索引擎则称为(多)元搜索引擎。元搜索引擎是国外搜索引擎开发者新设计的一种集成型搜索引擎,与独立搜索引擎的区别在于:它是通过一个统一的用户界面帮助用户在多个独立搜索引擎中选择和利用合适的搜索引擎,甚至是同时利用多个搜索引擎来实现检索操作。元搜索引擎没有自己独立的数据库,却更多地提供统一界面,形成一个由多个搜索引擎构成的具有独立功能的虚拟逻辑体,通过元搜索引擎的功能实现对这个虚拟逻辑体中各搜索引擎数据库的查询等一切操作。由于元搜索引擎预先配置好多个搜索引擎,每条检索指令都自动通过预先配置的搜索引擎执行,免去了用户逐一记忆和单独使用每个搜索引擎的麻烦。主要的元搜索引擎有ALL-IN-ONE、CUSI、Fun City Web Search、HyperNews、Linksearch、Savvysearch、Metacrawler、Best Search、W3Search Engines、WebSearch、Profusion、Mamma、Avenuesearch、Dogpile、Kwikseek、Findspot、Bytesearch、Webferret、Bluesquirrel Webseeker等。Metacrawler (http://www. )能同时调用6个搜索引擎;Savvysearch (http://www. )可有选择地调用21个独立的搜索引擎,检索Web、Usenet 新闻组、软件、参考工具、技术报告等信息,每次最多并行检索5个搜索引擎的数据库。Profusion (http://www. )最多同时调用9个独立的搜索引擎,调用方式有全部调用、系统自动选择最好的3个、系统自动选择最快的3个、用户从中选取任意个搜索引擎。最新出现的桌面型离线式搜索引擎如Webcompass、WebSeeker、WebFerret、Echosearch、Copernic98等也是元搜索引擎。

1.1.2 集中式搜索引擎和分布式搜索引擎

基于搜索机器人的搜索引擎如AltaVista和目录式搜索引擎Yahoo从体系结构上看都是集中式的,从因特网上取回Web页,经过处理后将所有这些信息集中存到某个站点,用户通过访问该站点实现查询,通常它们之间没有协作,各自独立地搜集和处理信息,造成了大量重复工作,也浪费了网络带宽和CPU资源,给各Web站点带来了严重的负担,这种集中式的体系结构难以适应网络规模的日益扩大。分布式搜索引擎则可弥补这方面的不足。其基本思想是根据地域、主题、IP地址或其它的划分标准将全网划分成若干自治域,在每个自治域内分设检索服务器(Index server),每个检索服务器由信息搜集软件(Gather)、索引数据库(Index database)和代理(Broker)三部分组成,信息搜索软件负责本自治域信息的搜集,并建立索引信息存入索引数据库,代理则负责向用户提供查询接口,并与其它代理进行交互,实现检索服务器之间的中间信息交换。关于分布式搜索引擎,目前主要以理论研究为主,还没有出现实际营运的研究成果。国内有文献提出建立分布协作式搜索引擎的设想,其主要思想是以CERNET为依托,在其不同域内分别建立搜索引擎,并通过引擎注册机制和引擎间数据交换机制相结合的方法实现网络搜索引擎之间的协作,达到降低资源消耗,提高搜索引擎效率的目的。

1.2 搜索引擎的检索机制

搜索引擎定期自动搜寻有关Web站点、采集关于这些站点上的各类信息,自动对这些资源进行标引、编制目录和文摘,自动将这些数据整合到数据库,并能提供以Web为基础的包括布尔检索、短语或词组检索、自然语言检索和各种限制检索在内的数据检索,按相关度输出检索结果。搜索引擎的主体部分包括了数据采集模块、数据组织模块和数据检索模块。对应地,其资源组织和检索机制包括了数据采集标引机制、数据组织机制和用户检索机制,见图一。

图一搜索引擎的检索机制示意图

1.3 检索规则研究

由于Web资源的特殊性,搜索引擎的检索语法和检索规则与传统的光盘检索和联机检索等有所不同。Medscape、Oncolink等医学搜索引擎通过AltaVista完成搜索任务。AltaVista的检索语法规则较为复杂,基本上囊括了医学搜索引擎的检索规则。Medscape和Oncolink为代表的搜索引擎检索规则主要包括:布尔逻辑操作符。包括:AND(;、&)、OR(,、|)、NOT(—、!),此外逗号“,”类似于OR,空格和分号(;)类似于AND。

短语检索使用双引号,如“radiation enteritis”。如要查找数字信息,如“180****1212”,可用破折号“—”连接“1—800—555—1212”作为短语进行检索。

大小写有别(case-sensitivity),如输入brca1,可查找brca1,Brca1和BRCA1,如输入Brca1,则只能查找“Brca1”的网页,不能查找brca1、BRCA1的网页。

+/-号,如要查找乳腺癌治疗但非放射疗法的信息,输入breast+treatment-radiation进行精细检索。同样,如要查找异基因骨髓移植而非自体骨髓移植的信息,输入“bone marrow+allogeneic-autologous”即可。

截词检索,使用通配符“*”,也有使用“$”或“?”;英文句点“.”的作用正好与通配符相反,用于禁止单词扩展,如gene.不能检索genetics、genetic、general等词;限定范围,如新闻title;/n,

相关文档
最新文档