常用的几类搜索引擎技术
网络信息检索作业

网络信息检索作业1.网络信息资源检索常用的检索技术有哪些?答:网络信息资源检索常用的检索技术有(1)布尔逻辑检索(Boolean search)(2)截词检索技术(Truncation search)(3)短语检索(4)临近检索(5)加权检索技术(Weigh search)2.搜索引擎主要分几类,例举各代表性的搜索引擎。
答:(一)按检索方式、方法可划分为:目录型搜索引擎、索引型搜索引擎(1)目录型搜索引擎有代表性的目录型搜索引擎有:Yahoo! 、Galaxy、Look Smart、中文雅虎、新浪、搜狐、网易等。
(2)索引型搜索引擎有代表性的索引型搜索引擎:中英文Google、Hotbot、AltaVista、Ask Jeeves、百度、天网等。
(二)按搜索功能可划分为:独立型搜索引擎、元搜索引擎(1)独立型搜索引擎大多数网络检索工具都是独立型的。
(2)元搜索引擎常用的元搜索引擎有:Dogpile、Metacrawler、Vivisimo、万纬搜索、搜乐搜索等。
(三)按检索内容、主题可划分为:综合型搜索引擎和专业型搜索引擎(1)综合型搜索引擎常用的Yahoo!、百度、Google等。
(2)专用型搜索引擎如医学领域、化学领域、专利信息查询等专门性的网络检索工具。
3.什么是开放存取?答:含义:对某文献的开放存取是指它在 Internet公共领域里可以被免费获取,并允许任何用户阅读、下载、复制、传递、打印、搜索、超链接,也允许用户为之建立索引,用作软件的输入数据或其他任何合法用途。
用户在使用该文献时不受财力、法律或技术的限制,而只需在存取时保持文献的完整性,对其复制和传递的惟一限制,或者说版权的惟一作用应是使作者有权控制其作品的完整性以及作品被正确接受和引用。
4.网络参考信息有哪些类型?答:(1)百科知识检索网站(2)人物信息检索网站(3)地理信息检索网站(4)机构信息检索网站(5)术语信息检索网站(6)统计信息检索网站。
常用的26条学术搜索引擎

常用的26条学术搜索引擎学术搜索是一项免费服务,可以帮助快速寻找学术资料,如专家评审文献、论文、书籍、预印本、摘要以及技术报告。
这里为你介绍26个学术搜索引擎。
1、 Google 学术搜索虽然还是Beta版,但个人已觉得现在已经是很好很强大了,Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数。
略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章。
2、Scirus学术搜索Scirus是目前互联网上最全面、综合性最强的科技文献搜索引擎之一,其口号为“for scientific informationonly”。
它由Elsevier科学出版社开发,用于搜索期刊和专利,效果很不错!Scirus覆盖的学科范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。
3、Base学术搜索BASE是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎,提供对全球异构学术资源的集成检索服务。
它整合了德国比勒费尔德大学图书馆的图书馆目录和大约160个开放资源(超过200 万个文档)的数据。
4、VascodaVascoda是一个交叉学科门户网站的原型,它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。
5、Goole与google比较了一下发现,能搜索到一些google搜索不到的好东东。
它界面简洁,功能强大,速度快,YAHOO、网易都采用了它的搜索技术。
各位可以一试。
6、A9Google在同一水平的搜索引擎。
是推出的,Webresult部分是基于Google 的,所以保证和Google在同一水平,另外增加了Amazon的在书本内搜索的功能和个性化功能:主要是可以记录你的搜索历史。
常用的三大检索技术

常用的三大检索技术
以下是常用的三大检索技术:
1. 全文检索技术:全文检索技术是一种对文档或文本进行全面搜索的技术。
它通过分析文档中的所有文本内容,包括标题、正文、关键词等,来查找与用户查询相关的信息。
全文检索技术可以应用于各种类型的文档,如网页、电子邮件、文档库等。
它的优点是可以找到文档中任意位置出现的相关信息,但缺点是可能会返回大量不相关的结果。
2. 关键词检索技术:关键词检索技术是基于用户提供的关键词来查找相关信息的技术。
它通常将关键词与文档或记录的索引进行匹配,以找到包含特定关键词的文档或记录。
关键词检索技术常用于搜索引擎和数据库查询中,它的优点是快速、准确,可以有效地找到与关键词直接相关的信息,但对于一些语义复杂或模糊的查询,可能会遗漏相关的结果。
3. 分类检索技术:分类检索技术是根据文档或记录的分类信息进行搜索的技术。
它将文档或记录按照预定义的分类体系进行组织,并允许用户根据分类层次结构进行搜索。
分类检索技术常用于图书馆目录、产品分类目录等领域。
它的优点是可以帮助用户快速找到特定分类下的相关信息,但对于一些跨分类或未明确分类的查询,可能会有限制。
这些检索技术在不同的应用场景中各有优势,可以根据具体需求选择合适的检索技术或结合多种技术进行综合检索。
如果你需要更详细的关于这些检索技术的信息,建议参考相关的计算机科学文献或专业书籍。
各类搜索引擎的分类

各类搜索引擎的分类、特点、工作原理及代表1,图片搜索引擎图片搜索是通过搜索程序,向用户提供互联网上相关的图片资料的服务。
从所使用的技术上来分类,可分为:(1) 基于上下文本(context)的图片搜索,传统意义上图片搜索通常是通过Alt等锚来索引,搜索的,《浅谈图片搜索引擎的实现》中提出了跨越性的图片搜索的实现,具有很高的参考价值。
如果这一设想可以实现,那将极大的改变人们的生活具有很高的参考价值。
(2) 基于图片内容的搜索基于文本的图片搜索涉及了数据库管理、计算机视觉、图像处理、模式识别、信息检索和认知心理学等诸多学科,其相关技术主要包括:图像数据模型、特征提取方法、索引结构、相似性度量、查询表达模式、检索方法等。
相似图片的检测主要涉及特征表示和相似性度量这两类关键技术。
图像特征的提取与表达是基于内容的图像处理技术的基础。
从广义上讲,图像的特征包括基于文本的特征(如关键字、注释等)和视觉特征(如颜色、纹理、形状等)两类。
2.全文索引全文搜索引擎的代表是网络爬虫,网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成。
传统爬虫从一个或若干初始网页的URL 开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并放入等待抓取的URL队列。
然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页,并重复上述过程,直到达到系统的某一条件时停止。
所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
爬虫设计是否合理将直接影响它访问Web的效率,影响搜索数据库的质量,另外在设计爬虫时还必须考虑它对网络和被访问站点的影响,因为爬虫一般都运行在速度快,带宽高的主机上,如果它快速访问一个速度较慢的目标站点,可能导致该站点出现阻塞。
搜索引擎有哪些基本类型

从实质上看,利用机器手自动检索网页信息的搜索引擎才是真正意义上的搜索引擎。现在的大型网站一般都同时具有“搜索引擎”和“分类目录”查询方式,只不过一些网站的搜索引擎技术来自于其他提供全文检索的专业搜索引擎,如雅虎拥有自己经营的网站分类目录,而曾经采用的网页网络推广搜索引擎包括Inktomi谷歌等公司提供的技术。因此,从用户应用的角度来看,无论通过技术性的搜索引擎,还是人工分类目录型的搜索引擎,都能实现自己查询信息的目的,因此习惯上没有必要严格区分这两个概念,而是通称为搜索引擎。不过要注意的是,由于两种类型的网络推广搜索引擎原理不同,导致各种搜索引擎营销方式的差异,需要针对不同的搜索引擎采用不同的搜索引擎营销策略,因而处于网络推广营销研究和应用,有必要从概念和原理上给予区分。
尽管搜索引擎有各种不同的表现形式和应用领域,如果从网络推广搜索引擎的工作原理来区分,网络推广搜索引擎有两种基本类型:一类是纯技术型的全文检索搜索引擎,如谷歌AltaVista、Inktomi等,其原理是通过机器手到各个网站收集、存储信息,并建立索引数据库供用户查询。需要说明的是,这些信息并不是搜索引擎即时从互联网上检索得到的,通常所说的网络推广搜索引擎,其实是一个收集了大量网站/网页资料并按照页数量已经超过42亿个,这样,当用户检索时才可以在很短的时间内反馈大量的结果。
但是,也有一些搜索引擎的操作方式不同于上述两类基本的网络推广搜索引擎,比较有影响力的有两种:一种是“多元搜索引擎”,另一种被称为“集成搜索引擎”。这两种搜索引擎也是在前述两种基本搜索引擎的基础上发展演变而成的,但又不同于传统的搜索引擎模式。由于这些搜索引擎应用于网络营销时在基本思想和方法上并没有重大差别,因此这里仅做简要介绍。
搜索引擎有哪些基本类型
随着网络推广搜索引擎技术和市场的不断发展,出现了多种不同类型的网络推广搜索引擎,各类媒体上有关网络推广搜索引擎的名词也越来越多。
四大搜索引擎高级搜索语法总结

四大搜索引擎高级搜索语法总结一Google (2)1. 减除无关资料(-) (2)2. 英文短语搜索(””) (2)3. 指定网域 (2)4. 查找特定文件 (2)5. 按链接搜索 (2)6. 限定关键词只在标题中 (2)7. 限定关键词只在URL中 (3)8. info (3)9. related (3)10. cache (3)二百度 (3)1. 把搜索范围限定在网页标题中——intitle (3)3. 把搜索范围限定在url链接中——inurl (3)4. 精确匹配——双引号和书名号 (4)5. 要求搜索结果中不含特定查询词 (4)6. 专业文档搜索 (4)三Yahoo (4)1. title: (4)2. Link: (5)3. Site:或者domain: (5)4. Hostname: (5)5. url: (5)6. 如何使搜索结果中的查询词不被拆开? (6)四Sogou (6)1. 使用双引号进行精确查找 (6)2. 使用多个词语搜索 (6)3. 减除无关资料 (6)4. 在指定网站内搜索 (7)5. 文档搜索 (7)五、四大搜索引擎高级语法总结 (7)一、Google1.减除无关资料(-)如果要避免搜索某个词语,可以在这个词前面加上一个减号(“-”,英文字符)。
但在减号之前必须留一个空格。
2.英文短语搜索(””)在Google 中,可以通过添加英文双引号来搜索短语。
双引号中的词语(比如"like this")在查询到的文档中将作为一个整体出现。
这一方法在查找名言警句或专有名词时显得格外有用。
一些字符可以作为短语连接符。
Google 将“-”、“\”、“.”、“=”和“..."等标点符号识别为短语连接符。
3.指定网域有一些词后面加上冒号对Google 有特殊的含义。
其中有一个词是“site:”。
要在某个特定的域或站点中进行搜索,可以在Google 搜索框中输入“site:”。
16个学术搜索引擎
学术搜索是一项免费服务,可以帮助快速寻找学术资料,如专家评审文献、论文、书籍、预印本、摘要以及技术报告。
本文为你介绍16个学术搜索引擎。
其实就某一专业或领域而言,一般用到两三个搜索引擎就够了,往往是学校购买全文的。
就我个人而言,一般常用英文的ISI Web of Knowledge,google s cholar,中文的CNKI和万方,中文学位论文用万方学位搜索。
部分学校的学位论文外网是不提供下载的,这时人人的优势就出来了,找个该校的童鞋就搞定了。
1 . Google ScholarGoogle 推出的免费学术搜索工具,可以帮助用户快速查找学术资料,包括来自学术著作出版商、专业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要和技术报告。
2. SciVerse从2010年8月28日起,ScienceDirect、Scopus 以及 Scirus 的特定网页内容已整合到一个称为 SciVerse 的平台中。
那么,SciVerse是什么呢?概括起来讲,就是海量科研信息的一个一站式集散平台。
这个平台,将帮助科研人员实现“少量搜索,更多信息”,而且,这些信息都是与科研相关的信息。
就像文章题目所显示的那样,SciVerse整合了包括SD、Scopus以及Scirus的信息,形成一个“SciVerse Hub”(SciVerse中心)。
除此之外,SD用户以及Scopus用户依然可以享受之前的服务,它们将与“SciVerse Hub”一起形成SciVerse的三大部分“SciVerse ScienceDirect”、“SciVerse Scopus”、“SciVerse Hub”,如下图所示:3. web of science/web of knowledgeWeb of Science是美国Thomson Scientific(汤姆森科技信息集团)基于WE B开发的产品,是大型综合性、多学科、核心期刊引文索引数据库,包括三大引文数据库(科学引文索引(Science Citation Index,简称SCI)、社会科学引文索引(Social Sciences Citation Index,简称SSCI)和艺术与人文科学引文索引(Arts & Humanities Citation Index,简称A&HCI))和两个化学信息事实型数据库(Current Chemical Reactions,简称CCR和Index Chemicus,简称IC),以及科学引文检索扩展版(Science Ciation Index Expanded,SCIE)、科技会议文献引文索引(Conference Proceedings Citation Idex-Science,CP CI-S)和社会科学以及人文科学会议文献引文索引(Conference ProceedingsCitation index-Social Science&Humanalities,CPCI-SSH)三个引文数据库,以ISI Web of Knowledge作为检索平台。
互联网上的最佳搜索引擎技巧和技术
互联网上的最佳搜索引擎技巧和技术随着互联网的快速发展,人们对于搜索引擎的需求也变得越来越强烈。
但是在海量的信息中找到自己想要的内容并不是一件轻松的事情。
因此,掌握一些搜索引擎优化技巧和技术成为了关键。
一、关键词搜索技巧在搜索引擎中,关键词搜索是最常用的方式。
但是,如何使用关键词来更加准确地搜索到自己想要的内容呢?下面是一些关键词搜索技巧:1. 利用双引号限定搜索范围:在搜索框中输入双引号“ ”,可以限定搜索范围,搜索引擎将只返回包含这些关键词的精确匹配结果,而不是包含部分关键词的结果。
例如,在搜索框中输入“人工智能”,搜索引擎会优先返回包含完整关键词“人工智能”的内容。
2. 利用减号排除无关内容:在搜索框中输入减号“-”可以排除某些与关键词无关的搜索结果。
例如,在搜索框中输入“红酒 -塑化剂”,搜索引擎会排除包含塑化剂的红酒相关内容。
3. 利用加号连接多个关键词:在搜索框中输入加号“+”可以连接多个关键词,实现更加准确的搜索结果。
例如,在搜索框中输入“自然+风景+照片”,搜索引擎会返回自然风景的相关照片。
4. 利用星号代替不确定内容:在搜索框中输入星号“*”可以代替一些不确定的内容,实现更加丰富的搜索结果。
例如,在搜索框中输入“此人*过”,搜索引擎会返回包含“此人逝世”、“此人毕业”等相关内容。
二、高级搜索技巧除了基本的关键词搜索外,搜索引擎还提供了一些高级搜索技巧,帮助用户更加准确地搜索信息。
1. 按时间搜索:在搜索引擎中选择“按时间”选项,可以实现按时间顺序搜索所需内容。
这在新闻、事件等需要即时更新的行业中非常实用。
2. 按文件类型搜索:在搜索框中输入关键词后,选择“文件类型”选项,可以只搜索特定类型的文件,如PDF、Excel、PPT等。
这在搜索特定类型的文档时非常实用。
3. 按站点搜索:在搜索框中输入关键词后,选择“站点”选项,可以只搜索某个特定站点的内容。
这在搜索某个特定网站的内容时非常实用。
简述搜索引擎的分类及其特点
简述搜索引擎的分类及其特点一、搜索引擎有哪些类型1、全文搜索引擎全文搜索引擎是利用爬虫程序抓取互联网上所有相关文章予以索引的搜索方式。
一般网络用户适用于全文搜索引擎。
这种搜索方式方便、简捷,并容易获得所有相关信息。
但搜索到的信息过于庞杂,因此用户需要逐一浏览并甄别出所需信息。
尤其在用户没有明确检索意图情况下,这种搜索方式非常有效。
2、元搜索引擎元搜索引擎是基于多个搜索引擎结果并对之整合处理的二次搜索方式,适用于广泛、准确地收集信息。
不同的全文搜索引擎由于其性能和信息反馈能力差异,导致其各有利弊。
元搜索引擎的出现恰恰解决了这个问题,有利于各基本搜索引擎间的优势互补。
而且本搜索方式有利于对基本搜索方式进行全局控制,引导全文搜索引擎的持续改善。
3、垂直搜索引擎垂直搜索引擎是对某一特定行业内数据进行快速检索的一种专业搜索方式,适用于有明确搜索意图情况下进行检索。
例如,用户购买机票、火车票、汽车票时,或想要浏览网络视频资源时,都可以直接选用行业内专用搜索引擎,以准确、迅速获得相关信息。
4、目录搜索引擎目录搜索引擎是依赖人工收集处理数据并置于分类目录链接下的搜索方式,是网站内部常用的检索方式。
本搜索方式指在对网站内信息整合处理并分目录呈现给用户,但其缺点在于用户需预先了解本网站的内容,并熟悉其主要模块构成。
总而言之,目录搜索方式的适应范围非常有限,且需要较高的人工成本来支持维护。
5、集成搜索引擎集成搜索引擎是通过网络技术在一个网页上链接很多个独立的搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询。
搜索的结果由各个搜索引擎分别以不同的页面显示。
6、门户搜索门户搜索引擎虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
7、站内搜索站内搜索只查询自身数据库的信息,并把搜索结果展现给用户,站内搜索的特点是,信息都是网站自身的信息,并不会像全文搜索引擎那样去其他网站抓取信息,比如淘宝,我们使用淘宝搜索产品时,都是淘宝自身的数据信息。
信息检索与搜索引擎技术
信息检索与搜索引擎技术信息检索与搜索引擎技术在当今社会中发挥着重要的作用,为我们提供了快速准确的信息查询和获取方式。
本文将介绍信息检索与搜索引擎技术的概念、基本原理以及其在各个领域的应用。
一、信息检索与搜索引擎技术概述信息检索是指通过计算机技术对大规模的信息进行组织、存储、检索和处理的方法和技术。
而搜索引擎则是信息检索技术的重要应用之一。
搜索引擎技术以互联网为基础,通过网络爬虫对互联网上的网页进行抓取和索引,利用相关算法实现用户输入关键词后的匹配和排序,从而提供用户所需的信息。
目前,全球应用最为广泛的搜索引擎包括谷歌(Google)、百度、必应(Bing)等。
二、信息检索与搜索引擎技术的基本原理1. 索引建立:搜索引擎通过网络爬虫程序对互联网上的网页进行抓取,并将抓取到的网页进行分词、去除停用词等处理,生成索引用于后续的查询。
2. 关键词匹配:当用户输入查询关键词后,搜索引擎会将关键词与索引中的网页内容进行匹配,找出与关键词相关的网页。
3. 排序算法:搜索引擎通过一系列的排序算法,对匹配的网页进行排序,以便将最相关的网页呈现给用户。
常用的排序算法包括PageRank算法、TF-IDF算法等。
4. 用户反馈:搜索引擎会根据用户的点击行为和反馈信息不断优化搜索结果,提供更准确的查询结果。
三、信息检索与搜索引擎技术的应用信息检索与搜索引擎技术在各个领域都有广泛的应用,以下是几个典型的应用场景:1. 互联网搜索:人们可以通过搜索引擎轻松获取各种知识和信息,包括新闻、论坛、博客、图片、视频等。
2. 电子商务:在线购物平台利用搜索引擎技术,为用户提供便捷的商品搜索和筛选功能,提高购物效率。
3. 学术研究:学术搜索引擎如谷歌学术(Google Scholar)可以帮助学者快速找到与其研究领域相关的论文、期刊等。
4. 企业信息管理:企业可以利用搜索引擎技术建立内部信息管理系统,方便员工查找和共享企业资料和知识。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
详细介绍常用的几类搜索引擎技术
因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题,它可以为用户提供信息检索服务。
目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。
搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。
据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9TB,并且仍以每4个月翻一番的速度增长。
例如,Google 目前拥有10亿个网址,30亿个网页,3.9 亿张图像,Google支持66种语言接口,16种文件格式,面对如此海量的数据和如此异构的信息,用户要在里面寻找信息,必然会“大海捞针”无功而返。
搜索引擎正是为了解决这个“迷航”问题而出现的技术。
搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。
目前,搜索引擎技术按信息标引的方式可以分为目录式搜索引擎、机器人搜索引擎和混合式搜索引擎;按查询方式可分为浏览式搜索引擎、关键词搜索引擎、全文搜索引擎、智能搜索引擎;按语种又分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。
目录式搜索引擎
目录式搜索引擎(Directory Search Engine)是最早出现的基于WWW的搜索引擎,以雅虎为代表,我国的搜狐也属于目录式搜索引擎。
目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,形成了一个可浏览式等级主题索引式搜索引擎,一般的搜索引擎分类体系有五六层,有的甚至十几层。
目录式搜索引擎主要通过人工发现信息,依靠编目员的知识进行甄别和分类。
由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的,但由于人工信息搜集速度较慢,不能及时地对网上信息进行实际监控,其查全率并不是很好,是一种网站级搜索引擎。
机器人搜索引擎
机器人搜索引擎通常有三大模块:信息采集、信息处理、信息查询。
信息采集一般指爬行器或网络蜘蛛,是通过一个URL列表进行网页的自动分析与采集。
起初的URL并不多,随着信息采集量的增加,也就是分析到网页有新的链接,就会把新的URL添加到URL列表,以便采集。
机器人搜索引擎使用多线程并发搜索技术,主要完成文档访问代理、路径选择引擎和访问控制引擎。
基于机器人搜索引擎的Web页搜索模块主要由URL服务器、爬行器、存储器、URL解析器四大功能部件和资源库、锚库、链接库三大数据资源构成,另外还要借助标引器的一个辅助功能。
具体过程是,URL服务器发送要去抓取的URL,爬行器根据URL抓取WEB页并送给存储器,存储器压缩Web页并存入数据资源库,然后由标引器分析每个WEB页的所有链接并把相关的重要信息存储在锚库文件中。
URL解析器读锚库文件并解析URL,然后依次转成docID。
再把锚库中文本变成顺排索引,送入索引库。
具体过程如图1所示。
元搜索引擎
元搜索引擎,也叫集搜索引擎,是指在统一的的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。
元搜索引擎是对搜索引擎进行搜索的搜索引擎。
元搜索与一般搜索引擎的最大不同在于它可以没有自己的资源库和机器人,它充当一个中间代理的角色,接受用户的查询请求,将请求翻译成相应搜索引擎的查询语法。
在向各个搜索引擎发送查询请求并获得反馈之后,首先进行综合相关度排序,然后将整理抽取之后的查询结果返回给用户。
元搜索引擎查全率高、搜索范围更多更大,查准率也并不低。
元搜索引擎包括Web服务器、结果数据库、检索式处理、Web处理接口、结果生成等几个部分,其中用户通过Web服务器访问元搜索引擎,而元搜索引擎则通过Web处理接口访问其它外部的搜索引擎。
其系统结构如图2所示。
用户通过WWW服务访问元搜索引擎,向Web服务器提交检索式。
当Web服务器收到查询请求时,先访问结果数据库,查看近期是否有相同的检索,如果有则直接返回保存的结果,完成查询;如果没有相同的检索,就分析检索式并转化成与所要查找各搜索引擎相应的检索式格式,然后送至Web处理接口模块。
Web处理接口通过并行的方式同时查询多个搜索引擎,把所有的结果集中到一起。
根据各搜索引擎的重要性,以及所得结果的相关度,对结果进行抽取并排序,生成最终结果返回给用户。
同时,把结果存到自己的数据库里,以备下次查询参考使用。
跨语言搜索引擎
跨语言综合搜索引擎是在一般的搜索引擎基础上加了两个功能:不同语言提问之间的翻译和不同搜索引擎检索结果的集成。
跨语言搜索引擎有两种情况,一种是架构在单一搜索引擎的基础上,另一种是架构在多搜索引擎的基础上。
目前研究最多的是跨语言文本检索和跨语言语音检索。
跨语言检索主要涉及信息检索和机器翻译两个领域的知识,但又不是这两种技术的简单融合。
跨语言检索系统的检索功能,可以利用现有的检索系统来实现,也可以重新构造新的检索系统或检索功能模块来实现。
跨语言搜索引擎的工作过程如下:用户向系统提交检索词,形成一个源语言的搜索式,系统对搜索式进行语言识别,识别出语种后,就对进行提问式的词法分析和结构分析,然后把这个分析过的搜索式翻译成各种语言的搜索式,最后把这一系列的搜索式提交给系统进行检索就可以了。
检索结果是含有多个语种的页面。
如果使用多搜索引擎,转换成不同语言搜索式时还需要注意各种搜索引擎搜索式表达方法的不同。
例如,新浪网搜索中文信息的结果比较好,那么就把提问词是中文的搜索式转换成新浪网的搜索式;雅虎对英文信息的搜索结果比较好,那么就向雅虎提交提问词是英文的搜索式。
关于多语种搜索有这样几种情况:检索词为不同语种,检索结果也不同,这种情况是不经过翻译的,对搜索引擎来讲是不区分的。
比如在Google里输入“知识发现knowledge”,选择所有语种,那么只要网页里既有“知识发现”又有“knowledge”就可以检索出来,不管该页面是中文的,还是英文或者是日文的,搜索引擎并不识别检索词的语种,这不是真正的跨语言搜索引擎。
第二种情况是,检索词为同一语种,检索结果为不同语种。