试比较垂直搜索引擎和传统的搜索引擎
垂直搜索引擎的研究与设计的开题报告

垂直搜索引擎的研究与设计的开题报告一、选题背景及意义随着互联网技术的不断推进,人们获取信息的方式也变得越来越多样化。
传统的搜索引擎由于收录的内容范围广泛,搜索结果泛滥,对于用户的真正需求没有很好的满足。
而随着信息化建设的不断深入,垂直搜索引擎作为一种专业化的网络搜索平台,其能够精确匹配用户需求,提供更为专业和精准的搜索结果,已经逐渐受到人们的关注与追捧。
因此,本课题意在研究和设计一种可行的垂直搜索引擎,以满足用户搜索精准度更高、搜索效率更快的需求。
二、国内外研究现状目前已有大量的综合搜索引擎,比如 Google、Baidu等,他们的搜索结果覆盖范围广泛,但是内容质量却无法保证,容易受到滥竽充数、推销广告、伪信息等的影响。
再如对于某些专业领域的搜索需求还没有很好地被满足,需要专门的垂直搜索引擎来满足。
在国内外,已经有许多企业和学者致力于垂直搜索引擎的研究和实践。
国内的一些垂直搜索引擎如搜狗(翻译)、慧聪网(商业)、聚鑫乐(股票)、大楚网(地方信息)等已经相继面世,其中搜狗翻译广受欢迎,受到了大量用户青睐。
国外的一些垂直搜索引擎如TechCrunch(科技)、Kayak(旅游)、TripAdvisor(酒店)、Indeed(招聘)、Yelp(点评)等在相应领域内表现出色,得到了广泛的认可。
三、研究内容及方法本研究对垂直搜索引擎的研究主要涉及以下方面:1.搜索引擎的建立方法,包括爬虫技术、网页处理技术和汇总算法等。
2.建立垂直搜索引擎的标准与模型,包括各种搜索条件的设置等。
3.建立一套完整的搜索引擎系统设计。
4.考虑开发一些辅助功能,如数据统计、数据分析与图表生成等。
研究方法主要是基于文献调查、比较研究和实验研究相结合,分析不同的研究方法的优缺点并吸收其中的优点,不断优化系统的设计和运作流程。
四、预期目标1.建立一种精准的垂直搜索引擎,支持不同领域的高质量搜索需求。
2.提供更为丰富、精准的搜索结果,能够满足用户更为细致的需求。
搜索引擎

搜索引擎分析在当今的社会,上网成为了我们大部分人每天必不可少的一部分,网络具有太多的诱惑和开发的潜力,查询资料,消遣娱乐等等,但是这些大部分都离不开搜索引擎技术的应用。
今天在我的这篇论文里将会对搜索引擎进行一个分析和相关知识的概括。
就如大家所知道的互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。
网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。
用户查询时,通过一层层的点击来查找自己想找的网站。
也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。
1990年,加拿大麦吉尔大学计算机学院的师生开发出Archie。
当时,万维网还没有出现,人们通过FTP来共享交流资源。
Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。
用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。
虽然Archie搜集的信息资源不是网页,但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。
所以,Archie被公认为现代搜索引擎的鼻祖。
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
百度和谷歌等是搜索引擎的代表。
那么搜索引擎将来的发展方向和发展的前景又是如何?我们就先从以下的各类主流搜索引擎先进行一个大致的分析。
1.全文索引全文搜索引擎是当今主要网络搜素时所应用的搜索引擎,在网络上也是大家所熟知的,比如google和百度都是我们平时经常使用的。
它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序,俗称“蜘蛛”程序或“机器人”程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google 和百度就属于这种类型;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
搜索引擎有哪些分类?分享搜索引擎的6大分类

搜索引擎有哪些分类?分享搜索引擎的6大分类搜索引擎有哪些分类?搜索引擎已经成为我们日常生活中的一部分,无论是进行情人节礼物的研究,还是早上7点之前最近营业的咖啡店,或是寻找镇上最好的面馆。
人们都越来越依赖搜索引擎来查询答案。
网站建设搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎等。
全文索引全文搜索引擎是目前广泛应用的主流搜索引擎,国外代表有Google,国内则有著名的百度。
它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相配的记录,按一定的排列顺序返回结果,目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。
用户完全可以按照分类目录找到所需要的信息,不依靠关键字进行查询。
目录索引中最具代表性网站有Yahoo、新浪分类目录搜索。
元搜索引擎元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
在搜索结果排列方面,有的之间按来源排列搜索结果,有的则按自定的规则将结果重新排列组合。
垂直搜索引擎垂直搜索引擎为2006年后逐渐兴起的一类搜索引擎。
不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求,在其特定的搜索领域有更好的用户体验。
相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
集合式搜索引擎集合式搜索引擎类似元搜索引擎,区别在于它并非同事调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择。
门户搜索引擎门户搜索引擎虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果来自其他搜索引。
成都蜀风科技打造与企业品牌相匹配的网站及微信开发,对每一个网站建设和微信开发项目,都以策略先行,再将创意与技术完美结合。
为企业打造出与企业品牌气质相匹配的网络品牌形象。
我们始终保持行业领先开发水平,不断掌握领先的网络技术。
搜索引擎分类和原理

一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料。
⒈提高搜索引擎对用户检索提问的理解。为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言。为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“如何能杀死计算机中的病毒”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“病毒”这个词来检索,结果中必然会包括各类病毒的介绍,病毒是怎样产生的等等许多无用信息,而用“如何能杀死计算机中的病毒”检索,搜索引擎会将怎样杀死病毒的信息提供给用户,提高了检索效率。
11.分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。每个部分均采用N+1的冗余设计,1台服务器时刻处于备用状态。因而整个系统能在99.9%的时间内提供高可用性和高稳定性的服务。
12.高可配置性使得搜索服务能够满足不同用户的需求。在搜索调度、相关性评价、内容过滤、显示方式等方面均为客户提供了可配置手段,使系统具有服务,由他们自行决定搜索结果的显示方式,加入自己的广告和公司图标(logo)。
8.可以提供一周、二周、四周等多种服务方式。可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。
9.检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。支持用户选择时间范围,提高用户检索效率。
搜索引擎名词解释

搜索引擎名词解释搜索引擎是一种用于帮助用户在互联网上查找特定信息的计算机程序。
用户通过输入关键词或短语,搜索引擎会在其索引中查找与该关键词相关的网页、图片、视频和其他在线资源,并将结果以列表或排名的方式展示给用户。
以下是一些与搜索引擎相关的名词解释:1. 搜索引擎算法:搜索引擎算法是用于决定特定搜索查询的结果排名的一组规则和计算方法。
搜索引擎公司会保密其算法的具体细节,以避免滥用和操纵。
2. 搜索引擎优化(SEO):搜索引擎优化是一系列技术和策略,旨在提高网站在搜索引擎的排名和可见性。
SEO包括关键词研究、网站结构优化、内容优化、链接建设等活动。
3. 搜索引擎广告(SEA):搜索引擎广告是一种广告形式,通过在搜索结果页面上以有偿方式展示广告,帮助企业推广产品和服务。
常见的搜索引擎广告平台有Google AdWords和百度推广。
4. 网络爬虫:网络爬虫是搜索引擎算法中的核心部分,用于浏览互联网上的网页并将其存储到搜索引擎的数据库中。
网络爬虫会按照事先设定的规则和指令自动访问网站,并提取页面“标题”、“描述”和关键词等信息。
5. 自然搜索结果:自然搜索结果也被称为有机搜索结果,是通过搜索引擎算法根据网页的相关性和权威性来排名的结果。
自然搜索结果不需要付费,是根据搜索引擎认为最合适的内容来展示给用户。
6. 人工智能搜索:人工智能搜索引擎是利用机器学习和自然语言处理等人工智能技术来改进搜索结果的搜索引擎。
通过分析用户的搜索历史和行为,人工智能搜索引擎可以为用户提供更个性化和准确的搜索结果。
7. 垂直搜索引擎:垂直搜索引擎是指针对特定领域或行业的搜索引擎,例如电商搜索引擎、旅游搜索引擎等。
相比于通用搜索引擎,垂直搜索引擎提供更专业和精准的搜索结果。
8. 元搜索引擎:元搜索引擎是一种同时查询多个其他搜索引擎并将结果整合展示给用户的搜索引擎。
元搜索引擎可以提供更全面的搜索结果,并帮助用户节省时间,避免在不同搜索引擎之间来回切换。
各类搜索引擎的分类

各类搜索引擎的分类、特点、工作原理及代表1,图片搜索引擎图片搜索是通过搜索程序,向用户提供互联网上相关的图片资料的服务。
从所使用的技术上来分类,可分为:(1) 基于上下文本(context)的图片搜索,传统意义上图片搜索通常是通过Alt等锚来索引,搜索的,《浅谈图片搜索引擎的实现》中提出了跨越性的图片搜索的实现,具有很高的参考价值。
如果这一设想可以实现,那将极大的改变人们的生活具有很高的参考价值。
(2) 基于图片内容的搜索基于文本的图片搜索涉及了数据库管理、计算机视觉、图像处理、模式识别、信息检索和认知心理学等诸多学科,其相关技术主要包括:图像数据模型、特征提取方法、索引结构、相似性度量、查询表达模式、检索方法等。
相似图片的检测主要涉及特征表示和相似性度量这两类关键技术。
图像特征的提取与表达是基于内容的图像处理技术的基础。
从广义上讲,图像的特征包括基于文本的特征(如关键字、注释等)和视觉特征(如颜色、纹理、形状等)两类。
2.全文索引全文搜索引擎的代表是网络爬虫,网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成。
传统爬虫从一个或若干初始网页的URL 开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并放入等待抓取的URL队列。
然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页,并重复上述过程,直到达到系统的某一条件时停止。
所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
爬虫设计是否合理将直接影响它访问Web的效率,影响搜索数据库的质量,另外在设计爬虫时还必须考虑它对网络和被访问站点的影响,因为爬虫一般都运行在速度快,带宽高的主机上,如果它快速访问一个速度较慢的目标站点,可能导致该站点出现阻塞。
搜索引擎的分类
搜索引擎的分类1、全文索引型全文搜索引擎,国内是著名的百度搜索引擎。
国内著名的有百度(Baidu)国外则是Google。
它们从互联网提取各个网站的信息(以网页的文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
2、目录索引型目录索引虽然有搜索引擎功能,但严格意义上不能称为真正的搜索引擎。
用户完全不需要依靠关键词(Keywords)查询,只是按照分类目录找到所需要的信息。
目录索引中,国内具代表性就是新浪、搜狐、网易分类目录和Yahoo网站雅虎。
其他著名的还有Open Direct ory Project(DMOZ)、LookSmart、About等。
3、元数据索引型元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户,著名的元搜索引擎有360搜索、infoSpace、D ogpile、VIsisimo等,在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
4、垂直索引型垂直搜索引擎适用于有明确搜索意图情况下进行检索。
例如,用户购买机票、火车票、汽车票时,或想要浏览网络视频资源时,都可以直接选用行业内专用搜索引擎,以准确、迅速获得相关信息。
5、互动式索引型互动式搜索引擎,在用户输入一个查询词时,尝试理解用户可能的查询意图,智能展开多组相关的主题,引导用户更快速准确定位自己所关注的内容。
比如:搜狗搜索是搜狐公司强力打造的全球首个第三代互动式搜索引擎。
搜索引擎测试方法
搜索引擎测试方法
搜索引擎测试是一个多方面的过程,它旨在评估搜索引擎的性能、准确性和用户体验。
下面列举了一些常见的搜索引擎测试方法:
1. 查询测试:使用一系列常见、多样化的查询来测试搜索引擎的响应速度、搜索结果的准确性和完整性。
可以考虑包含不同的关键词、短语、问题等,以确保搜索引擎能够正确解释和返回相关的结果。
2. 评估搜索结果的相关性:通过比较搜索结果与预期相关结果的准确程度来评估搜索引擎的相关性。
可以使用人工标记或专家判断来评估搜索结果的相关性。
3. 垂直搜索测试:针对特定领域或主题进行搜索引擎测试,以评估搜索结果的垂直特化程度和相关性。
这涉及到针对特定领域的查询和评估。
4. 用户体验测试:通过用户反馈、问卷调查和用户行为分析来评估搜索引擎的用户体验。
这包括搜索结果的布局、页面加载速度、相关性提示、过滤选项等。
5. 性能测试:测试搜索引擎在处理各种工作负载情况下的响应速度和性能。
可以使用负载测试工具模拟多个并发用户来评估搜索引擎的性能瓶颈。
6. 语言和地区测试:测试搜索引擎在不同语言和地区的搜索结果的准确性和相关性。
这涉及到使用不同的语言和地区设置进行搜索,以评估搜索引擎在全球范
围内的适应能力。
这些都是常见的搜索引擎测试方法,具体的方法和工具可以根据需要和资源的可用性进行选择和定制。
几种常用的搜索引擎
Yahoo! Search
历史地位
Yahoo! Search是互联网早期的搜索引擎之一,具 有很高的历史地位。
搜索算法
Yahoo! Search使用自己的搜索算法,结合人工编 辑和机器学习技术来提供搜索结果。
广告模式
Yahoo! Search采用与Google类似的AdWords广 告系统,允许广告主购买搜索结果旁边的广告位。
单击此处添加小标题
语音搜索
单击此处添加小标题
语音搜索技术的不断发展,将 使得用户能够更加方便地使用 搜索引擎,提高搜索效率和用
户体验。
单击此处添加小标题
移动优先
人工智能技术在搜索引擎中的应用
自然语言处理
利用人工智能技术解析自然语言,提高搜索引擎对自然语言查询的理解和检索 能力。
智能问答
通过人工智能技术实现智能问答,为用户提供更加准确和全面的答案,提升用 户满意度。
功能
搜索引擎的主要功能包括网页内容检 索、图片检索、视频检索、地图检索 等,用户可以通过关键词输入,快速 找到所需信息。
搜索引擎的分类
目录搜索引擎
通过人工编辑和分类的方式,将互联网上的网站 进行分类整理,用户可以通过目录逐层查找所需 网站。如Yahoo、Dmoz等。
全文搜索引擎
以爬取和索引网页全文为主要方式,通过关键词 匹配返回相关网页结果。如 XX、谷歌等。
搜索语法与运算符
2
使用布尔运算符 大多数搜索引擎支持使用AND、OR、NOT等布 尔运算符进行搜索,通过组合这些运算符可以更 精确地表达搜索意图。
使用引号 将关键词放在引号中,可以搜索完全匹配的短语 或词组。
3
使用限定符 部分搜索引擎支持使用限定符来限定搜索范围, 如site:限定在特定网站内搜索。
搜索引擎基本资料
搜索引擎一、搜索引擎的概念搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。
新竞争力通过对搜索引擎营销的规律深入研究认为:搜索引擎推广是基于网站内容的推广——这就是搜索引擎营销的核心思想。
这句话说起来很简单,如果仔细分析会发现,这句话的确包含了搜索引擎推广的一般规律。
本文作者在“网站推广策略之内容推广思想漫谈”一文中提出一个观点:“网站内容不仅是大型ICP网站的生命源泉,对于企业网站网络营销的效果同样是至关重要的”。
因为网站内容本身也是一种有效的网站推广手段,只是这种推广需要借助于搜索引擎这个信息检索工具,因此网站内容推广策略实际上也就是搜索引擎推广策略的具体应用。
二、搜索引擎的分类1、全文索引全文索引引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。
它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的网页抓取、索引、检索系统(Indexer),有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler)、或“机器人”(Robot)程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
2、目录索引目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。
用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。
目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。
3、元搜索引擎元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
试比较垂直搜索引擎和传统的搜索引擎
摘要:搜索引擎以其强大的检索功能备受社会关注,各种类型的搜索引擎更是
层出不穷。
本文选取了垂直搜索引擎和传统搜索引擎作为比较对象,从工作原理、核心技术、信息服务这三个方面进行了比较,最后总结出搜索引擎发展的方向就
是更好的为用户提供服务。
关键词:垂直搜索引擎;传统搜索引擎;比较
搜索引擎主要指利用网络自动搜索技术软件或人工方式,对网络资源进行收集、整理与组织,并提供检索服务的一类信息服务系统。
随着网络和计算机技术
的快速更新,各种类型的搜索引擎层出不穷。
由于搜索引擎查询的海量结果存在
信息量大、查询不准确、深度不够等缺陷,用户感觉到很难在短时间内准确的筛
选并找到符合需求的信息。
于是,垂直搜索引擎便应运而生。
那么,它到底和传
统的搜索引擎有何不同呢?
1.垂直搜索引擎和传统搜索引擎概述
传统搜索引擎就是早期的综合搜索引擎的统称。
它是指定期收录和整理网络
信息,提供关键词或浏览查询方式的网络信息检索工具。
其资源包罗万象,用户
可在检索栏中输入检索词来检索几乎任何类型和主题的资源。
虽然它收录的资源
范围广,但存在死链接较多、相关度较低等缺点。
垂直搜索引擎即专业化搜索引擎,是专为查询某一学科或主题的信息而产生
的查询工具。
它是对某类网页资源和结构化资源的深度整合后提供符合专业用户
操作行为的信息服务方式。
其特点是“专、精、深”,且具有行业色彩。
因为它的
搜索器只搜集特定的主题信息的相关网页。
这样大大降低了收集信息的难度,提
高了信息的质量。
2.工作原理比较
传统的搜索引擎是通过Spider程序来自动地在互联网中搜集和发现信息,再
由索引器为搜到的信息建立索引,最后由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。
由于网页文件存在不规范性,传统搜索引擎所建立的
索引是全文索引。
垂直搜索引擎先利用特定的软件按照用户需求自动从网络服务
器上搜索信息资源;再按照专题进行人工分类,建立索引,将索引好的内容存放
到本地数据库。
用户在检索时只需利用搜索引擎的界面接口输入检索要求,后台
数据库检索软件对其进行处理,并将结果反馈给用户,用户可根据返回的摘要信
息决定是否要继续访问原始站点,以得到更为详细的信息。
由此可知,它们的工作原理是很相似的,不过垂直搜索引擎的后台索引数据
库是在计算机自动搜索与人工分类相结合基础上建立的,它既能及时补充网上随
时更新的信息,又能满足用户按照科学的分类体系准确的查询到满意的信息。
3.核心技术比较
传统搜索引擎是在整个互联网的网页中查找信息。
依赖于搜索技术,抓取、
索引、排序等技术。
而垂直搜索引擎只在特定主题的网站上查找。
采用的主要技
术包括spider、网页结构化信息抽取技术、元数据采集技术、分词技术、索引技
术等信息处理技术。
所以,垂直搜索引擎可以针对专业特定的领域或行业的内容进行专业和深入
的分析挖掘和定位,更精准的提供有一定价值的信息和相关服务,有效地弥补了
传统的综合搜索引擎对专门领域及特定主题信息覆盖率过低的问题。
同时,能够把
具有相同兴趣点的人们集中在一个“主题社区”内,不仅集中提供各种专业资源,
而且给大家提供了一个相互交流、共享经验和教训、展望行业发展前景的机会和场合。
相比较传统搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
4.信息服务的比较
(1)服务用户比较
传统搜索引擎为用户提供一个的检索入口, 它准备了与用户提问相关的各种网络资源,供用户自行筛选。
其用户群覆盖范围较广泛,涉及了所有类型的网络资源使用者。
垂直搜索引擎的用户有明确的信息需求,这种信息需求可以界定在某一个特定范围内,并且满足其信息需求的信息产品是特定形式的组织化的信息,它提供的结果都是与用户需求相关的,用户不用自己再进行分析和判断。
传统搜索引擎对用户的要求相对较高,在搜索的过程中,需要有用户对自己需求的不断调整的过程。
垂直搜索引擎对用户的要求较低,直接输入检索需求即可。
所以,传统的搜索引擎用户规模比较大,但是用户的需求不太明确;而垂直搜索引擎的用户需求相对明确。
(2)信息服务内容比较
对于搜索引擎而言,为用户提供的内容就是搜索结果。
两种搜索引擎都可以提供与用户提交检索式相关的网上检索结果,但它们存在很大区别。
信息的时效性
从信息搜索及时性来分析,垂直搜索引擎需要获取的信息来自于某一特定领域的,这比起传统的搜索引擎漫无边际的信息抓取,具有实时性优势。
由于网上的信息量巨大,传统搜索引擎的数据更新周期短则十几天,长则几个月,而垂直搜索引擎的数据更新可以以秒为单位。
信息的描述。
在描述形式上,传统搜索引擎提供的信息是网页链接,其匹配原则是网页描述与关键字的相关度;垂直搜索引擎提供的结果是结构化的数据。
在描述内容上,传统搜索引擎的结果的描述的内容包括标题、描述、url链接三个部分。
它们是当前URL链接上的网页整体内容的介绍,而不是针对用户检索的特定信息的介绍;垂直搜索引擎的搜索结果是从多个角度描述用户查找的特定信息。
这样,用户几乎不需要点击链接就可以直接判断哪条检索结果是最需要的信息。
信息结果的排列方式。
传统搜索引擎是按照系统设定的排序算法,自动根据相关性将网页排列,用户只能被动的接受搜索引擎的排列顺序。
垂直搜索引擎的排列方式可以由用户设定,用户可以自主的选择的多种方式进行排序。
这为用户更好的找到需求的信息很有帮助。
信息的查全率和查准率。
传统搜索引擎的信息搜索的数量是巨大的,而垂直搜索引擎因为检索的网站数目有限,所以检索结果的数量也维持在几百个左右。
而从查准率的角度看,垂直搜索引擎的准确率很高,几乎可以达到90%以上。
因为这些特定的信息都是在特定的相关网站上查找的,所以可以保证它的准确性。
但是传统搜索引擎是在广泛的互联网上查找,另外用户的信息需求表达不完整,其准确率相对比较低。
5.结语
传统搜索引擎和垂直搜索引擎的发展阶段不同,立足点不同,对数据处理的方式也不同。
最终导致它们在核心技术、工作原理、检索服务等方面的差别。
传统搜索引擎服务对象和服务内容广泛,用户认可程度高;垂直引擎服务对象和服务内容较窄,而指向性强。
传统搜索引擎通过长期的搜索实践和总结,制定了符合大多数用户使用习惯的服务策略和服务模式;垂直搜索引擎借鉴传统搜索引擎
的同时也采取更符合具体化搜索的服务策略和服务模式。
从理论上来说,垂直搜索引擎的查准率也比传统的综合搜索引擎高的多。
但直
到现在也没有哪个垂直搜索引擎的名气能够与综合搜索引擎相比。
不过,随着人
们对互联网的信息需求逐步从最初的娱乐、聊天向着更加实际的衣、食、住、行、求医、求职等专指度较高的方面的转变,人们获取信息的渠道也从习惯使用Google、Baidu、Yahoo这些传统的搜索引擎逐级转向能提供更专业、更直接、个
性化的垂直搜索。
总之,不管是传统搜索引擎还是垂直搜索引擎,它们都将依据
自身情况和索引对象,不断调整和改善用户服务,使得搜索变得更加轻松自如。
参考文献:
[1] 刘俊熙,盛宇.垂直和通用搜索引擎的差异和案例分析[J].现代情报.2009(3)
[2] 刘畅.综合搜索引擎与垂直搜索引擎的比较研究[J].情报科学,2007(1)
[3] 肖冬梅.垂直搜索引擎研究[J].图书馆学研究,2003(2)
[4] 陈大平.搜索引擎技术方式之探析[J].长春理工大学学报,2009(10)
[5] 赵夷平.传统搜索引擎与语义搜索引擎服务比较研究[J].情报科学,2010(2)
[6] 李文泽.个性化垂直搜索引擎[D].硕士论文,2007。