搜索引擎的特性
七大搜索引擎特点

七大搜索引擎:百度、谷歌、搜搜、搜狗、有道、雅虎、必应1.百度:1. 基于字词结合的信息处理方式。
巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。
2. 支持主流的中文编码标准。
包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。
3. 智能相关度算法。
采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。
4. 检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。
5. 百度搜索支持二次检索(又称渐进检索或逼进检索)。
可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。
利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。
6. 相关检索词智能推荐技术。
在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%。
7. 运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。
百度搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一个检索的平均响应时间小于0.5秒)8. 可以提供一周、二周、四周等多种服务方式。
可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。
9. 检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。
支持用户选择时间范围,提高用户检索效率。
10. 智能性、可扩展的搜索技术保证最快最多的收集互联网信息。
拥有目前世界上最大的中文信息库,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础。
11. 分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。
12. 高可配置性使得搜索服务能够满足不同用户的需求。
主要搜索引擎特性对比分析

还好
存在 关键 字广 告和 广告 联盟
目一应俱全
雅 雅虎是全球第 虎 一家提供因特
网导航服务的 网站。综合门 类网站。
搜索内容丰 富,但前一 条也是在百 度百科,不 是本网站。 第二条就是 商务信息。 但内容丰 富,有很多 其他网站的 内容,可供 参考。
视 PMP、超便携PC等)等满足移动人群收视需求的电
基 本
视系统。本文主要讨论支持第二类的移动终端,即
内 手持移动电视的技术应用状况。目前手持移动电视
容 产品中占绝对数量最大 的搜索引擎,雅虎是雅虎是全球第一家提供因特网导 航服务的网站。综合门类网站。 引擎是一个非常庞大的东西,不是一下子能够摸清楚 的,有很多奥秘与技巧在里面,六度空间理论与手机 移动电视这两个项目在搜索引擎里如何找到你想要的 确实不容易。
这三个网站搜索“六推广,雅虎的稍微较多。谷歌的信息较好,的 也可用,雅虎的较差。本 内
通过六个人你就能够认识任何一个陌生人。这就是
容 六度分割理论,也叫小世界理论。
手持移 百 前三条信息是商务推广,打广告。第四条 动电视 度 才是所找内容。后面的查不多都是打广告
的。没有什么可用价值。信息较前卫,大 多是关于手机移动电视的优惠活动等。
存。信息相
搜索结果还 好前三条是 所找内容, 后面有的是 商业推广。 结果内容比 较丰富。
好信息价 值度较 高,在百 度前十条 中,有七 条有价值
存在
谷 全球规模最大 歌 的搜索引擎
Google是强大 的搜索引擎, 数据更新快, 它有八个数据 中心,每个月 中下旬开始更 新,同时它有 强大的搜索功 能,有32个栏
技能训练 1-1主要搜索引擎特性对比分析
搜索引擎具备哪些特征

搜索引擎具备哪些特征1、基于字词连系的信息处置方法。
巧妙处理了中文信息的了解问题,极大地进步了查找的精确性和查全率。
2、支撑主流的中文编码规范。
包罗GBK(汉字内码扩展标准)、GB2312(简体)、BIG5(繁体),而且可以在分歧的编码之间转换。
3、百度查找支撑二次检索(又称渐进检索或逼进检索)。
可在前次检索后果中持续检索,逐渐减少查找局限,直至到达最小、最精确的后果集。
利于用户愈加便利地在海量信息中找到本人真正感兴致的内容。
4、智能相关度算法。
采用了基于内容和基于超链剖析相连系的办法进行相关度评价,可以客观剖析网页所包括的信息,然后最大限制包管了检索后果相关性。
5、检索后果能标示丰厚的网页属性(如题目、网址、时间、大小、编码、摘要等),并凸起用户的查询串,便于用户判别能否阅读原文。
6、相关检索词智能引荐技能。
在用户第一次检索后,会提醒相关的检索词,协助用户查找更相关的后果,计算标明可以促进检索量提拔10-20%.7、运用多线程技能、高效的查找算法、不变的UNIX平台、和当地化的效劳器,包管了最快的呼应速度。
百度查找引擎在中国境内供应查找效劳,可大大缩短检索的呼应工夫(一个检索的均匀呼应工夫小于0.5秒)8、智能性、可扩展的查找技能包管最快最多的搜集互联网信息。
拥有当前世界上最大的中文信息库,为用户供应最精确、最普遍、最具时效性的信息供应了坚实根底9、散布式构造、精心设计的优化算法、容错设计包管系统在大拜访量下的高可用性、高扩展性、高功能和高不变性。
10、支撑多种高级检索语法,运用户查询效率更高、后果更准。
已支撑“+”(AND)、“-”(NOT)、“|”(OR)、“site:”、“link:”,还将持续添加其它高效的查找语法。
展柜设计,展柜制作,展柜定做,广州展示柜,广州展柜,内衣专卖店装修,服装专卖店装修,店铺装修,店面设计,专卖店装修,手机店装修,美发店装修,店铺装饰,融润展柜,行润装饰,影楼装修,茶叶店装修 。
搜索引擎的特点有哪些分类

搜索引擎的特点有哪些分类搜索引擎的特点有哪些分类搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
下面是店铺给大家整理的搜索引擎的特点简介,希望能帮到大家!搜索引擎的特点(1)、纯技术型的全文检索搜索引擎原理是通过机器手(即spider 程序,也叫蜘蛛)到各个网站收集、存储信息,并建立索引数据库供用户查询。
因而,数量大,更新快,但准确率不高。
如大家经常使用的百度、谷歌的网页搜索都属于纯技术型的。
(2)、分类目录并不采集网站任何信息,而是利用各网站向“搜索引擎”提交网站信息,如填写的关键词和网站描述等资料,经过人工审核编辑后,符合网站登录的条件,则录入数据以供查询。
因而,搜索结果相关性高,但数据量及更新度都不及前者。
比如常用的亚马逊分类目录就是此类。
搜索引擎的分类目录索引目录索引也称为:分类检索,是因特网上最早提供WWW资源查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。
目录索引无需输入任何文字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需的'网络信息资源。
虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。
用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。
与全文搜索引擎相比,目录索引有许多不同之处。
首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。
用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功;而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。
搜索引擎的特点与评价标准

搜索引擎的特点与评价标准一、搜索引擎的分类搜索引擎按其工作方式主要分为三种,分别是全文搜索引擎、目录索引类搜索引擎和元搜索引擎。
全文搜索引擎是名副其实的搜索引擎,国外具有代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,百度(Baidu)目前所做的应该属于全文搜索引擎。
由于它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
虽然百度拥有自己的检索程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,但它们所能提供的信息绝大程度上由它所搜索的网站决定的。
评价标准及其局限性在搜索引擎的发展初期,人们对它的要求较低,只要它能把互连网上相关的网站搜出来,搜到的网站尽量多一点,无关的网站能少一点就能满足。
所以那时候,人们评测搜索引擎的方法是用几个关键词,测试对比它们的搜索速度、搜索数量和无关网站的多少。
简单说就是全、快、准。
而那时的搜索引擎技术大家差别不大,所以这样的评测方法是可行的。
此后,独特的搜索引擎技术此起彼伏,层出不穷,到现在明显处于战国时代。
但是,人们的评测方法却没多大变化,现在常见的评测还是简单的用几个关键词比较搜索速度、搜索结果数量和各自介绍的搜索准确性。
搜索引擎的评价标准与目前搜索引擎的发展状况并非完全吻合。
下面,我们就目前常用的评价指标进行分别介绍。
第一,搜索引擎的查全率。
既然是搜索引擎,当然比较搜索的范围就应该首当其冲。
但是,由于收录网页的数量都是各搜索引擎自己宣布的,未可全信,而同一个关键词的搜索结果却是显而易见的,所以一般的评测都以这个为准。
但以这个为准仍有很多不足之处,因为多数象样一点的搜索引擎都可以找出一批关键词来证明它的搜索结果是最全的。
因为网页索引数量虽然有大小,但robot和spider程序不同,索引范围和索引标准也不尽相同,在最大的搜索引擎上搜不到的有可能在小得多的搜索引擎上搜到。
搜索引擎产品介绍

经分搜索日志分析
•通过最近3个月的智能搜索点击日志分析:72.17%的用户直接通过智能搜索跨平台 处理业务功能、数据对比分析;81.58%的用户在智能搜索的第一页找到目标功能或 数据,其中90.51%的目标功能或数据出现在搜索结果的前三位。
终端管理指挥调度系统公文智能搜索
对接终端管理公司各公文工单系统,索引全公司1亿多公文工单以及附件。 为全公司1W多用户提供日常搜索功能。
4 系统自动学习,专家对分类结果再审核为 机器学习模块提供业务知识学习的采用样 本,完善投诉词典,实现一级智能分类越用 越准确的效果。
5 结合客户特征信息进行投诉用户智能分析 和潜在投诉用户分析。
投诉关键处理
第一次交流资料
搜索引擎介绍 搜索案例介绍 统一门户站内搜索
分析(一)
是否可以从客户角度分析用户在门户网站的最终目标?
搜索引擎&产品功能介绍
信息的关联由于系统的分散而被切断,通过搜索服务建立跨业务系统信息聚合平台,按业 务生命周期,实现信息的聚合、关联。
关联信息分散于各系统
业务聚合、关联信息视图
搜索引擎&产品功能介绍2
基于用户角色、用户行为、行业数据等多维度,挖掘用户潜在需求,最终实现不同角色用 户针对同一搜索关键字搜索展现的角色适配功能。
搜索引擎介绍 搜索案例介绍 统一门户站内搜索
经分搜索案例-排序模型
根据用户行为特征,从用户角度和业务角度出发的排序模型。
排序模型介绍: 1)查询内容与文档的相关性计算 2)基于组织架构的用户个性化权重 3)评分排序融合模块
最终结果排序: 1.管理员置顶结果 2.新资源高亮结果 3.基于组织架构的个性化排序 4.全文相关性排序
搜索引擎&产品可能的应用场景
搜索引擎的几大分类及其特点
全文搜索引擎全文搜索引擎是目前广泛应用的主流搜索引擎,国内则有著名的百度。
它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,再从这个数据库中检索与用户查询条件匹配的相关记录,按一定的排列顺序返回结果,因此他们是真正的搜索引擎。
代表:Google、Baidu、Sogou、so、soso、Yahoo、Bing等目录搜索引擎目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。
用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。
代表:DMOZ,早期的Yahoo等元搜索引擎元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
代表:搜星、InfoSpace、Dogpile、Xisoso、Vivisimo等垂直搜索引擎垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。
不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。
相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
集合式搜索引擎集合式搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
门户搜索引擎门户搜索引擎虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
代表:AOLSearch、MSNSearch等免费链接列表免费链接列表(Free For All Links简称FFA)一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
简述搜索引擎的分类及其特点
简述搜索引擎的分类及其特点一、搜索引擎有哪些类型1、全文搜索引擎全文搜索引擎是利用爬虫程序抓取互联网上所有相关文章予以索引的搜索方式。
一般网络用户适用于全文搜索引擎。
这种搜索方式方便、简捷,并容易获得所有相关信息。
但搜索到的信息过于庞杂,因此用户需要逐一浏览并甄别出所需信息。
尤其在用户没有明确检索意图情况下,这种搜索方式非常有效。
2、元搜索引擎元搜索引擎是基于多个搜索引擎结果并对之整合处理的二次搜索方式,适用于广泛、准确地收集信息。
不同的全文搜索引擎由于其性能和信息反馈能力差异,导致其各有利弊。
元搜索引擎的出现恰恰解决了这个问题,有利于各基本搜索引擎间的优势互补。
而且本搜索方式有利于对基本搜索方式进行全局控制,引导全文搜索引擎的持续改善。
3、垂直搜索引擎垂直搜索引擎是对某一特定行业内数据进行快速检索的一种专业搜索方式,适用于有明确搜索意图情况下进行检索。
例如,用户购买机票、火车票、汽车票时,或想要浏览网络视频资源时,都可以直接选用行业内专用搜索引擎,以准确、迅速获得相关信息。
4、目录搜索引擎目录搜索引擎是依赖人工收集处理数据并置于分类目录链接下的搜索方式,是网站内部常用的检索方式。
本搜索方式指在对网站内信息整合处理并分目录呈现给用户,但其缺点在于用户需预先了解本网站的内容,并熟悉其主要模块构成。
总而言之,目录搜索方式的适应范围非常有限,且需要较高的人工成本来支持维护。
5、集成搜索引擎集成搜索引擎是通过网络技术在一个网页上链接很多个独立的搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询。
搜索的结果由各个搜索引擎分别以不同的页面显示。
6、门户搜索门户搜索引擎虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
7、站内搜索站内搜索只查询自身数据库的信息,并把搜索结果展现给用户,站内搜索的特点是,信息都是网站自身的信息,并不会像全文搜索引擎那样去其他网站抓取信息,比如淘宝,我们使用淘宝搜索产品时,都是淘宝自身的数据信息。
国外典型元搜索引擎特性比较与分析
关键词 : 索引擎; 元搜 索 引擎;信 息检 索;检 索; 特性 搜
中图法 分类号 : P 9.9 T 33 0 文 献标识 码 : A 文章编 号 :0 07 2 2 1) 9 13 -4 10 —0 4(00 0 —9 10
计算 机 工程 与设 计 C m u r n i en d ei o pt E g er g n D s n e n i a g ・网 络 与 通信 技 术 ・
2 1,1 9 00 () 3
13 91
国外典型元搜索引擎特性比较与分析
李灵 华 , 米 守 防
( 大连 民族 学院 计 算机 科 学 与工程 学 院,辽 宁 大连 16 0 ) 16 0
d n r e r h u e s s a c e t r s f we t e r s n ai ef r i nme a s a c n i e esu id c n r si ey I i o n e u a i a y s a c s r , e r h f au e t n yr p e e t t eg t — e r h e gn sa t d e o ta t l. t s i t do t h t o v o r v p t ag o t —e r h e g n s h ss me f au e , i cu i g wh c dv d a e r h e g n ss o l e c v r d wh c f r t n o d me a s a c n i e mu t a o e t r s n l dn ih i i i u l a c n i e h u d b o e e , n s i h i o ma i n o ee n s s o l e i c u e n t e r tiv l e u t a e , wh c ip s l y h u d b u p s d i o sr c i g a r tiv l u r , lme t h u d b n l d d i h ere a s l p g s r ih d s o a wa s s o l e s p o e c n tu t e r a ey n n e q wh c p i n h u d b e e s n l e ere a , a d mu t ig a ere a h u d b u p se , e c ih o t ss o l es t n ap r o ai d r t v l n l l u l tiv l o l e s p o d o i z i in r s t.
垂直搜索引擎是什么_垂直搜索引擎有哪些
垂直搜索引擎是什么_垂直搜索引擎有哪些垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。
其特点就是专、精、深,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
什么是垂直搜索引擎垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。
然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介甚至可以进一步将笔记本简介细分成品牌、型号、CPU、内存、硬盘、显示屏、然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络信息搜索的主要策略和技巧
策略
网络信息检索策略设计应遵循快、准、全及低成本的原则,以实现检索策略最优化
1、明确检索目标,确定检索项
分析主题、使用布尔逻辑符等构造检索式
2、选择合适的检索系统
根据检索主题和检索系统的特点选择检索系统
3、正确对待检索结果
对漏检、错检、溢检、无检索结果的处理方式。
4、选择最佳上网时间
选择网速较快的时间段。
技巧
多数情况下,有一个好的搜索策略,能正确地应用布尔逻辑符,并熟悉每个搜索引擎的特性,就可得到一个好的检索结果。
除此之外,在某些情况下还可用其他的一些技巧来改善检索结果。
1、扩大检索范围、提高查全率
2、缩小检索范围、提高查准率
3、Ctrl十F
用搜索引擎检索到所需文档并连接到相关网页后,有时会发现所要的文件并没有出现在当前视野中,这可能是因为文件存放在当前网页的底部。
一个快捷的方法就是按“Ctrl十F”在当前页查找文件。
4、给检索结果作标签
避免再重复出现。
搜索引擎的相关知识
搜索引擎的分类
1、全文索引
搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。
它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与
用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
目录索引
虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。
用户完全可以按照分类目录找到所需要的信息,不依靠Keywords)进行查询。
目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。
如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。
如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
元搜索引擎
元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
著名的元搜索引擎有InfoSpace、Dogpile等,中文元搜索引擎中具代表性的是搜星搜索引擎。
在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
垂直搜索引擎
垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。
不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。
相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
集合式搜索引擎
集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
门户搜索引擎
门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分
类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
免费链接列表
免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
搜索引擎的工作原理
抓取网页
每个独立的搜索引擎都有自己的网页抓取程序(spider)。
Spider顺着网页中的超链接,连续地抓取网页。
被抓取的网页被称之为网页快照。
由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
处理网页
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。
其中,最重要的就是提取关键词,建立索引文件。
其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
提供检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。