搜索引擎的分类、特点及工作过程
搜索引擎

搜索引擎1、搜索引擎的概念搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
2、搜索引擎分类全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
3、搜索引擎工作原理及种类搜索引擎的优缺点a搜索引擎工作原:页面收录,页面分析,页面排序,关键字查询。
4、举例对google和百度进行比较分析1、google 是全球最大的并且最受欢迎的搜索引擎,主要的搜索服务有:网页,图片,音乐,视频,地图,新闻,问答。
(1)Google的功能和特点:Google 搜索引擎是一个利用蜘蛛程序(Spider) 以某种方法自动地在互联网中搜集和发现信息,并由索引器为搜集到的信息建立索引,从而为用户提供面向网页的全文检索服务的互联网信息查询系统。
①拥有目前最庞大的中文网页数据库,支持多达132种语言,可将多国语言的搜索引擎整合到同一个界面,而且在这个界面下, 你可以定制语言以及到何种网站中去搜索, 不必像Yahoo那样, 要搜索不同语言版本的网站, 必须先进入相应语言的网站。
同时会自动根据用户所使用的浏览器设置相应的语言界面。
②不仅对中文支持强大, 而且支持中英文和多种编码混合的检索词。
③其专利网页级别技术PageRank能够提供高命中率的搜索结果, 帮助用户找到相关主题的权威网站。
④它不以花哨取胜, 而是以功能表现为本。
其网站只提供搜索引擎功能, 界面简洁、易用, 搜索速度快捷, 使得用户所输入的任何关键字或信息均能得到Google快速响应, 且其语链分析的算法还会将搜索结果排列出优先次序, 从而使重要的结果排列在前, 节省了用户查询时间。
⑤在查询多个关键字时, 只提供包含所有关键字的网页, 而且遵从关键字的相对位置。
⑥其搜索结果通常会比其它搜索引擎来得更准确, 且搜索结果摘录查询网页的含有关键字的内容, 而不仅仅是网站简介。
搜索引擎分类和原理

一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料。
⒈提高搜索引擎对用户检索提问的理解。为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言。为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“如何能杀死计算机中的病毒”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“病毒”这个词来检索,结果中必然会包括各类病毒的介绍,病毒是怎样产生的等等许多无用信息,而用“如何能杀死计算机中的病毒”检索,搜索引擎会将怎样杀死病毒的信息提供给用户,提高了检索效率。
11.分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。每个部分均采用N+1的冗余设计,1台服务器时刻处于备用状态。因而整个系统能在99.9%的时间内提供高可用性和高稳定性的服务。
12.高可配置性使得搜索服务能够满足不同用户的需求。在搜索调度、相关性评价、内容过滤、显示方式等方面均为客户提供了可配置手段,使系统具有服务,由他们自行决定搜索结果的显示方式,加入自己的广告和公司图标(logo)。
8.可以提供一周、二周、四周等多种服务方式。可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。
9.检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。支持用户选择时间范围,提高用户检索效率。
各类搜索引擎的分类

各类搜索引擎的分类、特点、工作原理及代表1,图片搜索引擎图片搜索是通过搜索程序,向用户提供互联网上相关的图片资料的服务。
从所使用的技术上来分类,可分为:(1) 基于上下文本(context)的图片搜索,传统意义上图片搜索通常是通过Alt等锚来索引,搜索的,《浅谈图片搜索引擎的实现》中提出了跨越性的图片搜索的实现,具有很高的参考价值。
如果这一设想可以实现,那将极大的改变人们的生活具有很高的参考价值。
(2) 基于图片内容的搜索基于文本的图片搜索涉及了数据库管理、计算机视觉、图像处理、模式识别、信息检索和认知心理学等诸多学科,其相关技术主要包括:图像数据模型、特征提取方法、索引结构、相似性度量、查询表达模式、检索方法等。
相似图片的检测主要涉及特征表示和相似性度量这两类关键技术。
图像特征的提取与表达是基于内容的图像处理技术的基础。
从广义上讲,图像的特征包括基于文本的特征(如关键字、注释等)和视觉特征(如颜色、纹理、形状等)两类。
2.全文索引全文搜索引擎的代表是网络爬虫,网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成。
传统爬虫从一个或若干初始网页的URL 开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并放入等待抓取的URL队列。
然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页,并重复上述过程,直到达到系统的某一条件时停止。
所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
爬虫设计是否合理将直接影响它访问Web的效率,影响搜索数据库的质量,另外在设计爬虫时还必须考虑它对网络和被访问站点的影响,因为爬虫一般都运行在速度快,带宽高的主机上,如果它快速访问一个速度较慢的目标站点,可能导致该站点出现阻塞。
搜索引擎工作原理

你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
一、搜索引擎的分类
获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。
全文搜索引擎的数据库是依靠一个叫"网络机器人(Spider)"或叫"网络蜘蛛(crawlers)"的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、都是比较典型的全文搜索引擎系统。
⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,比如"网际瑞士军刀"。
简述搜索引擎的分类

简述搜索引擎的分类在搜索引擎的工作原理中,一般把搜索引擎分为如下几种类型:( 1)网络百科全书式,可按照关键词自动索引相关知识的搜索引擎。
目前国内比较流行的有百度、新浪等。
( 2)通用工具条式,直接显示结果的搜索引擎。
有google、 msn、有道等。
( 3)综合性门户网站式,这类网站通常包括多个与搜索无关的频道,诸如:新闻频道、音乐频道、电影频道、图片频道等。
此类网站还有MSN之类的邮件搜索引擎。
这类网站在各个搜索引擎中搜索最为活跃,但由于开放性不强,网页质量参差不齐,搜索效率不高。
在现实生活中,有很多场景下,并非需要用到搜索引擎所提供的功能,因此对于那些无法满足上述场景的搜索请求,就需要用户自己来解决了。
这些场景下,人们就会选择一些特定的搜索引擎来进行搜索。
而根据搜索的需求不同,又可以将这些搜索引擎分成更小的子类型。
我们通常使用的百度和新浪都是属于这种类型的。
在这类搜索引擎中,只要键入某个关键词,然后搜索该关键词,就会得到与该关键词相关的其他网站列表。
也就是说,每次当用户搜索一个词的时候,就会得到一系列其他的与该关键词相关的结果。
与“网络百科全书”式搜索引擎不同的是,该搜索引擎并没有专门针对某个词建立专业性的内容数据库,而只是搜索引擎用来在海量网页信息中为用户提供精准搜索结果的一种技术手段。
这种搜索引擎的搜索方式就好像我们在实体书店看书一样,只要用户将想要的词输入,在搜索框中输入该关键词,搜索引擎就会即刻返回该关键词相关的书籍列表。
以上两种查询方式一般称之为信息检索。
“网络百科全书”式的搜索引擎通常是一些知名度比较高的搜索引擎,而我们经常使用的搜索引擎则大多是通用工具条式或综合性门户网站式的。
这种搜索引擎的搜索效率比较高,但由于并不针对特定的关键词建立网页数据库,导致网页数量庞大,并且多为个人网站或论坛,信息更新慢,用户体验也很差。
这些网站通常是做搜索引擎竞价排名的企业网站,搜索引擎的主要盈利模式就是从搜索者那里收取排名费。
搜索引擎概述

搜索结果展现
2.1.2 搜索引擎的发展史
4
1990年,加拿大麦吉尔大学(McGill University)计算机学院的Alan Emtage研发了 Archie。Archie可以定期搜集并分析FTP服务器上的文件名信息,为用户提供查找分散保存在 各个FTP主机中的文件的服务。Archie搜集的信息资源被公认为搜索引擎的雏形。
出了中国市场,在国内暂时无法访问。
谷歌首页
2.1.4 常用的搜索引擎介绍
17
5.雅虎
雅虎(Yahoo!)是美国著名的门户网站之一,其服务范围包括搜索引擎、电子邮件、新闻等, 服务业务遍及24个国家和地区。
Yahoo是最早实行“分类目录”的搜索数据库,也是目前重要的搜索服务网站之一。
雅虎首页
2.1 认识搜索引擎 2.2 搜索引擎的工作原理 2.3 搜索引擎的使用方法 2.4 本章实训
10
3.元搜索引擎
元搜索引擎由3个部分组成,分别是搜索请求处理模块、搜索接口代理模块、搜索结果显示 模块。
元搜索引擎的工作原理
2.1.3 搜索引擎的分类
11
4.垂直搜索引擎
垂直搜索引擎(Vertical Search Engines)更专注于特定的搜索领域和搜索需求,如图片 搜索、视频搜索、法律搜索、专利搜索、论文搜索等,它是对通用搜索内容的细分。直搜索引擎。2.2.1 蜘蛛爬行 Nhomakorabea20
当网络蜘蛛爬行到某个网站时,会首先检查网站的根目录下是否存在Robots文件,如果 有,则会根据其约定不抓取禁止抓取的网页。
进入允许抓取的网站后,网络蜘蛛会采用如下3种策略爬行网站中的所有网页。
深度 优先
宽度 优先
最佳优先
2.2.1 蜘蛛爬行
搜索引擎的几大分类及其特点

全文搜索引擎全文搜索引擎是目前广泛应用的主流搜索引擎,国内则有著名的百度。
它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,再从这个数据库中检索与用户查询条件匹配的相关记录,按一定的排列顺序返回结果,因此他们是真正的搜索引擎。
代表:Google、Baidu、Sogou、so、soso、Yahoo、Bing等目录搜索引擎目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。
用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。
代表:DMOZ,早期的Yahoo等元搜索引擎元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
代表:搜星、InfoSpace、Dogpile、Xisoso、Vivisimo等垂直搜索引擎垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。
不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。
相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
集合式搜索引擎集合式搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
门户搜索引擎门户搜索引擎虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
代表:AOLSearch、MSNSearch等免费链接列表免费链接列表(Free For All Links简称FFA)一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
搜索引擎基本资料

搜索引擎一、搜索引擎的概念搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。
新竞争力通过对搜索引擎营销的规律深入研究认为:搜索引擎推广是基于网站内容的推广——这就是搜索引擎营销的核心思想。
这句话说起来很简单,如果仔细分析会发现,这句话的确包含了搜索引擎推广的一般规律。
本文作者在“网站推广策略之内容推广思想漫谈”一文中提出一个观点:“网站内容不仅是大型ICP网站的生命源泉,对于企业网站网络营销的效果同样是至关重要的”。
因为网站内容本身也是一种有效的网站推广手段,只是这种推广需要借助于搜索引擎这个信息检索工具,因此网站内容推广策略实际上也就是搜索引擎推广策略的具体应用。
二、搜索引擎的分类1、全文索引全文索引引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。
它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的网页抓取、索引、检索系统(Indexer),有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler)、或“机器人”(Robot)程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
2、目录索引目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。
用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。
目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。
3、元搜索引擎元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章因特网的应用 3.2因特网上的信息检索
第1课时搜索引擎的分类、特点及其工作过程
一、教学目标
知识目标
1、温习搜索引擎检索常用信息的方法,能熟练使用至少1个搜索引擎获取所需信息;
2、掌握全文搜索引擎、目录式搜索引擎、元搜索引擎的特点,能够分析各自的优缺点和
各自的工作过程。
技能目标
1、掌握搜索引擎的使用方法,能灵活选择合适的搜索引擎获取所需信息。
情感目标
1、理解搜索引擎的的社会意义和存在价值;
2、激发学生创新意识和探索网络信息检索技术的兴趣。
二、教学重点:
1、掌握全文搜索引擎、目录式搜索引擎、元搜索引擎的特点,能够分析各自的优缺点,
理解各自的工作过程;
2、熟练使用全文搜索引擎、目录式搜索引擎、元搜索引擎检索所需信息。
三、教学难点:
1、能够分析全文搜索引擎、目录式搜索引擎、元搜索引擎各自的优缺点,理解各自的工作过程。
四、教学方法:
任务驱动分组教学
五、教学过程
任务1:解答同学们在使用搜索引擎过程中主要存在的问题。
任务2:用三类搜索引擎搜索”高一信息技术练习题”,观察得到的结果,分析各类搜索引擎的特点和优缺点。
任务3:分别利用百度图片、专业图片网检索姚明照片和按钮图片,并比较两种检索方法的特点。
任务1:同学们在使用搜索引擎过程中主要存在的问题。
4分钟
针对学生提出的问题,老师作答,有选择地作演示。
新课
看新闻、体育等信息我们常常会上哪些网站呢?(门户网站或综合网站)
但是要找比较陌生、不同见解或大量相关信息怎么办?(搜索引擎)
这节课我们一起来深入探讨搜索引擎的分类、特点及其工作过程
搜索引擎分类:全文搜索引擎、目录式搜索引擎、元搜索引擎 3分钟
任务2:用三类搜索引擎搜索“高一信息技术练习题”,观察得到的结果,分析各类搜索引擎的特点和优缺点。
(文本检索)27分钟
学生练习并分组讨论。
引导学生注意观察搜索到的网页数、用时,搜索结果的标题、摘要和准确度,目录式搜索引
擎分类多少,全面吗?
任务3:分别利用百度图片、专业图片网检索姚明照片、按钮图片,并作比较两种检索方法的特点。
(图片检索)5分钟
应该说,图片是电子作品制作中最富于变幻,最富于魅力的部分。
因此,对于图片的检索是十分有意义的。
学生练习并分组讨论。
小结:
写实性的,新闻、娱乐,生活等常见图片利用百度图片搜索。
设计等专业的图片到专业图片素材网站查找。
六、总结2分钟
这节课,我们学习了因特网信息检索方法;搜索引擎的分类(全文搜索引擎、目录式搜索引擎、元搜索引擎)及其特点,并分析了各类搜索引擎的优缺点。
七、课外思考题:如何检索天气、列车时刻、城市地图等信息?(特色搜索引擎)
八、板书设计。