《搜索引擎发展史》PPT课件

合集下载

搜索引擎概述 PPT课件

页面相关性
关键字匹配度：是指网页中的内容与用户所查询关键字之间的匹配程度，主要是2个因素：
• 页面中是否包含关键字 • 关键字在页面中出现的次数
关键字密度：
• 关键字出现的次数与该网页总词汇量的比例
页面相关性
关键字分布： • 关键字在网页中出现的位置 • 关键字在网页中出现的位置会影响到关键字的分布值
网页分析
网页分析主要包括：
正文信息提取：主要是对标签和注释等信息的过滤切词/分词：对页面内容进行切分，形成与用户查询条件相匹配的关键字为单位的信息列表
• 匹配分词：和预设的海量词汇的“辞典”中的词比较，如果有匹配的词，则为命中
• 统计分词：根据相邻的2个或者多个字（词）出现的概率判断这2个字（词）是否会形成一个词。
为保证采集的资料最新，它还会回访已抓取过的网页。
这个工作是搜索引擎所有工作的基础
页面收录原理
URL列表抓取页面提取URL 存储原始页面
进入搜索引擎URL列表的方法
搜索引擎还允许用户自己提交网站（一般只需要提交首页或者网站域名即可）通过与别的网站建立链接关系即“外链”
页面存储
搜索引擎在存储原始页面时，不单只存储原始页面，还会存储其他的附加信息，例如：文件类型、文件大小、最后修改时间、URL、IP地址、抓取时间等
关键字的权重标签 • 关键字是否使用了HTML标签实现了不同的视觉效果（如加粗、颜色变换等）
页面相关性计算公式： • R(relevance)=M(match)+D(density)+P(position)+T( html Tag) • R（相关性）= M（相同性）+ D（密度）+ P（位置）+ T（HTML标签）

网络检索ppt课件

区别： 1）权值传播模型 2）处理对象 3）具体应用
PageRank与HITS的比较
从两者的权值传播模型来看：
PageRank基于随机冲浪模型将网页权值直接从 Authority网页传递到Authority网页。
HITS将Authority网页的权值经过hub网页的传递进行传播。
PageRank与HITS的比较
PageRank与HITS的比较
从两者的具体应用来看：
PageRank应用于搜索引擎服务端，可以直接用于关键字查询并获得较好的结果；若要用于全文查询，需要与其他相似度判定标准（向量模型等）进行复合，以针对具体查询形成最终排名。
HITS一般用于全文搜索引擎客户端，对宽主题的搜索相当有效，可以用于自动编撰Web分类目录，通过找到指向某网页的Hub网页并以此为根集，可以查到该网页的相关网页；对于较窄主题的检索，HITS的能力还较弱，因为根集太小，筛选的效果将不会很好。
PageRank定义
假设前提：即认为所有的网页形成一个牢固的链接图，每个网页都能从其他网页通过超链接到达。定义中给出的PR值都可以根据所有链接到它的网页的PR值除以各自向外的超链接数的商再进行求和。
假如一个人对网页上的超链接的点击是随机的，在牢固链接图的假设前提下，可以到达任一网页，只是到大的可能性大小不同。
PageRank计算（二）
一个典型化的例子Leabharlann PageRank计算（二）
归一化(全概率) A=
转置矩阵
A=
AT=
PageRank计算（二）
计算过程
PageRank计算（二）
将 PageRank 的评价按顺序排列
名次 PageRank 文件ID

搜索引擎的发展史

【搜索引擎的发展史】1990年，加拿大麦吉尔大学（University of McGill）计算机学院的师生开发出Archie。

当时，万维网（World Wide Web）还没有出现，人们通过FTP来共享交流资源。

Archie能定期搜集并分析FTP服务器上的文件名信息，提供查找分别在各个FTP主机中的文件。

用户必须输入精确的文件名进行搜索，Archie告诉用户哪个FTP服务器能下载该文件。

虽然Archie搜集的信息资源不是网页（HTML文件），但和搜索引擎的基本工作方式是一样的：自动搜集信息资源、建立索引、提供检索服务。

所以，Archie被公认为现代搜索引擎的鼻祖。

搜索引擎的起源:所有搜索引擎的祖先，是1990年由Montreal的McGill University三名学生（Alan Emtage、Peter Deutsch、Bill Wheelan）发明的Archie（Archie FAQ）。

Alan Emtage等想到了开发一个可以用文件名查找文件的系统，于是便有了Archie。

Archie是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎。

Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载该文件。

由于Archie深受欢迎，受其启发，Nevada System Computing Services大学于1993年开发了一个Gopher（Gopher FAQ）搜索工具Veronica（Veronica FAQ）。

Jughead是后来另一个Gopher搜索工具。

发展（1）：世界上第一个Spider程序，是MIT Matthew Gray的World wide Web Wanderer，用于追踪互联网发展规模。

刚开始它只用来统计互联网上的服务器数量，后来则发展为也能够捕获网址（URL）。

搜索引擎一般由以下三部分组成：爬行器（机器人、蜘蛛）索引生成器查询检索器发展（2）：Excite 的历史可以上溯到1993年2月，6个Stanford University（斯坦福大学）大学生的想法是分析字词关系，以对互联网上的大量信息作更有效的检索。

搜索引擎ppt

❖ （1）直接浏览用户使用最为广泛，最原始的获取信息的方法。
❖ （2）利用导航网站、门户网站基于专业人员对网络信息资源分布的了解，对
网络信息进行评价、组织、分类等工作，再按一定的专业或学科形成具有良好分类体系的网络资源指南。
搜索引擎的概念及工作原理
概念:（Search Engine）从广义上讲是用来对网络信息资源管理和检索的一系列软件，在Internet网上查找信息的工具或系统。组成：WWW服务器，搜索程序（如 spider、crawler、robot），索引数据库（包括成千上万甚至上亿个网页），检索程序（用来处理用户的检索请求）
❖ 第三代：整合分析时代（立体搜索与结果整合） ❖ 这一代的搜索引擎所使用的方法大概是和我们今天
的网站的外部链接形式基本相同，在当时，外部链接代表的是一种推荐的含义，通过每个网站的推荐链接的数量来判断一个网站的流行性和重要性。然后搜索引擎再结合网页内容的重要性来和相似程度来改善用户搜索的信息质量。
研究目的与意义
常用搜索引擎介绍及示例
❖ 《Google》（中文） ❖ 网址：
《Google》
❖ 概述
Google是由美国斯坦福大学的两位博士生拉里·佩吉和谢尔盖·布林于1998年创建的
其优势在于掌握的信息量以及检索模型和检索速度。它可为世界各地的用户提供适需的搜索结果，而且搜索时间通常不到半秒
第四代：用户中心时代（以移动互联网为标志的个人需求精准搜索）
第四代，也就是我们所用的搜索引擎技术也是互联网上面用的最普遍的。主要是以用户为中心。当客户输入查询的请求时候，同一个查询的请求关键词在用户的背后可能是不同查询要求。这一代搜索引擎主要是以用户为中心。这就是第四代搜索引擎。

搜索引擎发展历程

搜索引擎发展历程搜索引擎在过去几十年的发展历程中经历了多次重大的技术突破和演进。

早期的搜索引擎主要是基于全文检索技术，用户通过输入关键词，搜索引擎会从海量数据中匹配出相关的网页结果。

1990年代初，最早的搜索引擎出现了，例如Excite和Infoseek。

当时的搜索引擎主要依赖人工编辑来整理和分类网页信息。

然而，由于互联网规模膨胀迅猛，这种人工编辑的方式很快变得不够高效和可扩展。

随着互联网的普及，1996年谷歌搜索引擎诞生了。

谷歌的创新之处是引入了PageRank算法，通过分析网页间的链接关系来评估网页的重要性和相关性。

这一算法大大提升了搜索结果的质量，并很快使得谷歌成为领先的搜索引擎。

为了提供更精准的搜索结果，搜索引擎开始采用语义分析和自然语言处理技术。

这些技术能够理解用户的意图，而不仅仅是匹配关键词。

例如，当用户搜索"天气"时，搜索引擎会返回天气预报结果，而不仅仅是包含"天气"关键词的网页。

移动互联网的兴起，使得移动搜索成为搜索引擎发展的重要方向。

移动搜索引擎需要考虑到用户的位置信息、设备特性和网络环境等因素，以提供更符合用户需求的搜索结果。

同时，移动搜索引擎还需要在有限的屏幕空间和低带宽环境下展示结果。

随着人工智能技术的快速发展，搜索引擎也开始引入机器学习和深度学习算法。

通过分析用户的搜索历史和行为，搜索引擎能够为用户提供个性化、定制化的搜索结果。

此外，搜索引擎还可以通过自动推荐、自动补全等功能提供更便捷、智能的搜索体验。

总的来说，搜索引擎发展的历程是一个不断创新和提升搜索质量的过程。

从最早的全文检索到引入链接分析、语义分析、移动搜索和人工智能等技术，搜索引擎不断演进，以满足用户不断变化的需求。

搜索引擎发展史

Archie工作原理与现在的搜索引擎已经很接近，它依靠脚本程序自动搜索网上的文件，然后对有关信息进行索引，供使用者以一定的表达式查询。由于Archie深受用户欢迎，受其启发，美国内华达System Computing Services大学于1993年开发了另一个与之非常相似的搜索工具，不过此时的搜索工具除了索引文件外，已能检索网页。
搜索引擎发展史
在互联网发展初期，网站相对较少，信息查找比较容易。然而伴随互联网爆炸性的发展，普通网络用户想找到所需的资料简直如同大海捞针，这时为满足大众信息检索需求的专业搜索网站便应运而生了。
现代意义上的搜索引擎的祖先，是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现，但网络中文件传输还是相当频繁的，而且由于大量的文件散布在各个分散的FTP主机中，查询起来非常不便，因此Alan Emtage想到了开发一个可以以文件名查找文件的系统，于是便有了Archie。
然而JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果，因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中，创建了大家现在熟知的Lycos。同年4月，斯坦福（Stanford）大学的两名博士生，David Filo和美籍华人杨致远（Gerry Yang）共同创办了超级目录索引Yahoo，并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前，互联网上有名有姓的搜索引擎已达数百家，其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google，其数据库中存放的网页已达30亿之巨！

百度google搜索引擎分析精品PPT课件

29
30
新浪“爱问”
“爱问”搜索引擎产品由全球最大的中文网络门户新浪汇集技术精英、耗时一年多完全自主研发完成，为首款中文智慧型互动搜索引传统算法技术在常规网页搜索的强大功能外，以一个独有的互动问答平台弥补了传统算法技术在搜索界面上的智慧性和互动性的先天不足。通过调动网民参与提问与回答，新浪搜索引擎能汇集千万网民的智慧，让用户彼此分享知识与经验。
33
网易搜索分类目录一个由网上的志愿人员编辑的分类网站目录。
新浪搜索分类目录由新浪搜索专业编辑挑选和分类的网站结果。
34
推荐网站
搜索引擎直通车中文搜索引擎指南搜索引擎观察搜索引擎优化
35
好123网址之家北极星搜索引擎好站导航中国精彩网址中国网址库
…………
36
“Google”来自于数学名词“Googol”， Googol 表示一个 1 后面跟着 100 个零。Google Int.使用这一术语体现了公司整合网上海量信息的远大目标。
9
Google 技术
Google 秉持着“完美的搜索引擎需要做到确解用户之意，切返用户之需”的信念，开发了自己的服务基础结构和PageRank™ 技术，使得搜索方式发生了根本性变化。
送的而网适配擎擎索HH将TT给的列的不索数且页这搜有标搜❖❖MM搜搜标检搜款出记标它识识许索引索检步(在全数据还引。些1LL索目了录引别别最索索引索程程引多) 索骤用库越，部据数界界检引。一的冠搜已搜序序擎为程引程引引：户。来单库识据面面擎在个。词索索经索收检只明越别擎个中连送序擎序擎。的输禁和引覆集查是引引显多是并网不接给该数入用连的和擎盖来数把擎擎的据提词接地一页仅回到搜上但界自据认，数索利功库问表词的有包复种储包一索网库为在面据引用。式，；能新变站中是搜括程存括与个引收“库后对有的化的储单索，被序信被提搜擎集检，这些网的网存词网是其，问息搜索进用正些不索站网页的的站为他它的索式引行户是词标；站内信进时算用资接集程匹擎检的使不引。容息行，法户用加其源收配合序后索提的，了总”提这标他和提构搜的信并标是，。问识个引高供息在引更技问成索记所式别索；频，索。为规术式了到录看数被引有出并引有全定搜，搜的。到据来些现匹将中些面提索然索网的，识搜但该列搜和配问到后引页是别索却并信出索经的的匹引有的检擎，息合引常地网深页站一潜记行手括提搜站，在度，部排录段为供标…H索）而用、引(分序而；。广帮…我2T常，且途广策)网，是然告助M然们用对还的度略页显在而商和L后在的不搜词或的界的示检，提有采网常索，者使不面记给索这供关站用那如二用用同（的些‘者录用一个广服，特搜例网网均w。户个界告务会殊索e如站页做影记。数面空的b的引用则的了’响住据还间其排擎户不附限和到它库起，他序时经屑属定‘检，，到提信方常一网。，i索n可它另供息点顾页在t式不结e击。。深以包r外检的果对是n和搜在度e帮含。几索链检直t带索广上’因助了种各接出接有程度，此我描作类。的在许序上不有们述用入款检多对，仅的避网，口目链搜只搜索网免站包，接索是索进网页的的搜主对上就

《搜索引擎教学》课件

总结
搜索引擎的作用
搜索引擎为用户提供了便捷的信息检索工具，帮助人们获取所需信息，促进知识的传播和交流。
搜索引擎发展前景
随着互联网的不断发展和技术的不断创新，搜索引擎将继续发挥着重要的作用，并在未来有更广阔的发展空间。
学习搜索引擎的重要性
了解搜索引擎的原理和技术，对个人和企业都具有重要的意义，能够提高信息获取和利用的能力。
搜索引擎利用相似度度量算法来判断用户查询词与索引中网页内容的匹配程度。
排序算法
搜索引擎依靠相应的排序算法，如PageRank和 TF-IDF等，为用户呈现最相关的搜索结果。
分布式计算
为了处理海量数据和实现高可靠性，搜索引擎使用分布式计算技术来提升性能和扩展能力。
搜索引擎的应用
普通搜索引擎
普通搜索引擎通过检索各种类型的网页和内容，满足用户在日常生活中的各种信息需求。
搜索引擎教学
欢迎来到《搜索引擎教学》PPT课件。在本次课程中，我们将深入探讨搜索引擎的概述、基本原理、技术组成、应用、优化等方面的知识。让我们一起开始这个令人兴奋的学习之旅吧！
搜索引擎概述
什么是搜索引擎
搜索引擎是一种能够根据用户输入关键词，从互联网上检索并呈现相关网页、图片、视频和其他内容的工具。
希望能够对大家有所帮助
以上就是本次关于搜索引擎教学的详细内容，希望能够对大家有所启发和帮助。谢谢！
搜索引擎的分类
搜索引擎可以根据不同的搜索对象和业务模式进行分类，如通用搜索引擎、垂直搜索引擎和企业搜索引擎。
搜索引擎的商业模式
搜索引擎通过广告投放、搜索推广和数据服务等方式实现盈利，构建了独特的商业模式。
搜索引擎的基本原理
1

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

7
万维网：world wide web
(WWW)
• Web的诞生
• Tim Berners-Lee
• 1989年，他开发出世界上第一个Web服务器和Web 客户机。命名为 World Wide Web 。 1991 年， WWW在internet上露面。
• 引起轰动。使用HTTP协议传输信息。
• 实现了自动化爬取，但对链接的分析还欠缺。
9
• 1993年，6个斯坦福毕业生，统计分析方法，分析词汇间关系，搜索效果更好。
• 后来同宽带提供商公司 @Home 合并，Excite@Home 市值达67亿美元。
• 2001 年公司申请破产， InfoSpace 用 100 亿美元购买了这个公司。
12
• 1995年，Looksmart成立，与Yahoo竞争。增加网页收录的量。
• 2002年，向被收录站点收费。采用点击付费模式。
– 收费，客户流失。 – 带来大客户：微软的MSN
• 2003年，微软与LookSmart取消合作
– 陷入低谷
13
目录式搜索引擎的不足
• 维护目录耗费时间，耗费人力物力。 • 从商业角度看，不• 1994年，建立了一个Web资源目录，也提供FTP 、Gopher的搜索服务。
• 1994年4月，David 和杨致远，建立了Yahoo！目录。建立资源目录，雇佣人手工为网页添加描述信息。
– 对商业网站收费。（299美元）
11
开放的资源目录
• 发布目录和使用目录都是免费的。
• 图书馆员的资源目录
16
ALTAVISTA
• 1994年成立，在当时，几乎带宽无限。支持自然语言查询，允许用户添加、删除自己网页的URL，支持被索引网页的查询。但由于管理不善，后来被Overture收购。
• Yahoo 又收购了 Overture ，就把许多 Altavista的技术引入了Yahoo搜索引擎。
• 1998年，Google搜索引擎诞生了。Sergey谢尔盖布林曾出售过他们的PageRank技术，但无人问津。
• 获得了10万美元投资，接着又获得2500美元的风险投资。1999年AOL选择Google作为合作伙伴， 2000年，Yahoo也选择Google作为合作伙伴，让 Google为他们提供搜索服务。
– 2003，收购Overture
• 技术整合，2004年，不再使用Google的服务。 20
Yahoo放弃独立开发搜索技术
• 2009年，Yahoo放弃了搜索技术方面的努力。
• 与Bing签署了10年期合约，由Bing为其提供搜索结果页面和服务。
21
搜索引擎商务模式的找到
• （1）付费收录 • （2）关键词广告（Google Adwords）
二十年搜索引擎发展史
上网搜信息，首选搜索引擎
2
搜索引擎的原理
• 网络蜘蛛程序：爬取网页 • 网页信息抽取，智能分析，建立索引数据库 • 用户输入搜索词，到索引数据库匹配 • 评价相关性，输出结果
3
4
搜索引擎的诞生背景
• 计算机网络的诞生 • 网络规模变大 • 网络资源数量增长 • 人们搜索信息的刚性需求 • 信息搜索技术的不断提高
5
搜索引擎的发展轨迹
• 从美国发端 • 从人工组织到爬虫自动爬取 • 从简单排序算法到智能排序算法 • 从摸索阶段到成熟商业模式 • 从提供信息到智能反馈知识 • 从检索网页到检索多样资源
6
Archie
• 1990年出现了Archie，是archives的缩写版，档案的意思。
• 采集FTP文件信息
17
ALLTHEWEB
• 1999年成立，是搜索技术平台。 • 2003年2月，Overture以7000万美元收购。 • 之后，雅虎收购overture，雅虎从中进行了
技术迁移。把alltheweb的技术加入到了 yahoo搜索引擎中。
18
Google
• Larry/Sergey两个斯坦福的博士生，1996年一起研究搜索引擎。
8
WWW 与网页爬虫
• Spider / Robot • 1993年六月，Matthew Gray开发了万维网
漫步者的项目，监测万维网的网页增长速度。形成链接数据库Wandex数据库。 • 1993年，ALIWEB出现了，类似Archie的网站，索引的不是FTP服务器的文件，而是 Web服务器的网页。
• 后续google推出了更多的搜索功能~
19
Yahoo失利
• Yahoo在1994年成立以来，专注网页资源目录和内容资源。而将搜索服务外包给其他公司。
• 2002年后，醒悟 • Overture 收购 2003
– AllTheWeb ， AltaVista
• Yahoo收购Inktomi 2002
– 搜索关键词竞价排名
• （3）网页广告（Google Adsense）
– 站长向Google注册 – 站长在自己网页上展示Google的广告
22
23
24
付费与免费
• 杂志对内容收费
– 部分读者不愿付费。 – 内容费用就是总收入。
• 杂志免费发布
– 在杂志网页上放上google广告。
– 浏览量更大 – 网站流量更大 – 广告收入超出内容收费收入
• WebCrawler 激发了同类公司的出现，包括：Lycos, Infoseek, OpenText.
15
LYCOS
• 1994年，发端于卡内基梅隆大学，后成为公司。当时提供了一个包含5.4万文档的目录。它索引的网页数量不断增加。
• 1994年8月，39万 • 1995年1月，150万 • 1996年11月，6000万 • 远超其他搜索引擎
性强的商务模式。 • 人工干预标注；收录网页有限；无法索引
全文。 • Web迅速增长，而Web目录是个老马车，
跑不动了。
14
爬虫的出现
• 1994年，能够索引网页全文的爬虫出现， WebCrawler，十分受欢迎，一度在白天高峰时段无法使用。
• 1997年Excite收购了WebCrawler，而AOL 当时委托Excite为其搜索引擎NetFind提供技术支持。最终成为AOL的品牌。