全面阐述搜索引擎技术、应用及商业模式
《搜索引擎》 讲义

《搜索引擎》讲义一、什么是搜索引擎在当今数字化的时代,搜索引擎已经成为我们获取信息不可或缺的工具。
简单来说,搜索引擎就是一种能够帮助用户在互联网上快速查找所需信息的系统。
当我们在搜索引擎的输入框中输入关键词或短语时,搜索引擎会在其庞大的数据库中进行搜索和匹配,然后将相关的网页、文档、图片、视频等结果展示给我们。
搜索引擎的工作原理可以大致分为三个主要步骤:抓取、索引和排名。
首先是抓取,搜索引擎使用被称为“爬虫”或“蜘蛛”的程序,自动访问互联网上的网页,并将网页的内容下载下来。
接下来是索引,搜索引擎对抓取到的网页内容进行分析和处理,提取出关键信息,如关键词、标题、描述等,并将这些信息存储在一个巨大的数据库中。
最后是排名,当用户输入搜索词时,搜索引擎会根据一系列复杂的算法对数据库中的网页进行排序,将最相关、最有用的网页排在前面,呈现给用户。
二、搜索引擎的发展历程搜索引擎的发展可以追溯到上世纪 90 年代。
早期的搜索引擎技术相对简单,搜索结果的准确性和相关性都比较有限。
例如,早期的搜索引擎主要依靠网页的关键词匹配来进行搜索,这往往导致大量不相关的结果出现。
随着技术的不断进步,搜索引擎逐渐变得更加智能和精准。
如今,搜索引擎不仅能够理解用户的搜索意图,还能通过自然语言处理技术更好地处理复杂的搜索请求。
一些知名的搜索引擎,如谷歌、百度等,不断投入大量的资源进行技术研发和创新,推出了一系列的功能和服务,如语音搜索、图像搜索、知识图谱等,以提供更优质的用户体验。
三、搜索引擎的类型搜索引擎可以分为多种类型,常见的包括通用搜索引擎、垂直搜索引擎和元搜索引擎。
通用搜索引擎是我们最常用的类型,如谷歌、百度、必应等,它们能够搜索各种类型的信息,涵盖了几乎所有的领域。
垂直搜索引擎则专注于特定的领域或行业,例如专门搜索旅游信息的携程、专门搜索学术文献的知网等。
这些搜索引擎在特定领域能够提供更深入、更专业的搜索结果。
元搜索引擎则是同时调用多个其他搜索引擎的结果,并对这些结果进行整合和排序,为用户提供更全面的搜索视角。
搜索引擎的商业模式课件

第三代搜索引擎
强调用户体验和个性化需 求,引入语义搜索、知识 图谱等技术,提高搜索质 量和效率。
搜索引擎市场现状
市场规模
搜索引擎市场规模庞大,持续增 长,全球搜索引擎市场规模已达
数千亿美元位,但垂直 搜索引擎、元搜索引擎等新型搜索 引擎也在不断涌现。
电商导流模式
搜索引擎与电商合作
01
搜索引擎与电商平台建立合作关系,共同打造购物搜索生态。
商品信息展示
02
搜索引擎在搜索结果页面展示商品信息,包括价格、图片、购
买链接等。
导流分成
03
搜索引擎将用户导流至电商平台,根据用户购物金额或订单数
量与电商平台进行收入分成。
03
CATALOGUE
搜索引擎盈利模式探讨
03
04
关键词研究
运用关键词工具挖掘用户搜索 意图,选择高搜索量、低竞争
度的关键词。
标题与描述优化
确保标题和描述中合理使用关 键词,提高点击率。
内容布局
在页面中合理使用H标签、段 落、列表等,使关键词分布均
匀。
长尾关键词
针对长尾关键词进行优化,提 高网站流量和转化率。
内容优化策略
高质量内容
创作原创、有价值、与用户需 求相关的内容,提高用户体验。
购物搜索
提供购物搜索服务,将用户引导至合 作电商平台,实现收益共享。
其他潜在盈利模式
数据服务
基于搜索引擎积累的用户数据和行为数据,提供数据分析、 挖掘和可视化等服务。
增值服务
提供搜索引擎相关的增值服务,如搜索排名优化、网站推广等。
04
CATALOGUE
搜索引擎优化策略与实践
关键词优化技巧
电商平台的搜索引擎技术及应用实战

电商平台的搜索引擎技术及应用实战近年来,电商平台的崛起,为人们的购物方式带来了极大的转变。
在浩瀚的商品海洋中,如何快速找到自己需要的商品成为了许多消费者所关心的问题。
电商平台的搜索引擎技术,就成为了解决这个问题的重要手段。
一、电商平台搜索引擎的基本原理电商平台的搜索引擎,与传统的搜索引擎有所不同。
它所搜索的内容不是互联网上的信息,而是电商平台上的商品。
因此,电商平台搜索引擎的基本原理,就是根据用户输入的商品关键词,从电商平台的商品数据库中筛选出相关的商品信息。
搜索引擎的核心技术,即是搜索算法。
它是一种数学算法,通过对候选集中的商品进行打分,从而得出排序结果,将最匹配的商品展示在用户面前。
搜索算法常见的有余弦相似度算法、PageRank算法、BM25算法等。
二、电商平台搜索引擎的关键问题电商平台搜索引擎在实际运用中,还存在一些问题,这些问题需要从多个层面进行考虑和解决。
1、数据质量问题电商平台是一个大型的在线交易平台,商品种类繁多,涵盖范围广泛。
如何保证搜索引擎所搜索的商品信息的质量,成为了电商平台搜索引擎需要关注的重点问题。
为了保证商品信息的质量,电商平台应该加强对商品信息的审核,防止出现虚假商品。
此外,还应该建立信誉体系,对商家的商品质量、发货速度等进行评估,将高质量的商品信息展示给用户。
2、语义理解问题用户输入的商品关键词,往往不太规范、不太准确。
而对于电商平台的搜索引擎来说,如何准确理解用户的搜索意图,确定搜索范围,也是一个关键问题。
针对这个问题,电商平台可以通过NLP(自然语言处理)技术进行优化。
通过分析用户输入的关键词和上下文语义,进行智能推荐,将更符合用户意图的商品信息展示给用户。
3、搜索结果的可信度问题电商平台的商品信息来源非常复杂,其中既包括商家提供的信息,也包括用户提交的信息。
如何判断商品信息的可信度,以及判断商品信息是否真实可靠,也是一个重要的问题。
为了保证搜索结果的可信度,电商平台应该对商品信息进行多维度的数学分析,并且对商家身份和商品质量等进行认证,从而减少虚假商品信息的存在。
搜寻引擎最佳化的商业模式及网路创业(分析“搜寻”文档)共22张PPT

✐ SEO是不受限於任何語言文字或媒體的一種全球廣域搜尋引擎優質化
的藝術。
• 問答篇
問答篇
Q&A
Q:網站排名第1名跟第100名有何差別? A:舉例來說:一個學生在升學考完試後要查學校,會先上網查
詢相關學術領域有哪些學校,當他輸入關鍵字「生物科技」時, 一定會先從第一頁開始看起,以一般人的搜尋習慣來說,會認定 排名較前的學校是較有規模有名的、也較優良的,大約看到第三 頁(也就是30名)時,就已決定了他所中意的學校。如果您的飯店
排名在100名,被點閱的機會就會很小。
問答篇
Q&A
Q:什麼是隨機搜尋、關鍵字廣告?
A:處理關鍵字的排名主要有兩種形式,在 Google 就是分為左 側隨機搜尋(SEO)和右側的贊助商連結(Google AdWords、
Overture)。在正常的狀況之下,左側隨機搜尋是比較重要的
,因為贊助網站在網友的印象中如同廣告,消費者通常對廣
搜尋引擎最佳化的商業模式 及網路創業
• 實易通總經理 • 崔紘嘉 • Taiwan SEO, CEO.
搜尋引擎最佳化
Search Engine Optimization
什麼是SEO
✐ 搜尋引擎優質化(Search Engine Optimization)簡稱 SEO。
✐ 是一種讓網站或網頁在搜尋引擎排名上取得優先的技術。
Taiwan SEO 網路行銷
對您的公司形象是有一定的正面效應,您的業績也會因而提高。
網站排名越在前面,點擊率就一定是越高的。
之後陸陸續續一些高手們加入這個團隊,我們的業務也從國內慢慢的發展到國外.
搜尋引擎最佳化的商業模式及網路創業
舉例:飯店(最低價3元)
利用网店赚钱搜索引擎全解析

利用网店赚钱搜索引擎全解析在互联网时代,越来越多的人开始选择在网店上开展自己的创业和赚钱计划。
而随着搜索引擎的不断发展和普及,利用搜索引擎来促进网店的发展也逐渐成为了一种新的趋势。
本文将全面解析利用网店赚钱搜索引擎的方法和技巧。
一、搜索引擎的作用搜索引擎是当今互联网最主要的信息搜索工具,它能够帮助用户快速找到所需的信息。
对于网店主来说,搜索引擎无疑是一个非常重要的营销和推广工具。
通过搜索引擎,网店可以提升自己的曝光率和知名度,吸引更多的潜在客户。
二、优化网店的关键词要利用搜索引擎来赚钱,首先需要优化自己网店的关键词。
关键词是用户在搜索引擎中输入的词语,通过关键词,搜索引擎能够将相关的网店推荐给用户。
因此,选择和优化适合自己网店的关键词是至关重要的一步。
首先,进行关键词的市场调研和分析。
通过了解竞争对手和目标客户的搜索习惯,确定与自己网店相关的关键词。
然后,根据这些关键词,进行网店的内容优化,包括标题、产品描述、标签等。
适当地将关键词融入到网店的内容中,能够提高网店在搜索引擎中的排名,增加曝光率。
三、利用搜索引擎竞价排名除了优化关键词,搜索引擎竞价排名也是一种有效的推广方式。
通过竞价排名,网店可以在搜索引擎结果的前几位展示其广告,吸引更多用户点击进入。
竞价排名的成本相对较高,但是效果明显。
在利用搜索引擎竞价排名时,需要设定一个适当的广告预算和关键词出价,以避免资源的浪费。
同时,还应根据竞价排名的结果进行数据分析和优化,保证投资的回报率。
四、与搜索引擎合作推广除了对网店进行优化和竞价排名,还可以与搜索引擎进行合作推广。
搜索引擎提供了一系列的推广服务,如搜索引擎广告合作、搜索引擎业务合作等。
通过与搜索引擎合作,可以更好地推广网店,提高曝光率和销售额。
与搜索引擎合作推广需要根据网店的实际情况和需求选择适合的推广方式。
可以通过联系搜索引擎的营销团队或者注册相关的推广账号来进行合作推广。
五、持续优化和改进利用搜索引擎赚钱是一个持续的过程,需要不断地进行优化和改进。
《搜索引擎教学》课件

总结
搜索引擎的作用
搜索引擎为用户提供了便捷 的信息检索工具,帮助人们 获取所需信息,促进知识的 传播和交流。
搜索引擎发展前景
随着互联网的不断发展和技 术的不断创新,搜索引擎将 继续发挥着重要的作用,并 在未来有更广阔的发展空间。
学习搜索引擎的重要性
了解搜索引擎的原理和技术, 对个人和企业都具有重要的 意义,能够提高信息获取和 利用的能力。
搜索引擎利用相似度度量算法来判断用户查询 词与索引中网页内容的匹配程度。
排序算法
搜索引擎依靠相应的排序算法,如PageRank和 TF-IDF等,为用户呈现最相关的搜索结果。
分布式计算
为了处理海量数据和实现高可靠性,搜索引擎 使用分布式计算技术来提升性能和扩展能力。
搜索引擎的应用
普通搜索引擎
普通搜索引擎通过检索各种类型的网页和内容,满 足用户在日常生活中的各种信息需求。
搜索引擎教学
欢迎来到《搜索引擎教学》PPT课件。在本次课程中,我们将深入探讨搜索引 擎的概述、基本原理、技术组成、应用、优化等方面的知识。让我们一起开 始这个令人兴奋的学习之旅吧!
搜索引擎概述
什么是搜索引擎
搜索引擎是一种能够根据用户输入关键词,从互联网上检索并呈现相关网页、图片、视频和 其他内容的工具。
希望能够对大家有所帮助
以上就是本次关于搜索引擎教学的详细内容,希望能够对大家有所启发和帮 助。谢谢!
搜索引擎的分类
搜索引擎可以根据不同的搜索对象和业务模式进行分类,如通用搜索引擎、垂直搜索引擎和 企业搜索引擎。
搜索引擎的商业模式
搜索引擎通过广告投放、搜索推广和数据服务等方式实现盈利,构建了独特的商业模式。
搜索引擎的基本原理
1
搜索技巧在商业运营中的应用有哪些
搜索技巧在商业运营中的应用有哪些在当今竞争激烈的商业世界中,信息的获取和利用对于企业的成功运营至关重要。
搜索技巧作为一种强大的工具,能够帮助企业在海量的数据中迅速找到有价值的信息,从而做出更明智的决策,优化业务流程,提升竞争力。
下面我们就来探讨一下搜索技巧在商业运营中的具体应用。
一、市场调研市场调研是企业了解市场需求、竞争态势和消费者行为的重要手段。
通过巧妙运用搜索技巧,企业可以获取大量的市场数据和信息。
首先,利用关键词组合进行精确搜索。
例如,“产品名称市场规模2023”、“产品名称消费者偏好调查报告”等关键词组合,可以帮助企业找到最新、最相关的市场研究报告和数据。
其次,利用高级搜索选项。
许多搜索引擎都提供了高级搜索功能,如时间范围、文件类型、特定网站等筛选条件。
企业可以根据需求设置这些选项,以获取特定时间段内的权威数据,或者只搜索来自行业权威网站的信息。
再者,关注行业论坛和社交媒体。
在相关的行业论坛和社交媒体群组中,用户会分享他们的经验、看法和需求。
通过搜索特定的主题标签或关键词,企业可以收集到消费者的真实声音,了解他们对产品或服务的反馈和期望。
二、竞争对手分析知己知彼,百战不殆。
了解竞争对手的策略、优势和劣势对于企业制定有效的竞争策略至关重要。
通过搜索竞争对手的公司名称、产品名称、品牌关键词等,企业可以获取关于竞争对手的新闻报道、产品评测、用户评价等信息。
分析这些信息,有助于企业了解竞争对手的市场定位、产品特点、营销手段和客户服务水平。
同时,还可以关注竞争对手的官方网站、社交媒体账号和在线广告。
观察他们的产品更新、促销活动、发布的内容等,从而推测其业务发展方向和重点。
此外,利用搜索引擎的反向链接搜索功能,了解哪些网站链接到竞争对手的网站,这可以帮助企业发现竞争对手的合作伙伴和推广渠道。
三、客户需求挖掘满足客户需求是企业生存和发展的基础。
搜索技巧可以帮助企业深入了解客户的需求和痛点。
搜索与企业产品或服务相关的问题和关键词,如“产品名称使用问题”、“服务名称不满意之处”等,能够找到客户在使用过程中遇到的困难和抱怨。
搜索引擎营销模式及其商业价值分析
搜索引擎营销模式及其商业价值分析引擎营销(Search Engine Marketing,SEM)是一种通过在引擎中进行广告投放来推广产品或服务的营销模式。
随着互联网广告的快速发展和引擎用户规模的不断扩大,SEM已成为现代营销领域中不可或缺的重要手段。
本文将从SEM的商业模式和商业价值两个方面对引擎营销进行分析。
首先,引擎营销的商业模式包括广告主、引擎和用户三个主要角色。
广告主是指愿意在引擎中投放广告的企业或个人,他们通过购买关键词来获得在结果页面上的广告位。
引擎则提供了广告平台,通过拍卖排名的方式展示广告,并收取广告费用。
用户是引擎的使用者,他们通过输入关键词来获取结果。
SEM的商业模式可以总结为广告主投放广告,引擎展示广告,用户点击广告并转化为潜在客户。
其次,引擎营销的商业价值主要体现在以下几个方面:1.潜在客户的获取:通过投放广告,广告主可以在引擎的结果页面上获得更高的曝光率,吸引潜在客户点击广告链接进入自己的网站。
相比于传统的广告方式,SEM可以精准地将广告展示给有购买需求的用户,从而提高潜在客户的获取效率。
2.提高网站流量和曝光率:引擎是互联网上用户获取信息的主要渠道之一,SEM可以帮助广告主提高网站的流量和曝光率。
当用户与广告主产品或服务相关的关键词时,他们有较高的点击广告的概率。
通过SEM,广告主可以将自己的网站推广给更多的目标用户群体,提升品牌知名度和曝光率。
3.精准的广告投放:SEM可以通过关键词的选择和设置来实现广告投放的精准性。
广告主可以根据自己的产品或服务特点,选择适合的关键词,并设置广告的受众定位、地域定位等。
这样就可以将广告展示给与自己产品相关性更高的用户,提高广告的点击率和转化率。
4.数据分析和优化:SEM提供了丰富的数据报告和分析工具,广告主可以通过分析广告的点击、转化等数据,了解用户行为和购买意愿。
基于这些数据,广告主可以不断优化广告的投放策略和效果。
通过不断地测试和调整,提高广告的投放效果和回报率。
应用文-搜索引擎营销模式及其商业价值分析
搜索引擎营销模式及其商业价值分析'\r\n 内容摘要:在Web 2.0 时代的今天,互联网已经影响到人类生活的各个方面,互联网用户对搜索引擎的依赖程度不断加深,搜索引擎已成为用户最喜爱的信息采集渠道,这使得搜索引擎营销越来越受到企业的重视。
本文在阐述搜索引擎原理的基础上,分析了搜索引擎营销的主要模式,并对其商业价值进行探讨。
\xa0关键词:搜索引擎工作原理模式营销价值随着因特网的迅猛、WEB信息的增加,用户查找信息的难度增大,而搜索引擎技术解决了这一难题,它可以为用户提供信息检索服务。
搜索引擎营销(SEM),就是根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户。
搜索引擎营销得以实现的基本过程是:企业将信息发布在网站上,搜索引擎将网站/网页信息收录到索引数据库,用户利用关键词进行检索,检索结果中罗列相关的索引信息及其链接URL,用户选择有兴趣的信息并点击URL进入信息源所在网页,这样便完成了企业从发布信息到用户获取信息的全过程。
搜索引擎的工作原理从本质上来说,搜索引擎的工作原理属于技术层面的问题,但是营销人员只有掌握了其工作原理后,才能加深对搜索引擎的理解,从而更好地制定出符合本企业实际的搜索引擎营销策略。
搜索引擎存在两种不同的搜索技术模式:自然搜索和付费放置,营销人员可根据这两种技术模式,选择与之相对应的搜索引擎营销模式。
(一)自然搜索对于自然搜索,搜索引擎营销人员需要将企业网页的网址登记到各搜索引擎上,使网页有被搜索引擎检索到的“合法身份”,这就相当于居民“身份证”一样。
搜索引擎在开始分析搜索请求之前,需要建立一个搜索索引库,这个搜索索引库是用来存储网页上找到的词,以及这些词所属的网页清单,它汇集了所有已在搜索引擎上登记的搜索者可能需要的网页。
搜索索引库的建立依赖于搜索引擎一个特别的程序——蜘蛛程序。
搜索引擎通过蜘蛛程序访问网页,并将网页发送到搜索索引库中,从而完成自然搜索索引库的建立。
搜索引擎背后的技术了解搜索引擎如何运作
搜索引擎背后的技术了解搜索引擎如何运作搜索引擎背后的技术:了解搜索引擎如何运作搜索引擎已经成为我们日常生活中不可或缺的一部分。
无论是寻找信息、购物、娱乐还是解决问题,我们都会借助搜索引擎来获取所需的答案。
然而,很少有人真正了解搜索引擎背后的技术,以及它们是如何运作的。
本文将深入探讨搜索引擎的工作原理和背后的技术。
一、搜索引擎的基本原理搜索引擎的基本原理可以概括为三个步骤:爬取、索引和检索。
1. 爬取(Crawling):搜索引擎通过网络爬虫(Web Crawler)自动地从互联网上抓取网页。
爬虫会从一个起始网页开始,然后通过网页中的链接不断地跳转到其他网页,形成一个网页的网络图。
爬虫会将抓取到的网页保存下来,以备后续的处理。
2. 索引(Indexing):在索引阶段,搜索引擎会对爬取到的网页进行处理,提取出其中的关键信息,并建立索引。
索引是一个包含了网页关键信息的数据库,它可以加快搜索引擎的检索速度。
在建立索引时,搜索引擎会对网页的标题、正文、链接等进行分析和处理,以便用户在搜索时能够快速找到相关的网页。
3. 检索(Retrieval):当用户输入关键词进行搜索时,搜索引擎会根据建立好的索引进行检索,并返回与关键词相关的网页列表。
搜索引擎会根据一定的算法对网页进行排序,以便用户能够看到最相关的结果。
用户可以通过点击搜索结果中的链接来访问具体的网页。
二、搜索引擎的技术细节除了基本的爬取、索引和检索功能外,搜索引擎还涉及到许多复杂的技术细节,以提供更准确、更高效的搜索结果。
1. 关键词匹配:搜索引擎会根据用户输入的关键词来匹配网页的内容。
为了提高匹配的准确性,搜索引擎会使用各种技术,如自然语言处理、词法分析和语义分析等。
这些技术可以帮助搜索引擎理解用户的意图,并找到与之相关的网页。
2. 排名算法:搜索引擎会对搜索结果进行排序,以便用户能够看到最相关的结果。
排名算法是搜索引擎的核心技术之一,它会根据网页的质量、权威性和相关性等因素来确定网页的排名。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【导读】搜索引擎的背后——支撑这一“简单”的背后,是非常复杂的搜索技术。
8月5日,百度公司在美国纳斯达克上市,其表现引起全球关注。
该公司的发行价为27美元,其时的P/E即已超过去年8月在纳斯达克上市的Google,而Google是全球排名第一的搜索引擎。
去年的Google以发行价85美元上市后,股价上冲到300美元以上,市值达到800亿美元。
百度上市当日,开盘价即达到66美元,最高股价达到151美元,最后收盘于122美元。
其当日股价上升幅度超过Google一年的“努力”。
百度总裁李彦宏在回答本报记者“为什么百度会受到追捧,获得成功”的提问时说:“这是因为百度一直非常专注(于搜索引擎)。
”
为什么连续两年全球资本均看好搜索引擎公司——家为全球最大的搜索引擎公司,一家为全球最大的中文搜索引擎公司?
为什么搜索引擎具有如此大的“杀伤力”,会成为继互联网第一波的门户网站,以及第二波的网络游戏、短信、电子邮件之后,成为互联网第三波的新主?
人们进一步的问题是:搜索引擎公司到底是什么样的公司,搜索引擎的员工在做什么?搜索引擎公司的盈利模式是什么,它们的盈利空间究竟有多大?新的搜索引擎公司能像百度、Google一样成功吗?搜索引擎公司相互之间如何竞争?搜索引擎现在发展到了一个什么样的阶段,明天搜索引擎有什么用处……
本报将通过系列报道与分析全面阐述搜索引擎的技术、应用,搜索引擎公司的商业模式和竞争策略。
搜索引擎应信息时代而生
搜索是如此简单。
打开Google或百度主页,键入想要搜索的任何一个词语,不到10秒的时间里,浏览器页面里就哗啦啦给你吐出一大堆搜索结果。
“百度一下”某个关键词,一个“搜索”的操作,简单到用户认为这是互联网天生就应该具备的功能。
但是,搜索引擎的背后——支撑这一“简单”的背后,是非常复杂的搜索技术。
众所周知,我们生活在信息大爆炸时代,每天的信息量太大了,足以将所有人湮没。
在如此庞杂的新鲜信息与存量信息面前,人们如何找到斯时有用或急需的信息,那,请搜索吧。
搜索引擎如此应运而生。
那么,什么是搜索引擎?曾有人形象地比喻说:“搜索引擎就像一个巨大的吸尘器,能将互联网海洋的任何东西都吸上来,不管它在多深的海底。
”这句解释尽管并不准确,但比较形象,我们来看看真实的搜索引擎工作是怎样一个流程吧。
蜘蛛程序
实际上,搜索引擎捕捉网页并不是“吸”,而是“抓”——抓取。
还是继续以海洋作为互联网的形象代表吧。
这个海洋,是以不计其数的网页组成的,而网页间,靠一个个链接相连,形成一个宽广无垠的互联“网”。
搜索引擎“抓取”网页的工具,人们叫它蜘蛛程序(SpiderPro-gram),它沿着网页的链接,从一个网页爬到另一个网页,并有选择地将一个个网页抓取回来。
我们知道,每一个互联网页面,都是用html语言写成的。
“蜘蛛程序”访问的并不是我们日常看到的页面,而是后台的html源码,如果“蜘蛛”认为这个页面有用,它就会将关于这个页面的html源码复制下来,发送回搜索引擎的服务器进行存储,然后继续它的旅程,去访问下一个页面。
从理论上来说,从一个页面出发,根据该页面的链接信息,这个蜘蛛可以访遍互联网上所有的网页——就好像你认识一个人,你可以根据这个人认识的人,和这个人认识的人所认识的人,一直和这个世界上所有的人建立某种关系。
“蜘蛛程序”的工作原理也是这样的。
不同的搜索引擎,它们所拥有的“蜘蛛程序”不一样,蜘蛛的能力大小也不一样。
比如,每天能抓到网页的数量是一个指标,避免抓重复网页的能力是一个指标,如何抓到最新网页的能力也是一个指标。
因此,“蜘蛛”能力的大小,首先就会导致不同搜索引擎之间的差异。
建立索引和排序
蜘蛛程序固然重要,但这还不是各搜索引擎的核心差异,其核心差异还是在于搜索引擎对抓取回来的页面所进行索引和设定排序规则。
抓回来的页面源程序放在搜索引擎庞大的服务器群中,就好像是成千上万本书散落在一个巨大的图书馆中,如果不对这些书进行索引和排序,要找到一本书就跟大海捞针的难度是一样的。
索引就是要对每个页面中的每个字词都进行分析、整理和提炼,将每个页面分门别类地放在各个索引库中。
显然,如果依靠人工肯定不能对每个页面的字词都进行详细的分析,这个过程也是通过程序来完成的。
这中间分词技术就很关键,比如,分词技术直接影响到搜索引擎会不会根据“任务”这样一个词,来建立包含“李主任务必来开会”字样的网页索引(早期的搜索引擎,包括Google在内,就曾经出现过键入“任务”一词,搜出包含“李主任务必来开会”网页的事情)。
索引之后就是排序,即确定用户向搜索引擎提交了一个搜索请求后,搜索引擎应该向用户返回搜索结果的秩序。
显然,用户最想要的信息应该排在搜索结果的最前列,但究竟什么
样的信息是用户最想要的信息?这个问题就仁者见仁,智者见智了。
在搜索引擎领域,著名的排序规则是百度创始人李彦宏的“超链分析”(李在美国申请了相关技术的专利)。
超链分析认为一个网页的重要性可由其他网页指向该网页的链接数目决定,这有点像要判断一个人是否重要,就看这个世界有多少其他人认识他。
与超链分析排序规则类似,Google也采用根据网页被链接指向多少的规则来进行排序,创造了自己独特的PageRank技术。
可以说,正是由于掌握了网页索引和排序规则方面的核心技术,才造就了目前Google 和百度在各自市场上各领风骚的局面。
反作弊
将互联网有用的网页抓取回来,并根据排序规则建立了网页索引,用户在使用搜索引擎进行检索时,就可以以极快的速度找到相关性高的网页了。
然而道高一尺,魔高一丈,如果单纯依靠静态的蜘蛛程序抓取规则和排序规则,一些恶意的网站就可以利用这些规则,来进行所谓的网站优化。
《南方周末》曾经在《搜索引擎与作弊网站的战争》一文中详细介绍了这方面的情况。
从上面的介绍可以看出,搜索引擎绝不是仅仅执行简单的“吸尘器”功能,它首先需要功能强大的“蜘蛛”来协助其收集互联网规模日增、每天变化的各种网页信息,同时需要极大的投入,购买服务器来将这些信息保存起来。
接着,搜索引擎要对所有收集来的网页建立索引和排序,并时刻警惕外界的各种作弊行为。
通过这样的搜索引擎工作流,我们也可以看到运作一个好的搜索引擎所需要的资源:“蜘蛛程序”,“分词技术”、“排序规则”和“反作弊程序”,这些需要大量的程序员不停工作,来提升软件的效率和功用;海量网页信息和索引信息的存储,需要企业投入大量财力,来部署服务器群。
目前,Google在全球投入搜索引擎技术开发的技术人员上千人,研究全球100多种语言的搜索技术,而百度目前700多的员工规模中,接近一半以上的技术人员,研究单一的中文搜索技术。
由于搜索引擎产业的复杂性,在资源投入的基础上,“专注”也是一个很重要的因素。
“我们将一如既往,专注在中文搜索引擎领域的研发和推广上。
”已经成为企业家明星的百度公司总裁李彦宏曾经公开表示。
了解了搜索引擎的技术内核,我们不难理解为什么“全、新、快、准”四个字会成为衡量搜索引擎好坏的标准。
“全”是指索引库中搜集的网页要全,根据最新的统计数字,在差不多20亿中文网页中,百度索引库中搜集了8亿,而Google的数字是5亿;“新”就是要保证
一些最新的网页能被收录在索引库中,目前百度的索引库每月会完整更新一遍,但每天会多次更新,每次更新一部分最新网页;“快”就是指查询提交后搜索引擎返还结果的速度,“准”指的是搜索结果的相关性和准确度。
技术层面上了解了搜索引擎之后,人们才能更清楚地进一步了解搜索引擎如何盈利、为什么市场对搜索引擎公司如此青睐。
(作者王益民副教授为北京大学信息管理系副主任)。