Google搜索引擎的数学原理和实现算法

合集下载

搜索引擎的基本原理

搜索引擎的基本原理

搜索引擎的基本原理
搜索引擎是一种能够帮助用户在互联网上查找信息的工具,它的基本原理是通过自动化程序(爬虫)收集互联网上的信息并建立索引,然后通过算法对这些索引进行排序,最终呈现给用户相关的搜索结果。

搜索引擎的基本原理包括爬虫抓取、索引建立和搜索算法三个方面。

首先,爬虫是搜索引擎的基础,它是一种自动化程序,能够按照一定规则在互联网上抓取网页信息。

爬虫会从一个初始的网页开始,然后根据网页上的链接逐步抓取其他网页,形成一个网页的网络。

在抓取网页的过程中,爬虫会解析网页的内容,提取出其中的文本信息、链接和其他相关数据,然后将这些数据传输给搜索引擎的服务器。

其次,索引建立是搜索引擎的核心工作之一。

搜索引擎会将爬虫抓取到的网页内容进行处理,提取出其中的关键词和相关信息,并建立相应的索引。

这个索引包含了大量网页的关键词和其在网页中的位置,这样当用户输入搜索关键词时,搜索引擎就可以通过索引快速地找到相关的网页。

最后,搜索算法是搜索引擎的关键。

搜索引擎会根据用户输入的搜索关键词,通过搜索算法对建立好的索引进行排序,将最相关的网页展示给用户。

搜索算法会考虑多种因素,如关键词的匹配程度、网页的权重、用户的搜索历史等,来确定网页的排名顺序,以此提供用户最符合需求的搜索结果。

总的来说,搜索引擎的基本原理是通过爬虫抓取网页信息,建立索引,再通过搜索算法对索引进行排序,最终呈现给用户相关的搜索结果。

这一过程需要涉及到大量的计算和数据处理,而搜索引擎的不断优化和改进也是一个持续的过程,以满足用户不断变化的搜索需求。

google布尔逻辑

google布尔逻辑

google布尔逻辑
谷歌布尔逻辑,又称谷歌开发者的逻辑,是指谷歌公司在其技术开发和运营过程中所采用的一种逻辑分析方法。

谷歌布尔逻辑主要基于布尔代数和二进制数学,用于解决复杂的技术问题和优化产品设计。

谷歌布尔逻辑的基本思想是将复杂的问题分解为简单的布尔问题,然后通过逻辑运算和优化来解决。

布尔逻辑主要包括与、或、非等逻辑运算符,以及与、或、非等逻辑门电路等基本概念和方法。

谷歌布尔逻辑在谷歌的搜索引擎、广告系统、操作系统等技术中都得到了广泛应用。

通过对用户行为、网页内容、广告投放策略等进行精确的布尔逻辑分析,谷歌能够提供更加准确和个性化的搜索结果和广告推荐。

谷歌布尔逻辑的优势在于能够处理大规模和复杂的数据、算法和技术问题。

通过布尔逻辑的运算和优化,谷歌能够实现更高效的搜索和广告系统,提供更好的用户体验和商业效益。

总之,谷歌布尔逻辑是谷歌公司在技术开发和运营中所采用的一种基于布尔代数和二进制数学的逻辑分析方法,通过逻辑运算和优化来解决复杂的技术问题。

谷歌布尔逻辑的应用使谷歌能够实现更高效、准确和个性化的搜索和广告推荐。

Google三大论文(中文)

Google三大论文(中文)

Google三大论文(中文)Google三大论文(中文)Google是世界上最大的互联网公司之一,也是许多人使用的首选搜索引擎。

Google的成功离不开他们所采用的先进技术和创新思维。

在过去的几十年里,Google发表了许多重要的研究论文,这些论文对于推动计算机科学和人工智能领域的发展起到了巨大的贡献。

本文将介绍Google三篇重要的论文,它们分别是PageRank算法、DistributedFile System和MapReduce。

一、PageRank算法PageRank算法是Google搜索引擎的核心算法之一。

这个算法是由Google的创始人之一拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)于1998年提出的。

PageRank算法通过分析与网页相关的链接数量和质量来评估网页的重要性,从而确定搜索结果的排名。

PageRank算法基于图论的概念,将互联网看作一个巨大的有向图,其中每个网页都是图中的一个节点,而网页之间的链接则是图中的边。

根据这些链接的链入和链出关系,算法可以计算出每个网页的PageRank值。

具有高PageRank值的网页会在搜索结果中排名较高,从而提高网页的可见性和流量。

二、Distributed File SystemDistributed File System(分布式文件系统)是Google为解决海量数据存储和处理问题而开发的一种分布式文件系统。

该系统最早在2003年的一篇名为《The Google File System》的论文中被介绍。

这个论文由Google的工程师们撰写,并提出了一种基于分布式架构和冗余存储的文件系统设计方案。

Distributed File System的设计目标是实现高可靠性、高性能和可扩展性。

它通过将大文件切割成小块并分布式存储在多台服务器上,同时也保证了数据的冗余存储和高可靠性。

这使得用户可以快速地读取和写入大规模的数据。

各种搜索引擎算法的分析和比较

各种搜索引擎算法的分析和比较

各种搜索引擎算法的分析和比较在互联网上搜索所需信息或资讯,搜索引擎成为了人们必不可少的工具。

然而,搜索引擎的搜索结果是否准确、全面,搜索速度是否快速等方面,关键在于搜索引擎的算法,因此,搜索引擎算法成为了搜索引擎核心竞争力的来源。

目前,主流的搜索引擎包括Google、Baidu、Yahoo、Bing等,但它们的搜索结果和排序结果却存在着很大的差异。

这些搜索引擎的搜索结果背后都有不同的算法,下面将对目前主流的几种搜索引擎的算法进行分析和比较。

1. Google算法Google算法是目前全球最流行的搜索引擎算法,其搜索结果广受用户信任。

Google算法最重要的要素是页面权重(PageRank),其名字最初来源于Google的创始人之一拉里·佩奇的名字。

页面权重是根据页面链接的数量和链接网站的权重计算得到的一个评分系统,也就是所谓的“链接分”。

除此之外,Google还有很多其他的评分规则,比如页面初始状态、页面内部链接等。

可以说,Google的算法非常复杂,它使用了很多技术来确保其搜索引擎结果的质量。

2. Baidu算法Baidu是中国主流的搜索引擎,其搜索算法相较于Google来说较为简单。

Baidu的搜索结果主要依靠页面的标题、关键词、描述等元素,因此其搜索结果的可靠性稍逊于Google。

不过,Baidu的形态分析算法却是非常出色的,可以识别图片和视频等多种形态的信息。

除此之外,Baidu还使用了一些人工智能技术,例如深度学习算法来优化搜索结果。

3. Bing算法Bing是由微软开发的搜索引擎,其搜索结果以关键词匹配为核心来实现。

在关键词匹配的基础上,Bing还使用了一些机器学习和推荐算法来优化搜索结果。

另外,Bing还使用类似Google的页面权重评分系统来实现页面的排序。

除此之外,Bing还注重在搜索结果页面中显示质量较高的结果,而不局限于排序前十的结果。

4. Yahoo算法Yahoo算法是基于文本内容分析的搜索引擎算法。

Google网页排序算法中PageRank值

Google网页排序算法中PageRank值


n
Zijn×PRin (i) ×Kijn为网页Pij的权重,由每个访问者叠加来计得
Zijn×PRin (i)为Zijn×PRin (i) ×Kijn的权重
程序演示

VB matlab
计算网页PR值公式分析
PRij=
n
PRin×Zijn×Hjn
PRin×Zijn表示每个访问者的权重 Hjn为0到1之间的值,表示访问者对网 页内容的认同度

论文要求
在Google搜索结果中,网页需要按一定的次序 排列出来,Google服务器根据网页的PR值来排序, PR值越大则排名越前。 Google PageRank传统算法根据网页间的链接 情况来计算网页的PR值,这种方法根据网页的人 气多少来排名,完全不考虑访问者的情况。 我的论文设计算法是由访问者的专业水平及 其对网页的投票评价来计算网页的PR值,改进的 算法主要是考虑由网页权威性来决定排名,具体 要求如下:
社会环境下网页重要性的 研究
指导老师:陈强
答辩人:邓青云
学号:20060003014
专业:信息工程
Google网页排序算法中 PageRank值的含义
由于传统算法存在种种的不足,所以本论文对传统 算法进行改进得出改进算法。

在Google传统算法中,PageRank值(简称PR值) 就是一个概率。为了方便讨论,Google转化为 0~10度量 。在传统算法中,网页PR值反映网页 的人气多少, PR值越大,则表示网页越多人访问。 在改进算法中,访问者的PR值越大则表示访问者 在i领域的专业知识水平越高。网页的PR值越大, 表示网页越权威。
u B v
PRin(i+1)=Ci (Kijn× Zijn×PRin (i) ×Kijn)

PageRank算法

PageRank算法

PageRank算法1. PageRank算法概述PageRank,即⽹页排名,⼜称⽹页级别、Google左側排名或佩奇排名。

是Google创始⼈拉⾥·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,⾃从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界⼗分关注的计算模型。

眼下许多重要的链接分析算法都是在PageRank算法基础上衍⽣出来的。

PageRank是Google⽤于⽤来标识⽹页的等级/重要性的⼀种⽅法,是Google⽤来衡量⼀个站点的好坏的唯⼀标准。

在揉合了诸如Title标识和Keywords标识等全部其他因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的⽹页在搜索结果中另站点排名获得提升,从⽽提⾼搜索结果的相关性和质量。

其级别从0到10级,10级为满分。

PR值越⾼说明该⽹页越受欢迎(越重要)。

⽐如:⼀个PR值为1的站点表明这个站点不太具有流⾏度,⽽PR值为7到10则表明这个站点很受欢迎(或者说极其重要)。

⼀般PR值达到4,就算是⼀个不错的站点了。

Google把⾃⼰的站点的PR值定到10,这说明Google这个站点是很受欢迎的,也能够说这个站点很重要。

2. 从⼊链数量到 PageRank在PageRank提出之前,已经有研究者提出利⽤⽹页的⼊链数量来进⾏链接分析计算,这样的⼊链⽅法如果⼀个⽹页的⼊链越多,则该⽹页越重要。

早期的⾮常多搜索引擎也採纳了⼊链数量作为链接分析⽅法,对于搜索引擎效果提升也有较明显的效果。

PageRank除了考虑到⼊链数量的影响,还參考了⽹页质量因素,两者相结合获得了更好的⽹页重要性评价标准。

对于某个互联⽹⽹页A来说,该⽹页PageRank的计算基于下⾯两个基本如果:数量如果:在Web图模型中,如果⼀个页⾯节点接收到的其它⽹页指向的⼊链数量越多,那么这个页⾯越重要。

深度剖析谷歌搜索SEO算法

深度剖析谷歌搜索SEO算法

深度剖析谷歌搜索SEO算法SEO不是魔法,而是知道该做什么。

无论你是新手还是老道的专家,我都建议你好好阅读这篇文章。

在下文里,我们将深入剖析谷歌搜索引擎编程人员和逆向工程人员的内容分析、判断和排序思思维。

首先我们从最根本的问题开始。

什么是SEO?维基百科是这样解释的:“SEO(搜索引擎优化)是在不付费的情况下,对网站在搜索引擎中的可见性进行优化的过程。

”至于谷歌,其首要目标就是确保搜索结果的准确性和相关性。

谷歌、百度、必应等搜索引擎好比图书馆,他们将全世界(互联网)的图书(网站)进行分类,并要在你发出请求的时候找到你所需的图书。

他们非常擅长这项工作,因此在搜索方面他们是无可争议的Number 1。

而为了坐稳这把“龙椅”,谷歌编写了一套极为复杂的算法,其中用于判断网站并对其内容进行排序的就是那些堪称绝密的变量。

你是否搜索过什么东西,发现谷歌呈现的结果就是你想要的?你是否体验过关键词还没输入完,谷歌就已经猜到你要搜什么了?这就是谷歌算法的智慧之处。

它能根据你之前的搜索记录猜测你想搜什么。

优质的SEO会遵循谷歌定下的指导原则,提升自己的内容在这一平台上的排名。

除非你在谷歌工作,否则谁都不可能知道那些变量是什么。

以下是我们对部分变量的推测——质量为先。

可能有人告诉你说:内容至上。

但你是否想到一点:内容想创作多少就能创作多少,但这并不保证它们的质量。

因此,这里的关键词是质量。

质量为先。

你应当清晰这一概念,并将其深深植入脑海之中,在创作内容时以质量为第一出发点。

那么,“质量为先”是什么意思?优质内容意味着,你要向读者传递某种价值。

价值可以多种多样,比方说:启示,指导读者(知识)逗读者哭、笑(情感)展示新颖的事物(发现)如果你的内容不具备上述特点,那尝试还有什么意义?从创作有价值的内容开始吧。

你要保证价值的恒久性,不是什么“任务宣言”、“关于我们”这样的内容。

如果你忘记了优质内容是运营的首要任务,那也就别谈SEO战略了。

PageRank算法的原理及应用

PageRank算法的原理及应用

PageRank算法的原理及应用PageRank算法是一种被广泛应用于搜索引擎的网页排序算法,它是由Google公司的两位创始人——拉里·佩奇和谢尔盖·布林在1998年发明的。

经过多次改进和完善,如今的PageRank算法已经成为了搜索引擎排名的重要指标之一。

本文将从算法原理、公式推导和应用探究三个方面来介绍PageRank算法。

一、算法原理PageRank算法的核心思想是基于互联网上各个页面之间的链接关系进行排序,在一定程度上反映了网页的权威性和价值。

所谓链接关系,就是指一个页面通过超链接将访问者引向另一个页面的关系。

如果一个网页被其他网页链接得越多,那么这个网页的权威度就应该越高。

但是,PageRank并不直接以链接数量作为评价标准,而是通过一个复杂的算法来计算每个网页的等级。

具体来说,PageRank算法是基于马尔科夫过程的概率模型,它将互联网上的所有页面抽象成图形,每个网页都是一个节点,超链接则是节点之间的边。

PageRank算法的核心计算就是将这个图形转化成一个矩阵,然后使用迭代的方式求出每个节点的等级,即PageRank值。

在这个过程中,每个节点的PageRank值会受到其它所有节点的影响,而它自身的权值又会传递给其他节点,如此循环迭代,直到所有节点的PageRank值趋于收敛。

二、公式推导PageRank算法的公式推导是比较繁琐的,这里只能简单概括一下。

首先,PageRank值可以表示为一个向量,每个向量元素代表一个页面的权值。

由于PageRank算法是基于网页链接之间的关系计算出来的,所以可以将它表示成一个矩阵M,该矩阵中的元素mi,j表示第j个页面指向第i个页面的链接数量。

接着,可以构造一个向量v,v中的所有元素都是1/N(其中N为网页总数),代表每个页面初始的PageRank值。

然后,PageRank值可以通过迭代计算得到,具体的计算公式如下:PR(A) = (1-d)/N + d * (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))其中,PR(A)表示节点A的PageRank值,d是一个常数(0<d<1),代表网页的阻尼系数,T1-Tn是所有指向节点A的页面,C(Ti)是Ti页面的出链总数,PR(Ti)是Ti页面的PageRank值,N为网页总数。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

H的概率化解释
想象我们随机地在网上跳转网页;也就是说,当我们访问一个网页时,一秒钟后我们随机地选择当前网页的一个 链接到达另一个网页。例如,我们正访问含有 个链接的网页 ,其中一个链接引导我们访问了网页 ,那么下 一步转到网页 的概率就是 。
由于跳转网页是随机的,我们用 表示停留在网页 上的时间。那么我们从网页 转到网页 的时间为
首先建立一个矩阵,称为超链矩阵(hyperlink matrix),
,其中第 行第 列的元素为
如果 上述 件不成
注意到 有一些特殊的性质。首先,它所有的元都是非负的。其次,除非对应这一列的网页没有任何链接,它的每 一列的和为1。所有元均非负且列和为1的矩阵称为随机矩阵,随机矩阵将在下述内容中起到重要作用。
谷歌如何从网络的大海里捞到针
David Austin
关键词:谷歌,搜索,随机矩阵,特征值
想象一个含有250亿份文件,却没有集中管理机构和馆员的图书馆,而且任何人都可以在任何时间添加新的文件而 不需要通知其他人。一方面你可以确定,这庞大的文件堆中有一份文件含有对你至关重要的信息,而另一方面, 你又像我们中的大多数人那样没有耐心,想要在几秒钟之内就找到这条信息。你有什么办法呢?
在此例中,矩阵 为
注意到前四个网页的网页排序值均为0。这使我们感觉不太对:每个页面都有其它网页链接到它,显然总有人喜欢 这些网页!一般来说,我们希望所有网页的重要性排序值均为正。这个例子的问题在于,它包含了一个小网络, 即下图中蓝色方框部分。
在这个方框中,有链接进入到蓝色方框,但没有链接转到外部。正如前述中关于悬挂点的例子一样,这些网页构 成了一个“重要性水槽”,其他四个网页的重要性都被“排”到这个“水槽”中。这种情形发生在矩阵 为可约
摆在你面前的这个难题看起来似乎无法解决。而这个文件堆跟万维网(World Wide Web)其实相差无几,后者就 是一个超大的、高度混乱的以各种形式存放的文件堆。当然,从万维网中找信息我们有办法解决,因为我们对搜 索引 擎 非 常 熟 悉(或 许 你 就 是 通 过 搜 索 找 到 这 篇 文 章 的)。 本 文 将 介 绍 谷 歌 的 网 页 排 序 算 法(PageRank Algorithm),以及它如何从250亿份网页中捞到与你的搜索条件匹配的结果。它的匹配效果如此之好,以至于 “谷歌”(google)今天已经成为一个被广泛使用的动词了。
回到某一部分网页。正如谚语所说“条条大路通罗马,”这部分网页显然是更重要的网页。
基于这个解释,很自然地可以要求网页排序向量 的所有元之和为1。
当然,这种表述中还存在一个问题:如果我们随机地跳转网页,在某种程度上,我们肯定会被困在某个悬挂点 上,这个网页没有给出任何链接。为了能够继续进行,我们需要随机地选取下一个网页;也就是说,我们假定悬 挂点可以链接到其他任何一个网页。这个效果相当于将超链矩阵 做如下修正:将其中所有元都为0的列替换为所 有元均为1/n的列,前者就对应于网页中的悬挂点。这样修正后悬挂点就不存在了。我们称修正后的新矩阵为 。
谷歌的网页排序算法则不借助人为的内容评估来确定网页的重要性。事实上,谷歌发现,它的服务的价值很大程 度上是它能够提供给用户无偏见的搜索结果。谷歌声称,“我们软件的核心就是网页排序(PageRank)。” 正如 我们将要看到的,技巧就是让网页自身按照重要性进行排序。
如何辨别谁重要
如果你曾建立过一个网页,你应该会列入一些你感兴趣的链接,它们很容易使你点击到其它含有重要、可靠信息 的网页。这样就相当于你肯定了你所链接页面的重要性。谷歌的网页排序算法每月在所有网页中进行一次受欢迎 程度 的 评 估,以 确 定 哪 些 网 页 最 重 要 。 网 页 排 序 算 法 的 提 出 者,谢 尔 盖•布 林(Sergey Brin)和 拉 里•佩奇 (Lawrence Page)的基本想法是:一个网页的重要性是由链接到它的其他网页的数量及其重要性来决定。
那么

时,因为所有特征值的绝对值小于1,因此这是
个特征向量。
。从而
需要指出的是,
的速度由 确定。当 比较接近于0时,那么
,后者是对应于特征值1的一 会相当快。例如,考虑下述矩阵
这个矩阵的特征值为

。下图左可以看出用红色标记的向量 收敛到用绿色标记的平稳向量 。
再考虑矩阵
其特征值为

二个特征值较大。
均为1/n,其余各元均为0。则

幂法如何实现?
一般而言,幂法是寻找矩阵对应于绝对值最大的特征值的特征向量。就我们而言,我们要寻找矩阵 对应于特征值
1的特征向量。首先要说到的是最好的情形。在这种情形下,其他特征值的绝对值都小于1;也就是说,矩阵 的其
பைடு நூலகம்
它特征值都满足

我们假定矩阵 的特征值为 且
对矩阵 ,假设对应于特征值 的特征向量存在一个基向量 。这一假设在一般情况下并不一定要成立,但如果成 立可以帮助我们更容易地理解幂法如何实现。将初始向量 写成如下形式
。从上图右可以看出,本例中向量 收敛到平稳向量 的速度要慢很多,因为它的第
不顺之时
在上述讨论中,我们假定矩阵 需要满足

。然而,我们可能会发现,这一点并不总成立。
假定网络关系如下:
在这种情形下,矩阵 为
那么我们可以得到
1
0
0
0
0
1
0
1
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
在这种情况下,向量序列 不再收敛。这是为什么?注意到矩阵 的第二个特征值满足 前提不再成立。
先看个非常简单的例子。考虑如下包含两个网页的小网络,其中一个链接到另一个:
下例展示了算法的运行过程:
1
0
0
0
0
1
0
0
在这个例子中,两个网页的重要性排序值均为0,这样我们无法获知两个网页之间的相对重要性信息。问题在于网 页 没有任何链接。因此,在每个迭代步骤中,它从网页 获取了一些重要性,但却没有赋给其他任何网页。这 样将耗尽网络中的所有重要性。没有任何链接的网页称为悬挂点(dangling nodes),显然在我们要研究的实际 网络中存在很多这样的点。稍后我们将看到如何处理这样的点,在此之前我们先考虑一种新的理解矩阵 和平稳向 量 的思路。
(reducible)时;也即, 可以写成如下的块形式
实际上,我们可以证明:如果矩阵 不可约,则一定存在一个所有元均为正的平稳向量。
对一个网络,如果任意给定两个网页,一定存在一条由链接构成的路使得我们可以从第一个网页转到第二个网 页,那么称这个网络是强连通的(strongly connected)。显然,上面最后的这个例子不是强连通的。而强连通 的网络对应的矩阵 是不可约的。
幂法如何实现呢?首先选择 的备选向量 ,进而按下式产生向量序列
这个方法是建立在如下的一般原理上: 一般原理:序列 将收敛到平稳向量 。
我们首先用个例子验证上面的结论。
10 0 0 0.5 0.25 0 0.5 0 0 0 0.5 0 0 0.25 00 0 00 0 00 0
0 0.1667
0 0.25 0.1667 0.25 0.0833 0.0833

如果我们转到了网页 ,那么我们必然是从一个指向它的网页而来。这意味着
其中求和是对所有链接到 的网页 进行的。注意到这个方程与定义网页排序值的方程相同,因此

那么一个网页的网页排序值可以解释为随机跳转时花在这个网页上的时间。如果你曾经上网浏览过某个你不熟悉
的话题的相关信息时,你会有这种感觉:按照链接跳转网页,过一会你会发现,相较于其他网页,你会更频繁地
,因此前述幂法的
为了保证
,我们需要矩阵 为本原(primitive)矩阵。这意味着,对某个m, 的所有元均为正。换言
之,若给定两个网页,那么从第一个网页经过m个链接后可以到达第二个网页。显然,上述最后的这个例子并不满
足这个条件。稍后,我们将看到如何修正矩阵 以获得一个本原随机矩阵,从而满足

下面说明我们的方法行不通的另一个例子。考虑如下图所示的网络
网页排序是这样确定的。假定网页 有 个链接。如果这些链接中的一个链接到网页 ,那么网页 将会将其重
要性的 赋给 。网页 的重要性就是所有指向这个网页的其他网页所贡献的重要性的加和。换言之,如果我 们记链接到网页 的网页集合为 ,那么
这或许让你想起“先有鸡还是先有蛋”的问题:为了确定一个网页的重要性,我们首先得知道所有指向它的其他 网页的重要性。然而,我们可将这个问题改写为一个更数学化的问题。
计算平稳向量
有很多方法可以找到一个方阵的特征向量。然而,我们面对的是一个特殊的挑战,因为矩阵 是一个这样的方阵, 它的每一列都对应谷歌检索到的一个网页。也就是说, 大约有n=250亿行和列。不过其中大多数的元都是0;事 实上,研究表明每个网页平均约有10个链接,换言之,平均而言,每一列中除了10个元外全是0。我们将选择被称 为幂法(power method)的方法来找到矩阵 的平稳向量 。
包括谷歌在内,多数搜索引擎都是不断地运行计算机程序群,来检索网络上的网页、搜索每份文件中的词语并且 将相关信息以高效的形式进行存储。每当用户检索一个短语,例如“搜索引擎”,搜索引擎就将找出所有含有被 检索短语的网页。(或许,类似“搜索”与“引擎”之间的距离这样的额外信息都被会考虑在内。)但问题是, 谷歌现在需要检索250亿个页面,而这些页面上大约95%的文本仅由大约一万个单词组成。也就是说,对于大多数 搜索而言,将会有超级多的网页含有搜索短语中的单词。我们所需要的其实是这样一种办法,它能够将这些符合 搜索条件的网页按照重要程度进行排序,这样才能够将最重要的页面排在最上面。
相关文档
最新文档