大数据经典算法PageRank 讲解
深入探讨PageRank(一):PageRank算法原理入门

深入探讨PageRank(一):PageRank算法原理入门深入探讨PageRank(一):PageRank算法原理入门一、PageRank简介大名鼎鼎的PageRank算法是Google排名运算法则(排名公式)的一个非常重要的组成部分,其用于衡量一个网站好坏的标准。
在揉合了诸如Title、Keywords标识等所有其它因素之后,Google利用PageRank来调整网页的排名,使得“等级/重要性”的网页会相对排在前面。
简单来说,Google通过下述几个步骤来实现网页在其搜索结果页面中排名:(1)找到所有与搜索关键词匹配的网页(2)根据页面因素如标题、关键词密度等排列等级(3)计算导入链接的锚文本中关键词(4)通过PageRank得分调整网站排名结果事实上,真正的网站的排名过程并非这么简单,我们会在后面进行详细深入阐述。
PageRank于2001年9月被授予美国专利,专利人是Google创始人之一的拉里.佩奇(Larry Page)。
所以,PageRank里面的Page 并不是指网页,而是指佩奇~PageRank对于网页重要性的级别分为1~10级,10级为满级。
PR值越高说明该网页越受欢迎,也即越重要。
一个PR值为1的网站表明该网站不具备流行度,而PR值为7~10的网站则表明该网站是非常受欢迎的,或者说极其重要。
一般PR值达到4,就算是一相当不错的网站了。
Google把自己网站的PR值设置为10~类似里氏震级,PageRank级别并不是线性增长的,而是按照一种指数刻度,打个比方PageRank4比PageRank3虽然只是高了一级,但却在影响力上高上6~7倍,因此,一个PageRank5的网页和一个PageRank8的网页之间差距会比你可能认为的要大的多。
在讨论之前,先介绍两个概念:导入链接,又称逆向链接,是指链至你网站的站点,也就是我们一般所说的外部链接。
而当你链至另外一个站点,那么这个站点就是你的导出链接,即你向其他网站提供本站的链接。
PageRank算法原理及应用

PageRank算法原理及应用引言互联网对于现代人来说,是不可或缺的一部分。
网络中蕴含的各种信息,对于工作、学习、生活等方面都有着很大的帮助。
但是,互联网的信息量过于庞大,怎么才能将用户需要的信息呈现给他们呢?这就需要搜索引擎的帮助。
而搜索引擎中的PageRank 算法,就是如何给各个网页进行排序的一种方法。
一、PageRank算法原理PageRank算法是由谷歌公司创始人之一拉里·佩奇和谢尔盖·布林共同提出的。
该算法的核心思想是把网页之间的链接看成一种投票制度。
举个例子,如果A网页中有指向B、C、D三个网页的链接,那么我们可以理解为A网页对B、C、D三个网页进行了投票。
同理,如果B、C两个网页又分别有指向A、D两个网页的链接,那么B、C网页对A、D网页也进行了投票。
但是,这个投票制度并不是完全平等的。
如果A网页的排名比B、C、D网页都要高,那么A网页对B、C、D网页的投票效果就要比B、C、D网页对A网页的投票效果更大。
又因为B、C网页同时又对A网页进行了投票,所以其对D网页的投票效果会比A网页的投票效果更大。
PageRank算法正是基于这种投票论证进行的,即如果一个网页被越多的其他网页链接的话,那么这个网页就越重要。
同时,如果链接这个网页的网页还有更高的权重,那么这个网页的权重就会更大。
Pagerank算法是一种迭代算法。
迭代中每个网页的PageRank 值逐渐逼近其真实值。
大致流程如下:1. 给每一个网页初始化PageRank值为12. 每个网页的PageRank值等于其他链接到这个网页的网页的PageRank值乘以这个网页投出去链接的数量除以被链接到的网页的总数再乘以一个0.85的系数,再加上一个概率0.153. 重复执行第二步,直到所有网页的PageRank值收敛二、PageRank算法应用PageRank算法的应用主要体现在搜索引擎排序上。
因为搜索引擎返回的结果一般都是以网页链接的形式呈现的,PageRank算法可以依据链接来判断网页的重要性并进行排序。
pageRank 详细解析(具体例子)

PageRank解释方法一1.PageRank的核心思想(1) R(x)表示x的PageRank,B(x)表示所有指向x的网页。
公式(1)的意思是一个网页的重要性等于指向它的所有网页的重要性相加之和。
粗看之下,公式(1)将核心思想准确地表达出来了。
但仔细观察就会发现,公式(1)有一个缺陷:无论J有多少个超链接,只要J指向I,I都将得到与J一样的重要性。
当J有多个超链接时,这个思想就会造成不合理的情况。
例如:一个新开的网站N只有两个指向它的超链接,一个来自著名并且历史悠久的门户网站F,另一个来自不为人知的网站U。
根据公式(1),就会得到N比F更优质的结论。
这个结论显然不符合人们的常识。
弥补这个缺陷的一个简单方法是当J有多个超链接(假设个数为N),每个链接得到的重要性为R(j)/N。
于是公式(1)就变成公式(2):(2)N(j)表示j页面的超链接数图2 来自Lawrence Page的文章从图2可以看出,如果要得到N比F更优质的结论,就要求N得到很多重要网站的超链接或者海量不知名网站的超链接。
而这是可接受的。
因此可以认为公式(2)将核心思想准确地表达出来了。
为了得到标准化的计算结果,在公式(2)的基础上增加一个常数C,得到公式(3):(3)2.计算,实例由公式(3)可知,PageRank是递归定义的。
换句话就是要得到一个页面的PageRank,就要先知道另一些页面的PageRank。
因此需要设置合理的PageRank初始值。
不过,如果有办法得到合理的PageRank初始值,还需要这个算法吗或者说,这个严重依赖于初始值的算法有什么意义吗依赖于合理初始值的PageRank算法是没意义的,那么不依赖于初始值的PageRank算法就是有意义的了。
也就是说,如果存在一种计算方法,使得无论怎样设置初始值,最后都会收敛到同一个值就行了。
要做到这样,就要换一个角度看问题,从线性代数的角度看问题。
将页面看作节点,超链接看作有向边,整个互联网就变成一个有向图了。
PageRank算法

PageRank算法1. PageRank算法概述PageRank,即⽹页排名,⼜称⽹页级别、Google左側排名或佩奇排名。
是Google创始⼈拉⾥·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,⾃从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界⼗分关注的计算模型。
眼下许多重要的链接分析算法都是在PageRank算法基础上衍⽣出来的。
PageRank是Google⽤于⽤来标识⽹页的等级/重要性的⼀种⽅法,是Google⽤来衡量⼀个站点的好坏的唯⼀标准。
在揉合了诸如Title标识和Keywords标识等全部其他因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的⽹页在搜索结果中另站点排名获得提升,从⽽提⾼搜索结果的相关性和质量。
其级别从0到10级,10级为满分。
PR值越⾼说明该⽹页越受欢迎(越重要)。
⽐如:⼀个PR值为1的站点表明这个站点不太具有流⾏度,⽽PR值为7到10则表明这个站点很受欢迎(或者说极其重要)。
⼀般PR值达到4,就算是⼀个不错的站点了。
Google把⾃⼰的站点的PR值定到10,这说明Google这个站点是很受欢迎的,也能够说这个站点很重要。
2. 从⼊链数量到 PageRank在PageRank提出之前,已经有研究者提出利⽤⽹页的⼊链数量来进⾏链接分析计算,这样的⼊链⽅法如果⼀个⽹页的⼊链越多,则该⽹页越重要。
早期的⾮常多搜索引擎也採纳了⼊链数量作为链接分析⽅法,对于搜索引擎效果提升也有较明显的效果。
PageRank除了考虑到⼊链数量的影响,还參考了⽹页质量因素,两者相结合获得了更好的⽹页重要性评价标准。
对于某个互联⽹⽹页A来说,该⽹页PageRank的计算基于下⾯两个基本如果:数量如果:在Web图模型中,如果⼀个页⾯节点接收到的其它⽹页指向的⼊链数量越多,那么这个页⾯越重要。
pagerank算法步骤

pagerank算法步骤PageRank算法是一种用于评估网页重要性的算法,是由Google的创始人拉里·佩奇和谢尔盖·布林共同提出的。
它是一种基于链接分析的算法,主要通过计算一个网页的入链数和出链数来判断其重要性。
具体的PageRank算法步骤如下:1. 初始化PageRank值:对于一个网页,初始的PageRank值一般为1/N,其中N为所有网页的总数。
将这些初始值赋予所有的网页。
2. 迭代计算:根据PageRank的计算公式进行迭代计算,直到收敛为止。
PageRank的计算公式如下:PR(A) = (1-d)/N + d * (PR(T1)/C(T1) + PR(T2)/C(T2) + ... + PR(Tn)/C(Tn))其中PR(A)为网页A的PageRank值,d为阻尼系数,一般取值为0.85,N为所有网页的总数,T1、T2、...、Tn为指向网页A的网页,C(T1)、C(T2)、...、C(Tn)分别为这些指向网页A的网页的出链数。
迭代计算每个网页的PageRank值,直到前后两次迭代值的差异小于某个预定的阈值,即达到收敛。
3. 解决网页零入链问题:在计算过程中,可能出现一些网页没有任何其他网页指向它,即零入链问题。
为解决这个问题,可以给这些网页一个初始的PageRank值,并在迭代计算中加入一个平均值部分,使得网页的重要性能够传递给零入链的网页。
以上就是PageRank算法的主要步骤。
实际应用中,还可以对阻尼系数d进行微调,以达到更好的效果。
此外,为了加快迭代计算的速度,可以采用分布式计算的方式进行计算。
参考内容:1. 《The Anatomy of a Large-Scale Hypertextual Web Search Engine》(拉里·佩奇、谢尔盖·布林):这是PageRank算法的原始论文,详细介绍了算法的思想和具体实现。
论文发表于1998年,是该算法最早的介绍。
大数据的几大经典算法

大数据的几大经典算法大数据领域中的经典算法有很多,以下是其中几个:1. MapReduce:MapReduce是由Google公司提出的一种用于处理大规模数据集的分布式编程模型。
它将大规模数据集划分为多个小的数据块,并在多个计算节点上并行处理这些数据块,最后将结果进行合并得到最终的结果。
MapReduce可以有效地解决大数据处理中的并行计算和分布式存储问题。
2. PageRank:PageRank是由Google公司创始人之一拉里·佩奇提出的一种用于评估网页重要性的算法。
它通过计算网页之间的链接关系来判断网页的重要程度,从而给每个网页分配一个权重值。
PageRank算法被广泛应用在引擎中,帮助用户找到更有用的网页。
3. K-means:K-means是一种基于聚类的数据分析算法,用于将一组数据划分成多个具有相似特征的类别。
它通过计算每个数据点与聚类中心的距离来确定数据点所属的类别。
K-means算法在大数据分析中经常用于数据挖掘、图像处理和推荐系统等应用。
4. Apriori:Apriori是一种用于挖掘关联规则的经典算法。
关联规则是一种描述数据项之间关系的方法,形如"A→B",表示在其中一种条件下,项集A的出现可以预测项集B的出现。
Apriori算法通过扫描事务数据库来发现频繁项集,并根据频繁项集生成关联规则。
Apriori算法在市场篮子分析、网络入侵检测和用户行为分析等领域具有广泛应用。
5. SVM(Support Vector Machine):SVM是一种用于分类和回归分析的机器学习算法。
SVM通过在特征空间中构建一个最优超平面来进行分类,使得不同类别的样本在该超平面上的投影距离尽可能大。
SVM在大数据领域中可以用于图像分类、文本分类和异常检测等任务。
6. LDA(Latent Dirichlet Allocation):LDA是一种用于主题建模的概率模型。
pageRank 详细解析(具体例子)

PageRank解释方法一1.PageRank的核心思想(1)R(x)表示x的PageRank,B(x)表示所有指向x的网页。
公式(1)的意思是一个网页的重要性等于指向它的所有网页的重要性相加之和。
粗看之下,公式(1)将核心思想准确地表达出来了。
但仔细观察就会发现,公式(1)有一个缺陷:无论J有多少个超链接,只要J指向I,I都将得到与J一样的重要性。
当J有多个超链接时,这个思想就会造成不合理的情况。
例如:一个新开的网站N只有两个指向它的超链接,一个来自著名并且历史悠久的门户网站F,另一个来自不为人知的网站U。
根据公式(1),就会得到N比F更优质的结论。
这个结论显然不符合人们的常识。
弥补这个缺陷的一个简单方法是当J有多个超链接(假设个数为N),每个链接得到的重要性为R(j)/N。
于是公式(1)就变成公式(2):(2)N(j)表示j页面的超链接数图2 来自Lawrence Page的文章从图2可以看出,如果要得到N比F更优质的结论,就要求N得到很多重要网站的超链接或者海量不知名网站的超链接。
而这是可接受的。
因此可以认为公式(2)将核心思想准确地表达出来了。
为了得到标准化的计算结果,在公式(2)的基础上增加一个常数C,得到公式(3):(3)2.计算,实例由公式(3)可知,PageRank是递归定义的。
换句话就是要得到一个页面的PageRank,就要先知道另一些页面的PageRank。
因此需要设置合理的PageRank初始值。
不过,如果有办法得到合理的PageRank初始值,还需要这个算法吗?或者说,这个严重依赖于初始值的算法有什么意义吗?依赖于合理初始值的PageRank算法是没意义的,那么不依赖于初始值的PageRank算法就是有意义的了。
也就是说,如果存在一种计算方法,使得无论怎样设置初始值,最后都会收敛到同一个值就行了。
要做到这样,就要换一个角度看问题,从线性代数的角度看问题。
将页面看作节点,超链接看作有向边,整个互联网就变成一个有向图了。
PageRank算法解析.ppt

Pagerank算法原理:
PageRank 的核心思想
PageRank 是基于「从许多优质的网页链接过来的网页,必定还是优质网页」的
回归关系,来判定所有网页的重要性。
因此,如果从类似于 Yahoo! 那 样的 PageRank 非常高的•站链点入被链接数 (单纯的意义上的受欢 链接的话,仅此网页的 Pa迎ge度Ra指nk标) 也会一下子上升;相反地,无论 有多少链入链接数,如果•全链都入是链接是否来自推荐度高的页面 从那些没有多大意义的页(面有链根接据的受欢迎指标) 过来的话,PageRank 也不会轻易
Pagerank
创始人:拉里 佩奇(Larry Page )
—Google创始人之一 谢尔盖·布林(Sergey Brin)
应 用:Google是用来衡量一个网站 好坏的唯一标准。
PageRank的提出
Google的创始人之一Larry Page于1998年提出了 PageRank,并应用在Google搜索引擎的检索结果排序 上,该技术也是Google早期的核心技术之一
Google查询过程
Google 查询的全过程通常 不超过半秒时间,但在这 短短的时间内需要完成多 个步骤,然后才能将搜索 结果交付给搜索信息的用 户。
PageRank?
PageRank算法
背景介绍 Google的网页排序 PageRank简化模型 PageRank随机浏览模型 PageRank的计算
• Sergey Brin(谢尔盖·布林 )和Lawrence Page(拉里·佩奇)在1998年提出 了PageRank算法,同年J. Kleinberg(J·克莱因伯格)提出了HITS算法 Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, 'The PageRank Citation Ranking: Bringing Order to the Web', 1998, /~backrub/pageranksub.ps • 为了更高效地计算 PageRank,以下是改良以后的一篇论文。Taher H. Haveliwala, ‘Efficient Computation of PageRank’, Stanford Technical Report, 1999, :8090/pub/1999-31
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如果按这个公式迭代算下去,会发现自连接点的问题解决了,从而每个页面 都拥有一个合理的pagerank。
分块式Pagerank算法:
火龙果整理
单击此处添加段落文字内容
原来的算法存在的问题:
1.时间开销大。每次迭代就算时间开销为
2.因特网中数据大部分是分布式的,计算过程需要多次传递数据,网 络负担太大。
火龙果整理
PageRank算法
基本PageRank 面向主题PageRank Link Spam与反作弊 导航页与权威页
一小组:王高翔,李渠,刘晴,柳永康,刘昊骋 二小组: 王飞,李天照,赵俊杰,陈超,陈瑾翊
一.Pagerank定义及终点,自连接点的概念
早期搜索引擎的弊端
火龙果整理
火龙果整理
TrustRank
TrustRank的思想很直观:如果一个页面的普通rank远高 于可信网页的topic rank,则很可能这个页面被spam了。 设一个页面普通rank为P,TrustRank为T,则定义网页的 Spam Mass为:(P – T)/P。 Spam Mass越大,说明此页面为spam目标页的可能性越 大。
为了克服这种问题,需要对PageRank 计算方法进行一个平滑处理,具体做 单击添加 法是加入“跳转因子(teleporting)”。所谓跳转因子,就是我们认为在任 何一个页面浏览的用户都有可能以一个极小的概率瞬间转移到另外一个随机 页面。当然,这两个页面可能不存在超链接,因此不可能真的直接转移过去, 跳转因子只是为了算法需要而强加的一种纯数学意义的概率数字。
3.n维矩阵式一个稀疏矩阵,无论计算还是存储都很浪费资源。
能否考虑先算出局部的Pagerank值??
分块式Pagerank算法:
火龙果整理
算法实现步骤: 单击此处添加段落文字内容
1.分数据块,计算每一个网络图G[i]的的Local Pagerank。 2.根据各数据块之间的相关性,计算缩略图p的Blockrank。 3.将所得Local Pagerank和Blockrank按照一定原则进行计算,得到 一个新的n维Pagerank. 4.将n维Pagerank多次迭代,得到最后收敛的pagerank向量。
做法
每个用户有一个私 人的PageRank向量
对每一个主题方向 建立偏向该主题的 一个PageRank向量
思路及公式
火龙果整理
假定我们知道某些网页代表一个主题(体育),为了构建面向主题的PageRank, 我们可以安排随机冲浪者只到达一个随机的体育类网页,而不是到达任意类别的 一个网页。 这种做法的后果是,随机冲浪者很可能停留在已知的体育类网页上,或者从这些 已知的体育类网页上通过较短的路径就可到达的网页上。体育类网页链向的网页 很可能与体育类相关,随着离已知体育类网页的距离的增加,这些网页离体育相 关的概率也随之降低。 假定S是一个网页的集合,其中的网页属于类别S(随机跳转集合)。es是一个 向量,如果其分量对应的网页属于S,则该分量置为1,否则为0。于是S的面向 主题的PageRank的迭代公式如下:
作弊者可在他网页上增 加一个词项,并将该词 项重复千百次,搜索引 擎可能以为该网页与检 索关键词高度相关而把 该网页放在搜索结果的 前列
2.Pagerank的定义
火龙果整理
Pagerank思想:
“被越多优质的网页所指的网页,它是优质的概率就 越大”
2.Pagerank的定义
开 源 建 站 系 统
开源建站系统中的大多数网页都是由网页模板生成 的,网页模板中含有固定的链接指向一些共同的网 页甚至是作弊网页。
链接农场
设T的总rank为y,则y由三部分组成: 1、可达页的rank贡献,设为x。 2、心灵转移的贡献,为β/n。其中n为全部网 页的数量,β为转移参数。 3、支持页的贡献: 设有m个支持页,因为每个支持页只和T有链 接,所以可以算出每个支持页的rank为:
三、Link Spam与反作弊
Link Spam方法
火龙果整理
链 接 农 场
链接农场是指由互联网中的一部分网页组成,这些 网页非常密集地互相连接在一起。链接农场是通过 创建一个堆砌大量链接而没有实质内容的网页,这 些链接彼此互链,或指向特定网站,以提高某个或 者某些特定网页的Pagerank值为目的。
上述过程第三步是最棘手的,现有一些解决方法: A.允许用户从菜单中选择一个主题 B.通过用户最近搜索查询或最近浏览的Web网页来推断主题 C.利用用户的信息(如用户的收藏夹或者社交网站上列出的兴趣)来推断主 题 确定一个网页的所属类别可以使用“基于词汇的主题判断”方法
火龙果整理
火龙果整理
则支持页贡献的全部rank为:
因此可以得到:
链接农场
火龙果整理
由于相对β,n非常巨大,所以可以认为β/n近似于0。 简化后的方程为:
解方程得:
假设β为0.2,则1/(2β-β^2) = 2.77则这个spam farm可以将x约放大2.7倍。
火龙果整理
表示用户从页面j转到页面i的概 率。这样一个矩阵叫做转移矩 阵
、
火龙果整理
设初始时每个页面的rank值为1/N,这里就是1/4。按A-D顺序将页面rank为向量v:
第一步之后,冲浪者的概率分布为Mv; 第二步之后,冲浪者的概率分布为M²v; 第i步之后,依次类推,可得冲浪者经过i步 之后的位置概率分布向量为Miv。 我们可以从初向量v出发,不断左乘矩阵M, 直到前后两轮迭代产生的结果向量差异很小 时停止,从而得到M的主特征向量。 实际上,对于Web本身而言,迭代50-75次 已经足够收敛。
Page 29
PageRank 能够对网页的重要性做出客观的评价
1、敏感度较高,反应较快 Google对新建的网站具有较高的查知性, Google收录新建网站的两个途径是:
火龙果整理
PageRank:关注 链接 的入度和出度,即本网页与其 他网页的关系,计算出一个PR值,由此,来判断网页
的重要程度。而此项,是搜索引擎查询时另外一个依 据,可以说是第一个过滤项。
HITS: 分析网页的导航度和权威度,由此来判断网页
的作用。
Page 28
Page Rank判断页面重要性
火龙果整理
PageRank,有效地利用了 Web 所拥有的庞大链接构造的特性。 从网页A导向网页B的链接被看作是对页面A对页面B的支持投票, Google根据这个投票数来判断页面的重要性。可是 Google 不单 单只看投票数(即链接数),对投票的页面也进行分析。「重要性」
高的页面所投的票的评价会更高,因为接受这个投票页面会被理 解为「重要的物品」。根据这样的分析,得到了高评价的重要页面 会被给予较高的 Page Rank(网页等级),在检索结果内的名次也 会提高。PageRank 是 Google 中表示网页重要性的综合性指标, 而且不会受到各种检索(引擎)的影响。倒不如说,PageRank 就 是基于对"使用复杂的算法而得到的链接构造"的分析,从而得出 的各网页本身的特性。当然,重要性高的页面如果和检索词句没 有关联同样也没有任何意义。为此 Google 使用了精练后的文本 匹配技术,使得能够检索出重要而且正确的页面。
Link Spam反作弊
火龙果整理
网络拓扑分析
一种方法是通过对网页的图拓扑结构分析找出可能存在 的spam farm。 但是随着Web规模越来越大,这种方法非常困难,因 为图的特定结构查找是时间复杂度非常高的一个算法, 不可能完全靠这种方法反作弊。
Link Spam反作弊
火龙果整理
面向主题PageRank
动机
火龙果整理
不同的人有不同的兴趣,而有时完全不同的兴趣却采用相同的查询词 项来表达。如果搜索引擎能够推断出用户的兴趣,那么在返回相关页 面的时候会表现得更好 比如用户搜索"苹果"
理想情况 做法 实际情况 Open Directory(DMOZ) 分16个顶层类别
Pagerank是一个函数,它对Web中的每个网页赋予一个实数 值。它的意图在于,网页的Pagerank越高,那么它就越“重要”。 首先,我们将Web做如下抽象:1、将每个网页抽象成一个节 点;2、如果一个页面A有链接直接链向B,则存在一条有向边从A 到B。因此,整个Web被抽象为一张有向图。
火龙果整理
Pagerank的定义
终止点
自连接点
1.早期搜索引擎的弊端
火龙果整理
早期很多搜索引擎根本 不评价结果重要性,而 是直接按照某自然顺序 (例如时间顺序或编号 顺序)返回结果。一旦 结果集变大,简直就是 一场灾难,这也注定这 种方法不可能用于现代 的通用搜索引擎
基于检索词评价的思想 非常朴素:检索关键词 出现次数越多的页面匹 配度越高,而匹配度越 高的页面重要性越高
M 是Web的转移矩阵,|S|是集合S的大小
例子
假设β = 0.8 S={B,D}.
火龙果整理
那么(1 − β)eS/|S| 的第二和第 四个分量是 1/10,其它分量 为0.因为1 − β=1/5,S的大小 为2,向量es中B和D对应的分 量为1,A和C 对应分量为0
火龙果整理
4.自连接点
火龙果整理
如下图,D有外链所以不是终止点,但是它只链向自己(注 意链向自己也算外链,当然同时也是个内链)。这种节点叫 做自连接点,如果对这个图进行计算,会发现D的rank越来越 大趋近于1,而其它节点rank值几乎归零。
火龙果整理
3.终止点
一个没有出链的网页称为终止点。 这里D页面不存在外链,是一个终止点。 由矩阵论的知识可推知,迭代结果将最 终归零。 那么该如何处理终止点呢? 迭代拿掉图中的终止点及终止点相关的 边(之所以迭代拿掉是因为当目前的终 止点被拿掉后,可能会出现一批新的终 止点),直到图中没有终止点。对剩下 部分计算rank,然后以拿掉终止点逆向 顺序反推终止点的rank值。