加权PageRank算法研究综述

合集下载

PageRank算法原理及应用

PageRank算法原理及应用

PageRank算法原理及应用引言互联网对于现代人来说,是不可或缺的一部分。

网络中蕴含的各种信息,对于工作、学习、生活等方面都有着很大的帮助。

但是,互联网的信息量过于庞大,怎么才能将用户需要的信息呈现给他们呢?这就需要搜索引擎的帮助。

而搜索引擎中的PageRank 算法,就是如何给各个网页进行排序的一种方法。

一、PageRank算法原理PageRank算法是由谷歌公司创始人之一拉里·佩奇和谢尔盖·布林共同提出的。

该算法的核心思想是把网页之间的链接看成一种投票制度。

举个例子,如果A网页中有指向B、C、D三个网页的链接,那么我们可以理解为A网页对B、C、D三个网页进行了投票。

同理,如果B、C两个网页又分别有指向A、D两个网页的链接,那么B、C网页对A、D网页也进行了投票。

但是,这个投票制度并不是完全平等的。

如果A网页的排名比B、C、D网页都要高,那么A网页对B、C、D网页的投票效果就要比B、C、D网页对A网页的投票效果更大。

又因为B、C网页同时又对A网页进行了投票,所以其对D网页的投票效果会比A网页的投票效果更大。

PageRank算法正是基于这种投票论证进行的,即如果一个网页被越多的其他网页链接的话,那么这个网页就越重要。

同时,如果链接这个网页的网页还有更高的权重,那么这个网页的权重就会更大。

Pagerank算法是一种迭代算法。

迭代中每个网页的PageRank 值逐渐逼近其真实值。

大致流程如下:1. 给每一个网页初始化PageRank值为12. 每个网页的PageRank值等于其他链接到这个网页的网页的PageRank值乘以这个网页投出去链接的数量除以被链接到的网页的总数再乘以一个0.85的系数,再加上一个概率0.153. 重复执行第二步,直到所有网页的PageRank值收敛二、PageRank算法应用PageRank算法的应用主要体现在搜索引擎排序上。

因为搜索引擎返回的结果一般都是以网页链接的形式呈现的,PageRank算法可以依据链接来判断网页的重要性并进行排序。

PageRank算法原理及应用技巧

PageRank算法原理及应用技巧

PageRank算法原理及应用技巧一、什么是PageRank算法?PageRank算法,中文通常翻译为页面等级算法,是谷歌搜索引擎的核心之一。

它的作用是根据网页间的链接关系,为每个网页赋予一个权重值,体现网页自身的重要性以及与其他网页之间的关联程度。

这个权重值,也可以称为页面等级,是在算法迭代过程中自动计算出来的,以一定的方式反映在搜索结果页面上,对用户查询的结果产生非常大的影响。

二、PageRank算法原理PageRank算法的核心思想是基于图论的概念,将整个Web系统看作一个有向图,网页是节点,链接是边。

每个节点的PageRank值可以看作是一个随机游走的概率,即从当前节点出发,沿着链接随机跳到其他节点的概率。

具体说来,PageRank算法把每个页面的初始PageRank值设置为1/n,其中n是整个网络中页面的数量。

在每一次迭代中,所有页面的PageRank值会被重新计算,计算公式如下:PR(A)=(1-d)+d( PR(T1) / C(T1) + ... + PR(Tn) / C(Tn) )其中,PR(A)表示页面A的PageRank值,d是一个介于0和1之间的阻尼系数,通常设置为0.85。

T1~Tn表示所有直接链接到A的页面,C(Ti)表示对应页面的出链总数,PR(Ti)表示对应页面的PageRank值。

这个公式的含义是,如果一个页面被其他页面链接得多,它的贡献就会更大。

而如果这个页面链接的其他页面也被其他页面链接得多,那么这个页面的权重值就会被进一步提高。

不过,由于阻尼系数的加入,每个页面的PageRank值最终都会趋于收敛,并保证权重的分配符合概率公式的要求。

三、PageRank算法的应用技巧1.优化页面内部链接结构PageRank算法的核心在于链接关系,因此页面内部的链接结构也会对页面的PageRank值产生影响。

因此,站长应该合理布局内部链接,确保每个页面都可以被其他页面链接到,尽量构建一个完整的内部链接网络。

PageRank算法

PageRank算法

PageRank算法1. PageRank算法概述PageRank,即⽹页排名,⼜称⽹页级别、Google左側排名或佩奇排名。

是Google创始⼈拉⾥·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,⾃从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界⼗分关注的计算模型。

眼下许多重要的链接分析算法都是在PageRank算法基础上衍⽣出来的。

PageRank是Google⽤于⽤来标识⽹页的等级/重要性的⼀种⽅法,是Google⽤来衡量⼀个站点的好坏的唯⼀标准。

在揉合了诸如Title标识和Keywords标识等全部其他因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的⽹页在搜索结果中另站点排名获得提升,从⽽提⾼搜索结果的相关性和质量。

其级别从0到10级,10级为满分。

PR值越⾼说明该⽹页越受欢迎(越重要)。

⽐如:⼀个PR值为1的站点表明这个站点不太具有流⾏度,⽽PR值为7到10则表明这个站点很受欢迎(或者说极其重要)。

⼀般PR值达到4,就算是⼀个不错的站点了。

Google把⾃⼰的站点的PR值定到10,这说明Google这个站点是很受欢迎的,也能够说这个站点很重要。

2. 从⼊链数量到 PageRank在PageRank提出之前,已经有研究者提出利⽤⽹页的⼊链数量来进⾏链接分析计算,这样的⼊链⽅法如果⼀个⽹页的⼊链越多,则该⽹页越重要。

早期的⾮常多搜索引擎也採纳了⼊链数量作为链接分析⽅法,对于搜索引擎效果提升也有较明显的效果。

PageRank除了考虑到⼊链数量的影响,还參考了⽹页质量因素,两者相结合获得了更好的⽹页重要性评价标准。

对于某个互联⽹⽹页A来说,该⽹页PageRank的计算基于下⾯两个基本如果:数量如果:在Web图模型中,如果⼀个页⾯节点接收到的其它⽹页指向的⼊链数量越多,那么这个页⾯越重要。

page rank算法的原理

page rank算法的原理

page rank算法的原理
PageRank算法是由谷歌创始人之一拉里·佩奇(Larry Page)
提出的,用于评估网页在搜索引擎中的重要性。

PageRank算法的原理可以概括为以下几点:
1. 链接分析:PageRank算法基于链接分析的思想,认为一个
网页的重要性可以通过其被其他重要网页所链接的数量来衡量。

即一个网页的重要性取决于其他网页对它的引用和推荐。

2. 重要性传递:每个网页都被赋予一个初始的权重值,然后通过不断迭代的计算过程,将网页的重要性从被链接的网页传递到链接的网页。

具体来说,一个网页的权重值由其被其他网页所链接的数量以及这些链接网页的权重值决定。

3. 随机跳转:PageRank算法引入了随机跳转的概念。

即当用
户在浏览网页时,有一定的概率会随机跳转到其他网页,而不是通过链接跳转。

这样可以模拟用户在浏览网页时的行为,并增加所有网页的重要性。

4. 阻尼因子:PageRank算法还引入了阻尼因子,用于调控随
机跳转的概率。

阻尼因子取值范围为0到1之间,通常取值为0.85。

阻尼因子决定了用户在浏览网页时选择跳转到其他网页
的概率。

通过以上原理,PageRank算法可以计算出各个网页的重要性
得分,从而在搜索引擎中按照重要性进行排序。

PageRank算法的原理及应用

PageRank算法的原理及应用

PageRank算法的原理及应用PageRank算法是一种被广泛应用于搜索引擎的网页排序算法,它是由Google公司的两位创始人——拉里·佩奇和谢尔盖·布林在1998年发明的。

经过多次改进和完善,如今的PageRank算法已经成为了搜索引擎排名的重要指标之一。

本文将从算法原理、公式推导和应用探究三个方面来介绍PageRank算法。

一、算法原理PageRank算法的核心思想是基于互联网上各个页面之间的链接关系进行排序,在一定程度上反映了网页的权威性和价值。

所谓链接关系,就是指一个页面通过超链接将访问者引向另一个页面的关系。

如果一个网页被其他网页链接得越多,那么这个网页的权威度就应该越高。

但是,PageRank并不直接以链接数量作为评价标准,而是通过一个复杂的算法来计算每个网页的等级。

具体来说,PageRank算法是基于马尔科夫过程的概率模型,它将互联网上的所有页面抽象成图形,每个网页都是一个节点,超链接则是节点之间的边。

PageRank算法的核心计算就是将这个图形转化成一个矩阵,然后使用迭代的方式求出每个节点的等级,即PageRank值。

在这个过程中,每个节点的PageRank值会受到其它所有节点的影响,而它自身的权值又会传递给其他节点,如此循环迭代,直到所有节点的PageRank值趋于收敛。

二、公式推导PageRank算法的公式推导是比较繁琐的,这里只能简单概括一下。

首先,PageRank值可以表示为一个向量,每个向量元素代表一个页面的权值。

由于PageRank算法是基于网页链接之间的关系计算出来的,所以可以将它表示成一个矩阵M,该矩阵中的元素mi,j表示第j个页面指向第i个页面的链接数量。

接着,可以构造一个向量v,v中的所有元素都是1/N(其中N为网页总数),代表每个页面初始的PageRank值。

然后,PageRank值可以通过迭代计算得到,具体的计算公式如下:PR(A) = (1-d)/N + d * (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))其中,PR(A)表示节点A的PageRank值,d是一个常数(0<d<1),代表网页的阻尼系数,T1-Tn是所有指向节点A的页面,C(Ti)是Ti页面的出链总数,PR(Ti)是Ti页面的PageRank值,N为网页总数。

PageRank算法的分析及其改进

PageRank算法的分析及其改进
第 3 卷 第 2 期 6 2
V L36 o






21 0 0年 l 1月
Nov m b r201 e e 0
N o 22 .
Co pu e m t rEng ne rng பைடு நூலகம் ei
开 发研 究 与设 计 技术 ・
文章编号:l o -2( l2—0 l 3 0 _3 800 2_9—0 0 ’4 2 ) 2
歃丽
■— ——
P g Ra k算 法 的 分析 及 其 改进 ae n
王德 广 ,周志 刚 ,梁 旭
( 大连交通 大学软件 学院 ,辽宁 大连 l6 2 ) 0 8 1

要 :在分析 P gR n a e ak算法存在偏重 旧网页、主题漂移 、网页权值均分、忽视 用户浏览兴趣现象的基础上 ,对其进行改进 ,考虑 网页
修改 日期 、网页文 本信 息、网站权威度 、用户兴趣 度等重要因素 ,重新计算 网页 P R值 。实验结果表明 ,改进算法可提高搜索 引擎对 网页 排序 的准确 度,以及用户对检 索结果的满意度 。 关键词 :P g Rak算法 ;搜索 引擎 ;文本数据挖掘 ;P ae n 尺值
A na yss0 ge a l o ihm nd I sI pr ve e l i fPa R nkA g r t a t m o m nt
W ANG — u n , De g a g ZHO U ig n , ANG Zh — a g LI Xu
( ot r e h oo yI s t t, l nJa tn ies y Dai 1 0 8 C ia Sf wa e c n lg t ue Dai i o gUn v ri , l n 1 6 2 , hn ) T ni a o t a

PageRank算法详解

PageRank算法详解

PageRank算法详解PageRank算法是谷歌搜索引擎中最为重要的算法之一。

它通过计算网页之间的链接关系和权重来确定每个网页在搜索结果中的排名。

在谷歌早期,PageRank 算法的出现使得其搜索结果变得更加准确和有效,进而成为了全球最大的搜索引擎。

一、PageRank算法的产生1997年,拉里-佩奇(Larry Page)和谢尔盖-布林(Sergey Brin)在斯坦福大学完成了他们的博士论文,在这篇文章中他们提出了一个新的搜索算法—— PageRank。

基于局部链接法(Local Link Method)的搜索引擎实现效果不太理想。

在这种算法下,搜索引擎将根据特定的自定义指标对文本内容进行倒排索引,然后计算文本内容与关键字之间的相似性。

而该算法无法处理链接的信息,也就是说,一个因链接数目众多而重要的页面可能会得到较低的排名。

因此,佩奇和布林提出了PageRank算法来帮助解决这个问题。

这种算法基于网页链接之间的权重,可以更好地判断每个网页的重要性。

二、PageRank算法的原理PageRank 算法的核心是对互联网进行图论分析,即将互联网理解为一张由网页及其链接组成的图结构,其中,网页为节点,链接为边。

对于一张由网页及其链接组成的图结构,PageRank算法中定义的网页得分,即 PageRank 值,表示该网页在该网页集合中的重要性。

PageRank 值的计算基于以下两个规则:一、入度PageRank的值与一个网页的入度有关。

例如,一个网页有更多的链接指向它,它的 PageRank 值会更高。

这是由于网页拥有更多的链接,说明与这个页面相关的主题更加广泛和深入,并且广大网民更加喜欢这个页面。

二、出度另一方面,如果一个网页链接到其他重要的网页,那么这个页面的PageRank 值也会提高。

这是由于向外链接表示该网页被认为对其他网页有一定的参考价值。

对于搜索引擎来说,这种链接相当于对另一个页面的推荐。

pageRank 详细解析(具体例子)

pageRank 详细解析(具体例子)

PageRank解释方法一1.PageRank的核心思想(1)R(x)表示x的PageRank,B(x)表示所有指向x的网页。

公式(1)的意思是一个网页的重要性等于指向它的所有网页的重要性相加之和。

粗看之下,公式(1)将核心思想准确地表达出来了。

但仔细观察就会发现,公式(1)有一个缺陷:无论J有多少个超链接,只要J指向I,I都将得到与J一样的重要性。

当J有多个超链接时,这个思想就会造成不合理的情况。

例如:一个新开的网站N只有两个指向它的超链接,一个来自著名并且历史悠久的门户网站F,另一个来自不为人知的网站U。

根据公式(1),就会得到N比F更优质的结论。

这个结论显然不符合人们的常识。

弥补这个缺陷的一个简单方法是当J有多个超链接(假设个数为N),每个链接得到的重要性为R(j)/N。

于是公式(1)就变成公式(2):(2)N(j)表示j页面的超链接数图2 来自Lawrence Page的文章从图2可以看出,如果要得到N比F更优质的结论,就要求N得到很多重要网站的超链接或者海量不知名网站的超链接。

而这是可接受的。

因此可以认为公式(2)将核心思想准确地表达出来了。

为了得到标准化的计算结果,在公式(2)的基础上增加一个常数C,得到公式(3):(3)2.计算,实例由公式(3)可知,PageRank是递归定义的。

换句话就是要得到一个页面的PageRank,就要先知道另一些页面的PageRank。

因此需要设置合理的PageRank初始值。

不过,如果有办法得到合理的PageRank初始值,还需要这个算法吗?或者说,这个严重依赖于初始值的算法有什么意义吗?依赖于合理初始值的PageRank算法是没意义的,那么不依赖于初始值的PageRank算法就是有意义的了。

也就是说,如果存在一种计算方法,使得无论怎样设置初始值,最后都会收敛到同一个值就行了。

要做到这样,就要换一个角度看问题,从线性代数的角度看问题。

将页面看作节点,超链接看作有向边,整个互联网就变成一个有向图了。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

加权PageRank算法研究综述摘要:自PageRank提出以来,就引起了学界广泛关注。

在概述PageRank算法的基础上,从TopicRelated PageRank﹑时间维加权PageRank和科研学术网络中加权PageRank这3个方面对加权PageRank算法进行了综述和评价。

关键词:PageRank;加权算;学术网络1 PageRank算法基本思想PageRank算法是Google用来标识网页的等级重要性的一种方法,由Google的创始人之一拉里-佩奇提出。

Brin和Page在其论文中提出一种用户行为的模型:假设有一个随机的网络冲浪者,任意给定一个网页,以该网页为起始页面根据该网页链接所设定的浏览路径访问其他网页,由于可能陷入某些网页相互链接所形成的循环中,该网络冲浪者也可能不依据网页结构中内置的跳转关系访问,直接跳转一个随机页面。

在Brin和Page的随机模型中,一个随机的网络冲浪者访问一个页面的可能性就是该网页的PageRank值。

PageRank算法的基本思想是借鉴传统的学术文献的引文分析方法,即一篇文献的重要性可以通过其它文献对其引用的数量来衡量。

并把这一思想应用到了Web页面中,即“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系来判定所有网页的重要性。

如果页面A通过超级链接指向了页面B,相当于页面A给页面B投了一票,页面A需要把自己的一部分PageRank 值分给页面B。

最后,根据每个页面的PageRank 值来判断页面的重要性,重要的页面会在搜索引擎的搜索结果中位于前列。

如果一个网页有许多网页都指向它,那么它可能获得很高的PageRank值;如果一个网页被一个本身PageRank值很高的页面所指向,那么它同样可能具有很高的PageRank值。

2 加权PageRank算法PageRank是一个与查询无关的静态算法,所有网页的PageRank 值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。

但同时也存在一些缺陷,不具有动态性,如PageRank 忽略了主题相关性,导致结果的相关性和主题性降低,另外PageRank 有很严重的对新网页的歧视。

PageRank的改进方案有很多,归纳起来主要分为两大类,分别用于改进PageRank算法的效率与效果。

前者求解矩阵特征向量和大型稀疏矩阵线性方程组的问题,后者主要按照现实网络中的各种实际特性添加权重因子,改进PageRank值均衡分配的状况。

PageRank算法的效率问题不在本文要探讨的范围之内,本章将主要分析各种改善某些效果的加权PageRank形式。

如在搜索引擎中,考虑主题因素方面的影响以提高查询结果的针对性,考虑时间因素的影响以更好地处理新旧网页的关系;在科研学术网络中通过考虑期刊影响、著者影响以及文章质量的现实差异,对相关网络中的节点予以相应权重,对更客观地评价期刊、著者以及论文是十分有效的。

2.1 TopicRelated PageRankChakrabarti以及Pennock等提出Web的结构性与页面主题是密切相关的结论。

Chakrabarti等指出一个网页倾向于链向主题相关性的网页,这从一定角度解释了PageRank这一与查询无关的排序方式在搜索结果排序中的有用性,更重要的是给研究者以提示:通过考虑网页的主题特性可以改进PageRank的效果。

Rafiei和Mendelzon提出了计算基于特定主题的网页的重要性的加权PageRank算法,他们强调主题范围,并认为在某一主题范围内,如果有许多网页链向某一网页或者说有很多高影响的网页指向该网页,则该网页比较重要。

Hilltop提出了Hilltop算法,通过对查询关键词进行一次普通查询,找出所有匹配的专家页面,然后根据目标网页获得的上述专家文档链接的数量和质量分配一个行业得分,再将此值与PageRank得分进行整合,形成最终的页面得分。

Pal和Narayan在标准PageRank计算公式基础上考虑了网络中节点的主题性差异,主要对按链接关系跳转部分进行改进,对随机跳转部分未作改动。

在模型中,查询某主题的访问者更倾向于访问相同主题的网页,减小不相干主题的网页访问的可能性。

Lan Nie等在也对Topic相关的PageRank算法进行研究,不过他利用文本向量作为Topic的权重对PageRank进行加权。

在他们的模型中,一个带有查询主题的随机冲浪者面临3种选择:①以一个随机的跳转到任一主题的网页;②根据网页链接跳转到同一主题范围内的网页;③根据网页链接跳转到不同主题的网页。

Haveliwala提出了一种基于网页内容的TopicSensitive PageRank,主要是找到恰当的个性化向量代替标准PageRank中的p。

首先,离线计算各网页所属类别,在用户提交查询请求后进一步计算查询所属类别,通过网页主题与查询主题的匹配以及PageRank的结合,即可得到TopicSensitive PageRank得分。

Haveliwala的思想是比较早被提出来并得到了广泛的认可。

Haveliwala在他的研究中通过实验证实,该改进的PageRank算法比标准的PageRank算法效果好。

Richardson 和Domingos通过为每一个查询产生一个PageRank向量以得到更合理的、加强的PageRank值,他们提出了一个目标导向的冲浪者模型:冲浪者基于他的查询目标和网页内容,理性地在相关页面间跳转,而跳转概率取决于查询依赖的PageRank值。

2.2 时间维加权的PageRankPageRank计算公式是依据网页的链接结构计算网页的重要程度的,因此,在网页链接不变的情况下,由PageRank确定的网页排序也是固定的。

在实际情况中,Web是不断变化的,不断有新的网页加入,也许新网页质量很高,但是由于放到Web上时间短,未被其它网页引用,故可能在用PageRank对相关结果排序时排在质量不高的网页后面。

而且,在某些情况下,新网页带给用户的价值更大,如在新闻搜索或者微博搜索中的应用。

所以,有学者研究某些机制用于PageRank中,使得网页的PageRank值随时间维变化,老网页的值随时间衰减,从而保证新网页更容易获得重视。

Philip.S Y u等早在2004年提出了TimedPageRank的思想,他将时间作为一种权重因子,整合进PageRank计算过程。

他的这一想法首先在学术搜索中使用,将文章的引用时间作为时间维权重因子的主要考虑方面,该其计算公式如下:PRT(A)=(1-d)+d×(w1×PRT(pi)C(pi)+…+wn×PRT(pi)C(pi))(1)PR(A)是文章A的PageRank值,PR(pi)是引用文章A的某文章pi的PageRank值,C(pi)是文章pi的所有引用数,d 是阻尼系数,在Philip.S Yu等的研究中取值为0.85。

通过上述公式,可以看到TimedPageRank所做的工作主要是对每一次引用加上了时间维wi的考虑,wi是一个与引用发生的时间相关的量。

Wenpu Xing和Ali Ghorbani等提出了一种考虑网页链入链出结构的加权PageRank算法,他们认为权威的网页,在网络中应该具有核心的位置,发挥核心作用,不仅指向它的网页多,而且被它链向的网页也应该多,并且通过实验证实了基于出入链结构加权的PageRank算法效果比标准的PageRank算法效果好。

其在研究中提出的算法如下:R(u)=(1-d)+d∑v∈B(u)PR(v)W(v,u)inW (v,u)out(2)其中,PR(u)指页面U的PageRank值,d为衰减因子,一般取值0.85,PR(v)是页面v的PageRank值,v指向页面u,B (u)是链接到页面U的所有页面集合,W(v,u)in是链接(v,u)的入链权重,W(v,u)out是指链接(v,u)的出链权重,这两个链接权重的计算公式如下:W(v,u)in=1u∑p∈R(v)Ip (3)W(v,u)out=Ou∑p∈R(v)Op(4)R(v)是网页v中所有的链接数,网页p是网页v中链接所指向的任一网页,Iu、Ip分别是网页u、网页p的入链数,Ou、Op分别是网页u、网页p的出链数1。

王崝等在Philip.S Yu和Xing Wenpu等的研究基础上做了相应的改进,提出了TWPageRank,更有利于高质量网页的上升和旧的普通网页的下沉,优化了排序结果,具体算法描述如下:PR(u)=(1-d)N+d∑v∈B(u)PR(v)W(v,u)inW(v,u)outWt(5)其中,PR(u)指页面U的页面等级值,d为衰减因子,一般取值0.85,PR(v)是页面v的PageRank值,v指向页面u,B (u)是链接到页面U的所有页面集合,W(v,u)in是链接(v,u)的入链权重,W(v,u)out是指链接(v,u)的出链权重,它们的计算见(3)式和(4)式。

wt表示页面u的时间维权重,网页发布时间越早,它的时间维权重就越小,具体计算表示为:Wt=DecayRateA(pagei,t)/12 (6)2.3 科研学术网络中加权PageRank在科研学术网络中运用加权PageRank分析节点重要性由来已久。

在期刊引用网络中,早在2006年,Bollen等就使用加权PageRank 对期刊引文网络进行分析,将引用次数作为权重因子改造标准的PageRank算法,并在研究中证实了研究中使用的加权PageRank能很好地反映期刊Prestige。

在引文网络中,Erjia Yan等抽取JASIST上1998-2007年的引文数据,在其构建的引文网络中使用了加权PageRank,其中将引用期刊的影响和引用与被引文章发表的时间间隔作为权重影响因素。

LiuXiaoming等构建的合著网络中,将著者间的合著次数以及每篇文献的合著者数量作为加权PageRank计算时的权重因子,研究著者影响力排名情况,并与社会网络分析法中的其它指标进行对比分析。

Erjia Yan等也在合著网络中将著者的被引情况作为权重因子,使用加权PageRank研究著者影响力。

加权PageRank在科研学术网络中运用得较多,鉴于本文主要在合著网络与引文网络中使用加权PageRank开展相关研究,下面将选取相关研究中涉及每一种网络的PageRank加权形式进行详细说明。

(1)期刊引文网络中的加权PageRank。

Bollen等用2003年ISI JCR的期刊引文数据构建期刊引文网络,在研究中将期刊引文数据处理成矩阵形式,矩阵的行列均为期刊,矩阵元素表示期刊间相互引用频次。

这个矩阵就清晰呈现了期刊间的引用关系,为了分析期刊权威度,Bollen针对期刊网络引用网络对标准PageRank进行改进,对期刊间的引用分配了权重。

相关文档
最新文档