PageRank算法应用在文献检索排序中的研究及改进_汪志伟_邹艳妮_吴舒霞

合集下载

基于PageRank算法的搜索引擎优化策略探析

基于PageRank算法的搜索引擎优化策略探析

基于PageRank算法的搜索引擎优化策略探析作者:徐新阳郜攀攀来源:《速读·中旬》2014年第08期摘要:PageRank算法是由谷歌公司创始人拉里·佩奇于1998年提出的,它以“从优质网页链接过来的网页必然是优质网页”为基本依据,以此来判断网页的重要程度。

如今,PageRank 算法已成为一种非常重要的搜索引擎技术,网站专业人员可以以PageRank算法为基础进行搜索引擎优化,以提高网站的PR值,提升网站的排名和点击率。

关键词:PageRank算法;搜索引擎;优化策略据有关机构统计,截止2014年9月中旬,全球互联网站数量已突破十亿大关,仍以前所未有的速度增长。

爆炸式的信息增长为人们带来了无穷无尽的信息量,同时也给信息检索提出了许多新挑战。

如今,搜索引擎是仅次于电子邮件的网络工具,也是网民获取网络信息的基本手段。

对于企业而言,如何将企业网站推销出去,如何让网民能通过搜索引擎找到企业网站,成了企业不得不面对的问题。

因而,许多企业会针对搜索引擎的数据采集、标引算法进行网页设计优化,以求企业网页能处于搜索引擎关键词检索的前列。

但是,搜索结果排序算法与组织技术是搜索引擎的关键技术,也是搜索引擎企业的商业秘密,外人很难知晓。

一般情况下,搜索引擎会根据关键字词频、位置等进行搜索结果排序,网络专业人员可以通过将关键字放于页面title中、提高页面正文关键字词频等方式进行页面优化,实现提高企业网页排名的目的。

网页间链接流行度属于页面外优化,它也直接影响着网页在搜索结果中的排名,这种搜索结果排名技术建立于web文档之上的PageRank算法,本文就以PageRank算法为例,探究搜索引擎优化策略。

一、简述PageRank算法PageRank算法是由谷歌公司创始人拉里·佩奇于1998年提出的,它是谷歌公司用来标识网页等级、重要性的基本方法,也是衡量网页好坏的基本标准。

谷歌公司依靠PageRank算法在引擎行业独占鳌头,成为搜索引擎行业的代表。

PageRank算法在网页排序中的应用及改进

PageRank算法在网页排序中的应用及改进

PageRank算法在网页排序中的应用及改进PageRank算法是一种在网页排序中广泛应用的算法,旨在根据页面间的链接关系和互动,为网页分配权重。

本文将介绍PageRank算法的基本原理和其在网页排序中的应用,并探讨一些改进方法,以提高其准确性和效率。

一、PageRank算法的基本原理PageRank算法是由谷歌公司的创始人之一拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)于1996年提出的。

它根据网页之间的相互链接关系来计算每个网页的重要性指标,基本原理如下:1. 网页的权重:PageRank算法认为,一个网页的重要性取决于其被其他重要网页所链接的数量和质量。

一个链接来自权重高的网页对被链接的网页权重的贡献也更大。

2. 链接关系的传递性:如果网页A链接到网页B,那么网页B将获得一部分网页A的权重。

这种链接关系的传递性可以通过迭代计算来逐步传递网页的权重。

3. 反向链接的重要性:网页B被更多重要网页所链接时,网页B的权重会更高。

这个想法来源于互联网上用户通过链接表达的投票行为。

相对于单纯的链接数量,反向链接更能反映网页的权威性和受欢迎程度。

二、PageRank算法在网页排序中的应用PageRank算法在网页排序中的应用主要体现在搜索引擎中,通过计算网页的PageRank值,对搜索结果进行排序,从而提供更准确和有用的搜索结果。

1. 提高搜索准确性:PageRank算法通过对网页的重要性进行评估,将重要网页排在搜索结果的前面。

这样用户可以更容易地找到权威和有价值的信息。

2. 抑制垃圾信息:通过使用PageRank算法,搜索引擎可以过滤掉一些垃圾信息或低质量的网页。

因为这些网页往往没有被高质量网页所链接,其PageRank值较低。

3. 发现新网页:PageRank算法还可以帮助搜索引擎发现新网页。

当一个新网页被高质量网页链接时,其PageRank值将增加,并逐渐被搜索引擎所索引和优先展示。

PAGERANK算法在网络搜索和推荐系统中的应用原理及设计

PAGERANK算法在网络搜索和推荐系统中的应用原理及设计

PAGERANK算法在网络搜索和推荐系统中的应用原理及设计随着互联网的不断发展,我们已经不再是传统的信息获取方式,而是通过搜索引擎来获得所需要的信息。

搜索引擎的核心算法之一就是Google公司在1998年推出的PAGERANK算法。

这种算法被广泛应用于搜索和推荐系统,并成为互联网时代中最重要的技术之一。

PAGERANK算法原理PAGERANK算法最根本的原理就是基于链接的分布式计算。

这个过程中,网页的排名是根据其连接到其他网页的数量和质量来评估的。

如果一个页面有很多的高质量的链接,则该页面的排名就会更高。

具体的,PAGERANK算法利用了一张由许多有向边连接而成的有向图。

在这种图中,每个节点代表一个网页,每个边代表两个网页之间的连接。

如果一个节点没有指向别的节点的连接,则称之为“Sink Node”。

PAGERANK算法是基于如下传递函数来实现的:PR(A) = (1-d) + d(PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))其中,PR(x)表示网页x的PAGERANK值;d是统计学家设置的一个常数,D值通常设置在0.85;T1 ~ Tn表示所有页面中指向当前页面的页面;C(T1) ~ C(Tn)表示所有指向T1 ~ Tn页面的外部链接总数。

这个过程的实现是通过迭代计算来完成的。

我们可以首先为每个节点设置一个相同的PR0作为初始值。

在每次更新过程中,我们都会计算出每个节点的新PR值,并更新它们的PR值。

然后再根据新的PR值进行下一轮的迭代,直到PR值稳定下来为止。

PAGERANK算法在搜索引擎中的应用PAGERANK算法在搜索引擎中最重要的应用就是用于计算每个搜索结果的排名。

搜索引擎很难根据用户查询条件来准确找到他们所需要的信息。

通过计算每个页面的PAGERANK值,搜索引擎可以将最有可能包含所需信息的页面排在搜索结果的前列。

PAGERANK算法在推荐系统中的应用除了在搜索引擎中使用,PAGERANK算法也可以用于推荐系统。

基于改进PageRank算法的引文文献排序方法_段庆锋

基于改进PageRank算法的引文文献排序方法_段庆锋
问题的提出 尽管从图论的视角看,两种网络环境可以被视为相同
有向图,Web 网络 ( 或引文网络) 的模型 端点集合 端点个数 边的集合 边的个数 所有链接 ( 或引用) i 的端点集合 端点 i 的入度 所有被 i 链接 ( 或引用) 的端点集合 端点 i 的出度
的拓扑结构,但 Web 网络与引文网络具有不同的产生机 制及应用环境。原本应用于 Web 网络的 PageRank 算法计 算得出的结果并不能完全有效地体现引文及引文网络的自 身特征。不同之处主要体现在时间流逝对于两种网络产生 不同的效果。Web 页面具有更新性,页面更新后旧有的内 容就会消失, PageRank 算法研究的对象只是即时的 Web 页面,不需要考虑页面的时间因素 。但是文献出版发表的 时间是固定的,同一引文网络中的文献具有不同的时间属 性,不同时间文献之间的引文链接关系在某种程度上体现 了学科发展的轨迹及知识的继承和扩散 。 PageRank 算法中完全没有考虑时间因素对文献 PR 值 的影响,它更有利于发表时间久的文献获得高的评价,而 新发表的文献则难以被发现其潜在价值 。发表久的文献可 能会由于长时间的积累而获得较高的被引数 ( 入度) ,新 发表文献则正好相反,在 PR 值的比较中处于劣势。 以文献 A 和 B 为例,它们的发表年龄分别为 t ( A ) 、 t ( B) ,而且 t ( A ) > t ( B ) ,假 设 它 们 的 被 引 数 存 在 关 系 C( A) = C ( B ) 。 可 知 单 位 时 间 内 被 引 数 C ( A ) / t ( A ) < C( B) / t( B) ,可以判断出文献 B 比 A 在更短的时间内获得 了科学共同体的认同 ( 不考虑自引及反驳性引文) ,文献 B 应该比 A 更具有学术价值或影响力 。 但是 PageRank 算 法不考虑时间的因素,难以正确地分辨出 A 和 B 间的比较 关系,甚至可能会得出相反的结论 。上述例子可以说明科 ( 1) 学文献的评价不仅要判断引用的总量 ( 被引数) ,而且要 考虑引 用 的 速 率,即 需 要 将 时 间 的 因 素 引 入 PageRank 算法。 2. 2 算法改进 图 1 显示的是有向图 G 的子集,包含了文献 j 和文献 j 所引用的所有文献,j∈V。 设任意的文献 i ∈ O ( j ) , PageRank 算法定义从 j 到 i 的转移概率为 M ij = 1 / | O ( j ) | , 说明从 j 发出的所有引用都具有相同的权重 ( 转移概率) , 但实际上由 j 发出的引用应该是不同质的 。 从时间的角度

个性化PageRank算法在图书馆智能搜索引擎中的实现

个性化PageRank算法在图书馆智能搜索引擎中的实现
2 1 年 7月 00
现 代 情 报
J u a fMo e I fr t n orl o n d m no ma o i
J y 2 1 l u , 00
V0 . 0 No 7 13 .
第 3 卷第 7期 0

信 息 技 术 与 网 络 ・
个 性化 PgR n 算 法在 图书馆 智能搜 索 引擎 中的实现 ae ak
tl et er nie.A r ettscm aavl d i lt bi e oasdi ei n ac n n nte Le cl ei n s c eg s t e n ii o pr e i c to u dpr nle t let erheg e o r —s e l a h g n p s i t y g u l s i n lg s is h bg a
[ 中图分 类号]G5 . ( 207 文献标识码]B [ 文章编号]10 —02 2 1 )0 0 9 —0 0 8 8 1(00 7— 0 3 4
Pe s na ie g Ra k Al o ih n t m p e e t to r o l d Pa e n g r t m a d Is I lm n a i n z
i i r r n e i e tS a c gn s n L b a y I tl g n e r h En i e l
Me g Ruln n i g i
(i a ,Lni o a U i rt,L y260 ,C i ) Lb r i r l n esy i i 70 5 hn ry yN m v i n a
s e tC  ̄IS h es n l e u c o s o n e i e ts ac n i e . p a I ] t ep ro ai d fn t n fitl g n e r h e gn s c n _J Ae s i l

基于用户行为的改进PageRank影响力算法

基于用户行为的改进PageRank影响力算法

基于用户行为的改进PageRank影响力算法王鹏;汪振;李松江;赵建平【期刊名称】《计算机工程》【年(卷),期】2017(043)012【摘要】In the calculation of user influence,the PageRank algorithm considers only the following relation among users,which leads to the low accuracy of the calculation results.Therefore,a URank algorithm combining user behavior factors with PageRank algorithm is proposed.By using the factors such as forwarding rate,comment rate and authentication,the user's quality can be obtained by combining the quality of users and the quality of followers.Experimental results show that based on the SIR propagation model,URank algorithm is superior to PageRank algorithm in computational accuracy.%PageRank算法在计算用户影响力方面只考虑用户间的跟随关系,导致计算结果准确性低下.为此,提出一种将用户行为因素与PageRank 算法相结合的URank算法.利用网络中用户发布信息的转发率、评论率以及是否认证等行为因素,综合用户自身质量与追随者质量,得到用户影响力.基于SIR传播模型的实验结果表明,URank算法在计算准确性方面优于PageRank算法.【总页数】5页(P155-159)【作者】王鹏;汪振;李松江;赵建平【作者单位】长春理工大学计算机科学技术学院,长春130022;长春理工大学计算机科学技术学院,长春130022;长春理工大学计算机科学技术学院,长春130022;长春理工大学计算机科学技术学院,长春130022【正文语种】中文【中图分类】TP391【相关文献】1.基于PageRank的用户影响力评价改进算法 [J], 王顶;徐军;段存玉;吴玥瑶;孙静2.基于PageRank和用户行为的微博用户影响力评估 [J], 张俊豪;顾益军;张士豪3.微博环境下基于用户行为与主题相似度的改进PageRank算法 [J], 朱颢东;丁温雪;杨立志;冯嘉美4.基于用户行为与页面分析的改进PageRank算法 [J], 王旭阳;任国盛5.基于改进 PageRank算法的微博用户影响力排序研究 [J], 丁温雪;徐家兴;朱颢东因版权原因,仅展示原文概要,查看原文内容请购买。

PageRank算法的分析及其改进

第 3 卷 第 2 期 6 2
V L36 o






21 0 0年 l 1月
Nov m b r201 e e 0
N o 22 .
Co pu e m t rEng ne rng பைடு நூலகம் ei
开 发研 究 与设 计 技术 ・
文章编号:l o -2( l2—0 l 3 0 _3 800 2_9—0 0 ’4 2 ) 2
歃丽
■— ——
P g Ra k算 法 的 分析 及 其 改进 ae n
王德 广 ,周志 刚 ,梁 旭
( 大连交通 大学软件 学院 ,辽宁 大连 l6 2 ) 0 8 1

要 :在分析 P gR n a e ak算法存在偏重 旧网页、主题漂移 、网页权值均分、忽视 用户浏览兴趣现象的基础上 ,对其进行改进 ,考虑 网页
修改 日期 、网页文 本信 息、网站权威度 、用户兴趣 度等重要因素 ,重新计算 网页 P R值 。实验结果表明 ,改进算法可提高搜索 引擎对 网页 排序 的准确 度,以及用户对检 索结果的满意度 。 关键词 :P g Rak算法 ;搜索 引擎 ;文本数据挖掘 ;P ae n 尺值
A na yss0 ge a l o ihm nd I sI pr ve e l i fPa R nkA g r t a t m o m nt
W ANG — u n , De g a g ZHO U ig n , ANG Zh — a g LI Xu
( ot r e h oo yI s t t, l nJa tn ies y Dai 1 0 8 C ia Sf wa e c n lg t ue Dai i o gUn v ri , l n 1 6 2 , hn ) T ni a o t a

搜索引擎PageRank算法的改进

搜索引擎PageRank算法的改进杨劲松;凌培亮【期刊名称】《计算机工程》【年(卷),期】2009(035)022【摘要】In order to solve the problems in information retrieval when enterprise making rapid decision, this paper proposes an improved PageRank algorithm. Considering the time factor by Web page, it distributes the forward link different PageRank value based on the proportion by the similarity analysis between anchor text and Web page text. The final PageRank value is more suitable for topic-specific search engine and keeps simplicity of algorithm. Experimental result shows that the improved algorithm can effectively reduce the phenomenon of topic-drift and enhance the PageRank value of new Web page.%为了解决企业快速决策时信息检索的问题,提出一种改进的PageRank算法.在考虑网页产生时间因素的同时,通过锚文本与网页主题的相似度分析按权重分配网页各正向链接PageRank值,产生的PageRank值更贴合主题搜索引擎的要求,并保持算法的简洁性.实验结果证明该改进算法能有效减少主题漂移现象,恰当提升新网页PageRank 值.【总页数】3页(P35-37)【作者】杨劲松;凌培亮【作者单位】同济大学机械工程学院,上海,200092,.;同济大学机械工程学院,上海,200092,.【正文语种】中文【中图分类】TP391【相关文献】1.基于PageRank算法的搜索引擎优化策略 [J], 黄志栋;员巧云2.基于改进PageRank算法的管道专业搜索引擎系统设计与实现 [J], 王兵;许少华;张兴旺3.主题搜索引擎的PageRank算法研究 [J], 县小平4.搜索引擎PageRank算法的改进 [J], 张延红5.搜索引擎PageRank算法的比较与改进 [J], 张毅;张冬梅因版权原因,仅展示原文概要,查看原文内容请购买。

PageRank算法在搜索引擎中的应用

PageRank算法在搜索引擎中的应用搜索引擎是现代人们获取信息最方便的途径之一,而其中最核心的部分就是排名算法。

PageRank算法作为最早应用于搜索引擎中的算法之一,其核心思想是通过分析网页之间的链接关系,为每个网页赋予一个权值,从而实现搜索结果的排序。

本文从PageRank算法的原理、应用场合以及算法优化方面进行探究,以期更好地理解搜索引擎排名算法的工作机制。

一、PageRank算法的原理PageRank算法最早于1998年由谷歌创始人拉里·佩奇和谢尔盖·布林共同提出,得名于拉里·佩奇的姓氏。

PageRank算法的核心思想是基于网页之间的链接关系和重要性来对网页进行排序。

具体而言,如果某一网页被许多其他网页引用,那么该网页就被认为是一个比较权威和受欢迎的网页,其权重也会相应提高。

在实际应用中,PageRank算法会先建立一个有向图,其中每个网页都对应一个节点,而网页之间的链接则对应着图中的边。

PageRank算法将网页的重要性定义为其在有向图中的PageRank值,该值通过一系列公式计算得出。

具体来说,PageRank算法的计算公式为:PageRank(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))其中,PageRank(A)表示网页A的PageRank值;d为阻尼系数,其取值通常设置为0.85;PR(Ti)表示指向网页A的链接来源网页Ti的PageRank值;C(Ti)表示指向网页Ti的链接数。

从公式中可以看出,一个网页的PageRank值不仅取决于它的入链数量,还与指向它的链接来源网页的PageRank值有重要关系。

二、PageRank的应用场合PageRank算法在搜索引擎中的应用最为广泛,在谷歌等TOP级搜索引擎的排名算法中均有应用。

通过PageRank算法,搜索引擎能够更准确地判断页面的重要性和相关性,并根据这些因素对搜索结果进行排序。

PageRank算法研究现状与展望

PageRank算法研究现状与展望摘要:为了能使用户在Internet海量的信息中准确的找到需要的资源,Web 挖掘这项新技术出现了。

而PageRank算法就是在这种背景下产生的。

它是基于Web超链接结构分析算法最成功的代表之一,已经成功的运用在了实际系统中。

但同时PageRank算法也有一定的局限性和不足之处。

本文讨论了PageRank算法的背景、算法原理及其主要的缺陷。

关键词:PageRank 算法Web结构超链接1.引言随着Internet的飞速发展,Web上的信息量也以惊人的速度增长,人们也越来越多的在Internet上发布和获取信息,万维网已经成为资料共享和信息交流的最大平台。

那么,一个很突出的问题就出现了:如何在互联网中海量的资源中迅速、准确的找到自己所需的信息?而Web挖掘这项新技术就是为了解决这一难题的。

Web挖掘技术是数据挖掘技术和Internet技术的结合,是当今计算机研究领域的新热点。

2.经典的Web结构分析算法传统的互联网应用技术大多是基于文档内容的,业界对互联网搜索功能的理解是:某个关键词在一个文档中出现的频率越高,该文档在搜索结果中的排列位置就要越显著。

这种做法都是忽略了互联网包含而传统数据环境没有的另一种丰富信息:互联网的超链接拓扑结构。

所谓的超链接就是指从一个网页指向另一个目标的连接关系。

另一个目标可以是其它网页也可以是本网页其它位置。

假设网页A有一条超链接指向网页B,那么我们就认为网页A的创建者判定网页B包含了有价值的信息。

因此,充分利用互联网间的链接结构信息对互联网的搜索具有重大意义。

基于超链接的分析方法,PageRank、HITS、SALSA等算法应运而生。

其中不少算法已经在实际系统中使用,并取得了良好的效果,而PageRank算法就是其中应用最广泛的一个。

3.PageRank算法原理PageRank算法是Google创始人Sergey Brin和Lwarence Page于1998年提出来的,它是基于Web超链接结构分析的算法中最成功的代表,也是评鉴网页权威性的重要工具。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4]研 究 了 PaperRank 、 HTS 算 法 务的思路和方 法 。 文 献 [ 和 4 个 专 业 文 献 检 索 系 统 的 排 序 指 标, 提 出 了 DocumentsRank 排序法 。 以上文 献 从 不 同 角 度 对 传 统 文 献 检 索 方式进行了改进,但是仍然存在一些不足 。 首 先, 他 们 只 考虑了链接网络和引文网络之间的相似性,而忽 略 了 它 们 之间的差异性 。 其次,对文献自身价值可能产 生 的 变 化 没 有做讨论,主要有两种情况: ① 发表时间越长 则 累 积 的 被 引次数越多,但是很有可能这篇文章中描述的内 容 已 经 过 时,研究价值越来越小,此类多见于新陈代谢 速 度 很 快 的 科技类文献 。 ② 发表时间不长但是质量很高 的 文 献, 由 于 被引次数不多而排名靠后 。 为了改进以上不足,本文从多角度出发, 综 合 考 虑 各 因素对文献 检 索 结 果 的 影 响 , 并 结 合 引 文 分 析 网 络 的 特 点,利用文献间的互引关系计算出权值,最后 引 入 文 献 活 跃度对权值进行修正,进而得出文献排名 。 本 文 还 将 进 行 实证分析,讨论其结果是否符合预期并与传统排 序 法 进 行 对比 。
PageRank 算法应用在文献检索排序中的研究及改进
摘 要 : 传统文献检索大多按照被引次数 、 发表时间 、 搜索词出现频次等条件之一对结果进 行 排 序 , 角 度 单 一 且 忽 略了文献相互引用带来的价值流动 , 往往会出现部分文献排名过高或过低的现象 。 为此 , 很多国内外学者 提 出 将 PageRank 算法应用到文献检索中 , 并取得了一定程度的改进 , 但是 忽 略 了 一 些 特 殊 情 况 , 如 文 献 使 用 价 值 可 能 会 随 时 间 的 推 移而产生衰退 , 还有一些发表时间较短的文献被引次数为零 , 如何去评估它的价值等 。 文章针对 这 些 问 题 , 提 出 了 一 种 多维检索排序法 , 综合考虑各种因素 带 来 的 影 响 , 并 引 入 文 献 活 跃 度 的 概 念 , 以 加 权 的 方 式 将 文 献 价 值 量 化 。 实 验 证 明 , 多维检索排序法比传统文献检索排序法效果更好 , 而且由权值迭代所带来的额外的计算量均为 离 线 完 成 , 在 提 高 准 确率的同时也很好地保持了检索的效率 。 关键词 : 文献检索 ; 多维检索排序 ; PageRank 算法 ; 文献活跃度
Abstract : Most of the traditional literature retrievals sort the results under one of the conditions of cited frequency , publication time or frequency of the searched words. This method always uses a single angle that ignores the value flow of mutually referred articles and this leads to a phenomenon that some literature gets a too high or too low rank. For this reason , many scholars at home and abroad apply the PageRank algorithm to literature retrieval and some improvements have been made , however they ignore some special circumstances , for example , the value of literature may decline over time , and articles with short publication time have no cited record , so we cannot evaluate their value. To solve these problems , a kind of multidimensional retrieval ordering method is proposed in this paper , which gives a comprehensive consideration to all the influence factors , involves the concept of literature activity and quantifies the value of literatures in weighted manner. Experiments show that the proposed retrieval has a better performance than traditional document retrieval , and the extra amount of calculation caused by weight iteration is done offline in order to improve the accuracy and at the same time to maintain the efficiency of the retrieval. Keywords : document retrieval ; multidimensional retrieval ordering ; PageRank algorithm ; literature activity
信息系统 DOI : 10. 16353 / j. cnki. 10007490. 2016. 11. 024 欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
● 汪志伟 , 邹艳妮 , 吴舒霞 ( 南昌大学
信息工程学院 , 江西
南昌
330031 )
— 126 —
· 第 39 卷 2016 年第 11 期 ·
情报理论与实践 ( ITA ) 欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
表1
PR ( A ) 初始值 第一轮 第二轮 第三轮 第四轮 … 1 1 1 0. 5 0. 25 0
1
1. 1
式中, i , j 表 示 网 页; B ( i ) 表 示 指 向 i 的 链 接 的 集 合; N ( j) 表 示 j 指 向 的 所 有 链 接 的 个 数; R 表 示 网 页 的 PR 值 。 R ( j) 除以 N ( j) 表示网页将 PR 值平均分配到自 身 所 指向的所有 链 接 中 。 用 线 性 代 数 的 语 言 来 描 述 它 可 以 表 述为: R = AT R (2)
PR ( B ) 1 0. 5 0. 5 0. 5 0. 5 0
典网页排序算法
,用于衡量由搜索引擎索引构成的 Web
图中的每个网页相对于其他网页而言的重要程 度 。 该 算 法 的基本思想是基于 “从 许 多 优 质 网 页 链 接 过 来 的 网 页 一 定是优质网 页 ” 的 回 归 关 系, 它 将 网 页 A 指 向 网 页 B 的 链接看作是 A 对 B 的 支 持 投 票, 每 个 网 页 的 重 要 性 评 价 都取决于 Web 图 中 其 他 网 页 对 自 己 的 投 票 结 果 。 一 个 网 页的得票数越高,则重要性越高,那么它所指向 的 链 接 获 得的评价也就越高,这是一个递归收敛的过程, 最 终 所 有 网页都会得出一个趋于稳定的 PR 值 。 5] 中,佩奇将上述思想用公式来表达: 在文献 [ R ( i) =
随着互联网的高速发展,越来越多的信息以 电 子 形 态 存储和交换,于是信息检索技术应运而生,并且 仍 在 不 断 地发展和完善 。 文献作为记录 、 保存和传播已有 知 识 成 果 的载体,是人类文明和社会进步的基石,也是科 研 工 作 者 最重要的思想工具 。 那么如何在短时间内准确地 检 索 出 有 价值的文献就具有非常重要的意义 。 传统的文献 检 索 方 式 存在很多不足,角度单一且忽略了文献相互引用 带 来 的 价 值流动,导致经常会出现排名靠前的文献利用价 值 不 高 而 有价值的文献很难找的问题 。 所以近年来,国内 外 很 多 学 者提出将著名 的 链 接 网 络 排 序 算 法 PageRank 应 用 到 文 献 1] 中指出 传 统 引 文 分 析 法 大 多 从 文 献 被 检索中 。 文献 [ 引次数的角度进行分析,而不关注文献的质量, 于 是 提 出 一种基于 PageRank 的 引 文 分 析 法, 为 之 后 将 其 应 用 到 文 2]中 介 绍 了 链 接 分 析 网 献检索提供 了 思 想 基 础 。 文 献 [ 络和引文分 析 网 络 结 构 上 的 相 似 性, 并 在 PageRank 基 础 3] 讨论了 PaperRank 算 上提出了 PaperRank 算法 。 文献 [ 法应用到科技文献排序中的表现,提供了一种开 展 知 识 服
。 那 么 求 PR 值 的 过 程 就 转 化
成了求特征向量的过程 。 由于在实际应用中, Web 图内很有可能存在入度 或 出 度为 0 的节点,这会 使 整 个 迭 代 过 程 出 现 两 种 异 常 情 况: Rank Sink 和 Rank Leak[7] 。 当一个或一组紧密链接成环的网页没有任何其 他 页 面 指向它时就产生了 Rank Sink ,如图 1 和表 1 所示, A , B , C 所构成的环在迭 代 过 程 中 PR 值 不 断 地 流 失, 最 终 趋 近 于 0 ,这意味着我们无法判断出此类节点的重要性 。
[6 ] T
这个顶点就像一个黑洞 一 样,将 整 体 的 PR 值 慢 慢 地 “吸 。 收 ” 掉了,因此,也被称为 “黑洞效应 ” 为了解决这两个问题,佩奇提出了两步 解 决 方 案, 首 先将所有出 度 为 0 的 Leak 节 点 删 掉, 然 后 在 定 义 中 引 进 一个阻尼系数 d ( 0 < d < 1 ) ,在该 定 义 中, 只 有 d 这 部 分 PR 值被分配给分配给 Web 中的所有节点 。 公式如下: R ( i) = d *
相关文档
最新文档