Google网页排序算法中PageRank值

合集下载

pagerank算法的概念(一)

pagerank算法的概念(一)Pagerank算法Pagerank算法是一种用于评估网页重要性的算法，由谷歌创始人拉里·佩奇和谢尔盖·布林共同提出。

在搜索引擎领域，Pagerank算法被广泛应用于网页排序和搜索结果的排名。

概念Pagerank算法基于以下两个主要概念：1.链接分析：Pagerank通过分析网页之间的链接关系来评估网页的重要性。

它将互联网视为一个巨大的网络，通过网页之间的超链接进行连接。

如果一个网页被其他高质量或高重要性的网页链接，那么它自身的重要性就会提高。

2.随机游走模型：Pagerank算法将互联网的浏览过程抽象为用户随机点击链接进行网页浏览的行为。

在这个模型中，一个网页的重要性与被访问的概率有关。

重要性更高的网页被访问的概率也更高。

算法内容Pagerank算法通常采用以下步骤：1.构建链接图：首先，需要收集并分析网络中的网页以及网页之间的超链接关系，构建一个网页链接图。

2.初始化网页权重：为每个网页初始化权重值，可以将所有网页的权重值设置为相等或者根据某种规则进行初始化。

3.迭代计算权重：通过迭代计算的方式逐步更新网页的权重值。

迭代过程中，每个网页的权重值会根据其与其他网页的链接关系进行调整。

4.收敛判断：在迭代计算过程中，判断网页权重值是否收敛。

如果收敛则停止迭代，否则继续迭代。

5.输出结果：当算法收敛后，每个网页的权重值即为其Pagerank值。

根据Pagerank值对网页进行排序，从而得出搜索结果的排名。

总结Pagerank算法通过分析网页之间的链接关系和用户随机浏览行为，评估网页的重要性并用于搜索结果的排名。

其核心思想是重要的网页更容易被其他网页链接，也更容易被用户访问。

Pagerank算法的应用使得搜索引擎更加准确和可靠，对用户提供更好的搜索体验。

谷歌搜索算法原理与调整策略

谷歌搜索算法原理与调整策略一、谷歌搜索算法原理谷歌搜索算法是谷歌搜索引擎核心技术之一，其原理主要基于网页排名计算公式——PageRank算法，以及各种辅助算法的协同作用。

1.1 PageRank算法PageRank算法是谷歌创始人拉里·佩奇等人发明的一种评估网页重要性的算法。

该算法基于图论中的概念，将互联网看作是一个节点和有向边的图，通过分析节点的连通性和关联度，给每个节点分配一个重要性分数。

PageRank算法主要原理如下：1）每个网页对应一个网页向量。

向量的维数为网页总数N。

向量中的每个元素代表了当前网页与其他网页之间的链接情况。

2）每个网页的重要性取决于其它网页对它的链接状况，即其入度数越高，它的重要性越高。

3）对于连接数较多的网页，它重要性的权重更大，因为其对其他网页的影响力更大。

4）PageRank算法通过不断迭代计算每个网页的PageRank得分，并更新每个网页的权重值。

1.2 其他辅助算法除了PageRank算法外，谷歌搜索算法还采用了一系列辅助算法，包括：1）TF-IDF算法：用于计算网页中关键词的重要性。

2）链接分析算法：用于分析网页间的链接关系。

3）机器学习算法：用于根据用户的搜索行为和点击行为进行优化。

二、谷歌搜索算法调整策略由于互联网信息更新速度快，网页数量庞大，谷歌搜索算法需要不断地进行调整和优化，以确保搜索结果质量和搜索速度。

2.1 调整算法权重谷歌搜索算法通过改变各个算法的权重来实现搜索结果的优化。

例如，针对某些特定的搜索词语，谷歌可以将PageRank算法的权重调高，这样就会更重视链接数多、入度高的网站，从而提高搜索结果的质量和可靠性。

2.2 新增搜索特征除了调整算法权重外，谷歌还会不断地新增搜索特征，以优化搜索结果。

例如，谷歌可以针对某些特定的搜索词语，提供地图搜索、图片搜索等附加搜索功能，让用户更容易找到自己需要的信息。

2.3 深度学习算法谷歌还采用了深度学习等新的人工智能技术来改善搜索算法，通过大数据的统计、数据挖掘和机器学习技术，谷歌可以更准确地判断搜索结果的相关性，并为用户推荐更适合的搜索结果。

PageRank算法原理及应用技巧

PageRank算法原理及应用技巧一、什么是PageRank算法？PageRank算法，中文通常翻译为页面等级算法，是谷歌搜索引擎的核心之一。

它的作用是根据网页间的链接关系，为每个网页赋予一个权重值，体现网页自身的重要性以及与其他网页之间的关联程度。

这个权重值，也可以称为页面等级，是在算法迭代过程中自动计算出来的，以一定的方式反映在搜索结果页面上，对用户查询的结果产生非常大的影响。

二、PageRank算法原理PageRank算法的核心思想是基于图论的概念，将整个Web系统看作一个有向图，网页是节点，链接是边。

每个节点的PageRank值可以看作是一个随机游走的概率，即从当前节点出发，沿着链接随机跳到其他节点的概率。

具体说来，PageRank算法把每个页面的初始PageRank值设置为1/n，其中n是整个网络中页面的数量。

在每一次迭代中，所有页面的PageRank值会被重新计算，计算公式如下：PR(A)=(1-d)+d( PR(T1) / C(T1) + ... + PR(Tn) / C(Tn) )其中，PR(A)表示页面A的PageRank值，d是一个介于0和1之间的阻尼系数，通常设置为0.85。

T1~Tn表示所有直接链接到A的页面，C(Ti)表示对应页面的出链总数，PR(Ti)表示对应页面的PageRank值。

这个公式的含义是，如果一个页面被其他页面链接得多，它的贡献就会更大。

而如果这个页面链接的其他页面也被其他页面链接得多，那么这个页面的权重值就会被进一步提高。

不过，由于阻尼系数的加入，每个页面的PageRank值最终都会趋于收敛，并保证权重的分配符合概率公式的要求。

三、PageRank算法的应用技巧1.优化页面内部链接结构PageRank算法的核心在于链接关系，因此页面内部的链接结构也会对页面的PageRank值产生影响。

因此，站长应该合理布局内部链接，确保每个页面都可以被其他页面链接到，尽量构建一个完整的内部链接网络。

PageRank算法

PageRank算法1. PageRank算法概述PageRank,即⽹页排名，⼜称⽹页级别、Google左側排名或佩奇排名。

是Google创始⼈拉⾥·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法，⾃从Google在商业上获得空前的成功后，该算法也成为其他搜索引擎和学术界⼗分关注的计算模型。

眼下许多重要的链接分析算法都是在PageRank算法基础上衍⽣出来的。

PageRank是Google⽤于⽤来标识⽹页的等级/重要性的⼀种⽅法，是Google⽤来衡量⼀个站点的好坏的唯⼀标准。

在揉合了诸如Title标识和Keywords标识等全部其他因素之后，Google通过PageRank来调整结果，使那些更具“等级/重要性”的⽹页在搜索结果中另站点排名获得提升，从⽽提⾼搜索结果的相关性和质量。

其级别从0到10级，10级为满分。

PR值越⾼说明该⽹页越受欢迎（越重要）。

⽐如：⼀个PR值为1的站点表明这个站点不太具有流⾏度，⽽PR值为7到10则表明这个站点很受欢迎（或者说极其重要）。

⼀般PR值达到4，就算是⼀个不错的站点了。

Google把⾃⼰的站点的PR值定到10，这说明Google这个站点是很受欢迎的，也能够说这个站点很重要。

2. 从⼊链数量到 PageRank在PageRank提出之前，已经有研究者提出利⽤⽹页的⼊链数量来进⾏链接分析计算，这样的⼊链⽅法如果⼀个⽹页的⼊链越多，则该⽹页越重要。

早期的⾮常多搜索引擎也採纳了⼊链数量作为链接分析⽅法，对于搜索引擎效果提升也有较明显的效果。

PageRank除了考虑到⼊链数量的影响，还參考了⽹页质量因素，两者相结合获得了更好的⽹页重要性评价标准。

对于某个互联⽹⽹页A来说，该⽹页PageRank的计算基于下⾯两个基本如果：数量如果：在Web图模型中，如果⼀个页⾯节点接收到的其它⽹页指向的⼊链数量越多，那么这个页⾯越重要。

网页排序算法 PageRank

A =
PageRank的计算
求特征值 1对应的特征向量
0.699456533837389 0.382860418521518 0.323958815672054 归一化 0.242969111754040 0.412311219946251 0.103077804986563 0.139891306767478
问题的解决方法
• 即
A'= c*A +(1-c)*[1/N] • 其中，[1/N]是所有要素为 1/N 的 N次正方行列，c =0.85(=1-0.15)。A’是新的状态转移矩阵。 • 也就是说，根据 PageRank 的变形，原先求矩阵A的特征值问题变成了求矩阵 A’的最大特征值对应特征向量的问题了。
PageRank数值计算难点（二）
• 收敛问题 • 特征向量的求解，就是求解方程 A ，是 N 元一次方程组，一般地不能得到分析解，所以只能解其数值。 • 然而，常用的迭代求解方法会导致收敛速度很慢。
思考
• PageRank算法还可以应用在什么问题上？
A (aij ) gij aij cj
i, j 1...n
PageRank的计算
• 根据Markov链的基本性质，对于正则Markov链，存在平稳分布 ( x1, x2 ,xN )T ，满足
A
x
i
i
1
• 表示在极限状态（转移次数趋于无限）下各网页被访问的概率分布。 x • 定义为网页的PageRank向量， i表示第i个网页的PageRank值
某7个网页之间的链接关系图
网页链接图的邻接矩阵
0 1 1 G = 1 1 0 1 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0

pagerank算法步骤

pagerank算法步骤PageRank算法是一种用于评估网页重要性的算法，是由Google的创始人拉里·佩奇和谢尔盖·布林共同提出的。

它是一种基于链接分析的算法，主要通过计算一个网页的入链数和出链数来判断其重要性。

具体的PageRank算法步骤如下：1. 初始化PageRank值：对于一个网页，初始的PageRank值一般为1/N，其中N为所有网页的总数。

将这些初始值赋予所有的网页。

2. 迭代计算：根据PageRank的计算公式进行迭代计算，直到收敛为止。

PageRank的计算公式如下：PR(A) = (1-d)/N + d * (PR(T1)/C(T1) + PR(T2)/C(T2) + ... + PR(Tn)/C(Tn))其中PR(A)为网页A的PageRank值，d为阻尼系数，一般取值为0.85，N为所有网页的总数，T1、T2、...、Tn为指向网页A的网页，C(T1)、C(T2)、...、C(Tn)分别为这些指向网页A的网页的出链数。

迭代计算每个网页的PageRank值，直到前后两次迭代值的差异小于某个预定的阈值，即达到收敛。

3. 解决网页零入链问题：在计算过程中，可能出现一些网页没有任何其他网页指向它，即零入链问题。

为解决这个问题，可以给这些网页一个初始的PageRank值，并在迭代计算中加入一个平均值部分，使得网页的重要性能够传递给零入链的网页。

以上就是PageRank算法的主要步骤。

实际应用中，还可以对阻尼系数d进行微调，以达到更好的效果。

此外，为了加快迭代计算的速度，可以采用分布式计算的方式进行计算。

参考内容：1. 《The Anatomy of a Large-Scale Hypertextual Web Search Engine》（拉里·佩奇、谢尔盖·布林）：这是PageRank算法的原始论文，详细介绍了算法的思想和具体实现。

论文发表于1998年，是该算法最早的介绍。

PageRank

概念PageRank是Google专有的算法，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。

它由Larry Page 和Sergey Brin在20世纪90年代后期发明。

PageRank 实现了将链接价值概念作为排名因素。

PageRank将对页面的链接看成投票，指示了重要性。

编辑本段算法PageRank让链接来"投票"一个页面的“得票数”由所有链向它的页面的重要性来决定，到一个页面的超链接相当于对该页投一票。

一个页面的PageRank是由所有链向它的页面（“链入页面”）的重要性经过递归算法得到的。

一个有较多链入的页面会有较高的等级，相反如果一个页面没有任何链入页面，那么它没有等级。

2005年初，Google为网页链接推出一项新属性nofollow，使得网站管理员和网志作者可以做出一些Google不计票的链接，也就是说这些链接不算作"投票"。

nofollow的设置可以抵制评论垃圾。

编辑本段指标Google工具条上的PageRank指标从0到10。

它似乎是一个对数标度算法，细节未知。

PageRank是Google的商标，其技术亦已经申请专利。

PageRank近似于一个用户，是指在Internet上随机地单击链接将会到达特定网页的可能性。

通常，能够从更多地方到达的网页更为重要，因此具有更高的PageRank。

每个到其他网页的链接，都增加了该网页的PageRank。

具有较高PageRank的网页一般都是通过更多其他网页的链接而提高的。

为了查看站点PageRank，请安装GOOGLE工具条并启用PageRank特性，或者在firefox安装SearchStatus插件。

但是请注意，GOOGLE所指示的PageRank是个缓冲值，通常是过时的。

编辑本段更新频率PageRank值每年只发布几次，有时就得使用过时信息，因此，PageRank并不是一个非常精确的度量。

PageRank简要原理

它是Google排名运算法则（排名公式）的一部分，是Google用于用来标识网页的等级/重要性的一种方法，是Google用来衡量一个网站的好坏的唯一标准。

在揉合了诸如Title标识和Keywords标识等所有其它因素之后，Google通过PageRank来调整结果，使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升，从而提高搜索结果的相关性和质量。

概念PageRank(网页级别)，2001年9月被授予美国专利，专利人是Google创始人之一拉里·佩奇PageRank专利人——拉里·佩奇（Larry Page）。

因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。

它是Google排名运算法则（排名公式）的一部分，是Google用于用来标识网页的等级/重要性的一种方法，是Google用来衡量一个网站的好坏的重要标准之一。

其级别从1到10级，10级为满分。

PR值越高说明该网页越受欢迎（越重要）。

例如：一个PR值为1的网站表明这个网站不太具有流行度，而PR值为7到10则表明这个网站非常受欢迎（或者说极其重要）。

一般PR值达到4，就算是一个不错的网站了。

Google把自己的网站的PR值定到10，这说明Google这个网站是非常受欢迎的，也可以说这个网站非常重要。

Google的PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值。

PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。

这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。

PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多，一般判断这篇论文的权威性就越高。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

n
Zijn×PRin (i) ×Kijn为网页Pij的权重，由每个访问者叠加来计得
Zijn×PRin (i)为Zijn×PRin (i) ×Kijn的权重
程序演示

VB matlab
计算网页PR值公式分析
PRij=
n
PRin×Zijn×Hjn
PRin×Zijn表示每个访问者的权重 Hjn为0到1之间的值，表示访问者对网页内容的认同度

论文要求
在Google搜索结果中，网页需要按一定的次序排列出来，Google服务器根据网页的PR值来排序， PR值越大则排名越前。 Google PageRank传统算法根据网页间的链接情况来计算网页的PR值，这种方法根据网页的人气多少来排名，完全不考虑访问者的情况。我的论文设计算法是由访问者的专业水平及其对网页的投票评价来计算网页的PR值，改进的算法主要是考虑由网页权威性来决定排名，具体要求如下：
社会环境下网页重要性的研究
指导老师：陈强
答辩人：邓青云
学号：20060003014
专业：信息工程
Google网页排序算法中 PageRank值的含义
由于传统算法存在种种的不足，所以本论文对传统算法进行改进得出改进算法。

在Google传统算法中，PageRank值（简称PR值）就是一个概率。为了方便讨论，Google转化为 0~10度量。在传统算法中，网页PR值反映网页的人气多少， PR值越大，则表示网页越多人访问。在改进算法中，访问者的PR值越大则表示访问者在i领域的专业知识水平越高。网页的PR值越大，表示网页越权威。
u B v
PRin（i+1）=Ci （Kijn× Zijn×PRin (i) ×Kijn）
j×Hjn
n
计算访问者PR值公式分析
PRin（i+1）=Ci （Kijn× Zijn×PRin (i) ×Kijn）
j
n
上式的从大到小的基本结构都是权重乘以投票情况 Ci为归一化常数访问者某领域的PR值由该访问者在该领域所有网页的被认同程度叠加得到，当然每个网页的权重是不一样的。
但是任何一种算法都有它的不足或者说是它的偏向性，本文改进算法偏向权威性排序，Google PageRank传统算法偏向人气排序，通过设置一个系数，系数的大小由访问者自己设置，巧妙地将两者结合，使搜索结果符合访问者的的要求，这样的设计非常人性化，是一种相当完美的模式，也是今后搜索引擎的发展方向。
计算访问者PR值的模型
PRin（i+1）=Ci （Kijn× Zijn×PRin (i) ×Kijn）
j
n
循环迭代收敛的方法是本文计算访问者PR值的理论基础

在传统算法中Google搜索引擎使用了一个近似的、迭代的计算方法计算网页PR值。先给每个网页一个相同的初始值，然后利用循环公式，循环进行有限次运算得到近似的PR值。
4、同一访问者访问不同领域的网页贡献的PR值不同，因为他在不同领域的知识水平是不一样的。因此访问者在不同的领域有不同的PR值
1．Google 搜索引擎简介 1.1 Google的软件文化理念 1.2 搜索引擎的分类 1.3 Google搜索引擎工作原理 2．传统Google PageRank算法分析 2.1 传统Google PageRank算法概述 2.2 传统 PageRank算法回顾 2.2.1传统 PageRank算法代数表达形式 2.2.1传统 PageRank算法向量表达形式 2.3 传统Google PageRank的缺陷和改进方法 3．Google PageRank 算法改进 3.1由访问者知识水平及其投票的情况决定网页排名的 PageRank 算法 3.1.1 算法中PR值的含义 3.1.2从投票角度分析算法的本质 3.1.3算法改进的详细设计思路 3.2．计算每个访问者的PageRank值 3.2.1 计算访问者PR值的数学表达式 3.2.2 访问者PR值的循环收敛计算方法 3.2.3访问者PR值算法的简单模型 3.2.4 Visual Basic编程验证算法收敛 3.2.5 matlab编程验证算法收敛 3.3．网页PR值的计算方法 3.3.1 计算网页PR值的理论基础 3.3.2 建立数学模型 3.3.3 Visual Basic编程验证算法的正确性 3.3.4 matlab编程验证算法的正确性 4．改进算法的事实可行性 5．将改进算法与Google PageRank传统算法结合的最完美排序方法 6．小结附录

参照以上思想，本论文计算访问者PR值也是先赋予每个访问者相同的初值，经过多次迭代，结果越来越接近真实的访问者PR值。
Google PageRank是个科学的小创意。它将统计学理论淋漓尽致地发挥在搜索技术之中。它所用到的统计学就是循环迭代计算收敛值的方法！说他“小”，因为它的计算公式很简单，只要有一点高数知识的人都能理解。
从投票的角度看两种算法的本质

Google PageRank传统算法中，从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票，这是由其他网页对网页本身的投票来计算网页的PR值。在改进算法中，访问者对网页的投票的被认同度就是其他访问者对他的投票，由其他访问者对他的投票来计算访问者的PR值。在计算网页PR值时，网页由访问者对它的投票来决定网页本身的PR值。不是每个访问者和网页的投票都对访问者或者网页的PR值贡献一样的，因为每个访问者和网页的权重不一样，两者的权重分别与访问者的知识水平和网页权威性有关。因此计算两者PR值之前要计算两者的权重。

改进算法参数的设置
将所有网页分为i个领域，每个领域的网页数为j。 Pij表示i领域中的第j个网页。网络访问者总数为N，某个访问者n在i领域的PR值为PRin。 Kijn：表示访问者n在网页Pij的投票的被认同度。（即和访问者n有相同投票的访问人数占所有投票人数的百分比） Zijn：表示访问者n访问网页Pij的次数。

权重就是反映影响力的一个值，访问者的权重越大，则对他访问网页的PR值影响越大，至于是正面还是负面影响，还有看访问者对网页投票评价是正面还是负面。在计算访问者PR值时，网页的权重越大，则对访问者的PR值影响也越大。
论文主要公式
R (i+1) (v)= R (i)（u）/Nu
谢谢！
Google搜索高级设置页面
小结
本文参考了传统Google PageRank算法的计算原理和工作过程，设计出改进算法，通过原理分析、建模、编程验证等步骤充分论证了设计的改进算法的理论可行性，再从搜索引擎服务器获取和处理数据的的工作过程来论证改进算法的事实可行性，综合两方面的可行性，得出结论：改进算法是正确无误的，能够客观反映网页的权威性。
同样道理每个访问者和每个网页的权重都是不同的，因为他们的专业知识水平和权威性是不同的。如：一个工程院院士在关于PageRank网页的投票的权重，比我对PageRank网页的投票的权重大得多，因为院士的该领域知识水平（PR值）远远高于我。如果院士投了反对票，这个网页的PR值将大打折扣，如果我投了反对票，对网页PR 的影响可能不大，因为我的权重比院士的权重小很多。网页也有它的权重，因为访问者在不同权重的网页被认同，对访问者的PR值贡献是不同的例如，我在中国期刊网的投票被别人赞同，和在自己QQ空间被被人赞同，前者将大大增加我的PR值，后者影响较小，因为两个网页的权重差几个数量级
目录
改进算法的基本步骤
1、计算访问者的PR值 2、由第一步计算出来的访问者的PR值来计算网页的PR值
算法理论可行性
Google PageRank传统算法的原理图
Google PageRank传统算法就是多次循环计算网页PR收敛值的过程
R (i+1) (v)= u v R (i)（u）/Nu B
权重

权重：权重表示在评价过程中，是被评价对象的不同侧面的重要程度的定量分配，对各评价因子在总体评价中的作用进行区别对待。事实上，没有重点的评价就不算是客观的评价。打个比方说, 一件事情, 你给它打100分, 你的老板给它打60分, 如果平均, 则是 (100+60)/2=80分. 但因为老板说的话分量比你重, 假如老板的权重是2, 你是1, 这时求平均值就是加权平均了, 结果是(100*1 + 60*2)/(1+2)=73.3分, 显然向你的老板那里倾斜了。假如老板权重是3，你的权重是1，结果是（100*1+60*3）/ （1+3）=70。这就是根据权重的不同进行的平均数的计算，所以又叫加权平均数。
1、不同PR值的访问者访问一个网页，对这个网页的PR值的贡献权重不同。在计算网页 PR值之前，首先要计算访问者的PR值。
2、每个访问者对网站的评价不同，其对网页的PR值的贡献不同。访问者的PR相当于权重，结合评价系数和访问次数影响网页的 PR值。
3、如何计算访问者的PR值：参考传统算法的处理方法，循环计算得出访问者PR收敛值。
计算网页PR值的模型
PRij= PRin×Zijn×Hjn
n
程序演示

VB matlab
事实可行性
如何标记每个访问者

既然要给每个访问者计算PR值就要先给每个访问者一个唯一的标志。可以记录网卡物理地址作为身份标志，对于动态ip上网的方式，通过ip地址来查询其相应的物理地址很复杂，为了使算法更加容易实现，不应该从电信运营商那里获取物理地址，而应该从访问者电脑浏览器的cookie中获取访问者的访问信息和访问者电脑的物理地址。对于手机上网用户，可以从手机运营商那里获取手机号码作为访问者的身份标志。对于多人公用的电脑，实际上计算出来的是电脑使用者的平均PR值。反映了众多访问者的平均水平。同样可以计算网页的PR值在有了访问者的身份标志后，可以建立档案，便于下一步计算PR值