基于用户反馈的PageRank改进算法
基于用户行为与页面分析的改进PageRank算法

V o1.42 N ຫໍສະໝຸດ .2 · 人 工 智 能 及 识 别 技 术 ·
计 算 机 工 程
Com puter Engineering
文章编号 :1000-3428(2016)02-0164.05
文献标识码:A
2016年 2月
February 2016
中图分类号:TP391
中文引用格式 :王旭 阳,任 国盛.基 于用户 行 为与 页 面分 析 的改进 PageRank算 法 [J].计 算 机工 程 ,2016,42(2):
164—168.
英 文 引用 格 式 :Wang Xuyang,Ren Guosheng.Improved PageRank Algorithm Based on User Behavior and Page Analysis[J].Computer Engineering,2016,42(2):164-168.
基 于用 户 行 为 与 页面 分 析 的 改进 PageRank算 法
王 旭 阳 ,任 国盛
(兰 州 理 工 大 学 计 算 机 与 通信 学 院 ,兰 州 730000)
摘 要 :在 经 典 PageRank算 法 中 ,页 面 的 转 移 概 率 平 均 分 配 到 链 出页 面 ,由 于 新 网页 的链 接 较 少 ,其 PR 值 普 遍 较 低 。经 典 PageRank算 法 通 过 链 接 计 算 PR值 ,未 考 虑 到 网 页 的 内容 ,存 在 主 题 漂 移 现 象 。 针 对 上 述 问 题 ,引 入 网 页 权 威 因子 和 时 间 因 子 ,通过 网 页按 关 键 字检 索 后 被 点 击 的 次 数 进 行 统 计 ,根 据 其 在 初 始 排 序 结 果 中 的 位 置 对 网 页 的 PR值 进 行 迭 代 修 正 ,返 回一 个 新 的排 序 结 果 并 分 析 网页 内容 ,采 用 改 进 的 TD—IDF算 法 解 决 网 页 相 关 性 ,避 免 主 题 漂 移 现 象 。仿 真 实 验 结 果 表 明 ,改 进 算 法 可 以提 高 网 页 排 名 的质 量 ,使 相 关 度 较 高 的 网页 通 过 人 们 的 自主选 择 获 得 不 同 程 度 的 加 权 ,获 得 加 权 的 网页 在 检 索 结 果 中 的排 名 得 到 提 升 ,从 而 提 高 用 户 需 求 网页 的查 准 率 。 关 键 词 :权 威 因子 ;时 间 因子 ;主 题 漂 移 ;转 移 概 率 ;PR 值
PageRank算法在网页排序中的应用及改进

PageRank算法在网页排序中的应用及改进PageRank算法是一种在网页排序中广泛应用的算法,旨在根据页面间的链接关系和互动,为网页分配权重。
本文将介绍PageRank算法的基本原理和其在网页排序中的应用,并探讨一些改进方法,以提高其准确性和效率。
一、PageRank算法的基本原理PageRank算法是由谷歌公司的创始人之一拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)于1996年提出的。
它根据网页之间的相互链接关系来计算每个网页的重要性指标,基本原理如下:1. 网页的权重:PageRank算法认为,一个网页的重要性取决于其被其他重要网页所链接的数量和质量。
一个链接来自权重高的网页对被链接的网页权重的贡献也更大。
2. 链接关系的传递性:如果网页A链接到网页B,那么网页B将获得一部分网页A的权重。
这种链接关系的传递性可以通过迭代计算来逐步传递网页的权重。
3. 反向链接的重要性:网页B被更多重要网页所链接时,网页B的权重会更高。
这个想法来源于互联网上用户通过链接表达的投票行为。
相对于单纯的链接数量,反向链接更能反映网页的权威性和受欢迎程度。
二、PageRank算法在网页排序中的应用PageRank算法在网页排序中的应用主要体现在搜索引擎中,通过计算网页的PageRank值,对搜索结果进行排序,从而提供更准确和有用的搜索结果。
1. 提高搜索准确性:PageRank算法通过对网页的重要性进行评估,将重要网页排在搜索结果的前面。
这样用户可以更容易地找到权威和有价值的信息。
2. 抑制垃圾信息:通过使用PageRank算法,搜索引擎可以过滤掉一些垃圾信息或低质量的网页。
因为这些网页往往没有被高质量网页所链接,其PageRank值较低。
3. 发现新网页:PageRank算法还可以帮助搜索引擎发现新网页。
当一个新网页被高质量网页链接时,其PageRank值将增加,并逐渐被搜索引擎所索引和优先展示。
基于概念的权重PageRank改进算法_杨彬

基于概念的权重PageRank改进算法Concept-based Weighted PageRank Algorithm杨 彬 康慕宁(西北工业大学计算机学院 西安 710072)摘 要 对比了基于链接分析的搜索引擎排序算法PageRank和HIT S。
针对原有PageRank算法采用的平分页面自身PageRank值的策略,提出了一种按权值分配的改进算法。
权值由页面间的概念关联比重和用户的搜索概念确定。
关键词 PageRank HIT S 搜索引擎 概念1 概 述随着互联网的迅速发展,网络已经成为一种信息发布和交流的平台。
但是网络上的信息资源数量庞大,一般用户无法轻松快速地找到相关的信息资源。
搜索引擎可以帮助用户通过关键字的查询,方便迅速地找到相关页面。
搜索引擎通过网页收集程序(如Spider,Robots,Worm),按某种搜索策略(如广度优先或深度优先)进行网页收集,并建立索引。
当用户输入某个关键词进行搜索时,搜索引擎返回所有和搜索关键字相关的页面,并按某种算法排序,将排序后的结果返回给用户。
当前最成功的搜索引擎Google,通过自己的网页收集程序收录了40多亿个网页,并通过对网页间的超链接结构的分析,递归计算出每个页面的PageRank值,来确定网页的重要程度。
这种方法的特点是全部过程都由机器自动完成,不需要人工的参与,但是排名有时不够准确。
另一个成功的搜索引擎Yahoo则采取了完全不同的策略,它首先建立了若干个主题目录,数据完全由手工输入,把每个收录的页面归入某一主题目录,并对收录的网页附有简介信息,以提高搜索效率和准确度。
但是,它耗费了大量的人力和时间进行分类及维护已存在的分类。
目前基于链接结构分析的搜索引擎排序算法主要有两种:一种是斯坦福大学Sergey Brin和Law rence Page提出的PageRank算法[1,2],为了验证该算法的性能,他们建立了Google搜索引擎的原型[1],现在Google已经成为全世界最知名的搜索引擎之一;另一种算法是康奈尔大学Jon Kleinberg提出的HITS(Hypertext-In-duced T opic Search)算法[3]。
网页PageRank算法分析及主题相关性的改进策略

网页 P g r n a e a k算法分析
及 主题 相关性 的改进 策略
姜博 北方工业 大学信 息工程 学院 10 4 14 0
摘 -量 萋 _ i曩 - _ 耍
指 标 ,即 网页 级 别 。重要 的 、高 质量 的 网页 可获 得较 高 的网 页级 别 ,从 而在 搜
索 结果 中获 得 靠前 的排 位 。
假 设 某 网 页 A 的 链 入 网 页 数 量 为 n,
. …
sr tr,p ̄soti sfiec fdt ̄ t cue o t u si ufi y o ee u t n cn
tr  ̄ o ba e rn ig, me n i ti p p r eI f we pg a kn T a whe, h a e l s a ay e te P g E k loih n lz s h a e an ag r m b sd n ik t a e o l n
Hale Waihona Puke 和推荐程度 。一 个网页本身的 P g R n ae ak P g Ra k 法是 在 19 年 由斯坦福 。 值 越 高 ,则 它对 其链 出 网页 的推 荐能 力 ae n 算 8 9 大 学 的 S r e rn [ ar a e 出来 就 越 大 ;一 个 网页的 链 出网页 越 少 ,那 eg y B i  ̄ L ry P g 提 1 的1,是商业搜索 引擎 Go ge ‘ i o l 采用的链接 么它对 其中一 个链 出网页的推 荐程 度就越 高 。据 此 计算 出每个 网页 的重 要性 综 合
式 () 以 用 网 页 的随 机漫 游 模 型进 行 1可
基于时间反馈和分类技术的PageRank改进算法

其中 R ( ) 是 网页 的页面级 别 , 参 数 d为介 于 ( 0 , 1 ) 区 间的衰 减 因子 , 其 取值 的大 小不影 响 网页 的排 名 , 但一 般取 0 . 8 5左 右 , B , 为指 向 网页 的其 他 网 页 , Ⅳ 是 网页 “中 向外指 出的链接 数 目。 但 是 由于 P a g e R a n k算 法 只是 客观 的分 析 网页
反 馈结 果影 响最 大 的就是 网页 排序 所使 用 的排 序算 法, 它 的作 用是 接受 到用户 检 索需求 时 , 在索 引数 据
库 中查 找 出所需 内容 , 并 将查 询 内容 按 照 相关 度进 行 计算 , 给 出排 列顺 序 , 再 将结 果反馈 给 用户 。 本 文剖 析 了基 于链 接 的经 典 排 序 算 法 P a g e R . a n k算 法 和 H I T S算法 , 并 对 已有 的基于 P a g e r — a n k算 法 的改 进 算 法 也 进 行 了深 入 的分 析 , 在 此 基 础上 , 提 出基 于时 间反馈 和分 类技 术 的 P a g e R a n k改
网页 之 间 相 似 度 的 搜 索 引擎 排 序 算 法 , 即C a t e g o —
r y R a n k算法 。如果 网 页 A有 一 个 指 向 网 页 B 的链 接, 网页 和 曰 在 内容 上 可 以 归类 于 某 一 个 类 别 , 然 后针 对 A和 B所 属 的类 别 之 间 的相 似 度 获 得 一
1 P a g e R a n k算 法分 析
P a g e R a n k 算 法是 搜 索引擎 G o o g l e的核心 算 法 ,
个 权值 , 并把这个权值加权到 R ( A) / N A 中 ,从 而
基于PageRank改进算法的微博影响力排名

基于PageRank改进算法的微博影响力排名王东升【摘要】针对微博用户影响力排名问题,对微博用户影响力关联要素进行分析,将粉丝与关注者的互动行为纳入到影响力评定方法之中,提出一种基于PageRank 的微博用户影响力排名算法(UI-Rank算法)。
实验表明算法的计算结果反映微博用户自身影响力的实际效果,能够提高微博用户影响力排名的准确度。
%Accordance with user influence ranking issue of micro-blog, related factors consists in user influence of micro-blog have get analysis. In-teractive behaviors between fans and followers are integrated into method of influence evaluation, presents the user influence ranking algo-rithm (UI-rank) of micro-blog based on PageRank. Experiment shows that computing result of the algorithm is quite consistent with actual effect of user themselves influence and it can improve accuracy of user influence ranking of micro-blog.【期刊名称】《现代计算机(专业版)》【年(卷),期】2015(000)019【总页数】4页(P27-29,35)【关键词】微博;PageRank;用户影响力;UI-Rank算法【作者】王东升【作者单位】上海海事大学信息工程学院,上海 201306【正文语种】中文PageRank算法是在微博用户影响力研究领域相对普遍及重要的算法。
PageRank算法的分析及其改进
V L36 o
・
计
算
机
工
程
21 0 0年 l 1月
Nov m b r201 e e 0
N o 22 .
Co pu e m t rEng ne rng பைடு நூலகம் ei
开 发研 究 与设 计 技术 ・
文章编号:l o -2( l2—0 l 3 0 _3 800 2_9—0 0 ’4 2 ) 2
歃丽
■— ——
P g Ra k算 法 的 分析 及 其 改进 ae n
王德 广 ,周志 刚 ,梁 旭
( 大连交通 大学软件 学院 ,辽宁 大连 l6 2 ) 0 8 1
摘
要 :在分析 P gR n a e ak算法存在偏重 旧网页、主题漂移 、网页权值均分、忽视 用户浏览兴趣现象的基础上 ,对其进行改进 ,考虑 网页
修改 日期 、网页文 本信 息、网站权威度 、用户兴趣 度等重要因素 ,重新计算 网页 P R值 。实验结果表明 ,改进算法可提高搜索 引擎对 网页 排序 的准确 度,以及用户对检 索结果的满意度 。 关键词 :P g Rak算法 ;搜索 引擎 ;文本数据挖掘 ;P ae n 尺值
A na yss0 ge a l o ihm nd I sI pr ve e l i fPa R nkA g r t a t m o m nt
W ANG — u n , De g a g ZHO U ig n , ANG Zh — a g LI Xu
( ot r e h oo yI s t t, l nJa tn ies y Dai 1 0 8 C ia Sf wa e c n lg t ue Dai i o gUn v ri , l n 1 6 2 , hn ) T ni a o t a
一种改进的PageRank算法
O 引 言
随着 信息 技术 的快速 发展 , 互联 网已成为人 们生活 中不可 缺少 的信息 来源. 据 中国互联 网络信 息 中心 根
( NNI ) 0 0年 1月 的报 告统 计 , 至 2 0 C C 21 截 0 9年 1 月 , 国上 网 用户 已达 到 3 8 2 我 . 4亿 人 , 互联 网普及 率 达到 2 . %口 . 8 9 ] 这一数 据标 明 , 国 的互联 网正 在飞速发 展. 而 , 使 用 的过程 中 , 户发 现 检 索结 果并 不 如人 我 然 在 用 意. 这些 问题 的 出现 , 或多或 少会影 响到用 户使用 互联 网的频率 , 直接影 响 到互联 网的进一 步普及 . 研究 发现 , 网页排 序算法 是影 响搜索 引擎性 能的关键 技术 , 是评价搜 索 引擎 的重 要技术 指标. 因此 , 网页
排 序算法 引起 了信息 研究领 域众 多学者 的关注 , 逐渐 发展成 为一个相 对独 立 的研 究方 向 , 并 其研究 方法 和手
段 上也逐渐 成熟 , 出现 了各样 网页级别 算法 .
在这些 算法 中 受人们 关注 的是 1 9 备 9 8年 由 S r e r eg yB i n和 L wrn eP g[ 出的基 于 链 接分 析 的 a e c a e 提
准 率.
[ 键 词 ] 搜 索 引 擎 ; a e n 算 法 ; 类 技 术 ; 据 库 相 关度 关 P g Ra k 分 数
基于概念的权重PageRank改进算法
摘 要 对 比 了基 于链 接 分析 的搜 索 引 擎排 序 算 法 P gR n a e a k和 HI S T 。针 对 原 有 P gR n ae a k算 法 采 用 的平 分 页 面 自 身 P gR n ae ak值 的策 略 , 出 了一 种 按 权 值 分 配的 改 进 算 法 。 权值 由 页 面 间 的概 念 关联 比 重 和 用户 的搜 索概 念确 定 。 提
PgR n ae a k值 o
2 2 P g R n 值 的计 算 页 面 P g R n 值 的计 算公式 为 : . ae a k a e ak
P A)=( R( 1一d + d P T1 C( )+… +P T c ) ( R( )/ T1 R( )/
( ) T )
假设 页面 T ~T 都 有超 链接指 向页 面 A I 。其 中 P ( ) 示 RA表
以上公 式 , 归计算 各网 页的 P g R n 递 ae a k值 , 直到 网 页的 P g R n ae a k
的 人力 和时 间进行分 类及 维护 已存在 的分类 。 目前基 于链接 结构分 析的 搜索引 擎 排序 算 法 主要 有 两种 : 一
种 是斯 坦福大 学 S re r egyBi n和 L wrneP g 提 出的 P g R n a e c a e ae a k算 法L , 了验证该 算法 的性 能 , l 为 j 他们 建立 了 G o l 索引擎 的原 o ge搜 型 j 现在 Go ge , o l已经 成为 全世 界 最 知 名 的搜 索引 擎 之一 ; 一 另
值趋 于稳定 。由 于其 用 户 行为 模 型 假设 用 户访 问 网 络是 完 全 随
机的 , 因此一 个 页面的 Pg R n a e a k值被 平 分给 了 其所 指 向的 页 面 , 由 上述公 式中 的项 P T。 C( ) R( )/ T。可以 明显地看 出其平 分策 略 。
微博环境下基于用户行为与主题相似度的改进PageRank算法
微博环境下基于用户行为与主题相似度的改进PageRank算法朱颢东;丁温雪;杨立志;冯嘉美【期刊名称】《计算机工程》【年(卷),期】2017(043)005【摘要】针对传统PageRank算法存在主题漂移、网页权值均分等问题,提出一种改进的PageRank算法.为提高用户查询效率和搜索质量,结合时间反馈因子对用户转发、用户评论和微博提及行为进行综合分析,采用统计分析方法对用户行为在微博用户影响力排序中的贡献进行度量,并利用改进的TF-IDF算法计算主题相似度权值使用户能够选择相关度较高的网页,从而获得相对应的PageRank权值.实验结果表明,与微博常用排序算法相比,改进PageRank算法具有更好的用户影响力排序效果.%Aiming at the theme drifting and the page weight splitting of traditional PageRank algorithm,an improved PageRank algorithm is proposed.In order to improve the user query efficiency and search quality,combined with the time feedback factor,it makes a comprehensive analysis on user forwarding,user comments and micro-blog mentions.Statistical analysis is used to measure the contribution of user behavior in the ranking of micro-blog user influence.By using the improved TF-IDF algorithm to calculate the similarity weight of the topic,the user can select the Web page with high relevance to obtain the corresponding PageRank weight.Experimental results show that comparedwith common microblog ranking algorithms,the improved PageRank algorithm has better user influence ranking effect.【总页数】6页(P179-184)【作者】朱颢东;丁温雪;杨立志;冯嘉美【作者单位】郑州轻工业学院计算机与通信工程学院,郑州450002;郑州轻工业学院计算机与通信工程学院,郑州450002;郑州轻工业学院计算机与通信工程学院,郑州450002;郑州轻工业学院计算机与通信工程学院,郑州450002【正文语种】中文【中图分类】TP301【相关文献】1.改进PageRank算法对微博用户交互行为的影响 [J], 席运江;吴柯;廖晓2.基于用户行为与页面分析的改进PageRank算法 [J], 王旭阳;任国盛3.基于用户兴趣与主题相关的PageRank算法改进研究 [J], 王冲;纪仙慧4.基于改进 PageRank算法的微博用户影响力排序研究 [J], 丁温雪;徐家兴;朱颢东5.基于主题相似度改进的PageRank算法研究 [J], 刘齐;黄树成因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模 达 到 3 2亿 人 ” 因此 , 索 引 擎 如何 在 海 量信 . 。 搜 息 中让用 户快 速准 确 地 检 索 出 有用 信 息 已经成 为
FANG Shu f n —e g
( h a x o y e h i n tt t ,ma y n 7 2 0 , i a s a n i l t c n c i siu e p na g h g Ra k a g rt m mp a i o l a e , h me o f e n b p g s t e ev ,h a — s r c : y a a y i g t e Pa e n l o ih e h ss n o d p g s t e , fs t d we a e o d c i e t e P g a e n l o i m a e n u e e d a k, d e h s rc ik n t e b s so h r i a l o i m , h l o ih f e b c Ra k ag rt h b s d o s r f e b c a d d t e u e l so h a i ft e o i n l g r h t e a g rt m e d a k c g a t a d c ik tmef e b c n f e b c i h s c mb n d wi h h n i g o h o tag r h b s d we o t n , d i g t e n l i e d a k a d e d a k we g t , o i e t t e t i k n f e s r l o i m- a e b c n e t a d n h c h t t
1 引 言
随着互 联 网 的不 断 发 展 , 络信 息 的暴 涨 , 网 网 络 已经 成 为人们 获取 信息 的重 要来 源 , 使得搜 索 也 引 擎成 为人 们 必不 可 少 的信 息 检索 工 具 。 中 国互
联 网信 息 中心 ( NNI ) 《 2 C C 在 第 6次 中 国互 联 网发 展状 况统 计 报 告 》[ 中 指 出 : 截 至 2 1 1 “ 0 0年 6月 , 搜索 引擎 在 网 民 中的 使 用 率 达 到 7 . % , 户 规 63 用
P gRak算 法 中存 在 的 问 题 。 ae n
关键词 : ae a k 排序算 法; 索引擎 P gR n ; 搜
中 图 分 类 号 : 3 16 TP O . 文献标识码 : A ‘
Ba e n Us r Fe d a k Pa e nk Al o ih s d o e e b c g Ra g r t m
a k ag rt m. n l o ih Ke r s P g Ra k; o t g a g rt m ; e r h e g n y wo d : a e n s r i l o ih s a c n i e n
了用户 反馈在 搜索 引擎 中使用 的方 式 , 提 出了 改 并
进 的方 法 。
2 P gR n ae a k算 法
P gR n a e a k算 法 是 由 斯 坦 福 大 学 的 S re eg y
Bi r n和 L ryP g ar a e在 1 9 9 8年 提 出 的[ , 基 于 页 2是 ]
面链 接分 析的 一种 排 序 算法 。它 采用 了传 统 情 报
基 于 用 户 反 馈 的 P g Ra k 改 进 算 法 ae n
方 树 峰
( 西 工业 职 业 技 术 学 院 , 西 咸 阳 陕 陕 720) 1 00
摘 要 : 过 分 析 P gR n 通 ae a k算 法存 在 的偏 重 旧 网 页 问题 、 主题 偏 移 问 题 及 网页 欺 骗 问题 , 出一 种 基 提 于 用 户 反馈 的 P g R n a e a k改 进 算 法 , 算 法在 原 算 法 的 基 础 上 添加 用 户 点 击 次 数 反 馈 和 点 击 时 间反 馈 及 反 该 馈 权 重 , 结合 基 于 网 页 内容 的排 序 算 法 思 想 , 入 网页 内容 权 重 , P 值 的 计 算 公 式 进 行 改 进 , 而 克 服 并 加 对 R 从
weg to h b c n e t t mp o e t e f r l ft ePR a u , h r b v r o n h x s i g p o lm sb h a e i h ft e we o t n ,o i r v h o mu a o h v l e t e e y o e c mi g t e e it r b e y t e P g R— n
第 3 第 1期 1卷
2012年 3月
计
算
技
术
与 自 动
化
Vo . 1, .1 1 3 NO
M a . 20 12 r
C mp tn c n l g n t ma i n o u i g Te h o o y a d Au o t o
文 章 编 号 :0 3 69 (0 2 0 -0 8 - 0 10 — 1 9 2 1 ) 1 0 9 4
检索理 论 中的 引文分 析方法 , 即一 篇文 章 的质量 和 重要程 度取决 于其 他文 章 对其 的 引用 次 数 和 其 他 文章本 身 的质 量 , 决 定一 个 网页 的 重要 性 , 根 来 并 据其重要 性来 对搜 索结果 进行 排序 。
2 1 P gRa k算 法的基 本原 理 . a e n