链接分析

合集下载

基于链接分析和用户兴趣的微博社区发现算法

基于链接分析和用户兴趣的微博社区发现算法

基于链接分析和用户兴趣的微博社区发现算法基于链接分析和用户兴趣的微博社区发现算法1. 引言社交媒体的爆发式增长带来了大量用户生成的内容,如微博。

微博社区的发现对于理解用户之间的连接和相似性非常重要。

本文将介绍一种基于链接分析和用户兴趣的微博社区发现算法,旨在帮助人们更好地理解和利用微博社交网络。

2. 微博链接分析算法链接分析是一种广泛应用的算法,用于发现网络中节点之间的关系。

在微博社区发现中,我们可以通过分析用户之间的关注关系建立链接图。

具体而言,我们可以将微博用户表示为网络中的节点,而关注关系则表示为节点之间的链接。

通过构建节点和链接的网络模型,我们可以应用诸如PageRank算法等链接分析算法,来衡量节点的重要性和社区结构。

3. 用户兴趣模型为了更准确地发现微博社区,我们需要考虑用户的兴趣。

用户兴趣是用户在社交网络中互动行为的反映,可以通过分析用户的微博内容来构建用户兴趣模型。

我们可以提取用户发表的微博文本中的关键词、主题等信息,以及用户对其他用户微博的评论和转发行为,来揭示用户的兴趣。

4. 基于链接分析和用户兴趣的微博社区发现算法本文提出的微博社区发现算法包括以下几个步骤:4.1 构建微博用户网络模型根据用户之间的关注关系构建微博用户的链接图,节点表示用户,链接表示关注关系。

为了获得更准确的社区发现结果,我们可以考虑对关注关系进行加权,例如根据用户之间的互动频率和互动方式给链接赋予权重。

4.2 应用链接分析算法根据构建的用户网络模型,应用链接分析算法来衡量用户的重要性和社区结构。

例如,我们可以使用PageRank算法计算用户的PageRank值,值高的用户可能是社区的核心用户。

通过聚类分析等方法,可以将用户划分到不同的社区中。

4.3 构建用户兴趣模型根据用户发表的微博内容提取关键词、主题等信息,构建用户的兴趣模型。

可以使用文本挖掘和机器学习等技术来提取用户兴趣。

4.4 应用用户兴趣模型结合用户的兴趣模型和链接分析结果,可以更准确地发现微博社区。

链接分析

链接分析

链接分析链接分析是一项重要的研究领域,它主要关注网页和网站之间的链接关系以及其对用户体验和搜索引擎优化的影响。

本文将简要介绍链接分析的概念、原理和应用,并探讨其在网络发展中的重要性。

链接分析是一种基于超链接的网站分析技术,它通过分析网页之间的相互链接关系来了解网页的重要性和权威性。

基于链接关系的分析方法有很多,其中最著名的是PageRank算法,由谷歌公司创始人之一拉里·佩奇提出。

PageRank算法通过统计网页的入链和出链数量以及这些链接的权重来计算网页的重要性,从而为搜索引擎提供更准确的搜索结果。

除了PageRank算法,链接分析还包括其他一些方法,如HITS算法和倒排索引等。

HITS算法是一种基于网页之间互相引用关系的链接分析算法,它可以给网页分配权威值和枢纽值,从而更好地判断网页的重要性。

倒排索引是一种将关键词与网页之间的链接关系进行反向索引的技术,它可以提高搜索引擎的检索效率。

链接分析不仅在搜索引擎优化中起着重要作用,还在社交网络分析、知识图谱构建等领域有广泛应用。

在社交网络中,链接分析可以用来判断用户之间的关系强度和影响力,如通过分析用户之间的关注和点赞行为来计算用户的影响力指数。

在知识图谱构建中,链接分析可以用来发现实体之间的关联关系,从而提供更准确的知识检索服务。

链接分析的发展受到了许多因素的影响,其中包括互联网用户数量的增加、网页信息的爆炸式增长以及搜索引擎技术的进步。

随着互联网的普及,越来越多的用户依赖搜索引擎来获取信息,而搜索引擎又依赖链接分析来提供准确的搜索结果。

因此,链接分析在互联网发展中扮演着重要的角色。

然而,链接分析也面临一些挑战和问题。

首先,人工操纵链接关系以提升网页的权威性和重要性成为一种行为,这对链接分析的准确性和可靠性产生了一定影响。

其次,随着社交网络和垂直搜索的兴起,链接分析的方法需要不断更新和改进,以适应不同领域和应用的需求。

总之,链接分析作为一种重要的网站分析技术,在提升搜索引擎的准确性、用户体验和知识图谱构建等方面发挥着重要作用。

链接分析法存在的问题及改进方法

链接分析法存在的问题及改进方法

是 可行 的 , 但是 由于搜 索 引擎 自身 存 在 一些 问题 , 使 链 接分 析数 据 的准 确 性难 以保证 。 2 1 搜 索 引擎 的覆 盖 面有 限 .
由于 网 络 的 动态 性 , 网页 的变 化 情 况 是 比较 复 杂的, 每一 时 刻都 有成 千 上万 的 网页 出现 , 同时 也有 许 多 网页消 失 。任 何 一个 搜 索 引擎 都 不 可能 覆 盖到
组织 。信 息 源 不仅 分散 和 无 序 , 而且 其 更 迭 和消 亡
也往 往无 法 预测 。③信 息 的 发 布不 需要 经 过 严格 的 审查 , 有很 大 的 自由性 和 随 意 性 。 因 此质 量 没 有 具 保 证 , 息污 染 的情 况 严重 。 信 根据 网络 信 息 的特 点 和 网 络链 接 的 类 型 , 们 我
假设 是 引文 分 析 有 效 性 的 前 提 。 归 纳起 来 , 引文 分 析 的基 本 假设 主要 有 以下 几 点 : 文 献 被 引 用 意 味 ①
检 索功 能来 得 到分 析 的数据 。 因为现 在 的搜 索 引 擎 是基 于链 接分 析 的 , 以从理 论 上 说 , 用搜 索 引 擎 所 利
显得 更 加 突 出 。 1 链接 分 析 赖 以进行 的前 提 有时 不 能成 立
1 1 网络 链 接 的 类 型 .
链 接 分 析 也 是要 采用 数 学 方 法 和 逻 辑 方 法 , 同
样 , 也有 一些 基 本假 设 。可 以概 括 为 以下 几 点 : 它 ①
某 网站 ( 网页 ) 链 接 与该 网站 ( 被 网页 ) 的质 量 有 正 向 ( 定) 肯 的联 系 ; 被链 接 者 与 链 接 者 在 内容 上 是 相 ②

分析超链接和文档链接对文档阅读体验的影响

分析超链接和文档链接对文档阅读体验的影响

分析超链接和文档链接对文档阅读体验的影响在当今数字化信息时代,文档的形式和阅读方式发生了巨大的变化。

超链接和文档链接作为文档中的重要元素,对我们的阅读体验产生了深远的影响。

它们就像是在文字的海洋中架起的桥梁,引导着读者在知识的岛屿间穿梭。

但这些桥梁有时也会给我们的阅读之旅带来一些挑战。

超链接,简单来说,就是可以点击并跳转到其他网页、文档或者特定位置的链接。

文档链接则主要是在同一文档内部不同部分之间建立的连接。

它们为文档增添了动态性和交互性,使文档不再是孤立、静态的信息集合。

先来说说超链接给阅读体验带来的积极影响。

超链接极大地拓展了文档的信息量。

当我们在阅读一篇文章时,如果遇到一个不太熟悉的概念或者想要深入了解的话题,只需轻轻点击超链接,就能立即获取到相关的详细解释、背景资料或者更多的案例。

这就好比在阅读一本百科全书,每一个感兴趣的知识点都能迅速展开,让我们的知识视野得以快速拓宽。

比如,我们在阅读一篇关于历史事件的文章,文中提到了某个重要人物,通过超链接,我们可以直接跳转到该人物的详细介绍页面,了解他的生平、成就以及对历史进程的具体影响。

这种即时获取信息的便捷性,大大提高了我们获取知识的效率,使阅读变得更加丰富和深入。

超链接还能够增强文档的可信度和权威性。

当作者在论述观点时,可以通过超链接引用权威的研究报告、学术论文或者官方数据,让读者能够自行验证和参考。

这不仅为作者的观点提供了有力的支撑,也让读者对所阅读的内容更加信任。

例如,一篇关于健康养生的文章,如果作者提到某种新的治疗方法的有效性,通过链接到相关的医学研究报告,读者可以亲自查看实验数据和研究结论,从而对文章中的观点有更准确的判断。

然而,超链接并非只有优点,它也给阅读体验带来了一些挑战。

过多的超链接可能会导致阅读的注意力分散。

当页面上充斥着各种诱人的链接时,我们很容易被吸引而偏离当前的阅读主线,陷入无休止的跳转和浏览中,从而忘记最初的阅读目的。

全方面完全分析高质量链接完全体特征

全方面完全分析高质量链接完全体特征

目标网站的主关键词搜索引擎排名,目标域名的注册历史、 PR、
照的更新快慢等,这些都是我们交换的评定标准。详细的评定
标准虽然很常见但是这里还是要简单的提一下,域名注册历史 越久搜索引擎给予的权重就是相比新域名来说越高,已经被业
Hale Waihona Puke 内人士所实验证明, pr 值现在鉴于谷歌长期的不更新已经不是 那么的被看重,目标网站的更新幅度也是很重要,你应该不会 和一个长期不更新的死站交换相同的搜索引擎也不会认为一 个整体权重和更新幅度,所以
我们要去注意。
这里说一个大家很困惑的问题,日常在交换链接的同时大家 可能会发现在交换链接的网站上面导出链接类型参差不齐,而
且还有很多的单向导出链接,其实这里是有标准的,那就是链 接的邻居,如果链接邻居是一些垃圾网站擦边球网站,那么相 应的这个网站投票也会相应意 之举是增加了网站链接邻居的质量,搜索引擎也会相应的加分,
先说第一点就是常见的不可多得的单相连接,其实做好的 外部链接就是一些站长们给予我们站点的一些单项的锚文本 链接,因为单相连接顾名思义就是对方单链到你的站点,而你 不需要链接回去,但是这种单相连接是非常不容易建立的,常 见的交叉连接有很多的弊端,所以这种链接是可遇不可求的,
这样被充分证明了单相连接的稀有性,相比交换友情链接,单 相连接的权重导向要高出许多。这种单项链接的权重会随着
多的类型都是可遇不可求的在做站长的生涯中培养自身资源, 人际关系是最重要的,一个新的论坛能够得到同行业顶级的各
大论坛的链接,这种高质量的链接一般是得不到的,但是一旦 人际关系达到,这些你都会有的,所以做外联的时候我们是在 成长中学到更多的东西,不要去可以的要求自己,尽量接近就 可以了!
联网上面很多的网站外链很少但是网站排名都会在一些外联 巨大而排名不好的网站上面,这就是高质量外链和低质量外链 所存在的区别,一条高质量的外链可以同等于低质量外链上百 甚至上千条,所以我们就应该去了解高质量外链都具有哪些完 全体特征,这样我们建立外链起来就会有目标有头绪的去建立,

分析超链接和文档链接对文档阅读体验的影响

分析超链接和文档链接对文档阅读体验的影响

分析超链接和文档链接对文档阅读体验的影响在当今数字化信息爆炸的时代,我们每天都在与各种各样的文档打交道。

无论是在学术研究、工作办公还是日常的网络浏览中,文档都是传递知识和信息的重要载体。

而在文档中,超链接和文档链接的存在无疑对我们的阅读体验产生了深远的影响。

超链接,简单来说,就是可以通过点击从一个网页或文档跳转到另一个网页或文档的链接。

文档链接则通常是指在一个文档内部,从一个部分跳转到另一个部分的链接。

这两种链接形式虽然都旨在提供便捷的导航和信息获取方式,但它们对阅读体验的影响却有所不同。

超链接为我们打开了一个广阔的信息世界。

当我们在阅读一篇文章时,如果遇到一个感兴趣的关键词或短语,点击超链接就能立即获取更多相关的详细信息。

这极大地拓展了我们的知识视野,让我们能够更深入地探索某个主题。

比如,在一篇关于历史事件的文章中,提到某个重要人物时设置了超链接,点击后可以跳转到该人物的详细介绍页面,了解其生平事迹、贡献和影响。

这种即时获取信息的方式节省了我们自己去搜索和筛选的时间,提高了信息获取的效率。

然而,超链接也并非全是优点。

过多或不恰当的超链接可能会分散读者的注意力。

当一篇文档中充斥着大量的超链接时,读者很容易被这些链接吸引,频繁地跳转,从而导致阅读的主线被打断,难以集中精力理解文档的核心内容。

而且,如果超链接所指向的页面内容质量参差不齐,或者与读者的预期不符,也会给阅读带来不好的体验。

比如,点击一个看似很有价值的超链接,结果却跳转到一个充满广告或者无关信息的页面,这会让读者感到失望和沮丧。

相比之下,文档链接在文档内部起到了引导阅读流程的作用。

它可以帮助读者更轻松地在文档的不同部分之间切换,特别是对于那些篇幅较长、结构复杂的文档。

比如,一份产品说明书可能分为多个章节,通过文档链接,读者可以快速地从产品特点介绍跳转到使用方法说明,或者从常见问题解答跳转到售后服务信息。

文档链接使得文档的组织结构更加清晰,读者能够更有针对性地获取所需的信息,而不必在冗长的文本中费力查找。

网络链接分析分解

网络链接分析分解
6.桥。连接知识点的桥。
7. 词典。网上通用。将各种具有"链接" 功能的素材编制一个word文件。日积月 累下来,就是一本自编自用的"词典"了!
8. 网。点--线--网。通过互联网的网络链 接,将各门各类知识网罗到我们和下一 代的心中,让智慧和经验代代传承。
链接术语的图解
B有一个来自A的入链,A与B之间, A是链接来源,B是链接目标
白色的大球表示网站主页,小球代表网站的二级及二级以下页面; 绿线代表链接,将不同的网站、网页连结在一起形成网络。
1965年,Ted Nelson提出术语 超文本(Hypertext)。 1978年,在《Dream Machines》中他提到了“链接”, 并指出“链接”将带来文件的连通性。1981年,使用 术语“超文本”描述了这一想法:创建一个全球化的 大文档,文档的各个部分分布在不同的服务器中,通 过激活其中的“链接”,就可以跳转到所引用的论文。
二网络链接的作用
1. 辐射。以点带面。互联网--互连网--互链网。如我们 上网以后,不管在"地址栏"里键入那个网站的网址, 就能进入该网站。又如我们在"收藏夹"里收藏有许多 网址,想进那个网站,就进那个网站。这是小局域网 与大网站的互联。
2. 包容。你中有我,我中有你。如两个网站之间的链 接,新浪网首页给谷歌网留有查询窗口,搜狐网给搜 狗网留有查询窗口。
计 算 机 科 学 视 角 的 链 接 分 析 ( Computer science link analysis approach, CSLAA)
社会科学视角的链接分析等(Social science link analysis approach, SSLAA)
除此此外,还有统计物理学家、数学家等从其他 视角研究链接分析。

网络链接分析的链接层次分类

网络链接分析的链接层次分类
链 接 等级 思想 . It t 在 ne me 域名 结构 和 网站 层次 结构 的基 础上 对链接 进行 层次 划分 。
2 We b基 本 概 念
2 1 I tme 域 名 结 构 . ne t
任何 一个 连 接在 Itme 上 的主机 或路 由器 , ne t 都 有一个 惟一 的层 次结构 的名 字 , 为域名 。 称 域名 分为 若 干 等 级 , 等级 之 间 用 小 数 点 “ 连 接 , 现 为 下 各 . ” 表
在 网络链 接研 究 中 .不 同 的研究 者 由于研 究 目
的不 同 , 往采用 不 同 的链接 分类方 法 。 往 刘 雁 书 、方平 根 据施 链 网页 与被链 网页之 间 的
关 系将链接 类 型 分为 推 荐链 接 、合作链 接 、相 关 链 接 、 源链 接 、 资 通讯 链 接 、 广告链 接 6种 。邱 均平 、 黄 晓斌根 据功 能 和属 性将 链 接划 分 为导航 链 、 执行 链 、 类 型链 、 推理 链 和 自动链 。 张海 涛 等人根据 3种 不 同
面这种 形式 :
… …

三级域 名 . 二级 域 名. 顶级 域名
各 级域 名 自左 向右级 别 越来 越 高 ,最 右边 的是 顶 级域 名 . 目前 顶级域 名 主 要分 为两 类 . 国家代码 域 名 和通 用域 名 . 此外 还有 一个 特 殊 的顶 级域名 ( ra .p) a 分 配给 It t 部组织 。 n6 me 下 国家代 码域 名( n u ,. ,j ,. , t. . ,. d . u e ) a k e p s c;
1 链 接 分 析 研 究 的 两 个 关 键 问题
11 自 动 化 分 类 .
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随机跳转
我们将采用马尔科夫链理论来说明,当冲浪者采用这种混合过程
(随机游走加上随机跳转操作)时,他就会以一个固定的时间比例 π(v)访问每个节点 v,其中 π(v)依赖于 (i) Web 图的结构;(ii) α 的。 我们称 π(v)为 v 的 PageRank
21.2.1 马尔科夫链
马尔科夫链是一个离散时间随机过程,这个过程中的每一步都需要做 一个随机选择。一个马尔科夫链包括 N个状态(state)。 马尔科夫链通过一个 N×N的转移概率矩阵P来刻画,其中每个元素的 值在[0,1]之间,并且 P 中每一行的元素之和为 1。 Pij被称为转移概率,它仅仅依赖于当前的状态 i,这种性质被称为马尔
科夫性。
21.2.1 马尔科夫链
因此,基于马尔科夫性,我们有

=1 满足上述性质的非负矩阵被称为随机矩阵。
21.2.1 马尔科夫链
包含 3个状态的简单马尔科夫链 从中间的状态 A出发,可以分别以等概率 0.5到达 B或 C。 而从 B或 C出发,都会以概率 1到达 A。该马尔科夫链的转移概率 矩阵为:
假定我们有一个包含好的 hub网页和 authority网页的 Web子集及它们 之间的链接。
下面我们将介绍如何基于这个子集迭代计算每个网页的 hub值和
authority值。
21.3 Hub 网页及 Authority 网页
在上述 Web子集中,某个网页 v的 hub值记为 h(v),authority值记为 a(v)。 对于任一节点 v,初始化赋值为 h(v)=a(v)=1。
21.1.2 PageRank 的计算
设想冲浪者的初始状态为 1,对应的初始状态概率分布向量为=(1,0,0)
21.1.2 PageRank 的计算
反复迭代一定次数之后,x=( 5/18 4/9 5/18) 假定状态 1 和状态 3 具有相同的稳态概率,记为 p
稳态概率分布的形式为 = ( p 1-2p p)
HITS算法(超链导向的主题搜索) 21.3.1 Web 子集的选择
21.1 Web 图
Web可以看成一个有向图 (1) 指向页面 B 的锚文本是对 B 的一个很好的描述。 (2) A 到 B 的超链接表示 A 的作者对 B 的认可。
21.1.1 锚文本和 Web 图
<a href="/jacm/">Journal of the ACM.</a> 链接指向页面/jacm/ 其锚文本为 Journal of the ACM。 那么,锚文本到底起什么作用呢?
本节中,给定某个查询,我们对每个网页给出两个得分
一个得分被称为hub值,另外一个被称为authority值。 因此对于任一查询,我们都可以得到两个排序结果列表,其中一个 基于hub值,而另一个基于authority值。
21.3 Hub 网页及 Authority 网页
比如“ 我想了解白血病相关的知识” 。 对于这个主题而言,存在一些权威性的网页,比如美国国家癌症研
第21讲 链接分析
目前国内外主要将网络链接分析方法用于 网络信息资源评价、网站网络影响力评价、大学评价、期刊评价 核心网络与核心作者发现、网络社区发现(如博客群)
竞争情报与竞争对手分析、网站关联分析
虚拟社区、搜索引擎优化等方面,并且取得了丰硕的研究成果。 网络链接分析及其应用展现出勃勃生机。 文庭孝,王尧等.网络链接分析应用研究综述[J]图书情报知识.2011(4):84-96 李江,殷之明.链接分析研究综述[J]大学图书馆学报.2008(2):51-58
(1)用每行中的 1 的个数去除每个 1,因此如果某行有 3 个 1,则每
个 1 用 1/3 代替; (2) 上面处理后的结果矩阵乘以 1-α; (3) 对于上面得到的矩阵中的每个元素都加上α/N
21.2.1 马尔科夫链
定义 一个马尔科夫链,如果存在一个正整数 T0使得对其中所有的状态对 i、j 都满
利用恒等式 p = 5/18,于是=( 5/18 4/9 5/18)
21.2.3 面向主题的 PageRank
考虑非等概率跳到一个随机网页的情况,这样就可以推出基于特定的兴
趣的 PageRank。
比如,一个体育迷可能希望有关体育主题的网页的排名要高于非体育主 题的网页。
在随机游走过程中,一个喜欢体育类网页的冲浪者可能会在这类网页上
第21讲 链接分析
邱均平教授认为,要想取得突破性进展,还需要完善以下几个方面的研究 明确研究对象及相关基础理论研究 加强方法研究,形成自身独特的方法体系
大力开发和完善专用工具和软件
积极探索新的应用领域,使应用视野逐渐突破科研和教育领域,拓展到 更为广泛的应用空间。
第21讲 链接分析
21.2.1 马尔科夫链
Web图的邻接矩阵A可以如下定义
如果存在网页i到网页j的一条链接,那么Aij=1,否则 Aij=0。 这样,我们很容易就可以从N×N的矩阵A推导出马尔科夫链的转移 概率矩阵P。
21.2.1 马尔科夫链
转移概率矩阵P的计算
如果A的某一行没有 1,则用 1/N代替每个元素。
对于其他行的处理如下:
21.3 Hub 网页及 Authority 网页
HITS计算方法
A( p ) H ( qi ) (其中qi是所有链接到p的页面) H ( p ) A( ri ) (其中ri是所有页面p链接到的页面)
一个网页被越重要的导航型网页指向越多,那么它的Authority越大; 一个网页指向的高重要度权威型网页越多,那么它的Hub越大。

问次数,那么 =
其 中,π(i) > 0是状态 i的稳态概率。
21.1.2 PageRank 的计算
原始的PageRank公式
R(u)和R(v)是分别是网页u、v的PageRank值 Bu指的是指向网页u的网页集合 Nv是网页v的出链数目
c为归一化参数 网页的每条出链上每个分量上承载了相同的PageRank分量。
本章主要关注
链接结构信息在 Web搜索结果排序中的使用。
第21讲 链接分析
21.1 Web 图
21.1.1 锚文本和 Web 图
21.2 PageRank
21.2.1 马尔科夫链 21.1.2 PageRank 的计算 21.2.3 面向主题的 PageRank
21.3 Hub 网页及 Authority 网页
21.1.2 PageRank 的计算
回顾公式(18-2)转移概率矩阵 P的 N维左特征向量满足
主特征向量 π是带随机跳转操作的随机游走过程的稳态概率,因此也

就是所有 Web网页的Rank Page值。 如果我们计算出对应于矩阵 P 的特征值 1 的主左特征向量的话,那么 就计算出了 PageRank的值。

如果从 v 到 y 存在一条超链接,则记为 。
21.3 Hub 网页及 Authority 网页
A表示我们所处理的 Web子集的邻接矩阵,每一行和每一列都对应 Web 子图的一个网页。
21.3 Hub 网页及 Authority 网页
于是,可以得到以下重要推论 (1)假定 的主特征向量是唯一的,那么h和a最后会收敛于某个唯一 的稳态向量,而具体稳态向量的取值取决于矩阵 A,也就是说图的结 构。
21.1.1 锚文本和 Web 图
因此,锚文本往往比网页本身更能揭示网页的内容; 在计算过程中,锚文本应该被赋予比文档中文本更高的权重。
刻意策划的锚文本可能是一种作弊形式 某个网站可以通过构造具有误导性的锚文本来指向自己,从而提高在某些查询词项上的排名。
21.2 PageRank
链接分析的第一种技术是对 Web图中的每个节点赋一个 0 到 1 之间的 分值,这个分值被称为 PageRank。
21.1.2 PageRank 的计算
简单计算的例子(c=1)
R(A)=R(C) R(B)=0.5R(A) R(C)=R(B)+0.5R(A) R(A)+R(B)+R(C)=1 解上述方程得: R(A)=R(C)=0.4 R(B)=0.2
21.1.2 PageRank 的计算
原始PageRank的一个不足
21.2.3 面向主题的 PageRank
实际上,我们可以假设每个人的兴趣可通过多个主题网页分布的线 性组合来很好地近似。 比如,拥有 60%体育类兴趣和 40%政治类兴趣的用户的个性化 PageRank 就可以表示成:
其中,分别是面向体育和政治主题的PageRank 。
21.3 Hub 网页及 Authority 网页
而一个好的 authority网页同时会被多个好的 hub网页所指向。
authority 和 hub 之间相互优化的关系,即为 HITS算法的基础。
21.3 Hub 网页及 Authority 网页
HITS(超链导向的主题搜索)
如果用户希望了解一个陌生领域的研究内容,hub页面所包含的超链指向各种不 同的链宿,能够提供丰富的信息;但如果用户希望查找一个具体的概念或范畴, 则authority 页面的定位更加准确。 因此,每个网页计算两个值 Hub:作为目录型或导航型网页的权重 Authority:作为权威型网页的权重
图中存在一个循环通路,循环通路中的每个节点它们并不指出去,即不 将PageRank分配给其他节点!
21.1.2 PageRank 的计算
改进的PageRank公式
到达u的概率由两部分组成:一部分是直接随机选中的概率(1-d)或(1-
d)/N,另一部分是从指向它的网页顺着链接浏览的概率,则有
上述两个公式中,后一个公式所有网页PageRank的和为1,前一个公式 的PageRank和为N(1-d)+d 。 PageRank很难通过解析方式求解,通常通过迭代方式求解,d通常取0.85。
相关文档
最新文档