比较PageRank算法和HITS算法的优缺点

合集下载

网页排序算法

网页排序算法

两台主机,如果满足下列条件之一或两
确定专家页面后,在该页面上找出所有包含
热门关键词中术语或者差1到2个术语的短语将 这些短语分为三个等级分。分别为全部包含 S0、差1--S1、差2—S2分别计算等级分
这三个等级相差很大 依次为2^32 2^16和1 而短语得分取决于这个短语在页面中的位置,
分数从高到低--标题 、头部、 锚文本等等 等级分是对各个等级中所有短语得分的和。 然后综合计算这三个等级得分就得到专家分 更倾向于完全匹配
•Expert_Score = 232 * S0 + 216 * S1 + S2
•Si = SUM{key phrases p with k - i query terms} LevelScore(p) * FullnessFactor(p,

H i M * Ai - 1
H i M * M T H i -1
Ai M * H i-1
T
Ai M * M * Ai -1
T
M
1 0 1
1 1 0 1 1 0
1 T M 1 1
0 1 0 1 1 0
先计算一个与用户查询主题最相关的“专家文档”页 面列表,然后通过专家页面找到目标页面,目标页面 按照指向他们的非附属专家文档的数量和相关性进行 排名 若没有找到搜索引擎认为足够的“专家文档”(要求 至少两个),则该算法失效即结果返回为零 对于高度明确化的查询条件,此算法的结果很可能为0
专家页面的搜索和确定对算法起关键作用;而其质量 和公平难以保证 Hilltop忽略了大多数非专家页面的影响 专家页面只占到整个页面的1.79%,不能全面反映民意 Hilltop也是在线运行的,势必会影响查询响应时间, 随着专家页面集合的增大,算法的可伸缩性存在不足 之处

搜索算法比较

搜索算法比较

-57-科技论坛搜索引擎排名算法比较研究董富江杨德仁(宁夏医科大学理学院,宁夏银川750004)引言搜索引擎成功地解决了有效检索和利用互联网上海量信息带来的巨大挑战,成为发现Web 信息的关键技术和用户访问万维网的最佳入口。

搜索引擎优化技术(SEO )通过了解各类搜索引擎如何抓取互联网页面、如何建立索引、以及如何确定搜索引擎结果对某些特定关键词的搜索结果排名等技术,来对网站网页进行相关的优化,从而提高在搜索引擎上的排名。

对主流搜索引擎的排名算法进行分析和比较研究具有很大的理论和现实意义。

1Google 的几种排名算法1.1PageRank 算法。

PageRank 的原理类似于科技论文中的引用机制,即论文被引用次数越多,就越权威。

从本质上讲,Google 把从A 页面到B 页面的链接解释为A 页面对B 页面的支持和投票,把链接作为网站编辑对页面的质量和相关性的投票,即PageRank 算法通过链接关系确定页面的等级和相关性,互联网中的链接就相当于论文中的引用。

页面的PageRank 主要基于导入链接(in -bound links )的数量和提供这种链接的网页的PageRank 。

Google 为互联网中每个页面赋予的数值权重范围是0-10,以表明页面的重要性,记作PR (E )。

Google 根据投票来源(甚至来源的来源,即连结到A 页面的页面)和投票目标的等级来决定新的等级。

PageRank 算法独立于用户查询、是离线的、被实践证明具有快速响应能力和很高成功率。

PageRank 确实是识别一流网站的好方法,对Google 的成功功不可没。

然而它仍存在着明显缺陷:不考虑主题的相关性,从而使得那些从完全不相关链接的网站也在搜索结果中排名靠前;偏重旧网页,过分依赖网页的外部链接;面临着付费链接和交换链接人为操作的挑衅。

1.2TrustRank 算法。

TrustRank 是一种改进PageRank 的方案,它旨在半自动地分离有用页面和垃圾页面,其基本思想是在为网页排名时,要考虑该页面所在站点的信任指数和权威性。

HITS算法与PageRank算法比较分析

HITS算法与PageRank算法比较分析

先设定迭代次数 + , 算法表示如下:
(N, ) " 6 ( 0 & 6 ( + N: & D / 1 1 ( D 6 3 / */ K * 1 3 * + ( B? & ( 5 ’
万方数据
" !
・ 情报方法 ・
: ! "# " $ % & " ’ # % ( ) * & ( , , , …, ) ・3 + * $ , * # . $ * $ / * 0 * 1 $ . & 2 2 2 2 # 4 : 5 * $ 6 4 7 8, 5 * $ 8, 4 9 7: , ,…, : . & ;8 2 < ! (6 , ) , = ’ $ / * ? . * & " $ ; . # $ . ; 4 2 ; 4 2 . ) $ " ; # ; # * A6 BA * ; / $ C 6 D ; 4 > > 9 > 9 @# @ (6 , ) , = ’ $ / *E. * & " $ ; . # $ . ; . ) $ " ; # ; # * A9 BA * ; / $ C ; 4 2 > > 9 > @# @ 94 9 B , F . & ( " ’ ; , *6 ; . ) $ " ; # ; # ; 4 @6 B , F . & ( " ’ ; , * ; . ) $ " ; # ; # ; 4 9 @9 B G # (6 , ) 3 * $ % & # ! 4 ! 9
#? $ 表示页面 对于每一个页面 ? , 用@ C 6 E / 0 3 6 ( 3 E 6 7T ’ ?的 & #? $ 表示页面 的 (权威权重) , 用7 (中心权重) , 满足 C :T ( 3 E 6 ? E ’ #? $) M #? $) M 规范化条件: ( ( 。9 % " 5 O ;且 % " 5 O ; 1 ( 3 * > ? ? !@ !7 将网页权重的传递分为两种方式, 即 操作和 操作。 : ( 0 " U " ’ #? $ # $ 操作为 E 表 示 为: C :到 & C 6 E / 0 3 6 @ &L: % U 7L , 7 的 传 递, ( , ) "I L ? # $ # $, L 操作为 & 表示为: 预 C 6 E / 0 3 6 C :的传递, % @ 7到 E 7 ? &L: ( , ) "I L ?

网络关键节点识别与攻防技术研究

网络关键节点识别与攻防技术研究

网络关键节点识别与攻防技术研究在当今数字化时代,网络已经成为了人们生活和工作中必不可少的一部分。

然而,随着网络的复杂性和重要性日益增加,网络安全也变得越来越重要。

网络关键节点识别与攻防技术研究是网络安全领域中一项具有重大意义的研究方向。

本文将对网络关键节点识别与攻防技术进行深入探讨。

首先,我们需要了解什么是网络关键节点。

网络关键节点是指在一个复杂网络中,具有较大影响力和控制力的节点。

这些节点的破坏或失效会导致网络的崩溃或功能受损。

网络关键节点可以包括物理设备、服务器、路由器等,也可以是网络中的某个重要用户。

在网络关键节点识别方面,有许多方法和算法可供选择。

一种常用的方法是基于网络拓扑结构进行节点的中心性度量。

例如,中心性度量包括度中心性、接近中心性和介数中心性等。

度中心性指的是一个节点与网络中其他节点的连接数量,而接近中心性指的是一个节点与网络中其他节点的平均距离。

介数中心性则是通过计算一个节点在网络中的最短路径上出现的次数来衡量其重要性。

另一种常见的方法是基于节点的重要性来识别网络关键节点。

这种方法通常使用PageRank算法或HITS算法。

PageRank算法是一种通过计算节点的入度和出度来确定其重要性的方法,许多搜索引擎都使用了这种算法来确定网页的排名。

HITS算法主要通过计算节点的权威和架构度来评估其重要性,该算法常被应用于社交网络分析和推荐系统中。

一旦网络关键节点被识别出来,攻防技术的研究就变得尤为重要。

网络关键节点容易受到恶意攻击和不可预测事件的影响。

为了保护网络的安全和稳定性,必须采取相应的攻防技术。

在防御方面,有几个重要的措施。

首先,建立强大的防火墙和入侵检测系统是保护网络关键节点的基本要求。

防火墙可以过滤网络流量,阻止未经授权的访问,而入侵检测系统可以实时监控网络流量,并检测和拦截恶意行为。

其次,加密技术也是网络安全的重要组成部分。

通过使用加密技术,可以确保数据在传输过程中的机密性和完整性,从而防止黑客窃取重要信息。

PageRank算法

PageRank算法

PageRank算法1. PageRank算法概述PageRank,即⽹页排名,⼜称⽹页级别、Google左側排名或佩奇排名。

是Google创始⼈拉⾥·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,⾃从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界⼗分关注的计算模型。

眼下许多重要的链接分析算法都是在PageRank算法基础上衍⽣出来的。

PageRank是Google⽤于⽤来标识⽹页的等级/重要性的⼀种⽅法,是Google⽤来衡量⼀个站点的好坏的唯⼀标准。

在揉合了诸如Title标识和Keywords标识等全部其他因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的⽹页在搜索结果中另站点排名获得提升,从⽽提⾼搜索结果的相关性和质量。

其级别从0到10级,10级为满分。

PR值越⾼说明该⽹页越受欢迎(越重要)。

⽐如:⼀个PR值为1的站点表明这个站点不太具有流⾏度,⽽PR值为7到10则表明这个站点很受欢迎(或者说极其重要)。

⼀般PR值达到4,就算是⼀个不错的站点了。

Google把⾃⼰的站点的PR值定到10,这说明Google这个站点是很受欢迎的,也能够说这个站点很重要。

2. 从⼊链数量到 PageRank在PageRank提出之前,已经有研究者提出利⽤⽹页的⼊链数量来进⾏链接分析计算,这样的⼊链⽅法如果⼀个⽹页的⼊链越多,则该⽹页越重要。

早期的⾮常多搜索引擎也採纳了⼊链数量作为链接分析⽅法,对于搜索引擎效果提升也有较明显的效果。

PageRank除了考虑到⼊链数量的影响,还參考了⽹页质量因素,两者相结合获得了更好的⽹页重要性评价标准。

对于某个互联⽹⽹页A来说,该⽹页PageRank的计算基于下⾯两个基本如果:数量如果:在Web图模型中,如果⼀个页⾯节点接收到的其它⽹页指向的⼊链数量越多,那么这个页⾯越重要。

大数据经典算法PageRank 讲解

大数据经典算法PageRank 讲解

如果按这个公式迭代算下去,会发现自连接点的问题解决了,从而每个页面 都拥有一个合理的pagerank。
分块式Pagerank算法:
火龙果整理
单击此处添加段落文字内容
原来的算法存在的问题:
1.时间开销大。每次迭代就算时间开销为
2.因特网中数据大部分是分布式的,计算过程需要多次传递数据,网 络负担太大。
火龙果整理
PageRank算法
基本PageRank 面向主题PageRank Link Spam与反作弊 导航页与权威页
一小组:王高翔,李渠,刘晴,柳永康,刘昊骋 二小组: 王飞,李天照,赵俊杰,陈超,陈瑾翊
一.Pagerank定义及终点,自连接点的概念
早期搜索引擎的弊端
火龙果整理
火龙果整理
TrustRank
TrustRank的思想很直观:如果一个页面的普通rank远高 于可信网页的topic rank,则很可能这个页面被spam了。 设一个页面普通rank为P,TrustRank为T,则定义网页的 Spam Mass为:(P – T)/P。 Spam Mass越大,说明此页面为spam目标页的可能性越 大。
为了克服这种问题,需要对PageRank 计算方法进行一个平滑处理,具体做 单击添加 法是加入“跳转因子(teleporting)”。所谓跳转因子,就是我们认为在任 何一个页面浏览的用户都有可能以一个极小的概率瞬间转移到另外一个随机 页面。当然,这两个页面可能不存在超链接,因此不可能真的直接转移过去, 跳转因子只是为了算法需要而强加的一种纯数学意义的概率数字。
3.n维矩阵式一个稀疏矩阵,无论计算还是存储都很浪费资源。
能否考虑先算出局部的Pagerank值??
分块式Pagerank算法:

比较PageRank算法和HITS算法的优缺点

题目:请比较PageRank算法和HITS算法的优缺点,除此之外,请再介绍2种用于搜索引擎检索结果的排序算法,并举例说明。

答:1998年,Sergey Brin和Lawrence Page[1]提出了PageRank算法。

该算法基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,来判定网页的重要性。

该算法认为从网页A导向网页B的链接可以看作是页面A对页面B的支持投票,根据这个投票数来判断页面的重要性。

当然,不仅仅只看投票数,还要对投票的页面进行重要性分析,越是重要的页面所投票的评价也就越高。

根据这样的分析,得到了高评价的重要页面会被给予较高的PageRank值,在检索结果内的名次也会提高。

PageRank是基于对“使用复杂的算法而得到的链接构造”的分析,从而得出的各网页本身的特性。

HITS 算法是由康奈尔大学( Cornell University ) 的JonKleinberg 博士于1998 年首先提出。

Kleinberg认为既然搜索是开始于用户的检索提问,那么每个页面的重要性也就依赖于用户的检索提问。

他将用户检索提问分为如下三种:特指主题检索提问(specific queries,也称窄主题检索提问)、泛指主题检索提问(Broad-topic queries,也称宽主题检索提问)和相似网页检索提问(Similar-page queries)。

HITS 算法专注于改善泛指主题检索的结果。

Kleinberg将网页(或网站)分为两类,即hubs和authorities,而且每个页面也有两个级别,即hubs(中心级别)和authorities(权威级别)。

Authorities 是具有较高价值的网页,依赖于指向它的页面;hubs为指向较多authorities的网页,依赖于它指向的页面。

HITS算法的目标就是通过迭代计算得到针对某个检索提问的排名最高的authority的网页。

通常HITS算法是作用在一定范围的,例如一个以程序开发为主题的网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。

中文搜索引擎中的PageRank算法及实现


对应网页的排序值向量 ), 则有 =
的一个特征向量, 我们希望得到 的主特征向量。这可以通 过将 先与任何常态初始向量 相乘并不断地乘以更新的 获 得, 也就是说网页的排序初始值可以为任意常数参加运算。
1.2
汇点的处理
但 PageRank 的原始算法在运算中会出现一个问题。假
如恰巧有两个 ( 或多个 ) 网页它们互相链接形成环路, 但没有到 其它网页的链出,同时它们又有来自其它网页来的至少一个 链入, 在循环运算中, 这个环路将使这些网页累积排序值而不 把排序值分配出去。这对于其它网页的排序是不公平的,我 们把这种环路陷阱称为汇点。 为了解决这个问题, Lawrence 引入另一种方法。 令 = + 为 一些与排序源相关的网页向量, 为网页排序值, 计算公式为 需满足条件: || ||1=1 (|| ||1=1 代表 的 1 范数 )。在计算初 始,被最大化。如果 为正量,则计算过程中 必须减小以保 持等式的平衡,相当于一个衰退因子。这种方法相当于建立 一个随机浏览模型。 从直觉意义上讲, 假如网络链接图中存在汇点, 那么随机 浏览者在陷入该环路后, 会因为厌倦这条路径而跳出, 浏览其 它的网页而不是在这个循环里不断地继续下去。 是跳出的 网页集合。一般情况下, 由人工经验决定。 由于 的特殊用途, 网络浏览者在厌倦某个网页循环之后 会定期地转跳到 中的网页。 这使得 包含的网页有了较其它 网页较高的访问率, 无形中提升了这些网页的重要性。于是, 这种机制带来了另一个问题—— 的引入一方面解决了汇点 带来的不公平性, 另一方面又引起了 网页与其它网页之间的
,
以在 =
要提高稀疏矩阵 - 向量乘法的运 算能力。造成稀疏矩阵乘法 运算低效率的原因主要有:访问矩阵结构内部的索引信息导 致一定的系统开销; 在内存访问方面, 空间定位或临时定位能 力较差。为了优化稀疏矩阵的运算,人们已经从多个方面进 行了研究, 其中包括寄存器分块、 cache 分块、 循环跳出、 矩阵 重排和复合向量改组等 [4]。当然优化不仅包括代码优化, 还包 括数据结构转化。

PageRank算法初探

但是 PageRank 算法由于只考虑到网页间的超链关系并仅 仅以此进行网页重要度的分析 ,所以不可避免地会产生很多问 题 ,其中 ,比较明显的问题在于它在计算每个网页具体的重要 度权值的时候 ,根本没有考虑到任何网页本身内容特征对权值 的影响 ,如 PageRank 算法完全忽略了网页具有不同的主题 ,不 同的主题应该具有不同的重要度权值 ,进一步说 ,在用户查询 的时候 ,网页重要程度值的大小与查询所表达的主题关系很 大 ,其实 ,在 HITS 算法中恰恰考虑了这种因素 ,所以它更易于 表达与特定查询主题相关的相关度排序 ,有效地在 PageRank 算 法中考虑查询主题对网页权重值的影响是一个有效改进此算 法的重要方法 ;再如 , PageRank 算法也没有考虑网页的创建时
修正的 PageRank 计算公式为 :
∑ Π uR ( u) = C
R ( v) / N ( v) + CE( u)
v ∈B ( u)
E ( u) 是个常量 ,它可以抑制 PageRank 值的传播 ,使得所有
网页的 PageRank 值至少会为 E ( u) , 而不会为 0 。具体的 E ( u)
多项朴素贝叶斯分类算法计算查询与每个主题的相关度 :
P ( cj |
q)
=
P( cj) ·P ( q | P( q)
cj)
其中 , P( q | cj) 易于从 P 向量中得到 ,对 P( cj) 和 P( q) 的
理解并不直观 ,简单的做法可以设为同一值 , 复杂的做法可以
考虑对于不同的用户使用不同的值来表达用户的偏好度 。
严格 ,有很多网页的超链纯粹是为了诸如网页导航 、商业推荐
等目的而制作的 ,显然这类网页对于它所指向网页的重要度贡

基于机器学习的社交网络影响力分析与

基于机器学习的社交网络影响力分析与社交网络影响力分析与应用在当今信息爆炸的时代,社交网络已经成为人们日常生活中的重要组成部分。

随着社交媒体的普及,人们通过分享信息、交流观点和建立社交关系来与世界保持联系。

在这种背景下,社交网络的影响力越来越受到关注。

本文将基于机器学习技术,从算法、数据和应用三个方面,介绍社交网络影响力分析的方法和意义。

一、算法社交网络影响力的计算需要考虑多个因素,例如用户本身的行为、帖子的传播范围、用户互动等。

机器学习算法可以帮助我们从大量的数据中挖掘有用的特征,并建立影响力模型。

以下是几种常用的机器学习算法:1.1 图网络算法图网络算法是一种基于图结构的机器学习方法,主要用于分析社交网络中用户之间的关系。

常用的图网络算法有PageRank和HITS算法。

PageRank算法根据节点之间的链接关系,计算每个节点的重要性得分,用于衡量用户的影响力。

HITS算法则进一步考虑了用户的活跃性和与其他高影响力用户的关系等因素。

1.2 文本分析算法社交网络中存在大量的文本内容,通过文本分析算法可以从中提取有用的信息。

例如,情感分析可以判断用户对特定话题的态度是正面的、负面的还是中立的,进而反映其影响力。

另外,关键词提取、主题建模等技术也可以用于分析用户的兴趣和观点,从而评估其影响力。

二、数据社交网络影响力分析的关键在于数据的准确性和完整性。

以下是收集和处理社交网络数据的几个要点:2.1 数据收集数据收集是影响力分析的基础,有效的数据收集可以为后续的分析提供坚实的基础。

常见的数据收集方式包括API接口调用和网络爬虫技术。

在收集数据时,需要注意数据的时效性和合法性,避免使用过时或未经授权的数据。

2.2 数据清洗社交网络数据往往存在噪声和冗余,需要进行数据清洗和预处理。

数据清洗可以包括去除重复数据、修正错误数据和筛选无效数据等步骤。

清洗后的数据能够更好地反映用户的真实行为和关系,提高影响力分析的准确性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

题目:请比较PageRank算法和HITS算法的优缺点,除此之外,请再介绍2种用于搜索引擎检索结果的排序算法,并举例说明。

答:
1998年,Sergey Brin和Lawrence Page[1]提出了PageRank算法。

该算法基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,来判定网页的重要性。

该算法认为从网页A导向网页B的链接可以看作是页面A对页面B的支持投票,根据这个投票数来判断页面的重要性。

当然,不仅仅只看投票数,还要对投票的页面进行重要性分析,越是重要的页面所投票的评价也就越高。

根据这样的分析,得到了高评价的重要页面会被给予较高的PageRank值,在检索结果内的名次也会提高。

PageRank是基于对“使用复杂的算法而得到的链接构造”的分析,从而得出的各网页本身的特性。

HITS 算法是由康奈尔大学( Cornell University ) 的JonKleinberg 博士于1998 年首先提出。

Kleinberg认为既然搜索是开始于用户的检索提问,那么每个页面的重要性也就依赖于用户的检索提问。

他将用户检索提问分为如下三种:特指主题检索提问(specific queries,也称窄主题检索提问)、泛指主题检索提问(Broad-topic queries,也称宽主题检索提问)和相似网页检索提问(Similar-page queries)。

HITS 算法专注于改善泛指主题检索的结果。

Kleinberg将网页(或网站)分为两类,即hubs和authorities,而且每个页面也有两个级别,即hubs(中心级别)和authorities(权威级别)。

Authorities 是具有较高价值的网页,依赖于指向它的页面;hubs为指向较多authorities的网页,依赖于它指向的页面。

HITS算法的目标就是通过迭代计算得到针对某个检索提问的排名最高的authority的网页。

通常HITS算法是作用在一定范围的,例如一个以程序开发为主题的网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。

在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量authority 和hub值进行更新直至收敛。

从上面的分析可见,PageRank算法和HITS算法都是基于链接分析的搜索引擎排序算法,并且在算法中两者都利用了特征向量作为理论基础和收敛性依据。

虽然两种算法均为链接分析算法,但两者之间还是有明显的区别的。

HITS算法计算的authority值只是相对于某个检索主题的权重,因此HITS算法也常被称为Query-dependent算法;而PageRank算法是独立于检索主题,因此也常被称为Query-independent算法。

PageRank算法的优点在于它对互联网上的网页给出了一个全局的重要性排序,并且算法的计算过程是可以离线完成的,这样有利于迅速响应用户的请求。

不过,其缺点在于主题无关性,没有区分页面内的导航链接、广告链接和功能链接等,容易对广告页面有过高评价;另外,PageRank算法的另一弊端是,旧的页面等级会比新页面高,因为新页面,即使是非常好的页面,也不会有很多链接,除非他是一个站点的子站点。

这就是PageRank需要多项算法结合的原因。

HITS算法的优点在于它能更好地描述互联网的组织特点,由于它只是对互联网中的很小的一个子集进行分析,所以它需要的迭代次数更少,收敛速度更快,减少了时间复杂度。

但HITS算法也存在如下缺点:中心网页之间的相互引用以增加其网页评价,当一个网站上的多篇网页指向一个相同的链接,或者一个网页指向另一个网站上的多个文件时会引起评分的不正常增加,这会导致易受“垃圾链接”的影响;网页中存在自动生成的链接;主题漂移,在邻接图中经常包括一些和搜索主题无关的链接,如果这些链接自身也是中心网页或权威网页就会引起主题漂移:对于每个不同的查询算法都需要重新运行一次来获取结果。

这使得它不可能用于实时系统,因为对于上千万次的并发查询这样的开销实在太大。

PageRank算法和HITS算法都是客观的描述了网页之间的本质特征,但是它们都很少考虑到用户浏览习惯时的主题相关性。

Hilltop算法:
HillTop,是一项搜索引擎结果排序的专利,是Google的一个工程师Bharat 在2001年获得的专利。

HillTop算法的指导思想和PageRank是一致的,即都通过反向链接的数量和质量来确定搜索结果的排序权重。

但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大,即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。

在1999-2000年,当这个算法被Bharat与其他Google开发人员开发出来的时候,他们称这种对主题有影响的文档为“专家”文档,而只有从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。

Hilltop算法的过程:首先计算查询主题最相关的“专家”资源列表;其次在选中的“专家”集中识别相关的链接,并追踪它们以识别相关的网页目标;然后将目标根据非关联的指向它们的“专家”数量和相关性排序。

由此,目标网页的得分反映了关于查询主题的最中立的专家的集体观点。

如果这样的专家池不存在,Hilltop不会给出结果。

从Hilltop算法过程可见,该算法包括两个主要的方面:寻找专家;目标排序。

通过对搜索引擎抓取的网页进行预处理,找出专家页面。

对于一个关键词的查询,首先在专家中查找,并排序返回结果。

权威页面是对于一个查询主题来说最好的专家指向的页面。

专家也有可能在更宽泛的领域或其它领域的主题上也是专家。

在专家页面中只有一部分链接与主题相关。

因此,把查询主题的专家中相关的外向链接合并,以找到查询主题相关页面高度认可的页面。

从排名在前的匹配专家页面和相联系的匹配信息中选择专家页面中一个超链接的子集。

尤其选择那些与所有的查询相关的链接。

基于这些选中的链接找出一个它们的目标子集作为查询主题最相关的网页。

这个目标子集包含至少被两个非亲属的专家页面链接到的网页。

目标集根据指向它们的专家的综合成绩来排序。

Hilltop在应用中还存在一些不足。

专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性;而专家页面的质量和公平性在一定程度上难以保证。

Hiltop忽略了大多数非专家页面的影响。

在Hiltop的原型系统中,专家页面只占到整个页面的1.79%,不能全面代表整个互联网。

Hiltop算法在无法得到足够的专家页面子集时(少于两个专家页面),返回为空,即Hiltop适合于对查询排序进行求精,而不能覆盖。

这意味着Hilltop可以与某个页面排序算法结合,提高精度,而不适合作为一个独立的页面排序算法。

Hilltop中根据查询主题从专家页面集合中选取与主题相关的子集也是在线运行的,这与前面提到的HITS算法一样会影响查询响应时间。

随着专家页面集合的增大,算法的可伸缩性存在不足之处。

Direct Hit 算法
与前面的算法相比,Ask Jeeves公司的Direct Hit算法是一种注重信息的质量和用户反馈的排序方法。

它的基本思想是,搜索引擎将查询的结果返回给用户,
并跟踪用户在检索结果中的点击。

如果返回结果中排名靠前的网页被用户点击后,浏览时间较短,用户又重新返回点击其它的检索结果,那么可以认为其相关度较差,系统将降低该网页的相关性。

另一方面,如果网页被用户点击打开进行浏览,并且浏览的时间较长,那么该网页的受欢迎程度就高,相应地,系统将增加该网页的相关度。

可以看出,在这种方法中,相关度在不停地变化,对于同一个词在不同的时间进行检索,得到结果集合的排序也有可能不同,它是一种动态排序。

该算法的优点是能够节省大量时间,因为用户阅读的是从搜索结果中筛选出来的更加符合要求的结果。

同时,这种算法直接融入用户的反馈信息,能够保证页面的质量。

然而,统计表明,Direct Hit算法只适合于检索关键词较少的情况,因为它实际上并没有进行排序,而是一种筛选和抽取,在检索数据库很大、关键词很多的时候,返回的搜索结果成千上万,用户不可能一一审阅。

因此,这种方式也不能作为主要的排序算法来使用,而是一种很好的辅助排序算法,目前在许多搜索引擎当中仍然在使用。

参考文献
1. S. Brin, L. Page. Anatomy of a Large - Scale HypertextualWeb Search Engine. Proc. 7th International World Wide Web Conference, 1998
2. Jon M. Kleinberg. Authoritative Sources in a Hyperlinked Environment. Journal of the ACM, 1999; 46(5)
3. Krishna Bharat. Hilltop: A Search Engine based on Expert Documents. Department of Computer Science University of Toronto 2004
4. Gary Culliss. Method for organizing information. United States Patent. Patent number:6014665。

相关文档
最新文档