web超链分析算法综述

合集下载

搜索引擎技术之超链分析

搜索引擎技术之超链分析

搜索引擎技术之超链分析最近几年来,许多研究者发现,WWW上超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大地提高检索结果的质量。

超链分析技术,是新一代搜索引擎的关键技术。

超链分析的基本原理是:在某次搜索的所有结果中,被其他网页用超链指向得越多的网页,其价值就越高,就越应该在结果排序中排到前面。

超链分析是一种投票机制,对于静态网页或者网站主页,它具有一定的合理性,因为这样的网页容易根据其在互联网上受到的评价产生不同的链接指向量,超链分析的结果可以反映网页的重要程度,从而给用户提供更重要、更有价值的搜索结果。

搜索引擎,并不能真正理解网页上的内容,它只能机械地匹配网页的文字。

它收集了互联网几千万到几十亿个网页并对网页中的每一个文字(既关键字)进行索引,建立索引数据库的全文搜索引擎。

当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。

在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

搜索引擎在查询时主要根据一个站点的内容与查询词的关联度进行排序。

对于一个站点的内容搜索引擎则是根据标题、关键词、描述、网页开始部分的内容以及这些内容本身之间的关联程度以及一个站点在整个网络上的关联程度来确定的。

超链分析技术以为世界各大搜索引擎普遍采用,我们以我们常用的百度举例子。

百度搜索引擎使用了高性能的“网络蜘蛛”程序自动在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间收集到最大数量的互联网信息。

百度在中文互联网有天然优势,支持搜索1.3亿个中文网页,是现在最大的中文搜索引擎。

并且百度每天都在增加几十万新网页,对重要中文网页实现每天更新。

百度除了用超链分析排名外还开展竞价排名。

具有网页快照,相关搜索、中文人名识别、等功能,还可以进行专业的mp3搜索、flash搜索、新闻搜索、图片搜索、等。

特别说一下,百度老总李彦宏就是超链分析专利的唯一持有人。

Web工作原理

Web工作原理

Web工作原理Web(World Wide Web)是一种基于互联网的信息系统,它通过使用统一资源定位符(URL)来标识和访问各种资源,如网页、图片、视频等。

Web的工作原理涉及多个关键技术和协议,包括HTTP(超文本传输协议)、HTML(超文本标记语言)、DNS(域名系统)等。

1. HTTP协议HTTP是Web的核心协议,它定义了客户端和服务器之间的通信规则。

当用户在浏览器中输入一个URL时,浏览器会向服务器发送HTTP请求。

HTTP请求由请求行、请求头部和请求正文组成。

请求行包含请求方法(如GET、POST)、URL和协议版本。

请求头部包含一些附加信息,如用户代理、Cookie等。

请求正文是可选的,用于传输数据。

2. DNS解析当用户输入一个URL时,浏览器需要将域名解析为IP地址,以便向服务器发送请求。

这个过程称为DNS解析。

浏览器首先检查本地缓存中是否有对应的IP地址,如果没有,则向本地DNS服务器发送请求。

如果本地DNS服务器也没有对应的IP地址,则向根DNS服务器发送请求,逐级向上查询,直到找到对应的IP地址。

3. TCP/IP协议Web使用TCP/IP协议进行数据传输。

TCP(传输控制协议)负责将数据分割为小的数据包,并确保它们按顺序到达目的地。

IP(互联网协议)负责将数据包从源地址传输到目的地址。

TCP/IP协议保证了数据的可靠传输。

4. 服务器响应当服务器收到浏览器的HTTP请求后,会根据请求的内容生成相应的响应。

响应由响应行、响应头部和响应正文组成。

响应行包含响应状态码(如200表示成功、404表示未找到等)、协议版本等。

响应头部包含一些附加信息,如服务器类型、内容类型等。

响应正文包含服务器返回的数据,如HTML页面、图片等。

5. HTML渲染当浏览器收到服务器的响应后,会根据响应中的内容类型确定如何处理响应数据。

对于HTML页面,浏览器会解析HTML标记,并将其转换为可视化的网页。

网络爬虫 1

网络爬虫 1
广度优先搜索策略
广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。
编辑本段网页分析算法
网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。
基于网络拓扑的分析算法
基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对象(可以是网页或网站等)作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。 1 网页(Webpage)粒度的分析算法 PageRank和HITS算法是最常见的链接分析算法,两者都是通过对网页间链接度的递归和规范化计算,得到每个网页的重要度评价。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在,但忽略了绝大多数用户访问时带有目的性,即网页和链接与查询主题的相关性。针对这个问题,HITS算法提出了两个关键的概念:权威型网页(authority)和中心型网页(hub)。 基于链接的抓取的问题是相关页面主题团之间的隧道现象,即很多在抓取路径上偏离主题的网页也指向目标网页,局部评价策略中断了在当前路径上的抓取行为。文献[21]提出了一种基于反向链接(BackLink)的分层式上下文模型(Context Model),用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页,将网页依据指向目标网页的物理跳数进行层次划分,从外层网页指向内层网页的链接称为反向链接。 2 网站粒度的分析算法 网站粒度的资源发现和管理策略也比网页粒度的更简单有效。网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级(SiteRank)的计算。SiteRank的计算方法与PageRank类似,但是需要对网站之间的链接作一定程度抽象,并在一定的模型下计算链接的权重。? 网站划分情况分为按域名划分和按IP地址划分两种。文献[18]讨论了在分布式情况下,通过对同一个域名下不同主机、服务器的IP地址进行站点划分,构造站点图,利用类似PageRank的方法评价SiteRank。同时,根据不同文件在各个站点上的分布情况,构造文档图,结合SiteRank分布式计算得到DocRank。文献[18]证明,利用分布式的SiteRank计算,不仅大大降低了单机站点的算法代价,而且克服了单独站点对整个网络覆盖率有限的缺点。附带的一个优点是,常见PageRank 造假难以对SiteRank进行欺骗。? 3 网页块粒度的分析算法 在一个页面中,往往含有多个指向其他页面的链接,这些链接中只有一部分是指向主题相关网页的,或根据网页的链接锚文本表明其具有较高重要性。但是,在PageRank和HITS算法中,没有对这些链接作区分,因此常常给网页分析带来广告等噪声链接的干扰。在网页块级别(Block?level)进行链接分析的算法的基本思想是通过VIPS网页分割算法将网页分为不同的网页块(page block),然后对这些网页块建立page?to?block和block?to?page的链接矩阵,?分别记为Z和X。于是,在page?to?page图上的网页块级别的PageRank为?W?p=X×Z;?在block?to?block图上的BlockRank为?W?b=Z×X。?已经有人实现了块级别的PageRank和HITS算法,并通过实验证明,效率和准确率都比传统的对应算法要好。?

Web搜索引擎工作原理和体系结构

Web搜索引擎工作原理和体系结构

Web 搜索引擎工作原理和体系结构Web搜索引擎工作原理和体系结构2011-01-29 18:43个数据集合上的程序的话,这个软件系统操作的数据不仅包括内容不可预测的用户查询,还要包括在数量上动态变化的海量网页,并且这些网页不会主动送到系统来,而是需要由系统去抓取。

首先,我们考虑抓取的时机:事先情况下,从网上下载一篇网页大约需要1秒钟左右,因此如果在用户查询的时候即时去网上抓来成千上万的网页,一个个分析处理,和用户的查询匹配,不可能满足搜索引擎的响应时间要求。

不仅如此,这样做的系统效益也不高(会重复抓取太多的网页);面对大量的用户查询,不可能想象每来一个查询,系统就到网上"搜索"一次。

因此我们看到,大规模搜索(直接或者间接1)。

这一批网页如何维护?可以有两种基本的考虑。

定期搜集,每次搜集替换上一次的内容,我们称之为"批量搜集"。

由于每次都是重新来一次,对于大规模搜索引擎来说,每次搜集的时间通常会花几周。

而由于这样做开销较大,通常两次搜集的间隔时间也不会很短(例如早期天网的版本大约每3个月来一次,Google在一段时间曾是每隔28天来一次)。

这样做的好处是系统实现比较简单,主要缺点是"时新性"(freshness)不高,还有重复搜集所带来的额外带宽的消耗。

增量搜集,开始时搜集一批,往后只是(1)搜集新出现的网页,(2)搜集那些在上次搜集后有过改变的网页,(3)发现自从上次搜集后已经不再存在了的网页,并从库中删除。

由于除新闻网站外,许多网页的内容变化并不是很经常的(有研究指出50%网页的平均生命周期大约为50天[Cho and Garcia-Molina,2000],[Cho,2002]),这样做每次搜集的网页量不会很大(例如我们在2003年初估计中国每天有30-50万变化了的网页),于是可以经常启动搜集过程(例如每天)。

30万网页,一台PC机,在一般的网络条件下,半天也就搜集完了。

web超链分析算法综述

web超链分析算法综述

WEB超链分析算法研究朱炜王超李俊潘金贵(南京大学计算机软件新技术国家重点实验室南京210093)(南京大学多媒体技术研究所南京210093)Research on Algorithms Analyzing Hyperlinks:A SurveyZHU Wei W ANG Chao LI Jun Pan Jin-Gui(State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210093) (Multimedia Technology Institute of Nanjing University,Nanjing 210093)Abstract: The World Wide Web serves as a huge, widely distributed, global information service center, and expanding in a rapid speed. It is import to find the information the user need precisely and rapidly. In recent years, researchers discovery that rich and import information is contained among hyperlinks, and develop a lot of algorithm using hyperlink to improve the quantity and relevance of the results which search engine returned. This paper presents a review and a comparison of such algorithms existing now. Problems of these algorithms and directions to further research will be discussed.Keyword: PageRank,Authority,Hub,HITS,SALSA,Anchor1.引言万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。

web3跨链原理

web3跨链原理

web3跨链原理Web3跨链原理是指在Web3生态系统中实现不同区块链网络之间进行交互和通信的技术原理。

Web3的愿景是建立一个去中心化的互联网,涵盖了多个区块链网络,每个网络都可以拥有自己的特性和功能。

实现这一愿景需要解决跨链交互的问题,以下是Web3跨链原理的关键方面:1.中继链(Relay Chain):中继链是一种连接不同区块链网络的中介层,它能够理解和处理不同区块链网络的信息。

中继链充当跨链通信的桥梁,能够在不同区块链之间传递信息和价值。

2.轻客户端和验证者:通过轻客户端,一个区块链网络可以了解到另一个区块链网络上的区块信息,而不需要完全同步整个区块链。

验证者是负责验证和处理跨链交易的节点,它们通过中继链来传递跨链交易的信息。

3.侧链(Side Chain):侧链是与主区块链并行存在的链,它具有一定程度的独立性,可以拥有自己的共识机制和规则。

通过侧链,用户可以在主链和侧链之间进行资产的跨链转移,实现不同链之间的价值传递。

4.原子交换(Atomic Swaps):原子交换是一种机制,允许在不同区块链上进行资产的无信任交换,保证交易的原子性,要么全部成功,要么全部失败。

这种机制可以确保在跨链交互中没有一方可以操纵或欺骗。

5.中间层协议:中间层协议是在不同区块链之间构建连接的一种协议,如Polkadot、Cosmos等。

这些协议提供了标准化的跨链通信方式,使得不同的区块链可以通过相同的协议进行互操作。

6.多签名账户和智能合约:多签名账户是一个需要多方签名才能执行的账户,通过多签名账户可以在不同区块链网络上实现资产控制。

智能合约则可以通过编程逻辑实现跨链资产的锁定和释放。

7.桥接协议:桥接协议是用于在不同区块链之间传递信息和价值的软件层面的协议,例如,ERC-20桥接协议用于在以太坊和Binance Smart Chain之间传递代币。

Web3跨链原理的实现涉及到多个技术层面,包括共识算法、加密学、网络协议等,通过这些技术手段,实现了不同区块链网络之间的互操作性,推动了去中心化应用(DApps)的发展。

web数据挖掘技术分析与研究

web数据挖掘技术分析与研究

web数据挖掘技术分析与研究1Web数据挖掘面临的问题目前面向Web的数据挖掘面临的问题,主要有两个方面:1.1数据库环境的异构型Web上的每个站点就是一个数据源,数据源之间是异构的,外加上各个站点的信息和组织的不同,Web网站就构成了一个巨大的异构数据库环境。

要对这些数据进行挖掘,首先,要解决各个站点之间的异构数据集成,提供用户统一界面,从复杂的数据源中取得所需的有用的信息知识。

其次,有关Web上的数据查询。

1.2数据结构的半结构化Web上的数据比较复杂,各个站点的数据都独立设计,具有动态可变性。

虽然Web上的数据形成半结构化数据。

这些问题是进行Web数据挖掘所面临的最大困难。

2XML技术在Web数据挖掘中的优势Web数据的异构使Web数据挖掘变得十分困难,通过XML可以解决这个问题。

因为XML文档具有很好的自我描述性,他的元素、子元素、属性结构树可以表达极为丰富的语义信息,能够很好的描述半结构化的数据,因此在网络数据集成、发送、处理和显示的方面。

开发人员能够用XML的格式标记和交换数据。

XML在三层架构上为数据的处理提供了有用的途径。

利用XML,Web设计人员能够构建文档类型定义的多层次互相关联的系统、元数据、数据树、样式表和超链接结构。

基于XML的Web数据挖掘技术,能够使不同的结构化的数据很容易地结合在一起,解决Web数据挖掘的难题。

2.1XML技术在Web数据挖掘中具体作用利用XML技术我们在Web数据挖掘中可以完成以下几点:2.1.1集成异构数据源XML是一种半结构化的数据模型,可以完成和关系数据库中的属性一一对应,从而实施精确地查询与模型抽取。

XML可以搜索多个不同数据库的问题,以实现集成。

2.1.2和异构数据进行交换在Web数据挖掘程中,用户需要和异构数据源进行数据交换,XML通过自定义性及可扩展性来标识各种数据,从而描述从各站点搜集到的Web页中的数据。

XML的出现解决了数据查询的统一接口。

超链分析基本原理

超链分析基本原理

.基本原理超链分析的基本原理是:在某次搜索的所有结果中,被其他网页用超链指向得越多的网页,其价值就越高,就越应该在结果排序中排到前面。

超链分析是一种引用投票机制,对于静态网页或者网站主页,它具有一定的合量性,因为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量,超链分析的结果可以反映网页的重要程度,从而给用户提供出更重要、更有价值的搜索结果。

搜索引擎,也不能真正理解网页上的内容,它只能机械地匹配网页上的文字。

其收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。

当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。

在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。

对于一个站点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之间的关联程度以及一个站点在整个网络上的关联程度来确定的。

使用超链分析技术,除要分析索引网页本身的文字,还要分析索引所有指向该网页的链接的URL、AnchorText,甚至链接周围的文字。

所以,有时候,即使某个网页A中并没有某个词,比如“软件”,但如果有别的网页B用链接“软件”指向这个网页A,那么用户搜索“软件”时也能找到网页A。

而且,如果有越多网页(C、D、E、F……)用名为“软件”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A 在用户搜索“超链分析”时也会被认为相关度越高,排序也会越靠前。

2.工作步骤搜索引擎的工作步骤有三步:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。

(1)从互联网上抓取网页:专门用于检索信息的Robot程序像蜘蛛(spider)一样在网络间爬来爬去,利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来,随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

WEB超链分析算法研究朱炜王超李俊潘金贵(南京大学计算机软件新技术国家重点实验室南京210093)(南京大学多媒体技术研究所南京210093)Research on Algorithms Analyzing Hyperlinks:A SurveyZHU Wei W ANG Chao LI Jun Pan Jin-Gui(State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210093) (Multimedia Technology Institute of Nanjing University,Nanjing 210093)Abstract: The World Wide Web serves as a huge, widely distributed, global information service center, and expanding in a rapid speed. It is import to find the information the user need precisely and rapidly. In recent years, researchers discovery that rich and import information is contained among hyperlinks, and develop a lot of algorithm using hyperlink to improve the quantity and relevance of the results which search engine returned. This paper presents a review and a comparison of such algorithms existing now. Problems of these algorithms and directions to further research will be discussed.Keyword: PageRank,Authority,Hub,HITS,SALSA,Anchor1.引言万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。

1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]。

WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战。

传统的WEB搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的文档,也有基于目录分类的搜索引擎。

这些搜索引擎的结果并不令人满意。

有些站点有意提高关键字出现的频率来提高自身在搜索引擎中的重要性,破坏搜索引擎结果的客观性和准确性。

另外,有些重要的网页并不包含查询项。

搜索引擎的分类目录也不可能把所有的分类考虑全面,并且目录大多靠人工维护,主观性强,费用高,更新速度慢[2]。

最近几年,许多研究者发现,WWW上超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大的提高检索结果的质量。

基于这种超链分析的思想,Sergey Brin 和Lawrence Page在1998年提出了PageRank算法[1] ,同年J. Kleinberg提出了HITS算法[5],其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。

这些算法有的已经在实际的系统中实现和使用,并且取得了良好的效果。

文章的第2部分按照时间顺序详细剖析了各种链接分析算法,对不同的算法进行了比较。

第3部分对这些算法做了评价和总结,指出了存在的问题和改进方向。

2.WEB超链分析算法2.1 Google和PageRank算法搜索引擎Google最初是斯坦福大学的博士研究生Sergey Brin和Lawrence Page实现的一个原型系统[2],现在已经发展成为WWW上最好的搜索引擎之一。

Google的体系结构类似于传统的搜索引擎,它与传统的搜索引擎最大的不同处在于对网页进行了基于权威值的排序处理,使最重要的网页出现在结果的最前面。

Google通过PageRank元算法计算出网页的PageRank值,从而决定网页在结果集中的出现位置,PageRank值越高的网页,在结果中出现的位置越前。

2.1.1 PageRank 算法PageRank 算法基于下面2个前提:前提1:一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。

这种重要的网页称为权威(Authoritive )网页。

前提2:假定用户一开始随机的访问网页集合中的一个网页,以后跟随网页的向外链接向前浏览网页,不回退浏览,浏览下一个网页的概率就是被浏览网页的PageRank 值。

简单PageRank 算法描述如下:u 是一个网页,)(u F 是u 指向的网页集合,)(u B 是指向u 的网页集合,)(u N 是u 指向外的链接数,显然)(u N =| )(u F | ,c 是一个用于规范化的因子(Google 通常取0.85),(这种表示法也适用于以后介绍的算法)则u 的Rank 值计 算如下:∑∈=)()(/)()(u B v v N v R cu R这就是算法的形式化描述,也可以用矩阵来描述此算法,设A 为一个方阵,行和列对应网页集的网页。

如果网页i 有指向网页j 的一个链接,则i j i N A /1,=,否则j i A ,=0。

设V 是对应网页集的一个向量,有V=cA V ,V 为A 的特征根为c 的特征向量。

实际上,只需要求出最大特征根的特征向量,就是网页集对应的最终PageRank 值,这可以用迭代方法计算。

如果有2个相互指向的网页a ,b,他们不指向其它任何网页,另外有某个网页c ,指向a ,b 中的某一个,比如a ,那么在迭代计算中,a ,b 的rank 值不分布出去而不断的累计。

如下图:为了解决这个问题,Sergey Brin 和Lawrence Page 改进了算法,引入了衰退因子E(u),E(U)是对应网页集的某一向量,对应rank 的初始值,算法改进如下:)(R(v)/N(v))('B(u)v u cE cu R +=∑∈ 其中,1||'||R =1,对应的矩阵形式为V ’=c(AV ’+E)。

另外还有一些特殊的链接,指向的网页没有向外的链接。

PageRank 计算时,把这种链接首先除去,等计算完以后再加入,这对原来计算出的网页的rank 值影响是很小的。

Pagerank 算法除了对搜索结果进行排序外,还可以应用到其它方面,如估算网络流量,向后链接的预测器,为用户导航等[2]。

2.1.2算法的一些问题Google 是结合文本的方法来实现PageRank 算法的[2],所以只返回包含查询项的网页,然后根据网页的rank 值对搜索到的结果进行排序,把rank 值最高的网页放置到最前面,但是如果最重要的网页不在结果网页集中,PageRank 算法就无能为力了,比如在 Google 中查询search engines ,像Google ,Yahoo ,Altivisa 等都是很重要的,但是Google 返回的结果中这些网页并没有出现。

同样的查询例子也可以说明另外一个问题,Google ,Yahoo 是WWW 上最受欢迎的网页,如果出现在查询项car 的结果集中,一定会有很多网页指向它们,就会得到较高的rank 值, 事实上他们与car 不太相关。

在PageRank 算法的基础上,其它的研究者提出了改进的PageRank 算法。

华盛顿大学计算机科学与工程系的Matthew Richardson 和Pedro Dominggos 提出了结合链接和内容信息的PageRank 算法,去除了PageRank 算法需要的前提2,增加考虑了用户从一个网页直接跳转到非直接相邻的但是内容相关的另外一个网页的情况[3]。

斯坦福大学计算机科学系Taher Haveliwala 提出了主题敏感(Topic-sensitive )PageRank 算法[4]。

斯坦福大学计算机科学系Arvind Arasu 等经过试验表明,PageRank 算法计算效率还可以得到很大的提高[22]。

2.2 HITS 算法及其变种PageRank 算法中对于向外链接的权值贡献是平均的,也就是不考虑不同链接的重要性。

而WEB 的链接具有以下特征:1.有些链接具有注释性,也有些链接是起导航或广告作用。

有注释性的链接才用于权威判断。

2.基于商业或竞争因素考虑,很少有WEB 网页指向其竞争领域的权威网页。

3.权威网页很少具有显式的描述,比如Google 主页不会明确给出WEB 搜索引擎之类的描述信息。

可见平均的分布权值不符合链接的实际情况[17]。

J. Kleinberg [5]提出的HITS 算法中引入了另外一种网页,称为Hub 网页,Hub 网页是提供指向权威网页链接集合的WEB 网页,它本身可能并不重要,或者说没有几个网页指向它,但是Hub 网页确提供了指向就某个主题而言最为重要的站点的链接集合,比一个课程主页上的推荐参考文献列表。

一般来说,好的Hub 网页指向许多好的权威网页;好的权威网页是有许多好的Hub 网页指向的WEB 网页。

这种Hub 与Authoritive 网页之间的相互加强关系,可用于权威网页的发现和WEB 结构和资源的自动发现,这就是Hub/Authority 方法的基本思想。

2.2.1 HITS 算法HITS (Hyperlink -Induced Topic Search )算法是利用Hub/Authority 方法的搜索方法,算法如下:将查询q 提交给传统的基于关键字匹配的搜索引擎.搜索引擎返回很多网页,从中取前n 个网页作为根集(root set),用S 表示。

S 满足如下3个条件:1.S 中网页数量相对较小2.S 中网页大多数是与查询q 相关的网页3.S 中网页包含较多的权威网页。

通过向S 中加入被S 引用的网页和引用S 的网页将S 扩展成一个更大的集合T .以T 中的Hub 网页为顶点集Vl ,以权威网页为顶点集V2,Vl 中的网页到V2中的网页的超链接为边集E ,形成一个二分有向图SG =(V1,V2,E)。

相关文档
最新文档