排序算法论文搜索引擎论文

合集下载

搜索引擎的排名算法

搜索引擎的排名算法

搜索引擎的排名算法随着互联网的不断发展,搜索引擎已经成为我们获取信息的主要途径之一。

然而,谷歌、百度等搜索引擎搜索结果的排序却是人们一直所关注的问题。

在互联网上,搜索引擎的排名算法是决定一个网站是否能实现商业化转型的重要因素。

那么,搜索引擎的排名算法到底是什么?它为什么会这么重要?一、搜索引擎的排名算法是指通过搜索引擎给出的关键词或短语,对网页或网站进行评估和排序的一种算法。

其目的是为了使用户能够快速地获取相关的信息。

目前,常见的搜索引擎排名算法有多种,其中最常见的是谷歌的PageRank算法和百度的超级链路分析算法。

1. 谷歌的PageRank算法2000年,谷歌公司创始人Larry Page提出了一种新的算法——PageRank。

这种算法依靠网页之间的链接来评估网页的重要性。

具体来说,如果一个网页被越多的其他网页所链接,那么这个网页的重要性就会越高。

PageRank算法将网页与网页之间的链接看作是一种投票方式,被投票次数越多的网页排名越靠前。

而且,被投票次数越高的网页还可以影响其他网页的排名,因为被投票次数多的网页可以对其他网页进行投票。

虽然PageRank算法现在已经不是谷歌的主要算法,但它仍然是搜索引擎算法的代表之一。

2. 百度的超级链路分析算法百度的超级链路分析算法是一种与PageRank算法类似的算法。

该算法也是通过网页之间的链接来评估网页的重要性。

不同之处在于,该算法还考虑了网页与关键词之间的相关性,从而实现更加准确的排名。

百度的超级链路分析算法将网页与网页之间的链接看作是一种投票方式,被投票次数越多的网页排名越靠前。

而且,该算法还考虑了网页与关键词之间的相关性,所以含有相关关键词的网页排名会更加靠前。

二、搜索引擎的排名算法为什么如此重要?1. 影响网站流量搜索引擎的排名算法直接影响到了网站的展现。

如果一个网站的排名不高,那么就会很难被用户发现。

而高排名的网站就可以吸引更多的用户流量,实现商业化转型。

搜索引擎算法排名分析

搜索引擎算法排名分析

搜索引擎的目标是帮助用户迅速查找到所需的网络资源,并及时呈现给用户。

用户希望最符合他需求的资源能在搜索引擎的查询队列里排在前面。

从用户的搜索行为习惯来看,用户通常最关心首页的信息,第二页、第三页是越往后的信息用户越不愿意,也没有耐心去翻页浏览。

所以,如果有重要的网页资源被排在检索结果的后面,则被用户点击的机率就很小了。

总而言之,排序是搜索引擎最关键的技术之一,排序策略和算法决定了排序效果的优劣。

本文基于项目实例,探讨基础教育资源搜索引擎的排序问题。

一、通用排序策略(一)词频和位置加权算法利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展最成熟。

基本原理是:关键词词频越高的文档和关键词出现的位置越重要的文档优先排在检索结果的前面。

该算法简单、易实现,比较适用于结构化文档数据,如期刊数据等,但对互联网资源来说,很难保证文档的结构和文档的质量。

(二)DirectHit算法DirectHit是AskJeeves公司的一种注重信息质量和用户行为反馈的排序算法。

它的基本思想是:用户输入检索词条t后,如果用户在浏览搜索引擎提供的n条结果记录中第i条记录(RUL)时,停留时间越长,则说明,记录i与关键词t越相关,反之说明记录i与关键词t相关度较小。

(三)Alexa的网站排名算法Alexa因专门制作世界网站排名而闻名于世。

Alexa的世界网站排名主要分两种:(1)综合排名,也可以叫做绝对排名,即某个网站在所有350多亿全世界所有网站中的名次。

(2)分类排名,一是按主题分类,比如新闻、娱乐、购物等,Alexa给出某个特定网站在同一类网站中的名次。

Alexa将其收集到的网站共分了若干个大类,每个类又分为多个主题。

二是按语言分类,比如英文网站、中文网站、法文网站、德文网站等,给出特定站点在所有此类语言网站中的排名。

(四)Google的排序算法Google是现今最受欢迎的搜索引擎,最主要的原因是优秀的排序结果。

ThePageRankCitationRanking:BringingOrdertothe。。。

ThePageRankCitationRanking:BringingOrdertothe。。。

ThePageRankCitationRanking:BringingOrdertothe。

1. 论⽂原⽂The PageRank Citation Ranking: Bringing Order to the Web.Page, Lawrence and Brin, Sergey and Motwani, Rajeev and Winograd, Terry (1999) The PageRank Citation Ranking: Bringing Order to the Web. Technical Report. Stanford InfoLab.在⼏天的集中时间⾥,拜读了google创始⼈佩奇和布林的关于pagerank的经典⽂章,收获颇多。

在第2部分介绍了我理解的PageRank原理,第3部分具体写⼏点感受。

附录部分是⾃⼰实现了⼀个单线程的PageRank算法的C++源码。

2. PageRank原理介绍1) pagerank要解决的问题将互联⽹从⼀个全局的观念上,根据链接关系对⽹页的重要性进⾏⼀个更加贴近于⽤户兴趣和注意的分数刻画。

2) pagerank算法基本思想将互联⽹的⽹页看成是⼀个图的节点,⽹页之间的链接作为图的有向边,对整个⽹页进⾏递归定义:有更多pagerank值⾼的⼊链⽹页的pagerank更⾼;更⾼pagerank值⽹页的出链的⽹页pagerank值更⾼。

3) pagerank具体形式pagerank的算法公式是如下:其中表⽰的是⽹页的pagerank值,是⼀个规范化的常数,表⽰的是的⼊链集合,表⽰的是的出链的个数。

从这个定义可以看出 2 )中所叙述的递归概念。

幸运的是我们可以证明在给定⼀个不退化初始值时,这个迭代过程是收敛的。

Pagerank算法要应付两个问题:a) ⽹页没有出链的情况论⽂中把这种链接称为“dangling links”,这种链接还存在两种可能:⼀是这个⽹页确实没有外链(出链),⽐如pdf⽂档;⼆是下载的⽹页数⽬有限,导致⼀些外链没有被下载。

网络搜索引擎算法的优化研究

网络搜索引擎算法的优化研究

网络搜索引擎算法的优化研究第一章引言随着互联网的发展,人们对于信息获取的需求日益增长。

搜索引擎作为互联网信息检索的主要工具,已经成为人们日常生活中不可或缺的一部分。

然而,面对日益增长的网络信息,如何提高搜索引擎的检索效率和准确性,一直是互联网产业中需要攻克的难题。

搜索引擎运用的算法是实现高效搜索的关键。

目前,随着人们对于搜索引擎的需求变化,现有的搜索引擎算法已经显得有些滞后,需要进一步优化,以更好地满足搜索引擎的使用需求。

因此,本文将从优化搜索引擎算法的角度出发,对搜索引擎算法的优化进行研究。

第二章搜索引擎算法的概述搜索引擎算法是搜索引擎的核心技术之一。

在搜索引擎中,算法是指一系列的计算过程,它们是为了对网络上的网页、文件等内容以可靠、精确、快速的方式进行分类、排序和显示。

对于搜索引擎来说,算法的复杂程度与搜索引擎的效率和准确性直接相关。

因此,优化搜索引擎的算法是实现高效搜索的必要条件。

目前,常用的搜索引擎算法主要包括布尔模型、向量空间模型、概率模型、深度学习模型等。

其中最为流行的算法是基于向量空间模型的PageRank算法和TF-IDF算法。

第三章基于PageRank算法的搜索引擎算法优化PageRank算法是Google搜索引擎中的一个非常重要的算法,并且在实际应用中取得了非常好的效果。

该算法是利用网页间的链接关系来对网页的重要性进行排序的。

在PageRank算法中,网页的排名是根据其被其他网页所链接的次数和链接来源的重要性来确定的。

链接来源的重要性会按发布网站的PageRank值计算,该值是一个指示网站重要性的指标,越高的值代表该网站越重要。

根据PageRank算法的原理,可以对搜索引擎的排名结果进行优化。

通过增加网页被链接的数量和链接来源的重要性,以及提高网站本身的PageRank值,可以进一步提高搜索引擎的排名效果。

第四章基于TF-IDF算法的搜索引擎算法优化TF-IDF算法是搜索引擎中比较常用的一种算法,它使用一个重要性分数来反映某个词语在文档中的重要性。

搜索引擎的排序技术及其在计算机网络上的应用

搜索引擎的排序技术及其在计算机网络上的应用

能化的网络信息搜索工具[3]a
3 搜索引攀排序技术在网络上的应用 收费排名是搜索引擎排序技术在网络上最
分 和G 析 oogle 的PageRank都属于 接 析 技 链 分 排序 术, 里主 对Google 的PageRank 和 HillTop 算 这 要
法进行介绍。 独特的民主特性及其巨大的链接结构。 实质上,
G oogle 这样没有 竞价排名服务的 搜索引 通 擎。
过对网站内容优化 、增加链接等手段来提高其 在搜索引擎中的排名。这种方法并没有改变搜 索引擎的排序方法 。另一种是搜索引擎 自己对
当 从网页A链接到网页B时, PageRa Nhomakorabeak 就认为
“ 网页 A 投了网页 B 一票” 。可根据网页的得票
(1)网页链接分析技术。 链接指的是在页 数评定其重要性。然而, 除了考虑网页得票数 面之间或页面的对象之间建立的一种关系, (即 )的 链接 纯数量之外, 要分 还 析为其 投票的网 Web 信息的访问就是通过这种关系实现的。 链 页。 重要” “ 网页所投之票自然份量较重, 有助于Google、 等搜索弓 它们将网络资源进行 }擎,
了一定的组织,从而给人们的学习和生活带来
了 许多便利[11。 本文将阐述搜索引擎排序技术
的基本原理及其在网络生活中的应用。
1 搜索引. 及其排序技术的原理
1.1搜索引擎的基本原理
搜索引擎是用于帮助互联网用户查询信 息的搜索工具。它以一定的策略在互联网中搜 集、 发现信息, 对信息进行理解、 提取、 组织和理
合传统的内容分 析技术进行了优化。的超链接外都可以进行分布; 搜索器可以在多台机器上 相互合作、 相互分工进行信息发现, 以提高信息 发现和更新速度; 索引器可以将索引分布在不 同的机器上, 以减小索引对机器的要求;检索器

网络搜索引擎结果排序算法研究

网络搜索引擎结果排序算法研究

网络搜索引擎结果排序算法研究随着互联网的迅猛发展和普及,网络搜索引擎成为了人们获取信息的重要途径。

当我们在搜索引擎中输入一个关键词,就能迅速得到相关的搜索结果。

然而,面对海量的信息,如何将最相关的信息排在前面成为了搜索引擎提供者和研究者们的关注点,由此诞生了一系列搜索引擎结果排序算法。

本文将着重研究网络搜索引擎结果排序算法的发展和现状。

一、搜索引擎结果排序算法的发展历程1.1 早期搜索引擎的简单排序算法早期的搜索引擎采用了一些简单的排序算法来对搜索结果进行排序,如按照关键词在文档中出现的次数进行排序,出现次数多的排在前面。

这种算法简单直接,但容易被搜索引擎优化者通过“关键词堆砌”的方式操纵搜索结果,影响搜索结果的准确性。

1.2 基于链接分析的PageRank算法为了解决关键词堆砌的问题,谷歌公司推出了基于链接分析的PageRank算法。

该算法通过分析页面之间的链接关系,给网页一个权重分数,按照权重分数进行排序。

这样一来,页面的排名不完全依赖于关键词出现的次数,而是取决于页面的质量和受欢迎程度。

PageRank算法很好地解决了关键词堆砌的问题,但对于新页面的排序效果则不太理想。

1.3 基于机器学习的排序算法随着机器学习在各个领域的广泛应用,也有研究者开始利用机器学习方法来改进搜索引擎的排序算法。

一些常用的机器学习算法,如支持向量机、朴素贝叶斯和神经网络等,被应用于搜索引擎结果排序。

这些算法可以通过训练模型,利用大量的历史搜索数据和用户反馈信息,学习出最佳的排序策略。

机器学习算法的引入极大地提高了搜索引擎排序的准确性和效率,但也面临着数据和计算资源的需求。

二、当前主流搜索引擎结果排序算法分析2.1 谷歌搜索的排序算法谷歌搜索引擎使用了一种名为“分层搜索”的方法。

首先,它会以基于链接分析的PageRank算法为基础,给网页赋予初始的权重分数。

然后,通过一系列的排序策略和算法,对搜索结果进行进一步的排序和过滤。

搜索引擎排名算法对网络信息可信度的影响

搜索引擎排名算法对网络信息可信度的影响随着互联网的快速发展和使用,网络信息的获取已经成为人们日常生活的重要组成部分。

然而,面对海量的网络信息,我们如何识别哪些是可信的,哪些是不可信的呢?搜索引擎排名算法在这个问题的解决中起到了关键的作用。

本文将探讨搜索引擎排名算法对网络信息可信度的影响。

首先,搜索引擎是大多数人在互联网上获取信息的首选工具。

搜索引擎通过自身的算法对互联网上的信息进行排序和筛选,将用户搜索的关键词与网络内容进行匹配,为用户提供最相关和权威的结果。

搜索引擎排名算法的目标是通过评估和比较网页的相关性、权威性和可靠性来为用户提供最佳的搜索结果。

其次,搜索引擎排名算法评估网页的可靠性是通过多种指标来确定的。

其中一项重要指标是外部链接的数量和质量。

高质量的外部链接意味着其他网站认可该网页的可信度,因此搜索引擎会将这些网页排名得更靠前。

此外,搜索引擎还会考虑网页的更新频率、关键词密度、网页结构等因素,以评估其可信度和权威性。

然而,搜索引擎排名算法并非完美的,也存在一些限制和问题。

首先,搜索引擎排名算法只能根据已有指标和数据进行评估,无法判断网页内容的真实性和准确性。

虽然搜索引擎可以通过检测恶意网页、垃圾信息和非法内容来降低网络信息的不可信度,但仍然无法完全杜绝虚假信息的传播。

因此,用户在获取网络信息时仍需要保持一定的辨别能力和谨慎态度。

其次,搜索引擎排名算法也面临着操纵和滥用的风险。

一些网站会通过优化手段来提高自己在搜索引擎结果中的排名,从而获得更多的曝光和流量。

这种操纵行为可能导致一些不够可靠和权威的网页获得较高的排名,进而影响用户对网络信息的可信度评估。

应对这种情况,搜索引擎公司需要不断完善排名算法,增加对操纵行为的识别和惩罚力度。

为了提高网络信息的可信度,搜索引擎排名算法需要在以下几个方面进行改进。

首先,排名算法应进一步关注网页的质量和真实性,而不仅仅是依赖外部链接和关键词匹配。

可能的方法包括对网页内容的主题相关性和事实准确性进行评估,结合用户反馈和社交媒体数据等多维度信息来进行排名。

搜索引擎的排序算法分析与优化建议

搜索引擎的排序算法分析与优化建议近年来,随着互联网的快速发展,搜索引擎已成为人们获取信息的主要方式。

搜索引擎的排序算法在其中起着关键作用,它决定了用户搜索结果的排序顺序。

本文将对搜索引擎的排序算法进行分析,并提出一些建议来优化这些算法。

一、搜索引擎排序算法的分析搜索引擎的排序算法主要包括传统的PageRank算法、基于内容的排序算法和机器学习算法。

这些算法有各自的优势和局限性。

1. 传统的PageRank算法传统的PageRank算法是通过计算网页之间的链接关系来评估网页的重要性,然后根据重要性对搜索结果进行排序。

这种算法的优点是简单有效,可以很好地衡量网页的权威性。

然而,它容易被人为操纵,例如通过人工增加链接数量来提高网页的排名。

同时,该算法忽略了网页内容的质量和相关性。

2. 基于内容的排序算法基于内容的排序算法是根据用户的搜索关键词,匹配网页的内容来进行排序。

它考虑了网页的相关性和质量,可以提供更准确的搜索结果。

然而,该算法容易受到关键词的干扰,例如同义词的使用和关键词的滥用。

而且,这种算法对于新兴或少知名的网页往往无法准确判断其质量和相关性。

3. 机器学习算法机器学习算法是近年来蓬勃发展的一种算法,它通过分析用户搜索行为和网页特征,自动优化搜索结果的排序。

这种算法可以不断学习和调整,逐渐提升搜索结果的质量。

然而,机器学习算法需要大量的数据支持和运算资源,在处理大规模数据时效率较低。

二、搜索引擎排序算法的优化建议针对搜索引擎排序算法存在的问题,提出以下优化建议:1. 整合多个算法应综合利用传统的PageRank算法、基于内容的排序算法和机器学习算法的优势,构建一个综合、全面的排序算法。

通过结合不同算法的结果,可以提高搜索结果的准确性和相关性。

2. 引入用户反馈用户反馈是改进搜索引擎排序算法的重要信息源。

引入用户反馈,例如用户点击行为和搜索结果评分,可以不断优化排序算法,提供更符合用户需求的搜索结果。

网络搜索引擎排序算法研究进展

索引擎存在 的不足 , 出了农业搜索 引擎的排序模型 , 提 并展望 了今后搜索引擎排序算法 的发展趋势 。
关键词 : 搜索引擎 ; 排序 ; 排序算法 中图 分 类 号 :P9 T 33 文献 标 识 码 : A 文 章编 号 :060 0 (000— 17 0 10—6X 2 1)70 3— 4
同的权 值 , 而根 据权 值来 确 定 所搜 索 结果 与检 索 从 关键 词 相关 程 度 。可 以考 虑 的版 式信 息 有 : 是否 是 标题 , 否 为关 键 词 , 否是 正 文 , 体 大 小 , 否 是 是 字 是
非常广 泛 , 仍 是许多搜 索 引擎 的核 心排序 技术 。 至今
巨大 的挑 战。检索 结果 的排序 效果 直接 影响 到用 户 能否方 便地 获得所 需 的资 源 ,同时 也决定 了用户对
问题 。FI F算 法被 认 为是信 息 检索பைடு நூலகம்中最 重要 的发 T/ D 明。T ( em Feuny : 文 本词 汇频 率 , F T r rq ec)单 用关 键 词 的次 数 除 以 网页 的 总字 数 , 商 称 为 “ 键 词 的 其 关
e g n r o pe td. n i e wee pr s ce
Ke r s e rhe gn ; a kn ; a kn loi m y wo d :sac n ie rn ig rn igag rt h
随着 网络 技术 的发展 ,互 联 网查 询结 果 快速 、
频 率 。查 询关 键词 词 频 在文 档 中出现 的频 率越 高 , 其 相关 度 越 大 。但 当关键 词 为 常用 词 时 , 其 对相 使
r n i g mo e o g c l r ls ac n i e wa r p s d n h e eo me t lt n s o n i g ag r h n s a c a k n d l ra r u t a e r h e gn sp o o e ,a d t e d v lp n a r d fr k n l o i msi e r h f i u e a t

搜索引擎的相关排序算法分析与优化


"
收稿日期: !))* @ )# @ ?? 基金项目: 湖南省自然科学基金资助项目 ()# ,,C)))") 作者简介: 蔡国民 (?+"* @ ) , 男, 湖南慈利人, 中南大学硕士生, 吉首大学 信息管理 与工程学院 讲师, 主要从 事网络 应 用、 信息检索研究 ’
+J
吉首大学学报 (自然科学版)
[ ?] 检索结果的查准率对于用户的检索目标更 具意义 ’ 影响查准率的因素有很多, 相关排序算法是其中的一个关键点 ’
?
相关排序的概念和存在的问题
传统上, 人们将信息检索系统返回结果的排序称为 “相关 排序” ( F7&760/;7 F0/G2/E ) , 隐含其中各条目的顺 序反映了结 果
和查询的相关程度 ’ 在搜索引擎中, 其排序不是一个 狭义的相关序, 而是一种反映多种因素的综合统计优先 序 ’ 在排序方面, 搜索引擎目前存在的问题: ( ?) 对于 多数检索课题, 要么输出的检索 结果过载, 记录数 量达千条 以上, 给相 关性判断带来困难; 要么是零输出或输出量太少, 造成过分的漏检 ( ’ !) 在相关度方面, 搜索 引擎对相关 度参数的 选择、 计量 和算法各不相同 ( ’ B) 由于搜索引擎是按照已定的相关度对检 索结果 进行排序 , 关 键词检 索返回结 果的相 关度排 序方式 单 一, 用 户不能根据需要选择输入的排序方法, 用户对结果的排 序无能为力, 因而用户基本上是 在被动接 受返回序列, 这难 免 与用户的检索目标冲突, 受到用户接受能力的限制, 无疑会影 响到检全率与检准率 ’
!
现有的排序算法比较
现有的搜索引擎排序技术主要有 D0E7F0/G 算法和 OPH: 算法 ’ D0E7F0/G 算 法以 “随 机冲浪” 模型 为理论基础, 而 OPH: 算
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

排序算法论文搜索引擎论文摘要:该论文首先介绍了搜索引擎的三种基本排序算法,然后介绍了中文词性标注的原理和算法,本文重点是将词性标注原理引入到了搜索引擎的应用中,从输入的索引词着手,提出了运用词性分类优先的方法来影响索引文档的排序,即不同词性给予不同的优先级,根据优先级大小依次筛选文档,进而提高索引精度。

该方法是在牺牲有效性的基础上提高索引可靠性的。

关键词:排序算法;搜索引擎;词性标注speech classification priority application in the search enginezhang jingchun1,guan shixue1,2,ma yuan1(nzhou university,college of information science and engineering,lanzhou730000,china;2.pla 66483 troops,beijing100093)astract:the paper first introduces three basic search engine ranking algorithms, and then introduces the principle and algorithms of chinese part of speech tagging. this paper focus on the index words and puts emphasis on the introduction of the speech tagging principle to a search engine application, and makes useof part of speech classification method to influence the ranking of indexed documents, that is, different parts of speech are given different priority. according to the priority order of the indexed words the documents are selected in order, and then the indexing accuracy is improve. this method is based on the expense of speed to improve the reliability of index.keywords:sorting algorithm;search engine;part of speech mark一、引言搜索引擎的功能实现分为两大部分,搜集子系统和检索子系统[1],检索子系统主要对抓取来的网页进行索引,并为用户提供高质量的检索服务。

其中输出列表采用的排序算法直接影响着检索的质量,是检索能力的决定性因素。

十几年间人们一直在不断探索各种文档的排序算法,有基于词频与位置加权的排序,基于超链分析的排序,基于文档结构的排序,以及多种算法的改进与融合。

但总体上看,目前的排序算法主要是在被索引文档方面展开研究的,用户输入关键词仅作为一次搜索的引子。

本文在以上考虑的基础上,引入词性标注和权值门限两个概念。

从索引词的输入端着眼,提出了关键词词性分类优先的方法,旨在进一步影响检索系统的网页输出列表。

二、排序算法(一)基于词频与位置加权的排序算法基于词频与位置加权的排序算法源自于传统的信息检索中的文本文档加权标引算法[2],关键词在文档中的地位由两个方面决定,一个是词频因子,指词在文档中出现的频次,频次越高,该词的权重越高;二是逆文档频率因子,指的是包含该关键词的网页越多,这个词就越不重要。

同时由于关键词在web文档中出现的位置不同,对文档的影响力也是截然不同的。

一般来说,处于标题(title)、摘要(summary)、头段与尾段以及每段段首句的词更能准确地表达整个文档的主旨,自然它们的权重设置也要适当提高,我们把这种调整称为位置加权。

综合考虑以上因素,通过合理的计算就可以得出关键词在网页的权值。

在检索过程中,系统会分析用户输入的索引词与系统内所存文档中关键词的匹配程度,从而得出整个web文档集的排序[3]。

(二)pagerank算法pagerank算法是由google创始人之一larry page,于1998年在斯坦福大学就读博士研究生期间和sergeybrin 提出的基于网络链接分析的排序算法[4]。

pagerank不是简单地计算一个网页的链接数量(包括链向此网页和由此网页链出的超链数量)来确定网页重要程度的,而是采用了如下算法:假设a为一个网页,链向它的网页分别为t1、t2、…tn,从a链出的网页仅计算其链接数量设为c(a);参数d是取值0到1的阻尼系数(也叫规范化因子,通常取0.85较为合适),网页a的pagerank值是:pr(a) = (1-d) + d (pr(t1)/c(t1) + ... + pr(tn)/c(tn)) =(1-d)+ (1)pagerank算法被提出后,人们在此基础上又提出了多种改进的算法。

有topic-sensitive pagerank[5]、加速评估算法[6]和其它一些改进算法,分别对pagerank算法的不足进行了相应的修改补充。

(三)hits 算法hites(hyperlink-induced topic search)算法是与pagerank算法同期由康奈尔大学的kleinberg提出的[7],它是一种基于web结构挖掘的算法。

算法认为网页页面有两个方面的属性,一个是权威性(authority),被其它网页指向的属性,用a(t)表示;另一个是中心性(hub),指向其它网页的属性,用h(t)表示。

权威性a(t)用指向自己的网页ta的中心性h(ta)衡量,中心性h(t)用自己指向的网页tb的权威性a(tb)衡量,a、b为自然数。

如下:(2)(3)其中,m、n分别为对应的网页数量。

由公式可以得出,权威性和中心性是相互作用的,高权威性网页是由很多高中心性网页所链接的,同时高中心性网页也必然链向很多高权威性网页。

用户查询过程中,系统首先根据输入的关键词得到最相关的一组网页集合形成根集,再对其进行上下扩展,增加它所链接的和链向它的网页地址。

然后通过根集特征与扩展集特征的对比,完成对扩展集内网页的筛选,去掉不相关和差别较大的网页。

最后计算扩展集内网页的权威值和中心值,并依据此值进行排序[8—9]。

从总体上看,上述排序算法无论是基于内容或是基于链接,还是从结构上考虑,都是从网页角度分析计算来提高排序质量的。

那么我们是否可以换一个方向,从关键词词性上分析能否提高排序质量呢?三、词性标注词性标注指在给定句子中判定每个词的语法范畴,确定词性并加以标注的过程[10]。

具体指的是,在机器对自然文本分词处理后,根据每个词所在文本中的位置和上下文的关系,分析、计算并确定所得词的词性,为信息检索提供基础。

词性标注过程对于非兼类词(单性词)容易实现,对于兼类词(一个词在不同的语境中呈现不同的词性)则存在着一定的难度。

词性标注的方法主要有基于规则【greene and rubin,1971】【brill,1993】和基于统计【bahl and mercer,1976】【kempe,1993】两大类,在基于统计的方法中,隐马尔可夫模型(hidden markov model 简称hmm)是最主要的算法模型之一【11】。

(一)基于规则方法核心思想是计算机根据具体的上下文结构框架,套用语言学家总结的语言学规律来判定兼类词的词性【12】。

例如,对“作风整顿”中的“整顿”一词进行分析,整顿在词典中判定为兼类词——名词、动词。

依据语言规律,在“作风整顿”中,名词后跟名词,“整顿”为名词;在“整顿作风”中,名词前为动词,所以“整顿”为动词。

这种方法所依赖的规则库是封闭的系统,所以正确率比较低,只能达到77%[13]。

(二)基于统计方法在统计的方法中,计算机是在对大量自然语料的统计计算基础上自动生成的规则。

其基本思想是,制定词的标志集,选取部分自然语料进行人工词性标注,再利用统计理论进行运算得出统计规律,然后依据统计规律建立统计模型,计算机根据统计模型进行词性标注[12]。

其中应用较为广泛、效果较好的是隐马尔可夫模型。

隐马尔可夫模型是在马尔可夫模型的基础上发展起来的,属于马尔可夫链的一种。

此模型是一个双重随机过程,可观察事件的随机过程是隐蔽的状态转换过程的随机函数[14]。

在词性标注应用中,隐马尔可夫模型应用十分广泛。

假设词的序列w={w1,w2,……wn}作为观察序列,可能的词性序列t={t1,t2,……tn},作为隐含的状态序列。

目的是得到一个t使得p(t|w)最大,用t*表示。

根据贝叶斯定理:(4)(5)(6)上式中表示词性为的词的概率,表示词性到词性的转移概率。

四、词性分类优先的应用当用户输入的索引词为多个,或者输入一个句子并完成分词后,传统的搜索引擎默认关键词之间是and关系,多个关键词之间不存在主次。

那些对用户来说不重要的关键词可能会在输出文档列表顺序中产生了重要作用,干扰了整体的排列顺序。

本文提出了通过区分词性的方法对得到的所有关键词进行比较,在文档排序过程中,凡是涉及到关键词的部分,不再采用简单地关键词权值相加,而是根据关键词词性的优先级逐层析出的方法来干预排列。

设用户输入的索引词为q1,q2,q3……。

搜索引擎根据索引词得到了一个网页集合为p={p1,p2,p3,……pn},第i个网页内关键词集合为ki={ki1,ki2,ki3……kin},因此ki中至少包含以上索引词中的一个。

根据词性标注算法标注以上所有索引词的词性,在汉语中词性包括:名词、动词、形容词与副词、介词、代词、数词、量词,其它如叹词、拟声词、助词不列为关键词。

这里人为设置词性优先顺序为:名词、动词、形容词与副词、数词、量词、代词、介词。

把相同词性的关键词作为一个训练项t(各同性词的权值相加作为训练项的权值),因此可以得到七个训练项。

当不包含某个词性的关键词时,就没有这个词性的训练项。

在得到的网页集合p内,判断每个网页内关键词是否包含全部索引词,将全部包含的网页作为一个子集s={p1,p2,……pm},部分包含索引词的网页作为一个子集s’={p1,p2,……pr},其中m+r=n。

在s内,计算每个网页中训练项各自的权值,并做归一化处理(此处理在现有的搜索引擎中已经得到成熟应用),记为w1pi,w2pi,w3pi……wnpi(),分别对应着t1,t2,t3……tn在网页pi内的权值。

相关文档
最新文档