搜索引擎页面排序融合算法_吴文昭
一种改进的元搜索排序合成算法

文档列表中包含的文本信息, 结合文档 的排序位置 达 到平衡搜 索 引擎 之 间差异 的 目的. 张卫 丰等 提 出 了摘 要/ 位置 排序 法 , 该方 法 考 虑 的 因素太 少 , 但 算法过于粗略; 文献 [ - ] 5 6 中对排序位置 和文本信 息都 进行 了规范 化处 理 , 对 检 索结 果 中的 重叠 信 但 息则 未作 处理 . 对上 述算法 的不 足 , 中提 出 了基 针 文 于 文本/ 置分析 和群 决策 的合成算 法 , 位 首先 给 出了 文 本分析 的规 范化 方法 , 合 排 序 位 置信 息 得 到规 结
理 的方 式对 文档局 部相似 度进 行调 整. av Cl e等 提 出 了基 于逻 辑 回归 模 型 的合 成 方 法 , 方 法需 要 一 该 些训 练查询 来建 立模 型 . i S 等 利用 资 源 描述 时获 取 的抽 样 数据 作 为样 本 数 据 库 来 建 立 线性 回归 模 型 . 些方法 是基 于文档 全局 相似度 的 , 验结 果优 这 实
调 整.
于基 于文档 局部相 似 度 信 息 的方 法 , 该 类方 法 过 但 于依 赖样本 库 , 实 际应 用 时较为 复杂 . 在 文 中主要 研 究基 于排序 位 置 的合 成算 法 , 用 利
1 1 排 序位 置 的规 范 化处 理 .
K个 搜索 引擎 E , … , 返 回基于 查询 q的 E ,
C =( l p 1 /l } —出+ ) 三 f
() 1
从式( ) 1 中可 以看 出 , 如果 文档 d 是搜 索结 果 列表 中 的第 一个 文档 , 则规 范化 得 分 为 1 说 明各搜 ,
索 引擎 返 回的文 档列 表 中第 一个 文档具 有相 同的重
搜索引擎中的信息检索与排序算法研究

搜索引擎中的信息检索与排序算法研究信息检索和排序算法是搜索引擎中至关重要的组成部分。
当用户在搜索引擎中输入关键词进行搜索时,搜索引擎会根据一定的算法对网页中的各种信息进行检索,并根据相关度对搜索结果进行排序。
本文将研究搜索引擎中的信息检索与排序算法,并讨论它们的作用和发展。
信息检索是指在大量的文本数据中查找符合用户需求的信息。
在搜索引擎中,信息检索算法对用户输入的关键词进行解析和处理,并根据关键词与文档之间的关联程度,将相关的文档从庞大的文本数据库中筛选出来。
首先,搜索引擎中常用的信息检索算法之一是倒排索引。
倒排索引通过建立词项与文档之间的映射关系,方便搜索引擎在大规模文本数据中快速定位目标文档。
当用户输入关键词时,搜索引擎会根据倒排索引找到包含该关键词的文档,从而实现信息检索。
倒排索引能够提高搜索引擎的检索效率,使用户能够更快地找到所需信息。
另一种信息检索算法是向量空间模型。
向量空间模型将每个文档表示为一个向量,在这个向量空间中,每个维度代表一个关键词,而向量的值代表该关键词在文档中的权重。
当用户输入关键词时,搜索引擎会将用户输入的关键词转换为向量,并计算与各个文档向量之间的相似度。
相似度越高的文档将排在搜索结果的前面,这样用户就能够更容易找到相关的文档。
除了信息检索算法,排序算法在搜索引擎中也扮演着至关重要的角色。
排序算法根据相关度指标对搜索结果进行排序,以便用户更快地找到所需信息。
在搜索引擎中最经典的排序算法是PageRank算法。
PageRank算法通过分析网页之间的链接关系,给每个网页赋予一个权重值,权重值越高的网页在搜索结果中的排名越靠前。
这个权重值的计算是基于网页的重要性和被其他页面的链接数。
PageRank算法的核心思想是一个网页被越多其他重要的网页所链接,那么这个网页的权重就越高,从而它在搜索结果中排名就会更靠前。
PageRank算法的使用使搜索引擎能够提供质量更高、相关性更强的搜索结果。
一种改进的搜索引擎页面排序算法

一种改进的搜索引擎页面排序算法王毅飞;赵辉【期刊名称】《现代计算机(专业版)》【年(卷),期】2014(000)002【摘要】Analyzes the classical algorithm on PageRank which is based on the existing link structure. The algorithm mostly works on interlinks a-mong Web pages and then presents some disadvantages of this algorithm. Those disadvantages are prone to theme-drift, ignoring special sites and preferring to old pages. Aiming at theses disadvantages, describes the improved algorithm. The experimental results show that, compared withthe traditional PageRank ranking algorithm, the improved algorithm can both improve the retrieves accuracy ratio effec-tively and the satisfactoryof the users.%经典的基于链接结构的PageRank算法,它主要是依据页面之间的链接关系进行排序,容易出现主题漂移、忽视专业站点、偏重旧网页等缺点。
针对这些问题,从超文本相关性、基于网站权威性权重因子和时间权重方面提出改进。
实验结果表明,与传统的PageRank排序算法相比,改进算法能有效提高查准率,提高用户对排序结果的满意度。
【总页数】5页(P15-18,29)【作者】王毅飞;赵辉【作者单位】四川大学计算机学院,成都 610065;四川大学计算机学院,成都610065【正文语种】中文【相关文献】1.提供个性化服务的搜索引擎页面排序算法 [J], 张俊伟;张岭;马范援2.一种基于页面聚类和排序算法的多元搜索引擎改进方案 [J], 张泳;吕净3.搜索引擎页面排序算法研究综述 [J], 李绍华;高文宇4.一种改进的综合Borda元搜索引擎结果排序算法 [J], 李兵;谭春5.基于超链接分析搜索引擎页面排序算法的剖析 [J], 张书江因版权原因,仅展示原文概要,查看原文内容请购买。
网络搜索引擎结果排序算法研究

网络搜索引擎结果排序算法研究随着互联网的迅猛发展和普及,网络搜索引擎成为了人们获取信息的重要途径。
当我们在搜索引擎中输入一个关键词,就能迅速得到相关的搜索结果。
然而,面对海量的信息,如何将最相关的信息排在前面成为了搜索引擎提供者和研究者们的关注点,由此诞生了一系列搜索引擎结果排序算法。
本文将着重研究网络搜索引擎结果排序算法的发展和现状。
一、搜索引擎结果排序算法的发展历程1.1 早期搜索引擎的简单排序算法早期的搜索引擎采用了一些简单的排序算法来对搜索结果进行排序,如按照关键词在文档中出现的次数进行排序,出现次数多的排在前面。
这种算法简单直接,但容易被搜索引擎优化者通过“关键词堆砌”的方式操纵搜索结果,影响搜索结果的准确性。
1.2 基于链接分析的PageRank算法为了解决关键词堆砌的问题,谷歌公司推出了基于链接分析的PageRank算法。
该算法通过分析页面之间的链接关系,给网页一个权重分数,按照权重分数进行排序。
这样一来,页面的排名不完全依赖于关键词出现的次数,而是取决于页面的质量和受欢迎程度。
PageRank算法很好地解决了关键词堆砌的问题,但对于新页面的排序效果则不太理想。
1.3 基于机器学习的排序算法随着机器学习在各个领域的广泛应用,也有研究者开始利用机器学习方法来改进搜索引擎的排序算法。
一些常用的机器学习算法,如支持向量机、朴素贝叶斯和神经网络等,被应用于搜索引擎结果排序。
这些算法可以通过训练模型,利用大量的历史搜索数据和用户反馈信息,学习出最佳的排序策略。
机器学习算法的引入极大地提高了搜索引擎排序的准确性和效率,但也面临着数据和计算资源的需求。
二、当前主流搜索引擎结果排序算法分析2.1 谷歌搜索的排序算法谷歌搜索引擎使用了一种名为“分层搜索”的方法。
首先,它会以基于链接分析的PageRank算法为基础,给网页赋予初始的权重分数。
然后,通过一系列的排序策略和算法,对搜索结果进行进一步的排序和过滤。
网站搜索功能的搜索结果排序技术

网站搜索功能的搜索结果排序技术互联网的快速发展使得网站数量急剧增加,用户在海量信息中搜索所需内容已成为日常生活中常见的行为。
为了快速准确地呈现搜索结果,网站普遍采用搜索结果排序技术。
本文将介绍几种常见的网站搜索功能的搜索结果排序技术,并分析其特点和优劣。
一、关键词匹配排序技术关键词匹配是最基本的搜索结果排序技术之一。
它通过匹配用户输入的关键词和网站内容中的关键词进行比较,对匹配度高的结果进行排序。
这种排序技术简单直观,但存在一些不足之处。
首先,它只考虑了关键词的匹配度,而忽略了其他因素,容易导致搜索结果的相关性较低。
其次,关键词匹配排序技术无法很好地适应用户的搜索习惯和需求变化,结果呈现的可能性较小。
二、PageRank排序技术PageRank是由谷歌公司提出的一种搜索结果排序算法。
该算法根据网页之间的链接关系来评估网页的重要性和权威性。
对于搜索结果的排序,PageRank将具有更多入链的网页排在前面,认为其内容更有价值。
PageRank排序技术较好地解决了关键词匹配排序技术的不足之处,提高了搜索结果的相关性。
但PageRank也存在一些问题,比如容易受到作弊行为的影响,无法准确地反映网页的质量。
三、人工智能排序技术随着人工智能技术的快速发展,越来越多的网站搜索功能开始采用人工智能排序技术。
这种排序技术通过分析用户的搜索行为和网站内容的相关性,利用机器学习算法和自然语言处理技术,对搜索结果进行智能排序。
人工智能排序技术具有较高的准确性和个性化,能够快速适应用户的搜索需求和习惯,提供更加精准的搜索结果。
然而,人工智能排序技术也存在一些问题,比如对用户隐私的侵犯和算法不透明性等。
四、基于用户反馈的排序技术为了提高搜索结果的质量和准确性,一些网站还采用基于用户反馈的排序技术。
这种排序技术通过收集用户的点击、浏览和评价等反馈信息,对搜索结果进行调整和排序。
基于用户反馈的排序技术可以不断优化搜索结果,提高用户满意度。
排序融合算法在校园网搜索引擎中的应用_李粤 (1)

第45卷增刊2005年10月大连理工大学学报Journal of Dalian U niversity of T echnologyV ol.45,Suppl.Oct 12005文章编号:100028608(2005)S 2S257204收稿日期:2005208219.基金项目:国家自然科学基金资助项目(90104002).作者简介:李 粤(19742),女,博士生,主要研究方向:信息检索,个人信息管理平台,E 2mail :liyue @ ;安 捷(19692),女,助理研究员,E 2mail :anjie @ ;李 星(19582),男,博士,教授,博士生导师,E 2mail :xing @cernet..排序融合算法在校园网搜索引擎中的应用李 粤1, 安 捷2, 李 星1(1.清华大学电子工程系,北京 100084;2.清华大学网络中心,北京 100084)摘要:网页排序技术是搜索引擎的核心技术之一.校园网搜索引擎是指以一个校园网内的Web 网页为搜索内容的搜索引擎.由于校园网相对于互联网和内联网的特殊性,各种启发式条件对校园网网页排序优化的影响及排序融合技术在校园网搜索引擎的作用是研究的重点.实验结果表明各个启发式条件的影响和实验数据集有关,而不同启发式条件组合经过排序融合后所获得的查全率差别很大(2%~48%).查全率大于35%的启发式条件组合至少包含4个启发式条件,即校园网搜索引擎的排序需要依据数据集综合考虑多个启发式条件的排序结果.排序融合技术是校园网搜索引擎具有良好的查全率的必要技术之一.基于排序融合技术的网页排序模块已经应用于清华大学校园网搜索引擎中.关键词:搜索引擎;马尔可夫链;排序融合技术;启发式条件;查全率中图分类号:TP 391文献标识码:A0 引 言由于用户对搜索关键词选择的不精确性,搜索引擎通常会对用户的查询请求返回较多的结果,但研究显示用户通常只浏览前10~20个查询结果[1].因此,如何通过排序将最可能满足用户需求的结果或高质量的结果显示在返回结果列表中靠前的位置,即网页排序技术,是网页搜索引擎的关键技术之一.用于改进网页排序算法的启发式条件可分为与用户查询相关(例如查询词出现在标题中的次数)和与用户查询无关(例如网页的反向链接数)两大类.为综合使用这些条件或指标,需要根据具体的应用背景和目标,调整相应的排序函数中各个启发式条件的影响因子.排序融合技术就是一种自动调整各个启发式条件影响因子的算法,它在一系列候选结果中使用不同的排列组合以获得一个较优的排序[2、3].随着教育科研机构的网络普及与信息资源的增加,对校园网的信息检索需求也日益增长.而校园网相对于互联网和企业内联网,有其特殊性.例如:从内容而言,互联网包罗万象,校园网以学术为主,企业内联网是文档与通知;从平均页面质量 看,互联网质量较低(包含很多广告信息)、校园网和企业内联网质量较高(包含较少广告信息)等.校园网的特殊性给校园网搜索引擎带来了区别于传统的互联网搜索引擎和企业内联网搜索引擎的挑战.为了提高和改进校园网搜索系统的检索效率,本文研究多种启发式条件在校园网系统中的影响效果,并将排序融合技术应用于校园网搜索系统.1 排序融合技术排序融合技术在很多学科都有研究,如学习理论中协作过滤和元搜索[1]、社会学的选举机制[4]等.Y oung 等[4]用极大似然法则结合选举机制提出了排序选举———Kemeny 规则,这一方法可以满足投票人的最小分歧.Kemeny 优化方法的表述如下:设离散集合U{u (n ),n =0,1,2,…},{τi }是{u (n )}元素的所有排序组合,Kemeny 优化次序σ使所有排序组合间的K 2距离和最小.{τi (n )}表示元素u (n )在第i 个排序组合中的位置.则τi 和τj 的K 2距离定义为〈n ,m 〉元素对的个数.其中n ,m ∈τi 且n ,m ∈τj ;τi (n );τi (m ),τj (n ):τj (m ). 本质上,Kemeny优化方法可以产生最好的折衷结果.但文[5]研究表明Kemeny优化方法是N P2 Hard问题,为此Dwork等提出用基于Markov Chain的方法近似求解最优有序排列σ[2].Dwork求一步转移矩阵的平稳分布时,将该转移矩阵的所有强连接子图作为节点,视为一个有向无环图(direct2 ed acyclic grap h,DA G),并提出这个DA G在求解平稳分布时有3种特殊情况:(1)存在惟一的吸收点(充要条件是该点的p ii=1);(2)存在多个吸收点;(3)存在几个弱连接子图.这3种情况都无法保证网页的相对排序次序(会出现次序一样的网页).为解决以上问题,本文参照文[6]的方法将一步转移矩阵的平稳分布经过平滑变换,从而尽可能保证网页排序的惟一性.2003年Fagin等[3]对企业内联网(Int ranet)搜索引擎的研究中指出,应用于企业内联网的搜索引擎同应用于互联网(Internet)的搜索引擎之间存在很大的差异,并在IBM公司的内联网搜索引擎上使用基于Markov Chain的排序融合算法对各种排序启发式条件的影响效果作分析.Fagin等的工作表明,查全率高的排序算法需包含至少4个启发式条件,排序集合算法是企业内联网搜索引擎获得良好查全率的必需因素.2 实验方法设计2.1 实验原则以清华大学校园网Web网页为查询对象,建立查询结果标准测试集.将各个查询词获得的查询网页经过排序融合后与其对应的网页标准测试集比较,衡量排序融合技术优化效果以及各个启发式条件的影响因子.2.2 实验集获取于2004年7月挖掘205个清华校园网内站点(已经过滤了别名站点),共采集到1105467个网页(挖掘文件类型限于text/ht ml文件).收集清华校园网搜索引擎(测试版)2003年1月到2004年8月共249621次的查询日志.数据集1为清华大学查询日志中查询频率最高的100个查询词;数据集2为清华大学查询日志中查询频率中间的50个查询词(中间是指这些词的查询次数大概为第100个查询词次数的一半).查询词对应的网页标准测试集合采用人工选择方法获得:选择查询结果列表的前k个结果(Top2k List);其中k=1,2,10,20.5个测试者对同一个查询词返回集合的网页以少数服从多数原则,判别是否在该查询词的Top2k List中.排序融合启发式条件(μ)参考文[3、7]等的研究工作,选择下面9个启发式条件:查询词在标题、反向链接说明和文本的相对词频(分别记为t2t f、a2t f和f2t f),排列次序由大到小;查询结果中的各个网页被站内和其他站点的网页链接数目(分别记为t2num、o2num),由大到小;各个网页的Pagerank (记为pr)值[8],由大到小;各个网页url的长度(包含的字符数)、深度(所处的目录层数)和类型(主页、次主页、目录、静态网页、动态网页)(分别记为u2len、u2dep和u2t y p),由小到大.相对词频是归一化的词频,其计算方法主要运用TF2IDF公式.目前存在多种TF2IDF公式[9、10],因为本文的研究对象只选用文件中出现的部分词,所以选用文[9]的公式(文[10]中的公式需要知道同一文件出现的所有词在这一文件的词频).3 实验结果分析9个条件的排列组合有29=512种,但因为t2t f、a2t f和f2t f3个条件必须包含至少1个,所以最终排列组合为29-27=384种.3.1 实验结果评价方法查全率和查准率是反映搜索引擎质量不同方面的两个参数[10].本文将实验得出的结果和Top2k List进行比较,选用查全率作为衡量标准,即在系统返回同样数量的查询结果前提下,查询结果在Top2k List中数量越多,搜索引擎的排序质量越高.设数据集p(p=1,2,3,4)共有Q个查询词,则其在k(k=1,2,10,20)的查全率为R p k=K p1+…+K p Qk3Q(1) 由于每种排列融合后的结果只选择前k个值,为减少计算量,每一个启发式条件u的排序网页集只取排名前2k个网页即可.设该排列组合τi有m个启发式条件,只需计算在[m/2]+1个条件的网页集(前2k个)中都出现的网页.R p k′(μ)=max(R p k(τj)),μ∈τi包含条件μ的所有排列组合中最大的查全率;R p k″(μ)=max(R p k(τj)),μ∈τi不包含条件μ的所有排列组合中最大的查全率.定义1 启发式条件μ的影响因子S p k(μ)=(R p k′(μ)-R p k″(μ))/R p k″(μ)852S大连理工大学学报第45卷 3.2 查全率评估启发式条件的所有排列组合在k=20的最大查全率为:R120=48%;R220=43%.其中在两个数据集都满足R1,220≥35%的排列组合有19种.这19种组合的启发式条件个数都在4~7;这一结果证明排序融合算法的必要性,即不使用4个以上启发式条件的排序算法效果是比较差的.3.3 启发式条件影响因子表1 启发式条件在数据集1的影响因子Tab11 Influences of heuristics in Dataset1% (μ)S31(μ)S32(μ)S310(μ)S320(μ)t2t f-66.7-53.8-47.2-52.7a2t f50.030.034.814.4f2t f-16.7-15.4-12.4-10.0t2num9.215.423.633.3o2num41.430.034.814.4pr-16.70.42.010.1u2len-33.3-23.1-23.6-12.6u2dep10.315.423.610.1u2t y p10.315.47.916.6表2 启发式条件在数据集2的影响因子Tab12 Influences of heuristics in Dataset2% (μ)S31(μ)S32(μ)S310(μ)S320(μ)t2t f33.3-22.2-32.0-29.7a2t f0.066.70.0-18.4f2t f-33.3-40.00.022.5t2num0.0-50.0-8.7-15.8o2num0.0-40.00.08.2pr-16.7-15.4-12.4-10.0u2len0.0-40.00.010.5u2dep0.0-40.07.09.0u2t y p0.0-30.012.2-8.2分析表1和2的数据,可得出以下结论:(1)t2t f只在数据集2中k=1的位置影响明显.这与文[3]研究结果不同.原因是数据集1中的查询词不少都是清华大学的知名网站(例如“水木清华”(bbs.t )、“清华大学出版社”(www.t up.t )等),k=1的结果基本都是主页或次主页.而数据集2中k=1的结果大部分都是一般网页.(2)a2t f在数据集1、数据集2中各个位置都有相对明显影响,这和文[3]的研究结果相似.由于校园网和企业内联网的网页质量较高,商业因素不明显,anchor的描述较少有夸张和夸大的成分,对内容指示效果较强.(3)f2t f在数据集2的k=20开始有相对明显影响;而pr无明显影响.原因同(2).(4)t2num和o2num在数据集1中影响比较明显,这和文[3]的结论有较大差异.原因是校园网要为学校的资源共享、信息交流、引导或辅助教学及协同工作提供便利,网页间的链接较多,而企业内部网的信息大多为文档与通知,而不去刻意地吸引和考虑任何群体(即缺少相关网页间的链接).(5)u2len影响不明显,但u2dep和u2t y p影响很明显,尤其在数据集1中,这与文[3]的结论不同.原因是校园网的页面相对丰富,组织层次也较多,所以u2dep和u2t y p(u2de p和u2t y p有一定的相关性,例如u2t y p为主站点的u2dep为1,而url2len随意性较大)的影响较大.4 结 论本文成功地将基于Markov Chain的排序融合技术用于清华大学校园网搜索引擎.实验结果显示,各启发式条件的影响与Fagin等在企业内联网的研究结果有较大差异.实验结果表明排序融合技术是保证校园网搜索引擎具有良好查全率的必要技术之一.实验结果对校园网搜索引擎的排序算法有很大的指导意义,也适合于网页质量较高及网页间联系较多的网站群资源搜索.基于排序融合技术的清华大学校园网搜索引擎已经在http://info.t 上提供服务.参考文献:[1]RENDA M E,STRACCIA U.Web Metasearch:Rankvs.score based rank aggregation methods[A].Proc of the2003ACM symposium on Applied computing[C].Melbourne:ACM Press,2003:8412846.[2]DIN G C,H E X F,HUSBANDS P,et al.Rank aggrega2tion methods for the web[A].Proceedings of the10th International World Wide Web Conference[C].Hong K ong:ACM Press,2001:6132622.[3]FA GIN R,KUMAR R,McCU RL EY K,et al.Search2ing the workplace web[A].Proceedings of the Twelfth International Conference on World Wide Web[C].Hun2 gary,Budapest:ACM Press,2003:3662375.[4]YOUN G H P,L EV EN G L IC K A.A Consistent exten2952S 增刊 李 粤等:排序融合算法在校园网搜索引擎中的应用sion of condorcet ’s election principle [J ].SIAM Journal of Applied Mathem atics ,1978,35:2852300.[5]BAR T HOLDI J J ,TOV EY C A ,TRIC K M A.Votingschemes for which it can be difficult to tell who won the election[J ].Social Choice and Welfare ,1989,6(2):1572165.[6]L AN GV ILL E A N ,M EYER C D.Deeper inside PageR 2ank[J ].Internet Mathem atics ,2004,1(3):3352400.[7]KRAAI J W ,WESTERV ELD T ,HIEMSTRA D.Theimportance of prior probabilities for entry page search [A ].Proc 25th Annu al I nternational ACM SIGIR Confer 2ence on R esearch and Development in I nform ation R etriev 2al [C].Tampere :ACM Press ,2002:27234.[8]BRIN S ,PA GE L.The anatomy of a large 2scale hyper 2textual Web search engine [J ].Computer N etw orks andISDN Systems ,1998,30(127):1072117.[9]ALL AN J ,CONN ELL M ,CROFT W B ,et al.IN 2QU ER Y and TREC 29[A ].Proc 9th TREC [C ].G aith 2ersburg :USA N IST Special Publication ,2001.5512577.[10]庞剑锋,卜东波,白 硕.基于向量空间模型的文本自动分类系统的研究与实现[J ].计算机应用研究,2001,9(9):23226.Application of rank aggregation to campus net work search engineLI Y ue 1, AN J ie 2, LI X ing 1(1.Department of E lectronic Engineering ,Tsinghua Univ.,Beijing 100084,China ;work Center ,Tsinghua Univ.,Beijing 100084,China )Abstract :Relevance ranking is one of t he key technologies for web pages search engine.Camp us networksearch engine (CNSE )focuses on web informatio n wit hin a certain camp us network ,which has it s own characteristics co mpared wit h Internet and Int ranet s.The influence of heuristic evidence in web page ranking and t he performance of rank aggregation to CNSE were analyzed.The impact of each heuristic evidence differs in different data set s ,and t he recall of each combination of subset s of heuristics varies from 2%to 48%.The combination who se recall is over 35%includes at least four heuristics ,t hat is ,a few heuristics should be considered according to dataset in ranking system.The experimental result s show t hat rank aggregation technology is necessary for producing robust result s in CNSE.The rank aggregation algorit hm has been deployed in Tsinghua University camp us network search engine.K ey w ords :search engine ;Markov chain ;rank aggregation ;heuristic evidence ;recall62S 大连理工大学学报第45卷 。
搜索引擎页面排序融合算法_吴文昭

一化处理。
,=
,
=
, lg / max
,=
,
max
网页之间的超链接是 Web 的基本特点,如前所述,PageRank 算法就是依靠计算网页的外部链接数量来决定该网页的 排名,然而 PageRank 忽略了页面的主题相关性[7],影响了搜索 结果的相关性和准确性,而且 PageRank 算法对新网页有很严 重的歧视性,因为一个新网页入链数量通常都很少,相应的链 接权值很低。综合考虑上述问题,再结合 TSPR(topic-sensitive PageRank)[8]算法,我们提出了新的主题相关链接权值 TLW 计 算方法。
收稿日期:2009-04-15;修订日期:2009-06-29。 作者简介:吴文昭 (1966-),男,甘肃天水人,硕士,副教授,研究方向为智能信息处理、教育决策支持等。E-mail:jkwang88@
吴文昭:搜索引擎页面排序融合算法
2010,31 (8) 1679
( 用 户 偏 好 )。 基于以上 3 个主要方面的考虑,得到一个 URL 的权值评
, 的最大值。
最后
, 将作为词项基本权值来参与相关度评价
的运算。
2 词项基本权值
3 主题相关链接权值
传统 的 IR 方 法 中 ,词 项 权 重 的 自 动计 算 多 是 采 用 公 式 [6],但根 据前面的讨论 ,并不能够将它 完全照搬到搜 索
引擎 系 统 中 来 。考虑 到 网 页 中 含 有 大量 的 HTML 标 签 (tag), 以及 网 页 的 可 索 引 文本 长 度 对 于 词 项 权值 的 影 响 ,本 文 在 词项基本权值的计算中引入 HTML 标签和网页的可索引文 本长度。
0引言
人们将信息检索系统返回结果的排序称为“相关排序”,隐 含 其 中各 条 目的 顺 序 反映 了 结果 和 查询 的 相 关程 度[1]。在 搜 索 引 擎 中 ,人 们 也 这 么 讲 ,但 内 涵 其 实 是 有 差 别 的 。一 方 面 , 搜索引擎维护的内容十分繁杂且不规范,不像传统的图 书 、文 献 等 有 很 好 的 分类 体 系 管 理 。另 一 方 面 ,搜索 引 擎 面 对 的用 户背景 广阔 ,层 次多样 ,不 像传 统的图 书馆 所面 对的 用 户 通 常 有 相 对比 较 整 齐 的 用 户 群。 因 此 ,搜 索引 擎 要 给 出 的 不 是 一 个 侠义 相 关 序 ,而 是 某 种 反 映 多 种 因素 的 综 合 统计优先序。
集成搜索引擎中结果排序的优化分析

集成搜索引擎中结果排序的优化分析
李永平;文坤梅
【期刊名称】《华中科技大学学报:自然科学版》
【年(卷),期】2003(31)11
【摘要】在充分理解相关度概念的基础上 ,提出了一种基于权值的结果优化排序方法 ,综合考虑用户需求 ,包括兴趣权值、人数权值和位置权值 ,并采用固定容量的网页索取模式 ,实现了一个小型集成搜索引擎的原型系统 ,对结果进行了优化排序 .经实验验证 ,其执行性能效果较好 .
【总页数】3页(P28-30)
【关键词】集成搜索引擎;相关性;优化排序;权值
【作者】李永平;文坤梅
【作者单位】华中科技大学计算机科学与技术学院
【正文语种】中文
【中图分类】TP393.09;TP311.135
【相关文献】
1.企业网络营销中的搜索引擎优化(SEO)策略分析 [J], Abdulla Aripov Nigma-tovich
2.一个基于链接分析的相关度排序算法及其在专题搜索引擎中应用 [J], 郑煜;钱榕
3.搜索引擎的相关排序算法分析与优化 [J], 蔡国民;王雅琳
4.基于用户日志分析的搜索引擎相关排序算法优化 [J], 汪滢
5.元搜索引擎中检索结果排序的优化方法 [J], 文坤梅;卢正鼎;陈莉;邓曦
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
,=
。
=1
搜 索 结 果 有 序 文 集 中 含 有 不 同 大 小 的 文 档 ,在 实 际 的 实
验中,发现这些文档的大小差距有时会达到近 20 倍。考虑到
相 同 的 词 项 出 现 在 不 同 的 网 页 中 ,网 页 的 长 度 越 长 ,词 项 可 能
获 得 的 权 值 也 就 越 高 。 所 以 ,一 个 词 项 的 权 值 应 该 在 某 种 程
1678 2010,31 (8)
网络与通信技术
计 算计机算工机程工与程设与设计计CoCmopmupteurteErnEgningeinereienrginagnadnDd eDsiegsnign
搜索引擎页面排序融合算法
吴文昭 (兰州城市学院,甘肃 兰州 730070)
摘 要:针对 PageRank 算法 不十分关注页面 内容而只关注“超链 分析”的现状,并存在着 用户实际所需要 的页面的次序 并不 靠前 的问题,提出了一种搜索 引擎页面排序 融合算法。该算 法通过考虑词 项权重、链接分析和用户 偏好 3 个主 要方面,得到 一个 URL 的权 值评价,这样每个待搜集 的网页都有自 己的权值评价,超链选择 程序根据这些权 值,从中 选出一个或一 批权 值最 大的来搜集,以 达到精确检索的 目的。 关键 词:搜索引擎 ; 页面排序; 词项权重; 链接 分析; 用户偏好 中图 法分类号:TP393.09 文献标识码:A 文章编号:1000-7024 (2010) 08-1678-04
传统的 IR 采用“向量空间模型”(VSM)技术进行相关排序[2-3], 而且是基于如下两个假设:①被索引的信息本身有很高的质量, 至 少 在 信 息 的 组 织 和 内 容 上 有 着 比 较 高 的 质 量 ;② 检 索 信 息 的用户有一定的相关技能和知识。然而,这些假设在 Web 上 都已不在成立:①Web 上网页的质量参差不齐,大量的网页组 织性、结构性比较差。同时,Web 又是一个无所不包的载体, 它涉及政治、经济、教育、生活等各个方面;②大部分检索用户 是 没 有 任 何 经 验 的 ,在 检 索 输 入 表 达 中 ,存 在 各 种 各 样 的 问 题。尽管 Web 页面的情况比传统 IR 面对的情况要复杂许多, 但 其 中 的 复 杂 性 也 给 我 们 带 来 了 新 的 机 会 ,主 要 体 现 在 两 个
价: = + + 。这样,每个待搜集的网页都有 自己的 ,超链选择程序根据这些权值,从中选出一个或一批 权 值 最 大 的 来 搜 集 ,即 达 到 了 精 确 检 索 的 目 的 。
式中:
, ——归一化之前的词项基本权值,max——最大
的网页可索引文本大小; ——网页 的可索引文本大小。
而 max 代表对于所有的 பைடு நூலகம்而言
一化处理。
,=
,
=
, lg / max
,=
,
max
网页之间的超链接是 Web 的基本特点,如前所述,PageRank 算法就是依靠计算网页的外部链接数量来决定该网页的 排名,然而 PageRank 忽略了页面的主题相关性[7],影响了搜索 结果的相关性和准确性,而且 PageRank 算法对新网页有很严 重的歧视性,因为一个新网页入链数量通常都很少,相应的链 接权值很低。综合考虑上述问题,再结合 TSPR(topic-sensitive PageRank)[8]算法,我们提出了新的主题相关链接权值 TLW 计 算方法。
Web 有两 个基本的构成 因素:网页和超链 。如果将网页 看作是节点,超链是有向边的 话,就可以将 整个网络抽象为 一 个 巨 大 的 有 向 图 。其 中 ,每 个 网 页 的 入 链 (inlink) 是 不 同 的 , 而 且 具 有 一 定 的 主 题 相 关 性 ,所 以 可 以 将 每 个 网 页 的 入 链 看 作 一 个 向 量 , 称 为 网 页 的 链 接 主 题 向 量 (link topic vector, LTV)。
根据标签影响权值的程度,本文将标签划分为 16 个等级, 相应的权值设定从 0 开始,说明是不影响文本权值的标签,而 权值设定为 15 的标签说明其包含的是非常重要的文本内容。 部分标签的影响权值如表 1 所示。
表 1 HTML 标签影响权值
Tag <TITLE>
<BIG> <B> <I>
<IMG>
度 上 受 到 网 页 的 可 索 引 文 本 长 度 的 影 响 。所 以 一 个 词 项 的 基
本权值由两部分组成;第 1 部分是考虑了 HTML 标签影响的
绝对权值;第 2 部分是考虑网页的可索引文本长度对权值的
影 响 。 此 外 ,对 于 上 述 计 算 得 到 的 词 项 基 本 权 值 需 要 进 行 归
简单统计网页中的词频并不能很好的表达网页所包含的 真实信息,而是应该利用网页的内部结构,特别是 HTML 标签 对于所包含的文本内容的影响。HTML 标签对于词项权值的 影响主要是通过标签的属性来实现的,HTML 标签包围的一 段 文 本 内 容 因 其 周 围 标 签 的 属 性 不 同 ,使 得 文 本 内 容 的 重 要 性也不同。
Wt(tag) 15 6 5 3 0
Tag <H1> <H2> <H3> <H4> <H5>
Wt(tag) 15 12 9 6 3
网 页 中 的 每 个 词 项 并 不 一 定 只 被 一 个 标 签 所 包 围 ,它 可 能 被 其 它 的 有 权 标 签 包 围 ,这 些 标 签 的 权 值 都 会 影 响 到 这 个 词 项 的 权 值 ,所 以 一 个 词 项 的 标 签 影 响 权 值 应 该 是 周 围 有 权 标 签 的 权 值 之 和 ,这 样 就 获 得 了 每 个 词 项 在 网 页 中 每 次 出 现 的权值。假设词项 在网页中出现 次,每次出现的权值分别 为 1, 2,…, 就可以得到词项 t 在整篇网页 中的权值:
Page ranking fusion algorithm of search engine
WU Wen-zhao (Lanzhou City College, Lanzhou 730070, China)
Abstract:PageRank algorithm is not very concerned about the content page, only concerns about “Hyperlink analysis”, and the existence of the actual needs of the user page is not high priority issues. A page ranking fusion algorithm of search engine is presented. By taking into account term weighting, link analysis and user preferences in three main areas, the algorithm got a URL value evaluation. To be collected so that each page has its own weight of evaluation, hyperlink selection process based on these weights, choosed one or a group of the largest weight to the collection, in order to achieve the purpose of precise retrieval. Key words:search engine; page ranking; term weighting; link analysis; user preferences
1 URL 的权值评价
一个网页是否重要,可以从其它网页上找到相应的线 索。如果 一个网页十分 重要,那么会有大 量的链接指向 这个 网页。因此,需 要对一个还没 有搜集的 URL 地址进行 被链 接次数的统计,以 确定从 URL 获得的其 它网页的评价,同时 赋予其相应的权 值 (词项权重)。另 外,可以根据日常 在网 上 的 访 问 ,来 获 得 一 些 有 价 值 的 网 站 ,加 入 到 配 置 文 件 中 。当 一个网页属于这些重要网站时,就赋予它另外一个权值 (链 接 分 析 )。 按 照 搜 索 引 擎 服 务 的 用 户 群 , 应 该 给 相 应 的 网 页 赋予不同的优先 搜集次序,在 本文中,它体 现为编码权值
0引言
人们将信息检索系统返回结果的排序称为“相关排序”,隐 含 其 中各 条 目的 顺 序 反映 了 结果 和 查询 的 相 关程 度[1]。在 搜 索 引 擎 中 ,人 们 也 这 么 讲 ,但 内 涵 其 实 是 有 差 别 的 。一 方 面 , 搜索引擎维护的内容十分繁杂且不规范,不像传统的图 书 、文 献 等 有 很 好 的 分类 体 系 管 理 。另 一 方 面 ,搜索 引 擎 面 对 的用 户背景 广阔 ,层 次多样 ,不 像传 统的图 书馆 所面 对的 用 户 通 常 有 相 对比 较 整 齐 的 用 户 群。 因 此 ,搜 索引 擎 要 给 出 的 不 是 一 个 侠义 相 关 序 ,而 是 某 种 反 映 多 种 因素 的 综 合 统计优先序。
方 面 。 首 先 可 以 利 用 网 页 间 的 链 接 关 系 进 行 链 接 分 析 ,量 化 网页信息,以 PageRank 和 HITS 技术为代表[4];其次,在 Web 查 询模式下产生了许多新的信息可资利用,如 Web 用户行为 信息等。
现有的商用搜索引擎采用的页面排序技术存在很多缺 点 。比 如 :“PageRank”算 法 不 十 分 关 注 页 面 内 容 ;“超 链 分 析” 在 实 际 的 应 用 中 ,存 在 着 用 户 实 际 所 需 要 的 页 面 的 次 序 并 不 靠 前 的 问 题 [5]。用 户 只 有 经 过 较 长 时 间 的 浏 览 ,才 能 在 后 继 的 搜 索 结 果 中 找 到 所 需 要 的 页 面 。 也 就 是 说 ,搜 索 引 擎 的 准 确 率并不高。