搜索引擎的相关性排序算法研究
搜索引擎的排名算法

搜索引擎的排名算法随着互联网的不断发展,搜索引擎已经成为我们获取信息的主要途径之一。
然而,谷歌、百度等搜索引擎搜索结果的排序却是人们一直所关注的问题。
在互联网上,搜索引擎的排名算法是决定一个网站是否能实现商业化转型的重要因素。
那么,搜索引擎的排名算法到底是什么?它为什么会这么重要?一、搜索引擎的排名算法是指通过搜索引擎给出的关键词或短语,对网页或网站进行评估和排序的一种算法。
其目的是为了使用户能够快速地获取相关的信息。
目前,常见的搜索引擎排名算法有多种,其中最常见的是谷歌的PageRank算法和百度的超级链路分析算法。
1. 谷歌的PageRank算法2000年,谷歌公司创始人Larry Page提出了一种新的算法——PageRank。
这种算法依靠网页之间的链接来评估网页的重要性。
具体来说,如果一个网页被越多的其他网页所链接,那么这个网页的重要性就会越高。
PageRank算法将网页与网页之间的链接看作是一种投票方式,被投票次数越多的网页排名越靠前。
而且,被投票次数越高的网页还可以影响其他网页的排名,因为被投票次数多的网页可以对其他网页进行投票。
虽然PageRank算法现在已经不是谷歌的主要算法,但它仍然是搜索引擎算法的代表之一。
2. 百度的超级链路分析算法百度的超级链路分析算法是一种与PageRank算法类似的算法。
该算法也是通过网页之间的链接来评估网页的重要性。
不同之处在于,该算法还考虑了网页与关键词之间的相关性,从而实现更加准确的排名。
百度的超级链路分析算法将网页与网页之间的链接看作是一种投票方式,被投票次数越多的网页排名越靠前。
而且,该算法还考虑了网页与关键词之间的相关性,所以含有相关关键词的网页排名会更加靠前。
二、搜索引擎的排名算法为什么如此重要?1. 影响网站流量搜索引擎的排名算法直接影响到了网站的展现。
如果一个网站的排名不高,那么就会很难被用户发现。
而高排名的网站就可以吸引更多的用户流量,实现商业化转型。
信息检索中的相关度排序技术研究

信息检索中的相关度排序技术研究随着互联网的迅速发展,信息过载已成为我们耳熟能详的概念。
在这个信息爆炸的时代,如何从海量信息中快速准确地检索到所需信息,成为了人们不得不面对的问题。
这时,信息检索技术的重要性就显得尤为突出。
而信息检索中的相关度排序技术更是其中的核心和难点。
一、相关度排序技术介绍相关度排序技术主要应用于搜索引擎,其核心是根据用户的检索需求,将检索结果按照相关性从高到低排序。
使用者可以通过输入关键字或查询语句,从搜索引擎中获得与自己需求相关的信息,这是相关度排序技术的核心,也是其最终目标。
与相关度排序技术相关的重要概念是“文档”,即文本、网页或其他形式的信息资源。
相关度排序技术的核心思想是通过“索引”来实现,即将文档中的关键词提取出来,并建立关键词和文档之间的映射关系。
而相关度排序技术根据这种关系,确定每个文档与查询语句的相关程度,并对搜索结果进行排序,以便用户可以更快速地找到所需信息。
二、相关度排序技术的算法相关度排序技术通常会采用有监督或无监督的学习算法来实现。
有监督的学习算法需要先手动标注许多文档,从中学习到哪些特征与查询语句相关,然后对未标注的文档进行分类。
这种算法的缺点在于需要大量的标注数据,且无法应对新出现的搜索词和文档类型。
无监督的学习算法则不需要标注数据,而是通过发现文档之间的相似性进行分类。
这种算法的缺点在于可能导致分类不准确,甚至将无关的文档也归为搜索结果。
除此之外,相关度排序技术还有一些其他的算法,比如PageRank算法和机器学习等算法。
这些算法的核心思路都是根据文档与查询语句之间的关系,对搜索结果进行排序。
三、相关度排序技术的挑战相关度排序技术的实现过程中,还面临着一些挑战。
其中之一是语义理解的挑战。
由于自然语言中词汇的多义性和歧义性,导致通过关键词匹配很难准确理解用户查询的含义。
为了解决这个问题,搜索引擎需要将用户的查询语句进行语义分析,以便更好地理解用户的查询意图。
搜索引擎算法分析与应用

搜索引擎算法分析与应用随着互联网技术的不断发展,搜索引擎已经成为人们获取信息的主要途径之一。
然而,搜索引擎背后的算法其实也是极其复杂的。
在本文中,我们将对搜索引擎算法进行一些简单的分析,并说明它们在实际应用中是如何帮助人们获取精准的信息。
一、基本原理搜索引擎的基本原理是将互联网上的信息通过各种手段收录到一个巨大的数据库中,然后通过搜索关键词来匹配这些信息,并按照一定的规则进行排序。
那么如何确定哪些信息是与搜索关键词最相关的呢?这就需要涉及到搜索引擎算法了。
搜索引擎的算法可以分为两个部分:爬虫算法和检索算法。
其中,爬虫算法用于收录互联网上的信息,而检索算法则用于根据用户的搜索关键词来返回最相关的信息。
二、爬虫算法爬虫算法是搜索引擎中极其重要的一部分,它决定了搜索引擎能够收录哪些网站以及如何收录。
爬虫算法主要分为以下几个部分:1.网址识别首先,爬虫需要确定待抓取的网站。
这涉及到网址的识别问题。
一般来说,爬虫会从一些知名的入口网站开始,然后通过网页中的链接不断地抓取其他网站。
2.内容解析在确定了待抓取的网站之后,爬虫需要对这些网站进行内容解析。
一般来说,爬虫会通过正则表达式等方法来识别页面中的文本、图片、视频等内容,并将这些内容存储到数据库中。
3.网站排重当爬虫不断地抓取网站时,可能会遇到重复网站的情况。
因此,搜索引擎需要对网站进行排重,以保证数据库中只有一份相同的网站内容。
三、检索算法检索算法是搜索引擎中决定搜索结果排序的核心算法。
以下是一些常见的检索算法:1.关键词匹配在完成用户搜索关键词之后,搜索引擎需要将这些关键词与数据库中的网站内容进行匹配。
匹配的原则是:如果一个网站中包含了用户输入的所有关键词,那么这个网站会排在搜索结果的前面。
2.网站权重除了关键词匹配之外,搜索引擎还需要对不同网站的权重进行评估。
一般来说,权重较高的网站会获得更好的排名。
而网站权重的评估主要依靠“PageRank”算法。
搜索引擎实验报告

搜索引擎实验报告搜索引擎实验报告引言:搜索引擎是互联网时代的重要工具之一,它为我们提供了便捷的信息检索途径。
然而,我们对于搜索引擎的了解还远远不够,因此我们进行了一系列实验,以深入研究搜索引擎的工作原理和效果。
一、搜索引擎的工作原理搜索引擎的工作原理可以简单概括为三个步骤:爬取、索引和排序。
首先,搜索引擎会通过网络爬虫收集互联网上的网页内容。
然后,它会对这些网页进行索引,建立起一个庞大的索引数据库。
最后,当用户输入关键词进行搜索时,搜索引擎会根据索引数据库中的信息进行排序,并返回相关的搜索结果。
二、实验一:关键词搜索的准确性在这个实验中,我们选择了几个常见的关键词,如“科技”、“健康”、“旅游”等,分别在不同的搜索引擎中进行搜索,并记录下每个搜索引擎返回的结果。
通过对比不同搜索引擎的搜索结果,我们可以评估它们的准确性和相关性。
实验结果显示,不同的搜索引擎在关键词搜索的准确性上存在一定的差异。
有些搜索引擎返回的结果与关键词的相关性较高,而有些则相对较低。
这可能与搜索引擎的算法和索引数据库的建立方式有关。
因此,在使用搜索引擎进行关键词搜索时,我们应该根据自己的需求选择合适的搜索引擎,以获得更准确和相关的结果。
三、实验二:搜索结果的排序在这个实验中,我们选取了一个关键词,并在同一个搜索引擎中进行多次搜索。
通过观察搜索结果的排序,我们可以了解搜索引擎在不同情况下对搜索结果的排序方式。
实验结果显示,搜索引擎对搜索结果的排序是根据一系列算法进行的。
例如,搜索引擎可能会考虑网页的权威性、相关性、更新频率等因素来进行排序。
此外,搜索引擎还会根据用户的搜索历史和行为进行个性化排序。
这些排序算法的存在,使得搜索引擎能够根据用户的需求提供更加贴合的搜索结果。
四、实验三:搜索引擎的局限性尽管搜索引擎在信息检索方面发挥了重要作用,但它们仍然存在一些局限性。
在这个实验中,我们探讨了搜索引擎的两个局限性:信息的可信度和信息的完整性。
各种搜索引擎算法的分析和比较

各种搜索引擎算法的分析和比较在互联网上搜索所需信息或资讯,搜索引擎成为了人们必不可少的工具。
然而,搜索引擎的搜索结果是否准确、全面,搜索速度是否快速等方面,关键在于搜索引擎的算法,因此,搜索引擎算法成为了搜索引擎核心竞争力的来源。
目前,主流的搜索引擎包括Google、Baidu、Yahoo、Bing等,但它们的搜索结果和排序结果却存在着很大的差异。
这些搜索引擎的搜索结果背后都有不同的算法,下面将对目前主流的几种搜索引擎的算法进行分析和比较。
1. Google算法Google算法是目前全球最流行的搜索引擎算法,其搜索结果广受用户信任。
Google算法最重要的要素是页面权重(PageRank),其名字最初来源于Google的创始人之一拉里·佩奇的名字。
页面权重是根据页面链接的数量和链接网站的权重计算得到的一个评分系统,也就是所谓的“链接分”。
除此之外,Google还有很多其他的评分规则,比如页面初始状态、页面内部链接等。
可以说,Google的算法非常复杂,它使用了很多技术来确保其搜索引擎结果的质量。
2. Baidu算法Baidu是中国主流的搜索引擎,其搜索算法相较于Google来说较为简单。
Baidu的搜索结果主要依靠页面的标题、关键词、描述等元素,因此其搜索结果的可靠性稍逊于Google。
不过,Baidu的形态分析算法却是非常出色的,可以识别图片和视频等多种形态的信息。
除此之外,Baidu还使用了一些人工智能技术,例如深度学习算法来优化搜索结果。
3. Bing算法Bing是由微软开发的搜索引擎,其搜索结果以关键词匹配为核心来实现。
在关键词匹配的基础上,Bing还使用了一些机器学习和推荐算法来优化搜索结果。
另外,Bing还使用类似Google的页面权重评分系统来实现页面的排序。
除此之外,Bing还注重在搜索结果页面中显示质量较高的结果,而不局限于排序前十的结果。
4. Yahoo算法Yahoo算法是基于文本内容分析的搜索引擎算法。
电子商务个性化搜索引擎的设计与效果评估

电子商务个性化搜索引擎的设计与效果评估引言在电子商务领域,个性化搜索引擎已成为重要的工具,它能够根据用户的个人偏好和需求,提供个性化的搜索结果。
本文将探讨电子商务个性化搜索引擎的设计原则和方法,并评估其效果。
设计原则1. 用户信息收集:个性化搜索引擎的核心在于了解用户的个人偏好和需求,因此,收集用户信息是至关重要的。
通过用户注册、浏览记录、购买历史等途径收集数据,并运用机器学习算法进行分析和建模,以便更好地理解用户。
2. 相关性排序算法:个性化搜索引擎需要根据用户的搜索关键词和个人偏好,对搜索结果进行排序。
常见的算法包括TF-IDF、PageRank和协同过滤等。
这些算法可以根据用户的历史行为和偏好,提供与其相关性最高的搜索结果。
3. 用户界面设计:个性化搜索引擎的用户界面应简洁、直观、易于使用。
搜索框和筛选条件应清晰明了,让用户能够方便地输入搜索关键词和指定搜索条件。
4. 给用户提供反馈:当用户进行搜索时,个性化搜索引擎可以通过用户实时反馈和推荐来提高搜索体验。
例如,通过关键词补全、相关搜索词推荐等方式引导用户。
5. 个人化推荐:个性化搜索引擎不仅应提供符合用户需求的搜索结果,还可以通过个人化推荐功能,向用户推荐他们可能感兴趣的商品和服务。
这可以提高用户的购物体验,并增加电商平台的销售额。
效果评估1. 搜索准确性:评估个性化搜索引擎的准确性,可以通过与用户实际需求的匹配程度来评估。
通过设计合适的测试,例如提供一系列搜索任务,然后评估搜索结果的相关性。
2. 用户满意度:调查用户对个性化搜索引擎的满意度是评估其效果的重要指标。
通过用户反馈、调查问卷等方式收集用户意见,并分析数据得出结论。
3. 点击率和转化率:分析个性化搜索引擎的点击率和转化率可以评估其商业价值。
点击率指用户点击搜索结果的比例,而转化率指用户最终购买或进行其他交互行为的比例。
4. 搜索速度:个性化搜索引擎的搜索速度也是评估其效果的重要指标之一。
检索结果的排序方式

检索结果的排序方式检索结果的排序方式对于用户来说非常重要,它决定了用户在搜索引擎中获取的信息的顺序和优先级。
不同的搜索引擎会采用不同的排序算法和指标来确定搜索结果的排序方式。
本文将介绍几种常见的搜索结果排序方式,并对其特点和适用场景进行分析。
一、按相关性排序按相关性排序是最常见的搜索结果排序方式。
相关性是指搜索结果与用户查询的关联程度。
搜索引擎通过分析用户查询的关键词与网页内容的匹配程度,以及网页的权威性和链接的质量等因素,来计算每个搜索结果的相关度,并将相关度高的结果排在前面。
相关性排序适用于绝大多数的搜索场景,它可以帮助用户快速找到与自己需求最相关的信息。
但是,由于相关性排序主要依赖于关键词匹配和网页权威性等因素,可能会导致一些权威性较低但内容丰富的网页排名较低,而一些权威性较高但内容相对较少的网页排名较高。
因此,在使用相关性排序时,用户需要对搜索结果进行综合考量,以获取更准确和全面的信息。
二、按时间排序按时间排序是指将搜索结果按发布时间的先后顺序进行排序。
这种排序方式适用于用户对最新信息的需求较高的场景,比如新闻、论坛等。
搜索引擎通过分析网页中的时间信息,或者根据网页发布时间和更新频率等因素来判断网页的时效性,并将最新的搜索结果排在前面。
按时间排序可以帮助用户快速找到最新的信息,但是可能会导致一些较旧但仍然有价值的信息被忽视。
因此,在使用按时间排序时,用户需要根据自己的需求和搜索结果的时效性进行权衡。
三、按热度排序按热度排序是指将搜索结果按照网页的流行程度进行排序。
流行程度可以通过网页的点击量、转发量、评论数等指标来衡量。
搜索引擎通过分析这些指标,计算每个搜索结果的热度,并将热度高的结果排在前面。
按热度排序适用于用户对热门话题或热门事件的关注度较高的场景。
它可以帮助用户快速了解最受关注的信息,但可能会导致一些较冷门但有价值的信息被忽视。
因此,在使用按热度排序时,用户需要根据自己的需求和搜索结果的热度进行权衡。
网络搜索引擎结果排序算法研究

网络搜索引擎结果排序算法研究随着互联网的迅猛发展和普及,网络搜索引擎成为了人们获取信息的重要途径。
当我们在搜索引擎中输入一个关键词,就能迅速得到相关的搜索结果。
然而,面对海量的信息,如何将最相关的信息排在前面成为了搜索引擎提供者和研究者们的关注点,由此诞生了一系列搜索引擎结果排序算法。
本文将着重研究网络搜索引擎结果排序算法的发展和现状。
一、搜索引擎结果排序算法的发展历程1.1 早期搜索引擎的简单排序算法早期的搜索引擎采用了一些简单的排序算法来对搜索结果进行排序,如按照关键词在文档中出现的次数进行排序,出现次数多的排在前面。
这种算法简单直接,但容易被搜索引擎优化者通过“关键词堆砌”的方式操纵搜索结果,影响搜索结果的准确性。
1.2 基于链接分析的PageRank算法为了解决关键词堆砌的问题,谷歌公司推出了基于链接分析的PageRank算法。
该算法通过分析页面之间的链接关系,给网页一个权重分数,按照权重分数进行排序。
这样一来,页面的排名不完全依赖于关键词出现的次数,而是取决于页面的质量和受欢迎程度。
PageRank算法很好地解决了关键词堆砌的问题,但对于新页面的排序效果则不太理想。
1.3 基于机器学习的排序算法随着机器学习在各个领域的广泛应用,也有研究者开始利用机器学习方法来改进搜索引擎的排序算法。
一些常用的机器学习算法,如支持向量机、朴素贝叶斯和神经网络等,被应用于搜索引擎结果排序。
这些算法可以通过训练模型,利用大量的历史搜索数据和用户反馈信息,学习出最佳的排序策略。
机器学习算法的引入极大地提高了搜索引擎排序的准确性和效率,但也面临着数据和计算资源的需求。
二、当前主流搜索引擎结果排序算法分析2.1 谷歌搜索的排序算法谷歌搜索引擎使用了一种名为“分层搜索”的方法。
首先,它会以基于链接分析的PageRank算法为基础,给网页赋予初始的权重分数。
然后,通过一系列的排序策略和算法,对搜索结果进行进一步的排序和过滤。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘 要
摘 要
随着计算机系统性能的提高和网络技术的不断进步,万维网成为全球最大的信 息资源库,如何为如此庞大的信息资源提供高效的导航服务,帮助用户在海量的数 据中快速找到需要的信息是搜索引擎亟待解决的问题。通常用户只关心搜索引擎返 回的排在前面的结果,然而当前搜索引擎返回的查询结果与用户需求的相关程度并 不理想。于是搜索引擎的相关性排序--按照与用户查询的相关程度对搜索引擎的索 引文档进行排序,成为当前研究的重点和热点。 本文首先研究了文本搜索引擎的相关性排序模型,并为自学习排序模型提出一 种构造训练集的方法。然后研究了图像搜索引擎的相关性排序问题,重点介绍了图 像重排序的方法,并提出一种度量图像相似性的方法。本文对搜索引擎的相关性排 序方法进行了深入的研究,主要工作和创新之处归纳为以下几点: (1) 文本搜索引擎的相关性排序模型,包括布尔模型,向量空间模型,概率模 型,超链接模型,自学习排序模型,其中自学习排序模型将机器学习的方法 运用到搜索引擎的相关性排序问题,解决了以往模型的许多不足之处。 (2) 为自学习排序模型构造训练集。自学习排序是一种有监督的机器学习算法, 模型的性能很大程度上依赖训练集。构造训练集需要对给定的查询,人工标 注文档与该查询的相关程度。对于文本搜索而言,查询几乎是无穷的,而人 工标注耗时费力,所以选择部分有信息量的查询来标注很有意义。本文提出 一种同时考虑查询的难度,密度和多样性的贪心算法从海量的查询中选择有 信息量的查询进行标注。实验表明本文提出的方法能构造一个规模较小且有 效的训练集。 (3) 图像重排序算法。现今的图像搜索引擎主要利用图像周围文本信息为图像排 序,没有考虑图像本身的特征。图像重排序是在文本搜索结果的基础上,通 过挖掘图像视觉特征的内在关系,对原始搜索结果进行重新排序,使新的序 列更能满足用户搜索需求。 (4) 图像相似性度量。在图像重排序算法中图像相似性的度量至关重要。一般我 们通过计算图像视觉特征的相似性来估计图像的相似性。图像视觉特征包含 全局特征(如颜色,纹理,形状)和局部特征(如尺度不变特征) 。然而现 有的相似性度量没有考虑针对不同的查询词,图像的相似性应该不同。本文 提出一种与查询相关的相似性度量方法,把基于全局特征的相似性,基于局
中国科学技术大学学位论文授权使用声明
作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有 学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文 的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学位论文 全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保 存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 □公开 □保密(____年) 导师签名:_______________ 签字日期:_______________
I
摘 要
部特征的相似性,以及视觉单词同时出现率融合到一个迭代算法中,挖掘出 与查询词相关的图像信息,计算相似性。实验结果表明本文提出的相似性度 量方法优于基于全局特征,局部特征,或它们线性组合的相似性。 关键词:搜索引擎的相关性排序模型,自学习排序模型,构造训练集,图像重排 序,图像特征提取,图像相似性度_______
第 1 章 绪论
第1章
1.1 选题研究背景
绪论
随着计算机系统性能的提高和网络技术的不断进步,万维网得到了蓬勃发展, 成为全球最大的信息资源库。据发表在《科学》杂志 1999 年 7 月的文章《万维网 信息的可访问性》估计,万维网上的网页超过 8 亿,有效数据约 15T,并且仍以每 4 个月翻一番的速度增长。调查显示 2008 年初,全球可索引的网页已高达 156 亿。用户要在如此庞大杂乱的万维网资源中查找所需要的信息,就像大海捞针一 样,搜索引擎技术恰好解决了这一难题。搜索引擎是基于万维网平台,提供网络信 息检索服务的工具。用户给出关键词作为查询请求,搜索引擎在万维网上收集,整 理信息,并且按照用户需求返回相关的查询结果,帮助人们拒绝和忽略大量无关信 息,从而起到信息导航的作用。 一般来说,评价一个搜索引擎性能的主要指标[1]是:查全率、查准率、检索 速度、检索系统的易用性和检索费用。目前搜索引擎的查全率、检索速度、检索系 统的易用性和检索费用能基本满足用户需求,然而用户对查准率并不满意。如图 1.1 , 用 户 在 Google 中 输 入 关 键 词 “ www ” , 该 搜 索 引 擎 仅 用 0.07 秒 返 回 15680000000 查询结果, 但前 5 个结果都不是用户期望的。该搜索引擎用户界面简 单易用,提供免费搜索服务,返回成千上万的网页,查全率高,但用户期望的结果 往往并不排在前列,并且查询结果中有着大量的重复,无关,无用的网页。
表 1.1 中国搜索引擎用户不满意因素及比例
不满意因素 搜索结果重复 搜索结果排序欠佳 搜索结果杂乱 搜索结果不合适 广告太多 所占比例
50% 43% 37% 36% 35%
另外,在普遍的关键词检索系统中用户一般只是键入少数几个词语。Spink 等 对搜索引擎的近 300 位用户调查,发现人均输入的检索词为 3.34 个。国内部分学 者也发现 90%左右的用户输入的中文检索单字为 2~6 个,而且 2 字词居多,约占 58%,其次为 4 字词(约占 18%)和 3 字词(约占 14%)。然而检索词所提供的用户需 求信息是很重要的,过少的检索词事实上无法真正表达用户的检索需求,而且很多 用户从不使用高级检索功能,据不完全统计约 40%的用户不能正确运用字段检索或 二次检索,80%左右的用户不能正确运用高级检索功能,但他们都希望搜索引擎将 最想要的结果尽可能地放到查询结果的前面。因此研究搜索引擎的相关性排序算 法,提高用户满意度已经成为搜索引擎系统的紧要任务。
III
中国科学技术大学学位论文原创性声明
本人声明所呈交的学位论文 , 是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过 的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说 明。 作者签名:___________ 签字日期:_______________
图 1.1 Google 搜索引擎中用户输入关键词“www”返回的查询结果
1
第 1 章 绪论
当前搜索引擎返回的查询结果与用户需求的相关程度并不理想。根据中国互联 网络信息中心调查报告,中国搜索引擎用户不满意因素及比例如表 1.1。因此需要 研究搜索引擎中的相关性排序算法,将与用户需求相关度高的网页排在前面。
1.2 相关性排序研究意义
中国互联网络信息中心调查报告指出,有 82.5%的网民经常使用搜索引擎, 83.4%的用户通过搜索引擎得知新网站。可见,搜索引擎在大家日常的网络生活中 发挥了重要作用。一个优秀的搜索引擎能从巨量的、形如垃圾的信息中发现真正的 知识,通过对信息的甄别、加工、提纯,带来信息价值的提升。然而由于当今搜索 引擎相关性排序算法并不完善,用户通常需要从大量的返回结果中手工挑选相关网 页,搜索引擎的导航功能没有发挥明显优势。 在搜索引擎发展的初期,搜索结果的排列只是根据搜索引擎在数据库中找到匹 配网页的先后次序,不保证排在前面的网页与用户查询的相关性更大,因此不能帮 助用户从过载的海量信息中快速地选取真正相关的信息。目前搜索引擎访问的网页 数量已达到上十亿的规模,通常搜索结果包含成千上万的网页,即便这些网页都是 用户所需要的,用户也不可能浏览所有的网页。如何将更相关的网页排在前面,减 少用户浏览网页的数目,帮助其快速找到需要的信息,是一项很有意义且富有挑战
II
Abstract
ABSTRACT
Recently learning to rank has become a popular method to build a ranking model for Web search. For the same ranking algorithm, the performance of ranking model depends on the training set. A training sample is constructed by labeling the relevance of a document and a given query by human. However, the number of queries in Web search is nearly infinite and the human labeling cost is expensive. Therefore, it is necessary to select subset of queries to construct an efficient training set. In this paper, we develop a greedy algorithm to select queries, by simultaneously taking the query difficulty, density and diversity into consideration. The experimental results on LETOR and a collected Web search dataset show the proposed method can lead to a more efficient training set. Recently image search engines mainly base on associated textual information. Image reranking is an effective approach to refine the initial text-based search result by mining the visual information of the returned images. And the estimation of visual similarity is the fundamental factor in reranking methods. However, the existing similarity measures are independent of the query. In this paper, we propose a query dependent method by incorporating the global visual similarity, local visual similarity and visual word cooccurrence into an iterative propagation framework. Then we embed the query dependent similarity into random walk rereanking method. The experiments on a collected Live Image dataset demonstrate that the proposed query dependent similarity outperforms the global, local similarity and their linear combination. Key Words: rank models in search engineer, learning to rank, construct training set, image reranking, extract features for image, measure similarity between images