03_搜索引擎性能评价

合集下载

搜索引擎性能评价

搜索引擎性能评价何晓艳;朱俊东【摘要】@@ 搜索引擎是当今网络信息检索的主要工具,它在满足人们从互联网上快速、准确、全面的获取信息的需求方面发挥了重要的作用.但是,由于各种搜索引擎所采用的技术和服务对象的不同,它们之间的各项性能差异很大.因此,通过对搜索引擎进行合理的评价,不仅有利于用户的选择与使用,而且有利于其本身的改进和发展.目前大多数评价方法主要以描述为主,通常只能对搜索引擎进行定性或部分定量描述,不能系统、全面的对不同搜索引擎进行综合评价.因此,建立搜索引擎综合评价体系,通过数学方法进行综合评价,具有较大的现实意义和应用前景.【期刊名称】《河北联合大学学报（医学版）》【年(卷),期】2010(012)002【总页数】2页(P279-280)【关键词】搜索引擎;评价指标体系;多级模糊综合评价【作者】何晓艳;朱俊东【作者单位】华北煤炭医学院信息中心,河北唐山,063000;华北煤炭医学院信息中心,河北唐山,063000【正文语种】中文【中图分类】G633.67搜索引擎是当今网络信息检索的主要工具,它在满足人们从互联网上快速、准确、全面的获取信息的需求方面发挥了重要的作用。

但是,由于各种搜索引擎所采用的技术和服务对象的不同,它们之间的各项性能差异很大。

因此,通过对搜索引擎进行合理的评价,不仅有利于用户的选择与使用,而且有利于其本身的改进和发展。

目前大多数评价方法主要以描述为主,通常只能对搜索引擎进行定性或部分定量描述,不能系统、全面的对不同搜索引擎进行综合评价。

因此,建立搜索引擎综合评价体系,通过数学方法进行综合评价,具有较大的现实意义和应用前景。

根据对搜索引擎基本结构、基本原理和主要功能的分析,我们把搜索引擎评价指标定义为索引构成、检索功能、检索效果、检索结果和用户交互五类[1,2]。

1.1 索引构成指标①标引数量 (万个)。

②标引范围 (种)。

标引范围由 FTP文件、WWW文件、Newsgroup文件、USENET文件和全文标引构成。

(网络信息检索)第6章信息检索性能评价

Elasticsearch
一个基于Lucene的开源搜索和分析引擎，提供了高性能、实时的全文搜索功能，广泛应用于日志分析、网站搜索等领域。
检索效率提高的实践案例
05
信息检索性能评价的挑战与未来发展
信息过载问题
01
信息过载是指用户在信息检索过程中面临的信息量过大、难以有效筛选的问题。
02
随着互联网信息量的爆炸式增长，信息过载问题愈发严重，给用户带来困扰。
查全率计算公式
查全率 = (检索到的相关文档数 / 全部相关文档总数) * 100%。
查全率评价
总结词
查准率是衡量信息检索系统准确性的一个重要指标。
查准率计算公式
查准率 = (检索到的相关文档数 / 所有检索出来的文档总数) * 100%。
详细描述
查准率是指检索系统返回的相关文档数与所有检索出来的文档总数的比值，它反映了检索系统筛选出相关文档的能力。
查询优化
利用多核处理器和分布式系统，提高信息检索的响应速度。
并行计算和分布式处理
检索效率优化方法
Solr
基于Lucene构建的开源搜索平台，提供了丰富的功能和可扩展性，适用于大型企业和互联网应用的信息检索需求。
Google Search
作为全球最大的搜索引擎，Google通过先进的算法和大规模分布式处理技术，实现了快速、准确的信息检索服务。
总结词
检索覆盖率是指信息检索系统能够检索到的与用户查询相关的文档数量。高检索覆盖率意味着系统能够从大量文档中筛选出更多与用户需求源、使用更全面的关键词、优化索引结构等。
总结词
为了提高检索覆盖率，信息检索系统需要不断扩大信息源，尽可能涵盖更多的文档和资源。同时，使用更全面的关键词和优化索引结构可以提高系统的查全率和查准率，从而提升检索覆盖率。

搜索引擎检索功能的性能评价研究

搜索引擎检索功能的性能评价研究搜索引擎作为现代社会获取信息的重要工具，其检索功能的性能直接影响着用户的信息获取体验。

随着互联网信息的爆炸式增长，搜索引擎检索功能的重要性日益凸显。

本文将介绍搜索引擎检索功能的基本概念、作用及其发展现状，并综述当前的性能评价研究现状、常用指标和评价方法，最后对比不同指标或评价方法的优缺点，分析其适用场景和应用前景，并提出未来发展方向。

搜索引擎检索功能是指搜索引擎通过一定的算法和策略，从互联网海量的信息中提取出与用户输入的关键词相关的有用信息。

这些信息可以是网页、图片、视频等多种形式。

搜索引擎检索功能的主要作用是帮助用户快速、准确地找到所需信息，提高信息获取的效率和准确性。

随着互联网信息的不断增加，搜索引擎检索功能的性能也面临着越来越大的挑战。

对于搜索引擎检索功能的性能评价研究，当前常用的指标包括准确率、召回率、F1得分、平均绝对误差等。

其中，准确率是指检索到的结果中与用户输入关键词相关的比例，召回率是指所有与关键词相关的结果中被检索到的比例，F1得分是准确率和召回率的调和平均数，平均绝对误差则反映了检索结果与真实结果之间的差异。

还有一些新的评价指标，如语义匹配度、用户满意度等，但这些指标的客观性较差，主观性较强。

评价方法方面，主要有基于排序的评价方法和基于分类的评价方法。

基于排序的评价方法是根据检索结果与用户输入关键词的相关程度对结果进行排序，将排在前面的结果视为更有用的结果。

常见的基于排序的评价方法有PageRank算法、BM25算法等。

而基于分类的评价方法则是将检索结果分为与关键词相关的类别和无关的类别，通过分类准确率等指标来评价检索结果的性能。

不同指标或评价方法都有其优缺点。

准确率和召回率是经典的指标，简单易懂，但无法全面反映检索结果的性能。

F1得分则在一定程度上解决了这个问题，但仍然存在一定的局限性。

平均绝对误差指标直观易懂，但计算复杂度较高且无法反映检索结果的全局性能。

搜索引擎评判的基本指标

搜索引擎评判的基本指标互联网技术的日益成熟，网络的普及，搜索引擎越来越成为广大网民不可或缺的工具了。

以至于某企业老总说，“目前门户网站的核心技术就是搜索引擎”。

怎么来评价一个搜索引擎的好坏，我认为因该从以下几个方面来考虑，尽管这种想法书卷气十足，但是我想至少可以在优化算法，设计用户界面上有点意义。

1．查全率:它是指检索列出的结果的数据与实际网络中拥有的与检索关键词相关的数据量地差别或说差距。

从理论上讲没有那个搜索引擎能够含盖所有的网络信息，但是每个搜索引擎有尽可能的扩展自己的数据库以求，信息覆盖更全面。

查全率＝检索出的相关信息数量/系统中所有的相关信息量注：实际数据库中所有的相关信息量实际上是一个理论概念，并没有人也没有办法去确切的统计到底会有多少与某一个关键词相关的信息。

所以这个概念只供理论研究用。

对于用户来说，看到的最直观的是检索反馈结果多少，所以，对某一个关键词来说，反馈的结果愈多当然是查全率越高。

实际这是不完全正确的。

2．查准率:实际反应的是检索反馈的结果与用户检索关键词之间的匹配程度。

这对网民来说也是至关重要的，查准率＝检出的有用的资料/检索反馈的结果的总量对于一个拥用户来说，如果就某一个关键词检索出来的结果全然没用，准确率极低，那么将无疑是最大的伤害，所以搜索引擎必须想尽办法提高检索的匹配程度。

提高检索结果与关键词的匹配程度有两种实现方法，其一就是有自己的独特的[匹配方法，比如Google的Page Ranking 技术等，其二就是提供高级检索功能，即提供用户自定义逻辑检索。

3.响应速度:用户能够快速的得到反馈结果。

搜索引擎的实用性来看，必须保证用户可以很快地得到查询结果。

一般情况下，库容量越大，响应速度越慢。

4.检库容量:搜索引擎必须要有相当大的库容量才具有一定的代表性和实用性。

可以说搜索引擎可搜索的库容量大小是搜索引擎质量标志的第一要素。

库容量的大小取决于工作方式。

采用“机器人检索”方式的搜索引擎的库容量一般要远大于“人工分类”方式的搜索引擎。

2-5 搜索引擎性能评价

33
第一：查询样例集合：真实性
如何构建真实的查询样例集合？信息检索评测：搜索引擎的用户日志
• TREC Web检索任务：Live或者Yahoo! • 北大SEWM评测：天网搜索 • SogouT评测：搜狗搜索
34
第一：查询样例集合：真实性如何构建真实的查询样例集合？日志收集的隐私保护 (AOL) 无法收集日志数据时的折衷方案
实验的主要结论
• 标引语言的检索性能排序：单元词最好，受控语言次之，自然语言最差 • 使用单元词法时，引入词形与同义控制有一定效果，但若加强控制，检索性能会降低 • 对于受制语言，在受制词外，若再引入上位词或上下位词或相关词，系统性能会降低
25
（3）Cranfield评价体系体系建立 Cleverdon等人于上世纪五十年代末到六十年代初在Cranfield University工作时提出确立了评价在信息检索研究中的核心地位体系组成评测语料查询样例标准答案评价指标
9
搜索产品的未来
社交化移动化整合暗网数据知识？推理？自然语言问答多模态交互方式可视化 ……
10
ห้องสมุดไป่ตู้
主要内容：
搜索引擎体系结构设计理念
搜索引擎性能评价
11
搜索引擎性能评价的现状
12
搜索引擎性能评价的现状
13
性能评价的作用
对搜索引擎用户而言：挑选最有利于获取信息的手段对搜索引擎工程师而言：算法及数据处理方式有效性的判断对搜索引擎广告商而言：挑选最有效的广告投放手段评价在信息检索系统的研发中一直处于核心的地位，以致于算法与其效果评价方式是合二为一的（Saracevic, SIGIR 1995）

基于层次分析的搜索引擎性能综合评价

大，询数量难以确定。时，查同网络信息资源的不确定
性也使检索结果与查询的相关程度难以量化因此．为提高评价体系的效用．我们在此引用了广义信息检索指标中的广义查全率和广义查准率嘲并添加了重
多层次的分析结构模型：次，其通过两两比较的方式
搜索引擎的核心要素．常用查全率和查准率来评判通
的相关性难以判定．得检索指标难以量化。使因此，建立一个科学、合理的搜索引擎性能综合评价体系是十
分必要的
１网络搜索引擎综合评价方法
一
表２判断矩阵Ａ— Ｂ
＾孤Ｂ１ＢＩ
Ｂ５
般分为目标层、则层和方案层。（图１准见）
ｃ标引文件的科类ｌｃ标引深度２Ｃ更新频率３Ｄ基本检索ｌ高级检索Ｄ２Ｅ广义查准率ｌＥ广义。查全荤Ｂ重复率Ｂ死链接率＼响应时间Ｂ
判断同一层次中各因素之间的相互关系．构造判断矩阵．保证层次模型的合理性．对判断矩阵作一致性为需
复率ｆ即检索结果中内容重复的结果数占检出结果数
的比例）死链接率（、即死链接的结果数占检出结果的
一
当从以下５个方面综合考察．建立搜索引擎评价体
系。
（）引数据库的构成：１索考虑标引的文件种类ｐ（如丌１例Ｐ文件、ｅｓｒｕ、ｓｎｔ）ＮｗｇｏｐＵｅｅ等、标引深度以

搜索引擎的主要性能评价指标

搜索引擎的主要性能评价指标1.搜索引擎建立索引的方法数据库中的索引一般是按照倒排文档的文件格式存放的,在建立倒排索引的时候,不同的搜索引擎有不同的选项。

有些搜索引擎对于信息页面建立全文索引:而有些只建立摘要部分,或者是段落前面部分的索引。

还有些搜索引擎,如Google建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义,如粗体、大字体显示的东西往往比较重要:放在"锚"链接中的信息往往是它所指向页面的信息的概括,所以用它来作为所指向的页面的重要信息。

Google、Infbseek还在建立索引的过程中收集页面中的超链接。

这些超链接反映了收集到的信息之间的空间结构,利用这些结果可以提高页面相关度判别的准确度。

由于索引不同,在检索信息时产生的结果会不同。

2.搜索引擎的受欢迎程度搜索引擎的受欢迎程度体现了用户对搜索引擎的偏爱程度,知名度高、性能稳定和搜索质量好的搜索引擎很受用户的青睐。

搜索引擎的受欢迎程度也会随着它的知名度和服务水平的变化而动态地变化。

搜索引擎的服务水平与它所收集的信息量、信息的新颖度和查询的精确度相关。

随着各种新的搜索技术的出现,智能化的、支持多媒体检索的搜索引擎将越来越受到用户的欢迎。

3.搜索引擎的检索功能搜索引擎所支持的检索功能的多少及其实现的程度,直接决定了检索效果的好坏,所以网络检索工具除了要支持诸如布尔检索、邻近检索、截词检索、字段检索等基本的检索功能之外,更应该根据网上信息资源的变化,及时地应用新技术、新方法,提高高级检索功能。

另外,由于中文信息持有的编码不统一问题,所以如果搜索引擎能够实现不同内码之间的自动转换,用户就能全面检索大陆及港台地区乃至全世界的中文信息。

这样不但可以提高搜索引擎的质量,而且会得到用户的支持。

4.搜索引擎的检索效果检索效果可以从响应时间、查全率、查准率和相关度方面来衡量。

响应时间是用户输入检索式开始查询到检出结果的时间:查全率是指一次要求搜索结果中符合用户要求的数目与用户查询相关的总数之比:查准率是指一次搜索结果集中符合用户要求的数目与该词搜索结果总数之比:相似度是指用户查询与搜索结果之间相似度的一种度量二查准率是一个复杂的概念,一方面表示搜索引擎对搜索结果的排序,另一方面却体现了搜索引擎对垃圾网页的抗干扰能力。

搜索引擎评估

搜索引擎评估搜索引擎评估搜索引擎是人们获取信息的重要工具，而搜索引擎的质量直接影响到用户能否快速、准确地找到所需信息。

因此，对搜索引擎的评估显得尤为重要。

本文将从搜索结果质量、搜索速度和用户体验三方面对搜索引擎进行评估。

首先，搜索结果质量是评估搜索引擎的重要指标之一。

搜索引擎的主要任务是根据用户输入的关键词，返回与之相关的结果。

因此，搜索引擎的搜索结果应该尽可能的与用户的意图相匹配，且排在前面的结果更具权威性和准确性。

搜索结果质量的评估可以通过衡量搜索引擎返回的结果的相关性、权威性和准确性来进行。

相关性可以通过用户点击率和停留时间来衡量，高点击率且长停留时间的结果意味着搜索结果与用户需求的匹配度高。

权威性可以通过评估搜索结果中的网站信誉和可信度来进行。

准确性则可通过评估搜索结果中是否存在拼写错误、错误的关键词匹配等来进行。

其次，搜索速度是衡量搜索引擎质量的另一个重要指标。

现代社会的快节奏要求搜索引擎能够快速返回搜索结果。

搜索引擎的速度取决于其搜索算法的设计和处理能力。

搜索引擎评估可通过对搜索过程中的响应时间进行衡量来进行，响应时间越短，搜索引擎的速度越快。

最后，用户体验是评估搜索引擎的重要方面之一。

搜索引擎应该为用户提供良好的搜索体验，包括用户界面设计、搜索建议和搜索策略等。

用户界面设计应简洁、清晰，方便用户操作。

搜索建议可以提供用户输入关键词时的提示和自动补全功能，以提高用户搜索的精确度。

搜索策略可以通过为用户提供各类筛选和排序功能来帮助用户进一步找到自己需要的信息。

综上所述，对搜索引擎进行评估涉及搜索结果质量、搜索速度和用户体验三个方面。

评估搜索引擎的质量需要综合考虑这些指标，以期为用户提供更好的搜索服务。

通过评估搜索引擎的质量，可以指导搜索引擎的改进和优化，提高其搜索效果和用户满意度。

评价搜索引擎的标准

评价搜索引擎的标准搜索引擎是我们日常生活中不可或缺的工具，它为我们提供了海量的信息资源，帮助我们找到需要的答案和资料。

然而，随着互联网的发展，搜索引擎的数量也越来越多，如何评价搜索引擎的好坏成为了一个重要的问题。

在评价搜索引擎的标准中，我认为应该包括以下几个方面。

首先，搜索结果的准确性是评价搜索引擎的重要标准之一。

一个好的搜索引擎应该能够根据用户输入的关键词，准确地给出相关的搜索结果，而不是一些与关键词毫不相关的内容。

在搜索结果的排序上，也应该根据网页的权威性和相关性进行合理的排名，让用户能够更快地找到自己需要的信息。

其次，搜索引擎的搜索速度也是一个重要的评价标准。

随着互联网的发展，人们对信息的获取要求越来越高，因此搜索引擎应该能够在用户输入关键词后，能够快速地给出搜索结果，减少用户的等待时间，提高搜索效率。

另外，搜索引擎的覆盖范围也是评价标准之一。

一个好的搜索引擎应该能够覆盖更广泛的信息资源，包括网页、图片、视频、新闻等多种形式的内容，让用户能够在一个平台上获取到全面的信息。

此外，搜索引擎的用户体验也是评价标准之一。

一个好的搜索引擎应该能够提供简洁清晰的搜索界面，让用户能够快速上手，并且在搜索过程中能够给予用户一些搜索建议和相关的推荐内容，提高用户的搜索体验。

最后，搜索引擎的安全性和隐私保护也是评价标准之一。

一个好的搜索引擎应该能够保护用户的个人隐私信息，不泄露用户的搜索记录和个人信息，确保用户的信息安全。

综上所述，评价搜索引擎的标准包括搜索结果的准确性、搜索速度、覆盖范围、用户体验以及安全性和隐私保护等多个方面。

在选择使用搜索引擎时，我们应该综合考虑这些标准，选择一个对用户来说更加合适的搜索引擎，以便更好地满足自己的信息需求。

搜索引擎评估体系

搜索引擎评估体系搜索引擎是当今时代找寻信息手段的主要工具，它的功能强大，能够帮助用户查询到有价值的信息，并可以快速获取结果。

随着技术的不断改进，搜索引擎的发展也越来越完善，它可以对用户提供更准确、更全面的搜索结果。

然而，搜索引擎的质量不断地受到高要求。

为了确保搜索引擎的质量，搜索引擎评估体系是必不可少的。

搜索引擎评估体系是检测搜索引擎性能的基础方法，它可以有效评估搜索引擎在各个方面的性能，包括搜索引擎的可用性、准确性、流畅性以及安全性等。

它能够检测出搜索引擎存在的问题，提出优化和改进的建议，从而提高搜索引擎的性能。

搜索引擎评估体系主要包括测试方法、评估方法和报告反馈三个部分。

测试方法要求使用各种测试工具进行测试，它可以模拟真实的用户使用情况，确保搜索引擎的可用性。

评估方法则是将搜索引擎的性能分析，分析准确性、流畅性等性能，检测出可能存在的问题。

报告反馈则是将测试结果汇总，反馈到开发团队，以便在发现问题的基础上改进搜索引擎的性能。

此外，搜索引擎评估体系还要求定期对搜索引擎进行安全测试，以确保用户在使用搜索引擎时能够安全可靠。

评估报告中可以看出搜索引擎存在的安全问题，以及如何解决安全问题的建议，提高搜索引擎的安全性。

搜索引擎评估体系的重要性不可忽视。

它可以有效改善搜索引擎的性能，从而满足用户的需求，实现产品的优化，助力搜索引擎文化发展。

值得一提的是，通过搜索引擎评估体系还可以得到可信度高的评估结果，从而更好地服务于用户。

综上所述，搜索引擎评估体系是确保搜索引擎质量的重要手段，它能够帮助企业提高搜索引擎的性能，满足用户的需求，实现对搜索引擎的优化。

只有将搜索引擎评估体系作为搜索引擎的核心，才能不断改进搜索引擎的质量，从而实现强大的搜索引擎文化。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

问题：检索需求歧义与检索需求多样化
查询样例集合：精确性
如何保证信息需求的精确表述？
Cranfield评价体系
语料库查询样例标准答案查询结果列表待评价搜索引擎
评价指标
评价结果
标准答案集合
评价标准的主观性难以避免
不同标注人员的判定标准差异 TREC 2008：两人标注767篇文档意见一致：85篇文档相关，567篇不相关意见不一：115篇文档 200篇“有可能”相关的文档中，有58%的文档观点不一致在查询样例集合构建时添加精确的信息需求描述的必要性
1 4 /f/hotweb/053/17/88017.htm
2
3 4 5 6 7 8
3
2 1 5 7 10 魔兽争霸3下载
/
/ / /zhuanti/war3/ /war3/wc3/ / /1/war.htm
挑选最有效的广告投放手段评价在信息检索系统的研发中一直处于核心的地位，以致于算法与其效果评价方式是合二为一的（Saracevic, SIGIR 1995）
性能评价的作用
失败是成功之母
从较差查询样例中学习
如何研究性能评价
服务提供商还是信息检索工具
搜索引擎作为网络服务供应商的属性形式：用户问卷调查举例：CNNIC中国搜索引擎市场调查报告搜索引擎作为网络信息检索工具的属性形式：传统的信息检索评价方法在网络环境中的应用。信息检索系统的评价方式如何应用于搜索引擎？
查询样例集合：代表性
查询的热门程度
对于搜索引擎改进算法二八定律：改进少数查询即可满足大部分用户长尾定律：冷门查询决定大量用户的搜索偏好
例：姓名查询、公司主页查询
对于查询样例集合构建充分重视热门查询采样适当的冷门查询
查询样例集合：代表性
查询的信息需求类别
体系组成
评测语料查询样例标准答案评价指标
Cranfield评价体系
语料库查询样例标准答案语料库查询样例查询结果列表待评价搜索引擎
评价指标
评价结果
Cranfield评价体系
Cranfield评价体系下的一些评测语料
文本信息检索会议语料 Text REtrieval Conference, TREC 1992年开始，由NIST和DARPA共同承办至今为止已有300余家单位参与 CMU, Umass, UIUC, IBM, MS, … THU, PKU, NUS, TOKYO, … 其他语料：NTCIR语料, SEWM语料, SogouT语料
评价指标
评价结果
语料库集合
对于信息检索系统
提供固定的语料库集合集合规模适当：与单块主流价位硬盘的存储能力适应(VLC2, 1997, 200G) 数据质量可靠：集中在特定范围抓取(.edu, .gov)
对于商业搜索引擎
不需额外提供语料库 “不公平”的博弈？ Index Size War, 暗网抓取, …
查询频度分布(2008年6月, 某搜索引擎) 查询总数：1500万以上 Top 10,000: 覆盖超过56%的用户需求二八定律？(在任何一组东西中，最重要的只占其中一小部分 ) 长尾定律？(不受到重视的销量小，种类多的产品或服务由于总量巨大，累积起来的总收益超过主流产品的现象 )
查询样例集合：代表性
信息类(Informational) 查询
香港股市 /stock/hk.html 麦迪 /f?kw=麦迪获取相关信息，没有明确查询目标往往需要不止一个结果
举例：魔兽争霸
用户1：到达某些特定站点
点击次序 1 被点击结果的排序
9
URL
/
结束查询点击次序 1 被点击结果的排序
7
URL
/war3/wc3/
结束查询
查询样例集合：代表性
举例：魔兽争霸
用户2：游戏下载
点击次序被点击结果的排序 URL
查询样例集合：代表性
查询样例集合的代表性
查询热门程度充分重视热门查询的作用必须有适当的冷门查询代表查询信息需求包含导航类、信息类、事务类三种不同类型的查询信息需求三种信息需求类别比例约为：2: 5: 3
查询样例集合：精确性
为什么要构建精确的查询
标注人员 v.s. 真实用户：减少主观影响

查询样例集合：代表性
查询的信息需求分布情况
真实用户查询中的信息需求分布如何？ Broder: 20%/50%/30% (导航/信息/事务) Rose: 14.7%/60.9%/24.4% (导航/信息/事务) 对2008年6月某搜索引擎的抽样标注：导航类约占 30.6%，信息/事务类约占69.4% 中英文用户差异采样方法差异通常可以采用Broder的分布比例
查询样例集合：代表性
事务类(Transactional) 查询
Ultraedit 下载 /soft/7752.htm /soft/22314.html 越狱在线播放 /v?word=越狱 /playlist/id/174929/ 获取相关资源，没有明确查询目标往往一个好的结果就能完成需求
搜索引擎性能评价
刘奕群清华大学计算机系智能技术与系统国家重点实验室 2012年7月9日
搜索引擎性能评价的现状
搜索引擎性能评价的现状
CNNIC
性能评价的作用
对搜索引擎用户而言：
挑选最有利于获取信息的手段
对搜索引擎工程师而言：
算法及数据处理方式有效性的判断
对搜索引擎广告商而言：
查询样例集合：代表性
举例：魔兽争霸
用户3：获取资讯
点击次序被点击结果的排序 URL
1 2 3 1 4 3 / /f/hotweb/053/17/88017.htm /
4
6
/fight/warcraft/
标准答案集合
人力资源问题
TREC会议主席Voorhees 估计一个规模为800万的文档集合针对1个查询主题的相关性评判耗费1名标注人员9个月的工作时间如何提高标准答案集合构建的效率？ TREC解决方案：Pooling方法保证评价结果可靠性的基础上大大减少了评判工作量
查询样例集合：代表性
如何全面评价搜索引擎性能？
用少量的查询样例代表大多数需求类别通常考虑的采样依据有哪些？查询的内容类别：
垂直搜索是否存在？索引是否全面？
查询的热门程度：
用户反馈信息数量不同
查询的信息需求类别：
搜索算法设计不同
查询样例集合#43;07 1.0E+07 8.0E+06 6.0E+06 4.0E+06 2.0E+06 0.0E+00sogousoso
0
1
2
3
4
5
6
7
8
9
10 11 12 >13
0
1
2
3
4
5
6
7
8
9
10 11 12 >13
搜索引擎检索效果评价
如何进行检索效果评价？
采样技术挑战
真实性：真实查询信息收集代表性：搜索引擎各方面性能精确性：减少歧义，方便标注
查询样例集合：真实性
如何构建真实的查询样例集合？
信息检索评测：搜索引擎的用户日志 TREC Web检索任务：Live或者Yahoo! 北大SEWM评测：天网搜索 SogouT评测：搜狗搜索日志收集的隐私保护 (AOuQ, WSCD, Yandex
Cranfield评价体系
语料库查询样例标准答案查询结果列表待评价搜索引擎
评价指标
评价结果
查询样例集合
核心问题：如何采样
ComScore：More than 18.2 billion explicit core searches were conducted in December in U.S. 艾瑞咨询：2011年第三季度中国网页搜索请求量达 775.1亿次
“黑箱”评价方式关注搜索引擎系统的输入、输出不关注搜索引擎的具体实现方式具体实现： Cranfield评价体系给定标准输入，标准输出用标准输入下系统输出与标准输出的差异来衡量系统性能
Cranfield评价体系
体系建立
Cleverdon等人于上世纪五十年代末到六十年代初在 Cranfield University工作时提出确立了评价在信息检索研究中的核心地位
查询样例集合：代表性
导航类(Navigat的特定网页/文件查找清华大学2009年博士研究生招生简章护照申请表 2012年高考数学试卷
我们的研究重点
如何研究性能评价
效率还是效果
效率 (Efficiency) 用户需求是否得到了很快的响应？为满足用户需求耗费了多大规模的硬件资源？指标举例：响应时间、索引量、开销效果 (Effectiveness) 搜索结果列表是否合理？是否满足了用户的信息需求？我们的研究重点指标举例：查全率/查准率
从搜索引擎的角度来观察用户：一维的查询流(1.94 terms per query) 小查询，大责任繁杂的数据环境、丰富的用户意图查询信息需求(information need) 用户查询背后的不同类型的信息获取需要直接反映在用户与搜索引擎的交互行为上
查询样例集合：代表性
结果URL
/view/1563.htm /college/c/10003.shtml /#word=%c7%e5%bb%aa%b4%f3%d1%a7 .tw /ns?word=%c7%e5%bb%aa%b4%f3%d1 %a7