2-5 搜索引擎性能评价
搜索引擎的实验报告

一、实验目的1. 了解搜索引擎的基本原理和功能。
2. 评估不同搜索引擎的性能,包括搜索速度、准确性、相关性等。
3. 分析搜索引擎的优缺点,为实际应用提供参考。
二、实验环境1. 操作系统:Windows 102. 浏览器:Chrome3. 搜索引擎:百度、谷歌、必应、搜狗三、实验内容1. 搜索速度测试2. 搜索准确性测试3. 搜索相关性测试4. 搜索引擎优缺点分析四、实验步骤1. 搜索速度测试(1)分别打开百度、谷歌、必应、搜狗四个搜索引擎。
(2)在搜索框中输入相同的关键词,如“搜索引擎”。
(3)记录每个搜索引擎的搜索结果出现时间。
(4)比较四个搜索引擎的搜索速度。
2. 搜索准确性测试(1)在搜索框中输入关键词“搜索引擎”。
(2)分析搜索结果中与关键词相关的内容,判断搜索结果的准确性。
(3)比较四个搜索引擎的搜索准确性。
3. 搜索相关性测试(1)在搜索框中输入关键词“搜索引擎”。
(2)分析搜索结果中与关键词相关的内容,判断搜索结果的相关性。
(3)比较四个搜索引擎的搜索相关性。
4. 搜索引擎优缺点分析(1)分析四个搜索引擎在搜索速度、准确性、相关性等方面的优缺点。
(2)结合实际应用场景,总结各搜索引擎的适用范围。
五、实验结果与分析1. 搜索速度测试结果(1)百度:搜索结果出现时间为2秒。
(2)谷歌:搜索结果出现时间为1.5秒。
(3)必应:搜索结果出现时间为2.5秒。
(4)搜狗:搜索结果出现时间为2秒。
从实验结果可以看出,谷歌的搜索速度最快,其次是百度,搜狗和必应的搜索速度相对较慢。
2. 搜索准确性测试结果(1)百度:搜索结果中约80%与关键词相关。
(2)谷歌:搜索结果中约85%与关键词相关。
(3)必应:搜索结果中约75%与关键词相关。
(4)搜狗:搜索结果中约80%与关键词相关。
从实验结果可以看出,谷歌和百度的搜索准确性较高,其次是搜狗,必应的搜索准确性相对较低。
3. 搜索相关性测试结果(1)百度:搜索结果中约70%与关键词相关。
搜索引擎的主要性能评价指标

搜索引擎的主要性能评价指标
根据建立搜索引擎评价指标体系的若干原则,我们认为可以建立以下搜索引擎主要性能评价指标,它包含以下几个部分:
1.搜索引擎索引库的相关评价指标索引数据库的构成是搜索引擎检索性能优劣的基础,由此我们把它摆在评价指标的第一部分来考虑。
搜索引擎索引库的评价指标应该包括索引标引数量、标引的文件种类、标引深度和更新频率等方面。
由于索引标引数量我们难以检测,可以通过本文后面提到的“相关查全率”来间接反映,故这里把它剔除。
索引标引深度内含几方面的内容,如全面索引或部分索引、是否考虑超文本的不同标记所表示的不同含义和是否收集页面中的超链接等,而且索引数据库标引的深度直接影响检索效果,所以我们把它细分为三方面。
2 .搜索引擎检索功能的相关指标搜索引擎检索功能的评价指标主要包括:基本检索、高级检索、目录式浏览检索和其他功能检索。
搜索引擎性能评价

搜索引擎性能评价何晓艳;朱俊东【摘要】@@ 搜索引擎是当今网络信息检索的主要工具,它在满足人们从互联网上快速、准确、全面的获取信息的需求方面发挥了重要的作用.但是,由于各种搜索引擎所采用的技术和服务对象的不同,它们之间的各项性能差异很大.因此,通过对搜索引擎进行合理的评价,不仅有利于用户的选择与使用,而且有利于其本身的改进和发展.目前大多数评价方法主要以描述为主,通常只能对搜索引擎进行定性或部分定量描述,不能系统、全面的对不同搜索引擎进行综合评价.因此,建立搜索引擎综合评价体系,通过数学方法进行综合评价,具有较大的现实意义和应用前景.【期刊名称】《河北联合大学学报(医学版)》【年(卷),期】2010(012)002【总页数】2页(P279-280)【关键词】搜索引擎;评价指标体系;多级模糊综合评价【作者】何晓艳;朱俊东【作者单位】华北煤炭医学院信息中心,河北唐山,063000;华北煤炭医学院信息中心,河北唐山,063000【正文语种】中文【中图分类】G633.67搜索引擎是当今网络信息检索的主要工具,它在满足人们从互联网上快速、准确、全面的获取信息的需求方面发挥了重要的作用。
但是,由于各种搜索引擎所采用的技术和服务对象的不同,它们之间的各项性能差异很大。
因此,通过对搜索引擎进行合理的评价,不仅有利于用户的选择与使用,而且有利于其本身的改进和发展。
目前大多数评价方法主要以描述为主,通常只能对搜索引擎进行定性或部分定量描述,不能系统、全面的对不同搜索引擎进行综合评价。
因此,建立搜索引擎综合评价体系,通过数学方法进行综合评价,具有较大的现实意义和应用前景。
根据对搜索引擎基本结构、基本原理和主要功能的分析,我们把搜索引擎评价指标定义为索引构成、检索功能、检索效果、检索结果和用户交互五类[1,2]。
1.1 索引构成指标①标引数量 (万个)。
②标引范围 (种)。
标引范围由 FTP文件、WWW文件、Newsgroup文件、USENET文件和全文标引构成。
搜索引擎检索功能的性能评价研究

搜索引擎检索功能的性能评价研究搜索引擎作为现代社会获取信息的重要工具,其检索功能的性能直接影响着用户的信息获取体验。
随着互联网信息的爆炸式增长,搜索引擎检索功能的重要性日益凸显。
本文将介绍搜索引擎检索功能的基本概念、作用及其发展现状,并综述当前的性能评价研究现状、常用指标和评价方法,最后对比不同指标或评价方法的优缺点,分析其适用场景和应用前景,并提出未来发展方向。
搜索引擎检索功能是指搜索引擎通过一定的算法和策略,从互联网海量的信息中提取出与用户输入的关键词相关的有用信息。
这些信息可以是网页、图片、视频等多种形式。
搜索引擎检索功能的主要作用是帮助用户快速、准确地找到所需信息,提高信息获取的效率和准确性。
随着互联网信息的不断增加,搜索引擎检索功能的性能也面临着越来越大的挑战。
对于搜索引擎检索功能的性能评价研究,当前常用的指标包括准确率、召回率、F1得分、平均绝对误差等。
其中,准确率是指检索到的结果中与用户输入关键词相关的比例,召回率是指所有与关键词相关的结果中被检索到的比例,F1得分是准确率和召回率的调和平均数,平均绝对误差则反映了检索结果与真实结果之间的差异。
还有一些新的评价指标,如语义匹配度、用户满意度等,但这些指标的客观性较差,主观性较强。
评价方法方面,主要有基于排序的评价方法和基于分类的评价方法。
基于排序的评价方法是根据检索结果与用户输入关键词的相关程度对结果进行排序,将排在前面的结果视为更有用的结果。
常见的基于排序的评价方法有PageRank算法、BM25算法等。
而基于分类的评价方法则是将检索结果分为与关键词相关的类别和无关的类别,通过分类准确率等指标来评价检索结果的性能。
不同指标或评价方法都有其优缺点。
准确率和召回率是经典的指标,简单易懂,但无法全面反映检索结果的性能。
F1得分则在一定程度上解决了这个问题,但仍然存在一定的局限性。
平均绝对误差指标直观易懂,但计算复杂度较高且无法反映检索结果的全局性能。
搜索引擎评判的基本指标

搜索引擎评判的基本指标互联网技术的日益成熟,网络的普及,搜索引擎越来越成为广大网民不可或缺的工具了。
以至于某企业老总说,“目前门户网站的核心技术就是搜索引擎”。
怎么来评价一个搜索引擎的好坏,我认为因该从以下几个方面来考虑,尽管这种想法书卷气十足,但是我想至少可以在优化算法,设计用户界面上有点意义。
1.查全率:它是指检索列出的结果的数据与实际网络中拥有的与检索关键词相关的数据量地差别或说差距。
从理论上讲没有那个搜索引擎能够含盖所有的网络信息,但是每个搜索引擎有尽可能的扩展自己的数据库以求,信息覆盖更全面。
查全率=检索出的相关信息数量/系统中所有的相关信息量注:实际数据库中所有的相关信息量实际上是一个理论概念,并没有人也没有办法去确切的统计到底会有多少与某一个关键词相关的信息。
所以这个概念只供理论研究用。
对于用户来说,看到的最直观的是检索反馈结果多少,所以,对某一个关键词来说,反馈的结果愈多当然是查全率越高。
实际这是不完全正确的。
2.查准率:实际反应的是检索反馈的结果与用户检索关键词之间的匹配程度。
这对网民来说也是至关重要的,查准率=检出的有用的资料/检索反馈的结果的总量对于一个拥用户来说,如果就某一个关键词检索出来的结果全然没用,准确率极低,那么将无疑是最大的伤害,所以搜索引擎必须想尽办法提高检索的匹配程度。
提高检索结果与关键词的匹配程度有两种实现方法,其一就是有自己的独特的[匹配方法,比如Google的Page Ranking 技术等,其二就是提供高级检索功能,即提供用户自定义逻辑检索。
3.响应速度:用户能够快速的得到反馈结果。
搜索引擎的实用性来看,必须保证用户可以很快地得到查询结果。
一般情况下,库容量越大,响应速度越慢。
4.检库容量:搜索引擎必须要有相当大的库容量才具有一定的代表性和实用性。
可以说搜索引擎可搜索的库容量大小是搜索引擎质量标志的第一要素。
库容量的大小取决于工作方式。
采用“机器人检索”方式的搜索引擎的库容量一般要远大于“人工分类”方式的搜索引擎。
搜索引擎的特点与评价标准

搜索引擎的特点与评价标准一、搜索引擎的分类搜索引擎按其工作方式主要分为三种,分别是全文搜索引擎、目录索引类搜索引擎和元搜索引擎。
全文搜索引擎是名副其实的搜索引擎,国外具有代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,百度(Baidu)目前所做的应该属于全文搜索引擎。
由于它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
虽然百度拥有自己的检索程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,但它们所能提供的信息绝大程度上由它所搜索的网站决定的。
评价标准及其局限性在搜索引擎的发展初期,人们对它的要求较低,只要它能把互连网上相关的网站搜出来,搜到的网站尽量多一点,无关的网站能少一点就能满足。
所以那时候,人们评测搜索引擎的方法是用几个关键词,测试对比它们的搜索速度、搜索数量和无关网站的多少。
简单说就是全、快、准。
而那时的搜索引擎技术大家差别不大,所以这样的评测方法是可行的。
此后,独特的搜索引擎技术此起彼伏,层出不穷,到现在明显处于战国时代。
但是,人们的评测方法却没多大变化,现在常见的评测还是简单的用几个关键词比较搜索速度、搜索结果数量和各自介绍的搜索准确性。
搜索引擎的评价标准与目前搜索引擎的发展状况并非完全吻合。
下面,我们就目前常用的评价指标进行分别介绍。
第一,搜索引擎的查全率。
既然是搜索引擎,当然比较搜索的范围就应该首当其冲。
但是,由于收录网页的数量都是各搜索引擎自己宣布的,未可全信,而同一个关键词的搜索结果却是显而易见的,所以一般的评测都以这个为准。
但以这个为准仍有很多不足之处,因为多数象样一点的搜索引擎都可以找出一批关键词来证明它的搜索结果是最全的。
因为网页索引数量虽然有大小,但robot和spider程序不同,索引范围和索引标准也不尽相同,在最大的搜索引擎上搜不到的有可能在小得多的搜索引擎上搜到。
2.2 搜索引擎及信息资源评价

④强制搜索 通过添加英文双引号或书名号来搜索短 词语,在查找名言警句或专用名词时特别有用。 使用加上双引号的 “上海科技大学”与 不加双引号的上海科技大学进行搜索,获得 的搜索结果更快更准确; 使用关键词《手机》进行搜索,一般都 是关于电影方面的。
二、因特网信息资源评价 评价的主要方式: 统计评价、专家或核心刊物评价、个人推荐 如“点击率” 排行榜等 该方法专业性较强, 参考价值较高 该方法参考价值较 低
练一练:
1、因特网上的网页数量每天以惊人的速度在增 加着,如何在因特网上快速 找到有用的信 息,是 每一网络应用者必须要解决的问题,正如人们所说 “知识的一半是知道到哪里寻找它”, 在因特网上 检索信息常用的途径有( ) ①主题目录 ②搜索引擎 ③元搜索引擎 ④ Word 编辑菜单中的“查找”命令 (A)①②③④ (B)①②③ (C)②③④ (D)①②④
全文检索技术是一种将文本中的任何字符和字符串作为检索入口的检索方式 (用代表所需信息主题的关键词进行信息查询),可以提高信息检索的查找速度、 查全率和查准率,现在几乎所有的搜索引擎都使用了全文检索技术。
3、元搜索引擎
元搜索引擎又称多元搜索引擎 或者并行搜索引擎。元搜索引擎的 英文愿意是搜索引擎的搜索引擎, 它是将用户的检索词同时送到数个 搜索引擎,在它们的索引数据库中 进行检索,对从这些搜索引擎数据 库中找到的相关记录集合进行一些 必要的处理,最后向用户提交一个 统一界面的搜索结果报告,这个报 告可以是单一的,也可以是集成的, 分级排列的搜索结果清单。
2、下图是某著名购物网站的购物导航商品分 类图,如果你去购物的时候,进入该页面,你采用 的检索信息方法属于( )
(A)搜 索引擎中搜索“北京大学”,出现的页面内 容是( ) A.北京大学的招生简章 B.北京大学相关信息的链接地址 C.北京大学简介 D.北京大学网站主页
搜索引擎网站质量评级

搜索引擎网站质量评级搜索引擎网站质量评级随着互联网的飞速发展,互联网的信息越来越多,互联网上的网站也越来越多,而大家都知道搜索引擎不可能爬行收录所有的网站页面信息,百度官方也明确表示蜘蛛只可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性,搜索引擎的目的就是尽量快而全的发现资源链接,提高抓取效率,只有这样蜘蛛才能尽量满足绝大部分网站。
因为如此所以对于不同的网站搜索引擎的爬行收录情况都是不一样的,这就要对网站质量进行评级。
对一个质量高的网站进行爬取肯定能获得更多的优质资源,能节省很多时间。
百度对于新浪和对小网站的抓取程度肯定是不一样的,因此要对网站的质量进行评级,通过级别来判断网站需要抓取的程度,从而提高蜘蛛效率。
这就相当于一个企业去招聘人才,不可能一个人一个人的去考察,为了节省时间,很多企业就会重视毕业证,而这个就是对求职者的一个评级,有初中、高中、大学、研究生等,评级高的自然也会更多企业面试的机会,甚至评级更高的不用面试直接上岗。
搜索引擎也是这样对于新站评级肯定低,收录也少;对于一般站,级别会高点,抓取频率和数量都会慢慢变多;而对于一些大型知名站,基本是不断的在抓取,并且基本没有审核,直接收录,这不仅提高搜索引擎的效率,也满足了绝大部分用户的需求。
搜索引擎如何进行评级?很明显这个评级不是简简单单靠人工能完成的,部分网站会人工判断,而绝大部分都是需要更智能的方法,通过数据计算在站中自动发现规律来完成质量评级。
首先,搜索引擎结合人工挖掘一批质量优异的站点,将其作为数据库系统的基本集合,减少反垃圾反作弊的代价,提高系统检索结果的稳定性和权威性,减少用户的不良反应,选取符合用户体验的集合,提取这些页面的特征。
比如:1、百度权重百度权重对于站点质量评级来说是个很重要的因素,是一个网站重要程度和用户需求程度一个直接的体验,也是网站整体情况的是个浓缩,所以一般权重值高的网站就代表着高可信度和权威,这对于站点评级非常关键。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一:查询样例集合:真实性
如何构建真实的查询样例集合? 信息检索评测:搜索引擎的用户日志
• TREC Web检索任务:Live或者Yahoo! • 北大SEWM评测:天网搜索 • SogouT评测:搜狗搜索
34
第一:查询样例集合:真实性 如何构建真实的查询样例集合? 日志收集的隐私保护 (AOL) 无法收集日志数据时的折衷方案
实验的主要结论
• 标引语言的检索性能排序:单元词最好,受 控语言次之,自然语言最差 • 使用单元词法时,引入词形与同义控制有一 定效果,但若加强控制,检索性能会降低 • 对于受制语言,在受制词外,若再引入上位 词或上下位词或相关词,系统性能会降低
25
(3)Cranfield评价体系 体系建立 Cleverdon等人于上世纪五十年代末到六十年代初 在Cranfield University工作时提出 确立了评价在信息检索研究中的核心地位 体系组成 评测语料 查询样例 标准答案 评价指标
9
搜索产品的未来
社交化 移动化 整合暗网数据 知识?推理? 自然语言问答 多模态交互方式 可视化 ……
10
ห้องสมุดไป่ตู้
主要内容:
搜索引擎体系结构设计理念
搜索引擎性能评价
11
搜索引擎性能评价的现状
12
搜索引擎性能评价的现状
13
性能评价的作用
对搜索引擎用户而言: 挑选最有利于获取信息的手段 对搜索引擎工程师而言: 算法及数据处理方式有效性的判断 对搜索引擎广告商而言: 挑选最有效的广告投放手段 评价在信息检索系统的研发中一直处于 核心的地位,以致于算法与其效果评价 方式是合二为一的(Saracevic, SIGIR 1995)
1 2 3 4 1 4 3 6 / /f/hotweb/053/17/88017.htm / /fight/warcraft/
基本按照顺序进行点击 点击的页面都是关于查询词的内容丰富的站点 或hub型页面
40
第三:查询样例集合:代表性
举例:魔兽争霸 用户3:游戏下载(事务类)
点击次序 被点击结果的排序 URL
1 2 3 4 3 2 /f/hotweb/053/17/88017.htm / /
26
(3)Cranfield评价体系
语料库
查询样例 标准答案
语料库
查询样例 查询结果列表
待评价 搜索引擎
评价指标
评价结果
27
(3) Cranfield评价体系 如何用Cranfield评价体系进行检索效果评价 如何构建语料库集合 如何构建查询样例集合 面临哪些技术问题? 构建的方法是什么? 如何构建标准答案集合 如何设计评价指标
内容索引子系统:节约每一个比特 链接结构分析子系统:舍弃在线计算的HITS算法 内容检索子系统:舍弃复杂的自然语言和语义理解
8
搜索引擎体系结构设计理念
(4)强调可扩展性的设计理念
数据抓取子系统的可扩展性 应对硬件资源扩展 内容索引系统的可扩展性 新抓取的内容数据 内容检索系统的可扩展性 新增加的排序因素 链接结构分析系统的可扩展性 新出现的网页数据
搜索引擎作为网络信息检索工具的属性
• 形式:传统的信息检索评价方法在网络环境中的应 用。 • 信息检索系统的评价方式如何应用于搜索引擎?
我们的研究重点
16
(1)如何研究性能评价 效率 还是 效果 效率 (Efficiency)
• 用户需求是否得到了很快的响应? • 为满足用户需求耗费了多大规模的硬件资源? • 指标举例:响应时间、索引量、开销
效果 (Effectiveness)
• 搜索结果列表是否合理? • 是否满足了用户的信息需求? • 指标举例:查全率/查准率
我们的研究重点
17
(2)搜索引擎检索效果评价
如何进行检索效果评价? “黑箱”评价方式
• 关注搜索引擎系统的输入、输出 • 不关注搜索引擎的具体实现方式
具体实现:
被点击结 点击次序 果的排序 1
9
URL
/
结束查询
被点击结 点击次序 果的排序 1
7
URL
/war3/wc3/
结束查询
39
第三:查询样例集合:代表性
举例:魔兽争霸 用户2:获取资讯(信息类)
点击次序 被点击结果的排序 URL
(1)用户需求驱动的设计理念 (2)有损优化的设计理念
(3)强调效率的设计理念
(4)强调可扩展性的设计理念
5
搜索引擎体系结构设计理念
(1)用户需求驱动的设计理念
根据用户需求确定网页抓取、更新的频率
根据用户需求确定网页层次索引结构的组成
根据用户需求确定检索算法设计
根据用户需求设计链接结构分析算法,确定网 页质量评估的方式
30
(3) Cranfield评价体系
Cranfield评价体系下的一些评测语料 文本信息检索会议语料
• • • • • Text REtrieval Conference, TREC( / ) 1992年开始,由NIST和DARPA共同承办 至今为止已有300余家单位参与 CMU, Umass, UIUC, IBM, MS, … THU, PKU, NUS, TOKYO, …
28
(3) Cranfield评价体系
语料库
查询样例 标准答案 查询结果列表
待评价 搜索引擎
评价指标
评价结果
29
① 语料库集合
语料库集合是指与信息检索系统应用目标相一致 的语料数据集合。 对于信息检索系统 提供固定的语料库集合 集合规模适当:与单块主流价位硬盘的存储能 力适应(VLC2, 1997, 200G) 数据质量可靠:集中在特定范围抓取(.edu, .gov) 对于商业搜索引擎 不需额外提供语料库 “不公平”的博弈? Index Size War, 暗网抓取, …
24
Cranfield-Ⅱ评价实验
实验文献对象
• 内容为高速航空动力学与飞行器结构的1400 篇文献(研究报告)
实验过程
• 对每篇研究报告用4种标引语言处理 • 研究报告作者根据报告内容共拟定了221个 检索式 • 对每个检索提问在不同控制模式上进行实 验,记录实验结果
Cranfield-Ⅱ评价实验
14
搜索引擎性能评价
1. 搜索引擎评价与Cranfield评价体系
2. 查询样例集合构建
3. 正确答案集合构建
4. 搜索引擎评价指标
15
1. 搜索引擎评价与Cranfield评价体系
(1)如何研究性能评价?服务提供商 还是 信息 检索工具 搜索引擎作为网络服务供应商的属性
• 形式:用户问卷调查 • 举例:CNNIC中国搜索引擎市场调查报告
实验检索提问
• 提供1200个由文献作者拟定的检索提问
20
Cranfield-Ⅰ评价实验
实验结果
语言 UDC 标题语言 分面分类法 单元词 检索课题数 成功课题数 1157 1154 1047 1146 875 941 773 940 失败课题数 成功率(%) 282 213 274 206 75.6 81.5 73.8 82.0
• Cranfield评价体系 • 给定标准输入,标准输出 • 用标准输入下系统输出与标准输出 的差异来衡量系统性能
18
1. 搜索引擎评价与Cranfield评价体系 Cranfield-Ⅰ评价实验
实验时间
• 1957-1962
实验地点
• 英国Cranfield市航空学院图书馆
评价对象
6
搜索引擎体系结构设计理念
(2)有损优化的设计理念
核心:搜索引擎是资源密集的网络产品,要把有
限的资源用在合理的方向,尽可能满足最大多数
的查询。
部分网页抓取更新频率要高于其它网页 高水平的硬件部件只应用于高质量网页的索引
7
搜索引擎体系结构设计理念
(3)强调效率的设计理念
数据抓取子系统:节省带宽/提升R/提升U
21
Cranfield-Ⅰ评价实验
主要结论
• 4种检索语言的检索成功率大致相同(约80 %) • 检索失败的主要因素
– 由4个因素决定:提问(17%),标引(60%) ,检索(17%)与系统(6% ) – 主要因素是标引与检索(77%),其中55%是人 的因素造成的,另22%是由标引时间引起的
37
第二:查询样例集合:代表性 查询的热门程度 对于搜索引擎改进算法
• 二八定律:改进少数查询即可满足大部分用户 • 长尾定律:冷门查询决定大量用户的搜索偏好
– 例:姓名查询、公司主页查询
对于查询样例集合构建
• 充分重视热门查询 • 采样适当的冷门查询
38
第三:查询样例集合:代表性 举例:魔兽争霸 用户1:到达某些特定站点(导航类)
其他语料:NTCIR语料, SEWM语料, SogouT语料 (/labs/resources.html) 复旦语料库
31
Cranfield评价体系
语料库
查询样例 标准答案 查询结果列表
待评价 搜索引擎
评价指标
评价结果
32
② 查询样例集合
查询样例集合是指评价搜索引擎性能时,模拟用户 实际需求向搜索引擎提出的查询(query)集合。 核心问题:如何采样 ComScore:More than 18.2 billion explicit core searches were conducted in December in U.S. 艾瑞咨询:2011年第三季度中国网页搜索请求量 达775.1亿次 采样技术挑战 真实性:真实查询信息收集 代表性:搜索引擎各方面性能 精确性:减少歧义,方便标注