信息检索性能评价指标

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

11. d38 12. d48 13. d250 14. d113 15. d3
(20%,100%)
0.36 F (15) 2 1 1 0.20 1 0.33
14
单个查询评价指标(4) —引入序的作用
R-Precision
计算序列中前R个位置文献的准确率 R指与当前查询相关的文献总数
1. d123 2. d84 3. d56 4. d6 5. d8 6. d9 7. d511 8. d129 9. d187 10. d25 2. 1. 2. 3. d123 d84 56
R=10 and # relevant=4 R-precision=4/10=0.4
R=3 and # relevant=1 R-precision=1/3=0.33
单个查询评价指标(3)—P和R融合
F值：召回率R和正确率P的调和平均值，if P=0 or R=0, then F=0, else 采用下式计算：
F ( j) 2 1 1 R( j ) P( j ) ( P 0, R 0)
��
E值：召回率R和正确率P的加权平均值，b>1表示更重视P 1 b E( j) 1 ( P 0, R 0) b 1
P-R曲线的例子
某个查询q的标准答案集合为： Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123} 某个IR系统对q的检索结果如下：
1. d123 R=0.1，P=1 6. d9 R=0.3，P=0.5 7. d511 8. d129 9. d187 11. d38 12. d48 13. d250 14. d113
IR评价研究的内容
功能评价
可通过测试系统来判定是否支持某项功能，因此相对来说较容易
性能评价
时间指标空间指标对按照相关度进行排序的检索结果进行准确度的评价
IR评价研究的程序
一项完整的检索评价工作可分为以下5个步骤:
（1）确定评价范围和目标（2）选择评价方式（3）设计或者制定评价方案（4）实施评价方案（5）总结与评价结论的形成
6
如何评价效果
相同的文档集合，相同的查询主题集合，相同的评价指标，不同的检索系统进行比较。
The Cranfield Experiments, Cyril W. Cleverdon, 1957 –1968 (上百篇文档集合) SMART System,Gerald Salton, 1964-1988 (数千篇文档集合) TREC(Text Retrieval Conference), Donna Harman, 美国标准技术研究所, 1992 -(上百万篇文档)，信息检索的 “奥运会”
15
单个查询评价指标(5) —引入序的作用
正确率-召回率曲线(precision versus recall curve)
�� 检索结果以排序方式排列，用户不可能马上看到全部文档，因此，在用户观察的过程中，正确率和召回率在不断变化(vary)。 �� 可以求出在召回率分别为： 0%,10%,20%,30%,…, 90%,100%上对应的正确率，然后描出图像。
评价指标分类
对单个查询进行评估的指标
对单个查询得到一个结果
对多个查询进行评估的指标(通常用于对系统的评价)
求平均
单个查询的评价指标（1）
全部文本集合检索出的相关文本文本
不相关
检出且不相关
检出且相关
未检出且不相关未检出且相关未检出
相关
检出召回率(Recall)=检出的相关文档数/相关文档数，也称为查全率，R∈[0,1] 准确率(Precision)=检出的相关文档数/检出文档数，也称为查准率，P∈[0,1] 假设：文本集中所有文献已进行了检查
准确率直方图
多个查询的R-Precision测度用来比较两个算法的检索纪录
RPA / B (i) RPA (i) RPB (i) where RPA (i) and RPB (i) are R precisionvalues of retrievalalgorithmsA and B for thei th query
2 2
R( j )
P( j )
Example
1. d123 2. d84 3. d56 4. d6 5. d8
(33.3%,33.3%)
F (3) 2 1 1 0.33 0.33
6. d9 7. d511 8. d129 9. d187 10. d25
(25%,66.6%)
0.33 F (8) 2 1 1 0.25 0.67
RPA/B=0:对于第i个查询，两个算法有相同的性能 RPA/B>0:对于第i个查询，算法A有较好的性能 RPA/B<0:对于第i个查询，算法B有较好的性能
28
Example
1.5 1.0
8
0.5
0.0
1
2
3
4
5
6
7
8
9
wenku.baidu.com10
-0.5
-1.0
2
-1.5
Query Number
29
多个查询评价指标(11)
多个检索算法之间的比较
对多个查询，进行平均，有时该曲线也称为：查准率/查全率的值。如下为两个检索算法在多个查询下的查准率/查全率的值。
第一个检索算法在低查全率下，其查准率较高。另一个检索算法在高查全率下，其查准率较高
100 90 80 70
Precision
60 50 40 30 20 10 0 0 20 40 60 Recall 80 100 120
26
单个查询评价指标(9) —不考虑召回率
Precision@N：在第N个位置上的正确率，对于搜索引擎，考虑到大部分作者只关注前一、两页的结果，P@10(系统对于查询返回的前10个结果的准确率) , P@20 对大规模搜索引擎非常有效. 举例
NDCG：后面详细介绍。
多个查询评价指标(10)
2. d84 3. d56 R=0.2， P=0.67 4. d6 5. d8
10. d25 R=0.4，P=0.4 15. d3 R=0.5， P=0.33
P-R曲线的例子
P-R曲线的插值问题
对于前面的例子，假设Rq={d3,d56,d129}
�� 3. d56 R=0.33,P=0.33;8. d129 R=0.66, P=0.25; 15. d3 R=1,P=0.2
返回
10
关于召回率的计算
对于大规模语料集合，列举每个查询的所有相关文档是不可能的事情，因此，不可能准确地计算召回率
缓冲池(Pooling)方法：对多个检索系统的Top N 个结果组成的集合进行标注，标注出的相关文档集合作为整个相关文档集合。这种做法被验证是可行的，在TREC会议中被广泛采用。
信息检索的评价指标
高海燕 2010114014
信息检索的评价指标体系
评价IR的意义 IR评价研究的内容和程序评价指标分类
单个查询的评价指标多个查询的评价指标
评价IR的意义
信息检索评价是对信息检索系统性能（主要满足用户信息需求的能力）进行评估的活动。通过评估可以评价不同技术的优劣，不同因素对系统的影响，从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。
P-R曲线的优缺点
优点： �� 简单直观
�� 既考虑了检索结果的覆盖度，又考虑了检索结果的排序情况
缺点： �� 单个查询的P-R曲线虽然直观，但是难以明确表示两个查询的检索结果的优劣
单个查询评价指标(6) —P-R曲线的单一指标
Break Point：P-R曲线上P=R的那个点
9
举例
Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d 123} 通过某一个检索算法得到的排序结果： (100%,10%) (precision, recall) 1. d123 6. d9 2. d84 7. d511 3. d56 8. d129 4. d6 9. d187 (50%,30%) (66%,20%) d8 5. 10.(40%,40%) d25 11. d38 12. d48 13. d250 14. d113 (33%,50%) 15. d3
未插值的AP: 某个查询Q共有6个相关结果，某系统排序返回了5篇相关文档，其位置分别是第1，第2，第5，第10，第20位，则AP=(1/1+2/2+3/5+4/10+5/20+0)/6 插值的AP:在召回率分别为0,0.1,0.2,…,1.0的十一个点上的正确率求平均，等价于11点平均
只对返回的相关文档进行计算的AP, AP=(1/1+2/2+3/5+4/10+5/20)/5，倾向那些快速返回结果的系统，没有考虑召回率
关于召回率和正确率的讨论（2）
虽然Precision和Recall都很重要，但是不同的应用、不用的用户可能会对两者的要求不一样。因此，实际应用中应该考虑这点。 ��
垃圾邮件过滤：宁愿漏掉一些垃圾邮件，但是尽量少将正常邮件判定成垃圾邮件。 �� 有些用户希望返回的结果全一点，他有时间挑选；有些用户希望返回结果准一点，他不需要结果很全就能完成任务。
平均的求法：
宏平均（Macro Average）：对每个查询求出某个指标，然后对这些指标进行算术平均微平均（Micro Average）：将所有查询视为一个查询，将各种情况的文档总数求和，然后进行指标的计算如：Micro Precision=（对所有查询检出的相关文档总数)/(对所有查询检出的文档总数)
单个查询评价指标(8) —不考虑召回率
Bpref ：Binary preference，2005年首次引入到TREC的Terabyte
任务中只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下，bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下，bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数。具体公式为：
这样可以直接进行单值比较
11点平均正确率(11 point average precision)：在召回率分别为0,0.1,0.2,…,1.0的十一个点上的正确率求平均，等价于插值的AP
P-R曲线中的Breakpoint
Breakpoint
单个查询评价指标(7) —引入序的作用
平均正确率(Average Precision, AP)：对不同召回率点上的正确率进行平均
在评价和比较检索系统的检索性能需要以下条件：
一个文档集合C。系统将从该集合中按照查询要求检出相关文档一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该集合可由人工方式构造一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集，对它们的相似性进行量化，得到这些指标值
1 | n ranked higher than r | bpref 1 R r R
25
Example
下面举个例子来说明bpref的性能，假设检索结果集S为： S ={D1 ,D2 · 3 * ,D4 * ,D5 · 6 ,D7 · 8 ,D9 ,D10 } ,D ,D ,D 其中D2、D5 和D7是相关文档，D3 和D4为未经判断的文档。对这个例子来说， R=3; bpref= 1/3 [(1 -1/3) + (1 -1/3) + (1 -2/3)]
�� 不存在10%, 20%,…,90%的召回率点，而只存在33.3%, 66.7%, 100%三个召回率点 �� 在这种情况下，需要利用存在的召回率点对不存在的召回率点进行插值(interpolate) �� 对于t%，如果不存在该召回率点，则定义 t%为从t%到(t+10)%中最大的正确率值。 �� 对于上例，0%,10%,20%,30%上正确率为 0.33，40%~60%对应0.25，70%以上对应0.2