信息检索评价

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
理想情况
召回率
0
准确率
信息检索实验室
1
返回最相关的文本
但是漏掉了很多
相关文本
11
举例
Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
通过某一个检索算法得到的排序结果:
(100%,10%) (precision, recall)
1. d123 •
检索系统的目标就在于检出相关文档而排 除不相关文档
信息检索实验室
3wenku.baidu.com
相关性
相关性是一种主观评价
是不是正确的主题
输入:“和服”;输出:“···咨询和服务···” 由于分词错误,导致检索结果偏离主题
是否满足用户特定的信息需求 (information need) 时效性,是不是新的信息
输入:“美国总统是谁”;输出:“克林顿” 信息已经过时
由于TREC 的文献集合如此庞大, 全方位的 判断是不可行的。因此TREC相关性判断基 于检索问题所来自的测试文档集合,并采 用一种“pooling”的技术来完成。
信息检索实验室
8
“pooling”方法有以下两个假设
假设绝大多数的相关文档都收录在这个文档池中
没有进行判断的文档即未被认为是不相关的
为了评价某一算法对于所有测试查询的检索性能, 对每个召回率水平下的准确率进行平均化处理, 公式如下:
P(r) Nq Pi (r)
N i1
q
•Nq: the number of queries used
•Pi(r): the precision at recall level r for the i-th query
评价
评价一般是指评估某个系统的性能、某种 产品的质量、某项技术的价值,或者是某 项政策的效果等等
信息检索评价则是指对信息检索系统的性 能(主要是其满足用户信息需求的能力) 进行评估的活动
从信息检索系统诞生以来,对检索系统的 评价就一直是推动其研究、开发与应用的 一种主要力量
信息检索实验室
1
信息检索的评价
一个查询的11个标准查准率
11个标准查全率水平所对应的查准率: 0%, 10%, 20%, …, 100%
p r
120
e 100
c 80
interpolation
i 60
s i
40
o 20
n
0 20 40 60
80 100 120
信息检索实验室
13
平均准确率
上述准确率召回率的值对应一个查询
每个查询对应不同的准确/召回率曲线
随着测试集规模的扩大以及人们对评测结 果理解的深入,更准确反映系统性能的新 评价指标逐渐出现
权威性,是否来自可靠的信息源
信息检索实验室
4
评价IR系统的困难
相关性不是二值评价,而是一个连续的量 即使进行二值评价,很多时候也很难 从人的立场上看,相关性是:
主观的,依赖于特定用户的判断 和情景相关的,依赖于用户的需求 认知的,依赖于人的认知和行为能力 时变的,随着时间而变化
信息检索实验室
信息检索实验室
14
多个查询下进行检索算法的比较
对多个查询,进行平均,有时该曲线也称为:查准率/查全率的值。 如下为两个检索算法在多个查询下的查准率/查全率的值。
第一个检索算法在低查全率下,其查准率较高。 另一个检索算法在高查全率下,其查准率较高
Precision
100 90 80 70 60 50 40 30 20 10 0 0
20
40
60
80
100
120
Recall
信息检索实验室
适应性
合理估计需要了解集合的所有文献 这两个指标相互关联,评价不同方面,
结合在一起形成单个测度更合适 测的是批处理模式下查询集合性能,对
现代信息检索系统,交互式是重要特征, 对量化检索过程的性指标可能会更合适
信息检索实验室
16
新的评价指标
检索出的 文本
相关 不相关
检出且 不相关
检出且 相关
检出
未检出且 不相关
未检出且 相关
未检出
召回率(Recall)=检出的相关文档数/相关文档数
准确率(Precision)=检出的相关文档数/检出文档数
假设:文本集中所有文献已进行了检查
信息检索实验室
10
准确率和召回率的关系
返回了大多数相关文档 但是包含很多垃圾
对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。 该集合可由人工方式构造
一组评价指标。这些指标反映系统的检索性能。通过比较 系统实际检出的结果文档集和标准的相关文档集,对它们 的相似性进行量化,得到这些指标值
信息检索实验室
7
相关性判断
在早期的检索实验集合中, 相关性判断是全 方位的,就是说, 由专家事先对集合中每一篇 文献与每一个主题的相关性做出判断。
6. d9 • 11. d38
2. d84
7. d511 12. d48
3. d56 •
8. d129 13. d250
4. d6
9. d187 14. d113
5. d8
(66%,20%)
10. d25 • 15. d3 •
(50%,30%) (40%,40%) (33%,50%)
信息检索实验室
12
针对一个检索系统,可以从功能和性能两 个方面对其进行分析评价
功能评价
可通过测试系统来判定是否支持某项功能,因 此相对来说较容易
性能评价
对于检索系统的性能来说,除了系统的时间和
空间因素之外,要求检索结果能够按照相关度
进行排序
信息检索实验室
2
相关度
相关度理论假定:对于一个给定的文档集 合和一个用户查询,存在并且只存在一个 与该查询相关的文档集合
5
检索的评价
检索性能的评价
检索结果的准确度
检索任务
批处理查询 交互式查询
实验室环境下主要是批处理查询,具有良 好的可重复性和可扩展性
信息检索实验室
6
在评价和比较检索系统的检索性能需要 以下条件:
一个文档集合C。系统将从该集合中按照查询要求检出相 关文档
一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了 用户的信息需求
“pooling”技术的具体操作方法是:针对某一检 索问题,所有参与其检索试验的系统分别给出各 自检索结果中的前K个文档(例如K=100),将这 些结果文档汇集起来,得到一个可能相关的文档 池“pool”
由检索评价专家进行人工判断,最终评判出每一 文档的相关性
信息检索实验室
9
准确率和召回率
全部文本集合 相关文本
相关文档
最新文档