信息检索系统的评价方法

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

– 我们的研究思路
• 通过对搜索引擎记录下的用户行为日志进行分析，不额外增加用户负担。 • 使用用户群体，而不是个体的点击行为作为依据
提纲
• 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统：搜索仪 • 结论与未来工作
基于用户行为分析的性能评价
• 总体思路
– 数据对象繁杂，标注困难
• Voorhees 估计，对一个规模为800万的文档集合进行针对1个查询主题的相关性评判需要耗费1名标注人员9个月的工作时间 • TREC提出pooling方法，在保证评价结果可靠性的基础上大大减少了评判工作量 • 缺点：处理的查询数目少，针对小规模的查询集合，仍需要耗费十余名标注人员1-2个月的工作时间
信息检索系统的评价方法
• 核心问题: 如何提高答案标注的自动化程度
– 利用用户行为分析方法
• Joachims et.al.(1997) 创建了一个元搜索接口，将不同搜索引擎的结果加以混杂，把用户点击不同结果的情况加以记录，并以此作为评判依据 • 用户行为分析的思路值得肯定 • 缺点：改变用户检索习惯、个体用户行为不可靠等
– Gerard Salton 与 SMART 系统
– Sparck-Jones 的著作 “Information retrieval experiment”
• 在线：http://www.itl.nist.gov/iaui/894.02/projects/irlib/
信息检索系统的评价方法
• 网络信息检索系统效果评价的现状
• 1994年，面向个人用户的浏览服务诞生 • 2002年，Web上所存储的数据超过500,000 TB
– 知识的获取空前简单与繁荣
• “在信息化时代，知识实际上已经不是资源，智慧才是资源。”
– 从Web中有效的获取知识成为人们的必需技能
• 高科技企业员工1/3的时间用于查找资料
研究背景
• 网络信息检索工具成为人们生活和工作中的重要信息获取手段
– 全球范围内84%的互联网用户使用搜索引擎，其中超过一半的人几乎每天使用。 – 2007年1月，我国网民总人数为13700万人。 – 95%以上的中国网民使用过搜索引擎，84.5%的用户将搜索引擎作为得知新网站的主要途径。 – 商用搜索引擎竞争日趋激烈。
研究背景
• 性能评价对搜索引擎的重要作用
• Soboroff et.al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003
• 标注的准确程度和可靠性不高
– 对查询词的近义词集合进行标注
• 根据结果网页的查询词及近义词词频进行评判
• Amitay et.al, 2004 • 初始标注工作量大，评判的可靠性不高
– 搜索引擎作为网络信息检索工具的属性
• 形式：传统的信息检索评价方法在网络环境中的应用。 • 举例：TREC VLC/Web/Terabyte track，SEWM评测等
作为信息检索研究人员，我们的考察重点
提纲
• 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统：搜索仪 • 结论与未来工作
搜索引擎效果自动评价
• 基于用户关注程度进行查询样例自动挑选
– 频度高于100的查询：35177个(<查询个数1%) – 覆盖了近70%的用户查询需求
– 选取热门关键词(big fat head)作为代表性样例
1.0E+05
Query Frequency
7.5E+04 5.0E+04 2.5E+04 0.0E+00 0 2000 4000 6000 8000 10000
– 基于Cranfield方式进行评价
• 丰富的研究经验：评价指标、查询样例选取策略等
பைடு நூலகம்
• 便于与传统的手工标注评价方式进行比较
– 基于用户关注程度进行查询样例选取 – 基于用户行为信息进行答案自动标注
• 个体用户可能在点击过程中出现谬误 • 用户群体的点击信息则是很大程度上可靠的 • 统计用户群体的点击行为，进而对查询对应的结果进行标注
信息检索系统的评价方法
• 信息检索系统评价的起源（续）
– Cranfield-like evaluation methodology
• Cranfield在上世纪伍十年代末到六十年代初提出了基于查询样例集、标准答案集和语料库的评测方案，被称为IR评价的“grand-daddy” • 确立了评价在信息检索研究中的核心地位
– 对搜索引擎用户而言：
• 挑选最有利于获取信息的手段
– 对搜索引擎工程师而言：
• 算法及数据处理方式有效性的判断
– 对搜索引擎广告商而言：
• 挑选最有效的广告投放手段
研究背景
• 搜索引擎评价的考察方式
– 搜索引擎作为网络服务供应商的属性
• 形式：用户问卷调查
• 举例：CNNIC中国搜索引擎市场调查报告
基于用户群体行为分析的搜索引擎自动性能评价
清华大学智能技术与系统国家重点实验室马少平 2008年4月12日，南昌
提纲
• 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统：搜索仪 • 结论与未来工作
研究背景
• Web的发展带来了什么？
– 信息量的急剧增长
– 提高搜索引擎评价方法的自动化程度势在必行
信息检索系统的评价方法
• 如何提高搜索引擎评价的自动化程度？
查询样例选取标准答案标注
查询样例集合
标准答案集合
检索系统查询结果
信息检索系统的评价方法
• 核心问题: 如何提高答案标注的自动化程度
– 利用伪相关反馈的方法进行结果自动标注
• 伪相关反馈的结果被认为是答案
余慧佳等，基于大规模日志分析的搜索引擎用户行为分析，中文信息学报，2007年第2期数据来源：Sogou搜索引擎2006年2月查询日志
信息检索系统的评价方法
• 评价在信息检索研究中发挥着重要的作用
– 评价在信息检索系统的研发中一直处于核心的地位，以致于算法与其效果评价方式是合二为一的（Saracevic, SIGIR 1995）
• 信息检索系统评价的起源
– Kent等人第一次提出了关于Precision和Recall（开始称为relevance）的概念（Kent, 1955）