信息检索系统的评价方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

– 我们的研究思路
• 通过对搜索引擎记录下的用户行为日志进行分析, 不额外增加用户负担。 • 使用用户群体,而不是个体的点击行为作为依据
提纲
• 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统:搜索仪 • 结论与未来工作
基于用户行为分析的性能评价
• 总体思路
– 数据对象繁杂,标注困难
• Voorhees 估计,对一个规模为800万的文档集合进行 针对1个查询主题的相关性评判需要耗费1名标注人 员9个月的工作时间 • TREC提出pooling方法,在保证评价结果可靠性的基 础上大大减少了评判工作量 • 缺点:处理的查询数目少,针对小规模的查询集合, 仍需要耗费十余名标注人员1-2个月的工作时间
信息检索系统的评价方法
• 核心问题: 如何提高答案标注的自动化程度
– 利用用户行为分析方法
• Joachims et.al.(1997) 创建了一个元搜索接口,将不同 搜索引擎的结果加以混杂,把用户点击不同结果的 情况加以记录,并以此作为评判依据 • 用户行为分析的思路值得肯定 • 缺点:改变用户检索习惯、个体用户行为不可靠等
– Gerard Salton 与 SMART 系统
– Sparck-Jones 的著作 “Information retrieval experiment”
• 在线:http://www.itl.nist.gov/iaui/894.02/projects/irlib/
信息检索系统的评价方法
• 网络信息检索系统效果评价的现状
• 1994年,面向个人用户的浏览服务诞生 • 2002年,Web上所存储的数据超过500,000 TB
– 知识的获取空前简单与繁荣
• “在信息化时代,知识实际上已经不是资源,智慧 才是资源。”
– 从Web中有效的获取知识成为人们的必需技能
• 高科技企业员工1/3的时间用于查找资料
研究背景
• 网络信息检索工具成为人们生活和工作中 的重要信息获取手段
– 全球范围内84%的互联网用户使用搜索引擎, 其中超过一半的人几乎每天使用。 – 2007年1月,我国网民总人数为13700万人。 – 95%以上的中国网民使用过搜索引擎,84.5%的 用户将搜索引擎作为得知新网站的主要途径。 – 商用搜索引擎竞争日趋激烈。
研究背景
• 性能评价对搜索引擎的重要作用
• Soboroff et.al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003
• 标注的准确程度和可靠性不高
– 对查询词的近义词集合进行标注
• 根据结果网页的查询词及近义词词频进行评判
• Amitay et.al, 2004 • 初始标注工作量大,评判的可靠性不高
– 搜索引擎作为网络信息检索工具的属性
• 形式:传统的信息检索评价方法在网络环境中的应 用。 • 举例:TREC VLC/Web/Terabyte track,SEWM评测等
作为信息检索研究人员,我 们的考察重点
提纲
• 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统:搜索仪 • 结论与未来工作
搜索引擎效果自动评价
• 基于用户关注程度进行查询样例自动挑选
– 频度高于100的查询:35177个(<查询个数1%) – 覆盖了近70%的用户查询需求
– 选取热门关键词(big fat head)作为代表性样例
1.0E+05
Query Frequency
7.5E+04 5.0E+04 2.5E+04 0.0E+00 0 2000 4000 6000 8000 10000
– 基于Cranfield方式进行评价
• 丰富的研究经验:评价指标、查询样例选取策略等
பைடு நூலகம்
• 便于与传统的手工标注评价方式进行比较
– 基于用户关注程度进行查询样例选取 – 基于用户行为信息进行答案自动标注
• 个体用户可能在点击过程中出现谬误 • 用户群体的点击信息则是很大程度上可靠的 • 统计用户群体的点击行为,进而对查询对应的结果 进行标注
信息检索系统的评价方法
• 信息检索系统评价的起源(续)
– Cranfield-like evaluation methodology
• Cranfield在上世纪伍十年代末到六十年代初提出了基 于查询样例集、标准答案集和语料库的评测方案, 被称为IR评价的“grand-daddy” • 确立了评价在信息检索研究中的核心地位
– 对搜索引擎用户而言:
• 挑选最有利于获取信息的手段
– 对搜索引擎工程师而言:
• 算法及数据处理方式有效性的判断
– 对搜索引擎广告商而言:
• 挑选最有效的广告投放手段
研究背景
• 搜索引擎评价的考察方式
– 搜索引擎作为网络服务供应商的属性
• 形式:用户问卷调查
• 举例:CNNIC中国搜索引擎市场调查报告
基于用户群体行为分析的 搜索引擎自动性能评价
清华大学智能技术与系统国家重点实验室 马少平 2008年4月12日,南昌
提纲
• 研究背景 • 信息检索系统的评价方法 • 基于用户行为分析的搜索引擎性能评价 • 演示系统:搜索仪 • 结论与未来工作
研究背景
• Web的发展带来了什么?
– 信息量的急剧增长
– 提高搜索引擎评价方法的自动化程度势在必行
信息检索系统的评价方法
• 如何提高搜索引擎评价的自动化程度?
查询样例选取 标准答案标注
查询 样例集合
标准 答案集合
检索系统 查询结果
信息检索系统的评价方法
• 核心问题: 如何提高答案标注的自动化程度
– 利用伪相关反馈的方法进行结果自动标注
• 伪相关反馈的结果被认为是答案
余慧佳等,基于大规模日志分析的搜索引擎用户行为分析,中文信息学报,2007年第2期 数据来源:Sogou搜索引擎2006年2月查询日志
信息检索系统的评价方法
• 评价在信息检索研究中发挥着重要的作用
– 评价在信息检索系统的研发中一直处于核心的 地位,以致于算法与其效果评价方式是合二为 一的(Saracevic, SIGIR 1995)
• 信息检索系统评价的起源
– Kent等人第一次提出了关于Precision和Recall(开 始称为relevance)的概念(Kent, 1955)
相关文档
最新文档