推荐系统评价指标综述
推荐系统调研报告及综述

推荐系统调研报告及综述张永锋清华大学计算机系人工智能研究所zhangyf07@一、推荐系统概述1.1 什么是推荐系统推荐系统(Recommender System)的发展已经经历了近20年的时间,但是迄今为止仍没有人试图对推荐系统给出一个精确的定义。
广义上的推荐系统可以理解为是主动向用户推荐物品(Item)的系统,所推荐的物品可以是音乐、书籍、餐厅、活动、股票、数码产品、新闻条目等等,这依赖于具体的应用领域,推荐系统所推荐的物品或者对用户有帮助,或者用户可能感兴趣[1]。
随着电子商务规模的不断扩大,商品数量和种类不断增长,用户对于检索和推荐提出了更高的要求。
由于不同用户在兴趣爱好、关注领域、个人经历等方面的不同,以满足不同用户的不同推荐需求为目的、不同人可以获得不同推荐为重要特征的个性化推荐系统(Personalized Recommender System)应运而生[1]。
目前所说的推荐系统一般指个性化推荐系统。
1.2 推荐系统的发展历史如果追根溯源,推荐系统的初端可以追溯到函数逼近理论、信息检索、预测理论等诸多学科中的一些延伸研究。
推荐系统成为一个相对独立的研究方向一般被认为始自1994年明尼苏达大学GroupLens研究组推出的GroupLens系统[2]。
该系统有两大重要贡献:一是首次提出了基于协同过滤(Collaborative Filtering)来完成推荐任务的思想,二是为推荐问题建立了一个形式化的模型(见1.4)。
基于该模型的协同过滤推荐引领了之后推荐系统在今后十几年的发展方向。
GroupLens所提出的推荐算法实际上就是目前人们时常提及的基于用户的协同过滤推荐算法(User-based Collaborative Filtering Algorithms),虽然论文本身并没有使用这样一个名字。
在之后的十几年中,其它一些著名的协同过滤算法逐渐被提出,主要的有基于物品的协同过滤算法(Item-based Collaborative Filtering Algorithms)[3],基于矩阵分解的协同过滤算法(SVD-based/NMF-based, etc.)等等。
推荐系统评价指标综述

分类准确度
从高到低依次将”Score”值作为阈值threshold,当测试 样本属于正样本的概率大于或等于这个threshold时, 我们认为它为正样本,否则为负样本。
AUC指标仅用一个数值就表征了推荐算法的整体表现, 而且它涵盖了所有不同推荐列表长度的表现。但是 AUC指标没有考虑具体排序位置的影响,导致在ROC 曲线面积相同的情况下很难比较算法好坏,所以它 的适用范围也受到了一些限制
多种推荐算法
信息过滤,为满足用户需求推荐个性化推荐。协同过滤算法、基于内容的推荐算法、 混合推荐算法。。。
孰优孰劣
如何有效、客观评价推荐系统的效能,从实验室到实际应用的转换。
.4ຫໍສະໝຸດ 研究背景.评价方法
在线评价
设计在线用户实验,根据用户在线实时反馈或事后问卷调查等结果来衡量推荐系统的表现 A/B测试 高额成本
推荐系统评价指标综述
汇报人:李烽
.
文献来源: 朱郁筱,吕琳媛. 推荐系统评价指标综述[J]. 电子科技大学学报,2012,02:163-175.
.
研究背景
信息过载
多种推荐算法
孰优孰劣
.
3
研究背景
信息过载
Web2.0时代,每个人既是信息接收者,也是信息创造者。信息数量庞大但质量参差 不齐,造成信息过载。
.
排序准确度
.
基于排序加权的指标
.
基于排序加权的指标
目前半衰期效用指标的使用仍然是有很大的局限性: 首先参数的选取尚未有统一的标准。 用户的浏览概率与商品在推荐列表中的位置呈指数递减这一假设并不是在所有系统中 都适用。
.
覆盖率
覆盖率指算法向用户推荐的商品能覆盖全部商品的比例。
推荐系统评价指标综述PPT课件

预测评分关联
Kendall’s Tau和Spearman类似,也是刻画两种排序值的统一程度,定义为:
������ =
������−������ ������+������
式中,C为正序对的数目;D为逆序对的数目。
缺点:对于所有的排名偏差都分配相等的权重,而不管具体的排序值,显然,不同的排名 偏差不能同等对待,用户更关心排在前面的推荐商品。
MAE
=
1 |������������|
σ(������,������)∈������������
|������������������
−
���������′��������� |
������������������ 表示用户u对商品������的真实评分; ���������′��������� 表示用户u对商品������的预测评分; ������ ������ 表示测试集。
推荐系统评价指标综述
汇报人:李烽
文献来源: 朱郁筱,吕琳媛. 推荐系统评价指标综述[J]. 电子科技大学学报,2012,02:163-175.
2
研究背景
信息过载 信息过载 多种推荐算多法种推荐算法
孰优孰劣
孰优孰劣
3
研究背景
信息过载
Web2.0时代,每个人既是信息接收者,也是信息创造者。信息数量庞大但质量参差 不齐,造成信息过载。
对各个指标的优劣和适用性了解较少,在评价指标 的选择和结果解释方面存在不足
5
评价方法
在线评价
设计在线用户实验,根据用户在线实时反馈或事后问卷调查等结果来衡量推荐系统的表现 A/B测试 高额成本
离线评价
根据待评价的推荐系统在实验数据集上的表现来衡量推荐系统的质量 方便、经济 数据集的划分(常用随机划分)与评价指标的选择
优化推荐系统的评估指标与方法探究(五)

优化推荐系统的评估指标与方法探究引言:推荐系统在现代社会中起到了越来越重要的作用,帮助人们发现有用的信息和产品。
然而,要确保推荐系统的准确性和效果,我们需要使用合适的评估指标和方法。
本文将探讨优化推荐系统的评估指标和方法,以帮助我们更好地了解推荐系统的性能。
一、准确率和召回率准确率和召回率是推荐系统中常用的评估指标。
准确率指的是系统推荐的项目中用户真正感兴趣的比例,而召回率则是系统推荐的项目中真正感兴趣的项目比例。
在实际应用中,我们通常希望准确率和召回率尽可能高,但二者往往有一定的权衡关系。
提高准确率可能会导致召回率下降,反之亦然。
因此,为了优化推荐系统的性能,我们需要在准确率和召回率之间找到一个平衡点。
二、多样性和个性化除了准确率和召回率,推荐系统还应考虑到多样性和个性化。
多样性指的是推荐系统在推荐物品时是否能涵盖不同类别或类型的物品,而个性化则指系统是否根据用户的偏好和行为习惯进行定制化推荐。
为了增加推荐系统的多样性,可以使用不同的推荐算法或考虑不同的推荐因素。
例如,在协同过滤算法中,可以使用不同的相似度计算方法或权重计算方法,以便推荐更多样的物品。
同时,为了实现个性化,可以通过用户行为数据和偏好分析来提供更准确的推荐结果。
三、长尾效应和流行度长尾效应是指在一个系统中,虽然少数物品受到大量用户的关注,但大部分物品仅被少数用户所需求。
与之相关的是流行度,指的是物品被推荐的频率。
为了优化推荐系统的效果,我们需要考虑到长尾效应和流行度。
传统的推荐系统往往倾向于推荐热门的物品,这容易导致长尾物品被忽视。
因此,我们可以使用一些方法来平衡长尾效应和流行度,如加权推荐、个性化推荐和基于标签的推荐等。
四、用户满意度除了上述指标外,用户满意度也是评估推荐系统性能的重要指标之一。
推荐系统最终的目的是满足用户的需求并提供有用的信息和产品。
因此,用户满意度是反映用户体验和对推荐结果的认可程度的指标。
为了提高用户满意度,我们可以进行用户调研和反馈,了解他们的需求和反馈,并根据用户反馈来改进推荐系统的性能。
推荐系统研究综述

推荐系统研究综述推荐系统是一种可以根据用户的喜好和行为,向其推荐符合其兴趣的产品、服务或内容的技术,它已经广泛应用于电子商务、社交媒体、音乐、视频和新闻等领域。
随着互联网的快速发展和信息爆炸,人们面临着越来越多的选择,推荐系统的作用变得愈加重要。
推荐系统的研究领域自20世纪90年代初兴起以来,取得了很大的发展。
在过去的20多年里,推荐系统研究涉及到了机器学习、信息检索、数据挖掘、人工智能等多个领域,相关的技术和算法也在不断地发展和完善。
本文将对推荐系统的研究进行综述,介绍推荐系统的基本原理、常见的算法和技术,以及目前的研究热点和趋势。
一、推荐系统的基本原理推荐系统的基本原理是通过对用户的历史行为和偏好进行分析,从而预测用户可能感兴趣的物品,然后向其进行推荐。
推荐系统通常包括三个主要的组成部分:用户模型、物品模型和推荐算法。
用户模型用于描述用户的兴趣和偏好,物品模型用于描述物品本身的属性和特征,推荐算法则用于将用户模型和物品模型结合起来,生成最终的推荐结果。
基于内容的推荐是推荐系统中的一种常见的方法,它主要是根据物品的内容特征和用户的偏好进行匹配。
基于协同过滤的推荐是另一种常见的方法,它是通过分析用户之间的行为关系和相似度,从而预测用户的兴趣。
基于内容的推荐和基于协同过滤的推荐是推荐系统中两种最基本和重要的方法,它们也为推荐系统的后续研究奠定了基础。
二、推荐系统的常见算法和技术1. 基于内容的推荐算法基于内容的推荐算法主要是根据物品的内容特征和用户的偏好进行匹配,常见的算法包括TF-IDF算法、词袋模型、朴素贝叶斯分类器等。
TF-IDF算法是一种常用的文本特征提取和权重计算方法,它主要是通过计算文本中每个单词的出现频率和逆文档频率,从而得到每个单词的重要性。
词袋模型是一种常用的文本表示方法,它主要是通过统计文本中每个单词的出现次数,从而得到文本的特征表示。
朴素贝叶斯分类器是一种常用的文本分类算法,它主要是通过计算文本中每个单词的条件概率,从而对文本进行分类。
推荐系统中的评价指标

推荐系统中的评价指标按照推荐任务的不同,最常⽤的推荐质量度量⽅法可以划分为三类:(1)对预测的评分进⾏评估,适⽤于评分预测任务。
(2)对预测的item集合进⾏评估,适⽤于Top-N推荐任务。
(3)按排名列表对推荐效果加权进⾏评估,既可以适⽤于评分预测任务也可以⽤于Top-N推荐任务。
对⽤户u推荐了N个物品R(u),⽤户在测试集上喜欢的物品集合为T(u)1、准确率 Precision推荐给⽤户的物品中,属于测试集的⽐例:P= \frac{R(u) \cap T(u)}{R(u)}2、召回率 Recall测试集中有多少在⽤户的推荐列表中。
描述有多少⽐例的⽤户-物品评分记录包含在最终的推荐列表中R = \frac{R(u) \cap T(u)}{T(u)}3、F1值P和R指标有时候会出现的⽭盾的情况,这样就需要综合考虑他们。
准确率和召回率的加权调和平均F1 = \frac{2PR}{P+R}4、排序分数 Ranking Score在评估推荐列表时引⽤排序指标很有⽤。
推荐系统通常预测排名列表,然⽽⽤户不太可能浏览所有的项⽬。
因此,排序指标在测量实⽤性和排名信息时可能很有趣。
排序靠前的项⽬更重要。
R=\frac{1}{|E^{U}|}\sum_{ui\epsilon E^{U}}\frac{p_{ui}}{M-k_{u}}其中,E^U表⽰测试集中所有的边的集合,如果u-i在测试集中,则E_{ui} = 1,p_{ui}表⽰商品i在⽤户u的推荐列表中的位置,分母M-k_{u}表⽰⽤户u的所有商品数组中除了该⽤户已经购买过的商品外的所有商品。
Rank Score 越⼩,说明测试集中的商品越靠前。
5、命中率 Hit ratioHR@K=\frac{Number of Hits @K}{|GT|}top-N推荐中流⾏的评价指标。
分母为所有的测试集合,分⼦表⽰每个⽤户top-k推荐列表中属于测试集合的个数的总和。
例如:三个⽤户在测试集中的商品个数分别是10,12,8,模型得到的top-10推荐列表中,分别有6个,5个,4个在测试集中,那么此时HR 的值是(6+5+4)/(10+12+8) = 0.5。
个性化推荐系统中的评价标准研究

个性化推荐系统中的评价标准研究第一章:引言1.1 研究背景个性化推荐系统已经成为了电子商务、社交媒体和娱乐等领域中一个重要的应用技术。
通过分析用户的历史行为、兴趣和偏好,个性化推荐系统可以向用户提供个性化的推荐信息,提高用户的满意度和体验。
然而,个性化推荐系统的推荐结果是否符合用户的期望,是否能够准确地反映用户的需求,依赖于评价标准的选择和设计。
1.2 研究目的本文旨在探讨个性化推荐系统中的评价标准,分析现有评价标准的优缺点,并提出改进的方案,以提高个性化推荐系统的推荐效果和用户满意度。
第二章:个性化推荐系统的评价标准2.1 准确性准确性是评价个性化推荐系统的核心指标之一。
它可以通过计算推荐结果与用户实际行为的一致性来衡量。
常见的评价准确性的指标包括准确率、召回率和F 值。
2.2 多样性多样性是评价个性化推荐系统的另一个重要指标。
它可以衡量推荐结果的多样性程度,即推荐结果中的物品是否过于相似。
多样性可以通过计算推荐结果中不重复物品的比例来衡量。
2.3 信任度信任度是评价个性化推荐系统的重要指标之一。
它可以衡量用户对推荐结果的可信程度。
信任度可以通过用户对推荐结果的评价、用户对推荐算法的评价等来衡量。
2.4 透明度透明度是评价个性化推荐系统的另一个重要指标。
它可以衡量用户对推荐算法的理解程度和对推荐结果的解释程度。
透明度可以通过向用户提供推荐的解释、推荐算法的可解释性等来衡量。
第三章:现有评价标准的优缺点3.1 准确性的限制准确性指标在评价个性化推荐系统时存在一定的局限性。
准确性指标只考虑了推荐结果与用户实际行为的一致性,忽略了推荐结果是否能够满足用户的个性化需求。
3.2 多样性的平衡多样性指标在评价个性化推荐系统时需要平衡与准确性指标的关系。
提高多样性会降低准确性,而过高的准确性可能会导致推荐结果过于相似。
3.3 信任度和透明度的缺乏目前的个性化推荐系统对于信任度和透明度的评价标准相对较少。
用户对于推荐结果的信任程度和对推荐算法的理解程度是影响用户满意度的重要因素,但很少有评价标准考虑到这些因素。
【推荐系统】评估指标总结

【推荐系统】评估指标总结准确率指标:该类型的指标⼤部分是推荐算法优化的⽬标,衡量着推荐算法的优劣。
1. 准确率。
推荐给⽤户的商品中,属于测试集的⽐例,数学公式P(L u)=L u⋂B uL u。
整个测试集的准确率为PL=1n∑uϵU P(L u)2. 召回率。
测试集中有多少在⽤户的推荐列表中。
数学公式R(L u)=L u⋂B uB u。
整个测试集的召回率为R L=1n∑uϵU R(L u)3. F1值。
准确率和召回率的加权,数学公式Fβ=(1+β2)PR β2P+R。
4. Ranking Score。
数学公式R=1|E U|∑uiϵE Up uiM−k u其中E U表⽰测试集中所有的边的集合,如果⽤户u对商品i在测试集中,则Eui=1,p ui表⽰商品i在⽤户u的推荐列表中的位置,分母M−k u表⽰⽤户u的所有商品数⽬中除了⽤户已经购买过的商品外的所有商品。
该值越⼩,说明测试集中的商品越靠前。
5. Hit ratio。
数学公式HR@K=\frac{Number of Hits @K}{|GT|}. 分母是所有的测试集合,分⼦是每个⽤户前K个中属于测试集合的个数的总和,该指标衡量是召回率,该指标越⼤越好。
6. NDCG。
数学定义NDCG@=Z_{k}\sum_{i=1}^{K}\frac{2^{r_{i}}-1}{log_{2}(i+1)}。
r i表⽰在第i个位置时的“等级关联性”,⼀般可以⽤0/1处理,如果该位置的物品在测试集合中,则r i=1,否则为0。
另外Z K是归⼀化系数,表⽰后⾯的那⼀个累加求和公式的最好情况下的和的倒数,也就是r i=1都满⾜的情况下的后⾯那⼀坨的总和,为了使得NDCG计算出来的数值i都在0-1之内。
7. 交叉熵。
这个指标作为其余机器学习的优化⽬标⽤的⽐较多,该指标在中⾸先被提出来。
论⽂假设如果⽤户u购买了物品i,则y_{ui}=1否则y_{ui}=0,则最终的机器学习的模型的优化⽬标为L=-\sum_{(u,i)\epsilon \mathbf{Y}\bigcup\mathbf{Y^{-}}}(y_{ui}log\hat{y}_{ui}+(1-y_{ui})log(1-\hat{y}_{ui}))。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
根据待评价的推荐系统在实验数据集上的表现来衡量推荐系统的质量 方便、经济 数据集的划分(常用随机划分 准确度指标 ✓ 基于排序加权的指标 ✓ 覆盖率 ✓ 多样性和新颖性
a
7
准确度指标
a
预测评分的准确度
衡量算法预测的评分与用户实际评分的贴近程度 思路:计算预测评分和用户真实评分的差异
a
排序准确度
a
基于排序加权的指标
a
基于排序加权的指标
目前半衰期效用指标的使用仍然是有很大的局限性: 首先参数的选取尚未有统一的标准。 用户的浏览概率与商品在推荐列表中的位置呈指数递减这一假设并不是在所有系统中 都适用。
a
覆盖率
覆盖率指算法向用户推荐的商品能覆盖全部商品的比例。
a
多样性和新颖性
局限:对MAE指标贡献大的往往是那种很难预测准确的低分商品
a
预测评分的准确度
MSE和RMSE指标对每个绝对误差首先做平方运算,所以这两个指标对比较大的绝对误差有 了更重的惩罚
a
预测评分的准确度
a
预测评分关联
衡量算法预测的评分与用户实际评分之间的相关性 最常见的三种相关性指标:Pearson积距相关、Spearman相关、Kendall’s Tau
并非衡量系统预测具体评分值的能力,只要是没有影响商品分类的评分偏差都是被允许的。
最常用的分类准确度指标:准确率(precision)、召回率(recall)、F1指标和AUC。
a
分类准确度
a
分类准确度
a
分类准确度
准确率与召回率容易受到推荐列表长度、评分稀疏性以及喜好阈值的等多方面因素的影响,很多学 者不提倡用准确率与召回率来评价系统,特别是只考虑一种指标时偏差极大。 准确率和召回率指标往往是负相关的而且依赖于推荐列表长度。一般情况下,随着推荐列表长度的 增大,准确率指标会减小而召回率会增大。
NDMP指标不仅适用于弱关系排序问题还可以用来评价推荐算法在不同数据及上的表现。 PS:这些预测评分关联额性指标都是只关注于预测排序值而不关注于具体的预测评分值, 所以它们不适用于那些旨在为用户提供精确预测评分值的系统。
a
分类准确度
衡量推荐系统能正确预测用户喜欢或者不喜欢某个商品的能力。适用于那些有明确二分喜 好的用户系统,对于非二分喜好系统,需要设定一个阈值来区分用户的喜好。
a
分类准确度
从高到低依次将”Score”值作为阈值threshold,当测试 样本属于正样本的概率大于或等于这个threshold时, 我们认为它为正样本,否则为负样本。
AUC指标仅用一个数值就表征了推荐算法的整体表现, 而且它涵盖了所有不同推荐列表长度的表现。但是 AUC指标没有考虑具体排序位置的影响,导致在ROC 曲线面积相同的情况下很难比较算法好坏,所以它 的适用范围也受到了一些限制
推荐系统中的多样性体现在用户间的多样性和用户内的多样性。
在信息论中,两个字码中不同位值的数目称为汉明距离(异或操作)例如: 1011101 与 1001001 之间的汉明距离是 2。 2143896 与 2233796 之间的汉明距离是 3。 "toned" 与 "roses" 之间的汉明距离是 3。
a
预测评分关联
a
预测评分关联
弱关系排序问题:在实际系统中可能有某用户对两个或者多个商品评分一致的情况。
a
预测评分关联
a
预测评分关联
某用户对商品实际评分为:4.4,3.9, 3.8, 3.9, 1.0 推荐系统预测评分为:3.3, 3.1, 3.0, 4.3, 3.1 那么此时,具有严格偏好差别的商品对有(1,2)、(1,3) 、(1,4)、(1,5)、(2,3) 、(2,5) 、 (3,4) 、(3,5) 、(4,5) 排序相悖的商品对: (1,4)、 (3,5) 排序兼容的商品对: (2,5) 得 NDMP=(2*2+1)/2*9=0.278
a
分类准确度
经过分析,ROC曲线越接近左上角,该分类器性能越好。AUC的取值范围介于0.5和1之间。
a
分类准确度
假如我们已经得到了所有样本的概率输出(属于正样 本的概率)。 根据每个测试样本属于正样本的概率值从大到小排序。 图中共有20个测试样本,“Class”一栏表示每个测试 样本真正的标签(p表示正样本,n表示负样本), “Score”表示每个测试样本属于正样本的概率
a
分类准确度
对于一个没有明确二分喜好的系统?推荐的阈值不确定?往往采用AUC指标来衡量推荐效果的准确性。 AUC指标表示ROC(receiver operator curve)曲线下的面积,它衡量一个推荐系统能够在多大 程度上将用户喜欢的商品与不喜欢的商品区分开来。
正如我们在这个ROC曲线的示例图中看到的那样, ROC曲线的横坐标为false positive rate (FPR),纵坐标为true positive rate(TPR)
a
多样性和新颖性
a
a
THANKS
a
推荐系统评价指标综述
汇报人:李烽
a
文献来源: 朱郁筱,吕琳媛. 推荐系统评价指标综述[J]. 电子科技大学学报,2012,02:163-175.
a
研究背景
信息过载
多种推荐算法
孰优孰劣
a
3
研究背景
信息过载
Web2.0时代,每个人既是信息接收者,也是信息创造者。信息数量庞大但质量参差 不齐,造成信息过载。
多种推荐算法
信息过滤,为满足用户需求推荐个性化推荐。协同过滤算法、基于内容的推荐算法、 混合推荐算法。。。
孰优孰劣
如何有效、客观评价推荐系统的效能,从实验室到实际应用的转换。
a
4
研究背景
a
评价方法
在线评价
设计在线用户实验,根据用户在线实时反馈或事后问卷调查等结果来衡量推荐系统的表现 A/B测试 高额成本