推荐系统评价指标综述 共33页
推荐系统中的MAP评估指标

推荐系统中的MAP评估指标在推荐系统中,评估指标是用来衡量推荐算法的性能和效果的重要标准。
其中,Mean Average Precision(MAP,平均准确率均值)是一种常用的评估指标之一、下面将对MAP指标进行详细的介绍。
推荐系统的目标是为用户提供相关性强的个性化推荐结果。
MAP指标是在此背景下,用来衡量推荐系统整体性能的指标。
它是根据推荐结果的排序准确性来计算的。
具体来说,MAP指标通过计算每个用户的平均准确率来反映推荐算法的整体性能。
准确率是指推荐结果中真实相关物品所占的比例。
对于每个用户,MAP根据推荐结果的排名情况来计算准确率,并对所有用户的准确率求平均,得到MAP值。
MAP的计算可以概括为以下四个步骤:1.对于每个用户,根据推荐算法生成的结果列表,按照相关性从高到低的顺序排列。
2.计算每个位置的准确率,即在该位置之前的所有物品中真实的相关物品所占的比例。
3. 对每个用户的所有位置的准确率求平均,得到该用户的AP (Average Precision,平均准确率)。
4.对所有用户的AP值求平均,得到MAP值。
相对于其他评估指标,MAP具有以下几个优点:1.考虑了推荐结果的排序准确性:MAP不仅仅关注推荐结果是否包含了相关物品,还对其排序准确性进行了考虑。
通过对排序的准确性进行评估,可以更好地反映推荐系统的性能。
2.对推荐结果的完整性要求较低:MAP只要求推荐结果中包含了相关物品,而没有要求所有相关物品都出现在推荐结果中。
这使得MAP能够更好地适应实际推荐系统中物品的稀疏性问题。
3.可以用于评估推荐结果的多样性:MAP不仅可以用于评估整个推荐列表的准确性,还可以对不同位置的准确率进行分析。
通过分析不同位置的准确率,可以衡量推荐结果的多样性和推荐系统的探索能力。
4.对目标物品的重要性加权:在一些推荐系统中,不同的物品具有不同的重要性。
MAP可以通过对目标物品的重要性进行加权,更准确地评估推荐算法的性能。
推荐系统评价指标综述

分类准确度
从高到低依次将”Score”值作为阈值threshold,当测试 样本属于正样本的概率大于或等于这个threshold时, 我们认为它为正样本,否则为负样本。
AUC指标仅用一个数值就表征了推荐算法的整体表现, 而且它涵盖了所有不同推荐列表长度的表现。但是 AUC指标没有考虑具体排序位置的影响,导致在ROC 曲线面积相同的情况下很难比较算法好坏,所以它 的适用范围也受到了一些限制
多种推荐算法
信息过滤,为满足用户需求推荐个性化推荐。协同过滤算法、基于内容的推荐算法、 混合推荐算法。。。
孰优孰劣
如何有效、客观评价推荐系统的效能,从实验室到实际应用的转换。
.4ຫໍສະໝຸດ 研究背景.评价方法
在线评价
设计在线用户实验,根据用户在线实时反馈或事后问卷调查等结果来衡量推荐系统的表现 A/B测试 高额成本
推荐系统评价指标综述
汇报人:李烽
.
文献来源: 朱郁筱,吕琳媛. 推荐系统评价指标综述[J]. 电子科技大学学报,2012,02:163-175.
.
研究背景
信息过载
多种推荐算法
孰优孰劣
.
3
研究背景
信息过载
Web2.0时代,每个人既是信息接收者,也是信息创造者。信息数量庞大但质量参差 不齐,造成信息过载。
.
排序准确度
.
基于排序加权的指标
.
基于排序加权的指标
目前半衰期效用指标的使用仍然是有很大的局限性: 首先参数的选取尚未有统一的标准。 用户的浏览概率与商品在推荐列表中的位置呈指数递减这一假设并不是在所有系统中 都适用。
.
覆盖率
覆盖率指算法向用户推荐的商品能覆盖全部商品的比例。
【推荐系统论文笔记】个性化推荐系统评价方法综述(了解概念——入门篇)

【推荐系统论⽂笔记】个性化推荐系统评价⽅法综述(了解概念——⼊门篇)Overview of the Evaluated Algorithms for the Personal Recommendation Systems顾名思义,这篇中⽂论⽂讲述的是推荐系统的评价⽅法,也就是,如何去评价⼀个推荐系统的好与不好。
引⾔ 1.个性化推荐系统通过建⽴⽤户与产品之间的⼆元关系 ,利⽤⽤户已有的选择过程或相似性关系挖掘每个⽤户潜在感兴趣的对象 ,进⽽进⾏个性化推荐 ,其本质就是信息过滤。
2.⼀个完整的推荐系统由3部分组成: 收集⽤户信息的⾏为记录模块; 分析⽤户喜好的模型分析模块; 推荐算法模块(最核⼼): Ⅰ.协同过滤推荐算法; Ⅱ.基于内容的推荐算法; Ⅲ.基于⽤户-产品⼆部图关系的推荐算法; Ⅳ.混合推荐算法; 3.评价推荐算法是困难的: 1) 不同的算法在不同数据集上的表现不同; 2) 评价的⽬的也不尽相同; 3) 对不同的数据是否需要在线⽤户的测试 ? 4) 选择哪些指标进⾏综合评价也⼗分困难。
这4⽅⾯的因素直接决定了评价的客观性和合理性。
准确度评价指标1.预测准确度预测准确度考虑推荐算法的预测打分与⽤户实际打分的相似程度。
平均绝对误差指标MAE(Mean Absolute Error):与MAE相关的其他指标有平均平⽅误差MSE(Mean Squared Error)和标准平均绝对误差 (Normalized Mean Absolute Error,简称NMAE) 。
平均平⽅误差MSE:eg.有⼀个电影评价系统,它可以对某⼀部电影给出其他⽤户评价电影的“星”的平均数(就好像⾖瓣书评⼀样),⽽且给出对某个⽤户的预测“星数”。
⽽预测准确度就是能够度量系统中预测“星”数与⽤户实际给出的“星”数的差别。
打分区间为[0,10]对⽤户A的预测电影1电影2电影3电影4系统预测打分10479⽤户实际打分8576平均绝对误差MAE:平均平⽅误差MSE:标准平均绝对误差(做标准化):预测准确度优点平均绝对误差MAE:1.计算⽅法简单,易于理解;2.每个系统的平均绝对误差唯⼀,从⽽能够区分两个系统平均绝对误差的差异缺点不适合⼆元选择信息,如喜欢或不喜欢不适合那些只在意推荐列表前端的预测误差,⽽对系统的整体误差并不是很在意的系统在⽤户偏差的程度⽐较⼩时也不适⽤,因为⽤户只关⼼把好产品错归为坏产品 ,或者把坏产品错归为好产品的⽐例。
推荐系统综述

电商推荐案例——亚马逊
推荐系统的应用
另一方面,智能手机的发展推动了移动互联网的发展。
在用户使用移动互联网的过程中,其所处的地理位置等信息可以非常准确地被获取。基于此,国内外出现了大量的基于 用户位置信息的网站。 国外比较著名的有Meetup和Flickr。 国内著名的有豆瓣网和大众点评网。例如,在大众点评这种基于位置服务的网站中,用户可以根据自己的当前位置搜索 餐馆、酒店、影院、旅游景点等信息服务。同时,可以对当前位置下的各类信息进行点评,为自己在现实世界中的体验打 分,分享自己的经验与感受。 当用户使用这类基于位置的网站服务时,同样会遭遇“信息过载”问题。推荐系统可以根据用户的位置信息为用户推荐 当前位置下用户感兴趣的内容,为用户提供符合其真正需要的内容,提升用户对网站的满意度。
学术界对推荐系统的研究
在学术界,自20世纪90年代中期出现第一批关于协同过滤的文章[1−3]以来,推荐系统在电子商务、网络经济学 和人类社会学等领域一直保持很高的研究热度并逐渐成为一门独立的学科。各种推荐算法涵盖包括认知科学、近似性理
论、信息检索、管理科学、市场营销建模等在内的众多研究领域。国际数据分析领域的高阶期刊(如IEEE Trans. on
社交推荐案例——豆瓣
推荐系统的应用
随着社交网络的兴起,用户在互联网中的行为不再限于获取信息,更多的是与网络上的其他用户进行互动。
国外著名的社交网络有Facebook、 LinkedIn、 Twitter等, 国内的社交网络有新浪微博、人人网、腾讯微博等。 在社交网站中,用户不再是单个的个体,而是与网络中的很多人具有了错综复杂的关系。社交网络中最重要的资源就是 用户与用户之间的这种关系数据。在社交网络中,用户间的关系是不同的,建立关系的因素可能是现实世界中的亲人、同 学、同事、朋友关系,也可能是网络中的虚拟朋友,比如都是有着共同爱好的社交网络成员。在社交网络中,用户与用户 之间的联系反映了用户之间的信任关系,用户不单单是一个个体,用户在社交网络中的行为或多或少地会受到这些用户关 系的影响。 因此,推荐系统在这类社交网站中的研究与应用,应该考虑用户社交关系的影响。
电商指标详细介绍和推荐系统常用评估指标

电商指标详细介绍和推荐系统常用评估指标本文主要是针对电商中的常见指标进行归类介绍,包括推荐系统中需要关注的指标。
本文主要分为三部分进行说明:•电商分类介绍•电商的指标分类介绍•电商推荐系统常看的指标电子商务(Electronic Commerce,EC),目前电商存在的几种模式包括:•B2B模式:Business to Business-企业对企业,例子:阿里巴巴、慧聪网。
•B2C模式:Business to Customer-企业对个人,例子:亚马逊,京东,当当,凡客,走秀网。
•C2C模式:Customer to Customer-个人对个人,例子:ebay,淘宝,拍拍,易趣。
C2B模式:Customer to Business –个人对企业,B2C与C2B比较,个人对企业,强调用“汇聚需求(demand aggregator)”,专业定制模式居多。
取代传统“汇聚供应商”的购物中心型态,被视为是一种接近完美的交易形式。
BMC模式:BMC是英文Business-Medium-Customer的缩写,率先集量贩式经营、连锁经营、人际网络、金融、传统电子商务(B2B、B2C、C2C、C2B)等传统电子商务模式优点于一身,解决了B2B、B2C、C2C、C2B等传统电子商务模式的发展瓶颈。
B=Business,指企业;C=Customers,指消费者,终端;M=Medium,在这里指的是在企业与消费者之间搭建的一个空中的纽带与桥梁。
•B2B2C:是一种电子商务类型的网络购物商业模式,B是BUSINESS的简称,C是CUSTOMER的简称,第一个B指的是商品或服务的供应商,第二个B指的是从事电子商务的企业,C则是表示消费者。
以亚马逊为代表。
O2O模式:online to offline 线上对线下的团购模式,团宝网,美团网,糯米团为代表。
说明:以下的内容参考知乎文章《电商数据分析基础指标体系》的框架和部分内容,在此基础上结合自己的电商从业经验进行补充和完善。
人机交互知识:人机交互中的推荐系统评估与分析

人机交互知识:人机交互中的推荐系统评估与分析近年来,推荐系统已经成为了互联网领域中一个重要的应用方向。
推荐系统可以通过历史记录、行为分析和数据挖掘等技术手段,为用户提供个性化的推荐服务。
不过,推荐系统需要对不同的指标进行评估与分析,来验证其效果和优化其表现。
本文将会从推荐系统评估与分析的角度出发,介绍目前主要的评估指标和常用的分析方法。
一、推荐系统评估指标在进行推荐系统的评估过程中,需要考虑的指标有很多。
为了更全面地分析推荐系统的效果,一般需要对以下几个方面进行评估:1.准确度(Accuracy)准确度是衡量推荐系统推荐结果的正确性的指标。
主要包括两个方面:预测准确度和排名准确度。
预测准确度指的是推荐结果是否准确地预测了用户的行为,例如用户是否会点击、购买等。
而排名准确度则是指推荐结果的顺序是否与用户的真实偏好相符合。
2.覆盖度(Coverage)覆盖度是指推荐系统覆盖所有项目的程度。
即推荐系统所推荐的物品是否足够多,能够覆盖到用户的所有偏好需求。
一个很好的推荐系统应该能够为用户提供丰富的推荐结果,并且这些推荐结果应该包括用户可能感兴趣的所有物品。
3.多样性(Diversity)多样性是指推荐系统所推荐的物品被用户感兴趣的程度,与其他推荐系统所推荐物品的相似度有关。
一个好的推荐系统应该能够向用户提供多样性的推荐结果,这些结果应该不仅仅是用户喜欢的,也应该是用户之前没有接触过的。
4.实时性(Real-Time)很多时候,推荐系统需要考虑推荐结果的实时性。
例如,用户购买力有明显的季节性,就需要考虑推荐系统按照季节性变化来更新推荐结果。
一个好的推荐系统应该能够及时更新推荐结果,使用户能够及时获取到最新的推荐内容。
二、推荐系统分析方法推荐系统的分析方法可以基于已有的推荐系统实验数据,来揭示推荐系统在各个方面面临的问题和存在的缺陷,从而帮助优化推荐系统的性能和表现。
1.基于用户行为分析基于用户行为分析是推荐系统分析的重要手段之一。
推荐系统(2)——常见评估指标(重点)

推荐系统(2)——常见评估指标(重点)0、推荐术语LCN: Longest Continuous no-click Num,连续展现不点击;1、PNR(Positive Negative Rate)正逆序⽐ = 正序数 / 逆序数;2、TGI(Target Group Index)TGI:即Target Group Index(⽬标群体指数)TGI指数= [⽬标群体中具有某⼀特征的群体所占⽐例/总体中具有相同特征的群体所占⽐例]*标准数100。
TGI指数表征:不同特征⽤户关注问题的差异情况,其中TGI指数等于100表⽰平均⽔平,⾼于100,代表该类⽤户对某类问题的关注程度⾼于整体⽔平。
3、COPC(Click over Predicted Click)copc = 实际的点击率/模型预测的点击率,主要衡量model整体预估的偏⾼和偏低,同样越接近1越好,⼀般情况下在1附近波动。
这个指标在展⽰⼴告上应⽤多⼀些。
4、pCTR(Predict Click-Through Rate)⼴告点击率预测,pCTR要解决的问题是预测特定⽤户在特定⼴告位对特定⼴告当特定环境下的点击概率。
5、RMSE(Root Mean Square Error)计算:是观测值与真值偏差的平⽅和与观测次数m⽐值的平⽅根。
均⽅根误差:⽤来衡量观测值同真值之间的偏差;平均绝对误差:是绝对误差的平均值,能更好地反映预测值误差的实际情况。
RMSE与MAE对⽐:RMSE相当于L2范数,MAE相当于L1范数。
次数越⾼,计算结果就越与较⼤的值有关,⽽忽略较⼩的值,所以这就是为什么RMSE针对异常值更敏感的原因(即有⼀个预测值与真实值相差很⼤,那么RMSE就会很⼤)。
6、SD(Standard Deviation)计算:是⽅差的算数平⽅根,是⽤来衡量⼀组数⾃⾝的离散程度。
RMSE与标准差对⽐:标准差是⽤来衡量⼀组数⾃⾝的离散程度,⽽均⽅根误差是⽤来衡量观测值同真值之间的偏差,它们的研究对象和研究⽬的不同,但是计算过程类似。
推荐系统研究综述

l
ds
t
a
r
tandspa
r
s
ema
t
r
i
xi
n
ys
t
r
ad
i
t
i
ona
lr
e
c
ommenda
t
i
onsy
s
t
ems,andimp
r
ovet
hepe
r
f
o
rmanc
eandr
e
c
ommenda
t
i
ona
c
cu
r
a
cyo
ft
her
e
c
ommenda
t
i
onsy
s
t
em.
Th
i
spape
rma
i
n
l
r
t
i
onbe
twe
ent
heus
e
randt
hep
r
o
e
c
t.Thec
onne
c
t
i
onbe
twe
enus
e
r
swi
l
lno
ta
f
f
e
c
tt
her
e
c
ommenda
t
i
onr
e
su
l
t,s
ot
he
r
ei
sno
j
r
ob
l
emo
fc
o
l
ds
t
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
根据待评价的推荐系统在实验数据集上的表现来衡量推荐系统的质量 方便、经济 数据集的划分(常用随机划分)与评价指标的选择
6
评价指标
准确度指标 基于排序加权的指标 覆盖率 多样性和新颖性
7
准确度指标
预测评分的准确度
衡量算法预测的评分与用户实际评分的贴近程度 思路:计算预测评分和用户真实评分的差异
AUC指标仅用一个数值就表征了推荐算法的整体表现, 而且它涵盖了所有不同推荐列表长度的表现。但是 AUC指标没有考虑具体排序位置的影响,导致在ROC 曲线面积相同的情况下很难比较算法好坏,所以它 的适用范围也受到了一些限制
排序准确度
基于排序加权的指标
基于排序加权的指标
目前半衰期效用指标的使用仍然是有很大的局限性: 首先参数的选取尚未有统一的标准。 用户的浏览概率与商品在推荐列表中的位置呈指数递减这一假设并不是在所有系统中 都适用。
NDMP指标不仅适用于弱关系排序问题还可以用来评价推荐算法在不同数据及上的表现。 PS:这些预测评分关联额性指标都是只关注于预测排序值而不关注于具体的预测评分值, 所以它们不适用于那些旨在为用户提供精确预测评分值的系统。
分类准确度
衡量推荐系统能正确预测用户喜欢或者不喜欢某个商品的能力。适用于那些有明确二分喜 好的用户系统,对于非二分喜好系统,需要设定一个阈值来区分用户的喜好。
准确率和召回率指标往往是负相关的而且依赖于推荐列表长度。一般情况下,随着推荐列表长度的 增大,准确率指标会减小而召回率会增大。
分类准确度
对于一个没有明确二分喜好的系统?推荐的阈值不确定?往往采用AUC指标来衡量推荐效果的准确性。 AUC指标表示ROC(receiver operator curve)曲线下的面积,它衡量一个推荐系统能够在多大 程度上将用户喜欢的商品与不喜欢的商品区分开来。
局限:对MAE指标贡献大的往往是那种很难预测准确的低分商品
预测评分的准确度
MSE和RMSE指标对每个绝对误差首先做平方运算,所以这两个指标对比较大的绝对误差有 了更重的惩罚
预测评分的准确度
预测评分关联
衡量算法预测的评分与用户实际评分之间的相关性 最常见的三种相关性指标:Pearson积距相关、Spearman相关、Kendall’s Tau
推荐系统评价指标综述
汇报人:李烽
文献来源: 朱郁筱,吕琳媛. 推荐系统评价指标综述[J]. 电子科技大学学报,2019,02:163-175.
研究背景
信息过载
多种推荐算法
孰优孰劣
3
研究背景
信息过载
Web2.0时代,每个人既是信息接收者,也是信息创造者。信息数量庞大但质量参差 不齐,造成信息过载。
根据每个测试样本属于正样本的概率值从大到小排序。
图中共有20个测试样本,“Class”一栏表示每个测试 样本真正的标签(p表示正样本,n表示负样本), “Score”表示每个测试样本属于正样本的概率
分类准确度
从高到低依次将”Score”值作为阈值threshold,当测试 样本属于正样本的概率大于或等于这个threshold时, 我们认为它为正样本,否则为负样本。
覆盖率
覆盖率指算法向用户推荐的商品能覆盖全部商品的比例。
多样性和新颖性
推荐系统中的多样性体现在用户间的多样性和用户内的多样性。
在信息论中,两个字码中不同位值的数目称为汉明距离(异或操作)例如: 1011101 与 1001001 之间的汉明距离是 2。 2143896 与 2233796 之间的汉明距离是 3。 "toned" 与 "roses" 之间的汉明距离是 3。
多样性和新颖性
THANKS
谢谢!
xiexie!பைடு நூலகம்
并非衡量系统预测具体评分值的能力,只要是没有影响商品分类的评分偏差都是被允许的。
最常用的分类准确度指标:准确率(precision)、召回率(recall)、F1指标和AUC。
分类准确度
分类准确度
分类准确度
准确率与召回率容易受到推荐列表长度、评分稀疏性以及喜好阈值的等多方面因素的影响,很多学 者不提倡用准确率与召回率来评价系统,特别是只考虑一种指标时偏差极大。
多种推荐算法
信息过滤,为满足用户需求推荐个性化推荐。协同过滤算法、基于内容的推荐算法、 混合推荐算法。。。
孰优孰劣
如何有效、客观评价推荐系统的效能,从实验室到实际应用的转换。
4
研究背景
评价方法
在线评价
设计在线用户实验,根据用户在线实时反馈或事后问卷调查等结果来衡量推荐系统的表现 A/B测试 高额成本
正如我们在这个ROC曲线的示例图中看到的那样, ROC曲线的横坐标为false positive rate (FPR),纵坐标为true positive rate(TPR)
分类准确度
经过分析,ROC曲线越接近左上角,该分类器性能越好。AUC的取值范围介于0.5和1之间。
分类准确度
假如我们已经得到了所有样本的概率输出(属于正样 本的概率)。
预测评分关联
预测评分关联
弱关系排序问题:在实际系统中可能有某用户对两个或者多个商品评分一致的情况。
预测评分关联
预测评分关联
某用户对商品实际评分为:4.4,3.9, 3.8, 3.9, 1.0 推荐系统预测评分为:3.3, 3.1, 3.0, 4.3, 3.1 那么此时,具有严格偏好差别的商品对有(1,2)、(1,3) 、(1,4)、(1,5)、(2,3) 、(2,5) 、 (3,4) 、(3,5) 、(4,5) 排序相悖的商品对: (1,4)、 (3,5) 排序兼容的商品对: (2,5) 得 NDMP=(2*2+1)/2*9=0.278