推荐系统评价指标综述

合集下载

网络推荐系统中的推荐算法效果评估方法探究

网络推荐系统中的推荐算法效果评估方法探究随着互联网和智能移动设备的不断发展，网络推荐系统变得越来越普遍。

无论是在电子商务网站、社交媒体平台还是音乐和视频流媒体平台中，推荐系统都扮演着重要的角色。

推荐算法的效果评估方法是评估推荐系统质量和用户满意度的关键因素。

本文将探讨网络推荐系统中的推荐算法效果评估方法。

1. 推荐系统的评价指标在评估推荐算法的效果之前，我们需要确定一组恰当的评价指标。

常见的推荐系统评价指标包括准确率、召回率、覆盖率和多样性等。

准确率是指推荐系统所生成的推荐项目中用户喜欢的项目占比。

召回率是指推荐系统能够找到并推荐给用户的项目占总喜欢的项目的比例。

覆盖率是指推荐系统所能覆盖的项目种类比例。

多样性是指推荐系统生成的推荐列表中不同项目的多样性程度。

2. 离线评估方法离线评估方法是一种在离线环境中使用已有数据集进行算法效果评估的方法。

离线评估方法常用的技术包括交叉验证、平均准确率和均方根误差等。

交叉验证是一种将数据集划分为训练集和测试集的方法，通过在训练集上训练推荐算法，在测试集上评估算法的性能。

平均准确率是指计算系统生成的推荐列表与用户的真实偏好之间的匹配程度。

均方根误差是指计算推荐算法所生成的评分与用户的真实评分之间的差异。

然而，离线评估方法存在着一定的局限性。

它无法完全模拟真实的在线环境，无法考虑到用户的动态行为和实时数据变化。

3. 在线评估方法在线评估方法是指通过在真实环境中实时收集和分析用户行为数据来评估推荐算法的效果。

在线评估方法能够更准确地衡量推荐算法的性能，因为它能够考虑到用户的实时反馈和行为变化。

在线评估方法的常见技术包括A/B测试、多臂老虎机和在线评分预测等。

A/B测试是一种将用户随机分为多个实验组的方法，通过比较不同实验组的推荐效果来评估算法的性能。

多臂老虎机是指通过在用户推荐列表中展示不同的推荐项目，以观察用户对不同推荐项目的反应。

在线评分预测是指利用用户的历史行为数据和实时反馈预测用户对推荐项目的评分。

cfs评分标准

cfs评分标准CFS（Collaborative Filtering System）评分标准是衡量一个基于协同过滤的推荐系统的质量和性能的重要指标。

CFS评分标准主要包括准确性、覆盖率、多样性、新颖性和实时性等方面的考量。

下面将对这些方面的具体内容进行阐述，以便为推荐系统的评估和改进提供参考。

1. 准确性准确性是推荐系统的核心指标之一，也是最直接影响用户体验和推荐效果的指标。

准确性可以从以下角度进行评估。

- 评分预测准确性：推荐系统能否准确地预测用户对项目的评分，可以通过计算预测评分与实际评分之间的误差来衡量。

- 排序准确性：推荐系统能否准确地对项目进行排序，即将用户可能更感兴趣的项目放在前面，可以通过计算推荐列表中的项目与用户实际兴趣的相关性进行衡量。

2. 覆盖率推荐系统的覆盖率是衡量一个推荐系统对整个物品空间的探索能力的指标。

覆盖率高表示系统能够覆盖尽可能多的物品，并能够推荐给用户多样化的物品。

- 物品覆盖率：推荐系统中能够推荐的物品占总物品数量的比例。

- 用户覆盖率：推荐系统能够给出推荐结果的用户占总用户数量的比例。

3. 多样性多样性是指推荐系统是否能够给用户推荐多样化的物品，以满足不同用户的不同需求。

多样性可以从以下几个方面进行评估。

- 物品多样性：推荐系统推荐的物品之间是否具有差异性，可以通过计算推荐结果中物品的相似度来衡量。

- 用户多样性：推荐系统给不同用户推荐的物品之间是否具有差异性，可以通过计算不同用户之间的兴趣相似度来衡量。

4. 新颖性新颖性是指推荐系统是否能够给用户推荐用户未曾接触过的新物品，以带给用户新的体验和惊喜。

- 推荐物品的流行度：推荐系统能否给用户推荐一些非常流行和热门的物品，以增加用户对推荐系统的信任感和兴趣。

5. 实时性推荐系统的实时性是指系统能够多快地给出推荐结果。

实时性的好坏直接影响用户对推荐系统的满意度。

- 推荐响应时间：推荐系统从接收到用户请求到给出推荐结果所花费的时间。

电商指标详细介绍和推荐系统常用评估指标

电商指标详细介绍和推荐系统常用评估指标本文主要是针对电商中的常见指标进行归类介绍，包括推荐系统中需要关注的指标。

本文主要分为三部分进行说明：•电商分类介绍•电商的指标分类介绍•电商推荐系统常看的指标电子商务（Electronic Commerce，EC），目前电商存在的几种模式包括：•B2B模式：Business to Business-企业对企业，例子：阿里巴巴、慧聪网。

•B2C模式：Business to Customer-企业对个人，例子：亚马逊，京东，当当，凡客，走秀网。

•C2C模式：Customer to Customer－个人对个人，例子：ebay，淘宝，拍拍，易趣。

C2B模式：Customer to Business –个人对企业，B2C与C2B比较，个人对企业，强调用“汇聚需求(demand aggregator)”，专业定制模式居多。

取代传统“汇聚供应商”的购物中心型态，被视为是一种接近完美的交易形式。

BMC模式：BMC是英文Business-Medium-Customer的缩写，率先集量贩式经营、连锁经营、人际网络、金融、传统电子商务（B2B、B2C、C2C、C2B）等传统电子商务模式优点于一身，解决了B2B、B2C、C2C、C2B等传统电子商务模式的发展瓶颈。

B=Business，指企业；C=Customers，指消费者，终端；M=Medium，在这里指的是在企业与消费者之间搭建的一个空中的纽带与桥梁。

•B2B2C：是一种电子商务类型的网络购物商业模式，B是BUSINESS的简称，C是CUSTOMER的简称，第一个B指的是商品或服务的供应商，第二个B指的是从事电子商务的企业，C则是表示消费者。

以亚马逊为代表。

O2O模式：online to offline 线上对线下的团购模式，团宝网，美团网，糯米团为代表。

说明：以下的内容参考知乎文章《电商数据分析基础指标体系》的框架和部分内容，在此基础上结合自己的电商从业经验进行补充和完善。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

.
排序准确度
.
基于排序加权的指标
.
基于排序加权的指标
目前半衰期效用指标的使用仍然是有很大的局限性：首先参数的选取尚未有统一的标准。用户的浏览概率与商品在推荐列表中的位置呈指数递减这一假设并不是在所有系统中都适用。
.
覆盖率
覆盖率指算法向用户推荐的商品能覆盖全部商品的比例。
.
多样性和新颖性
.
分类准确度
经过分析，ROC曲线越接近左上角，该分类器性能越好。AUC的取值范围介于0.5和1之间。
.
分类准确度
假如我们已经得到了所有样本的概率输出（属于正样本的概率）。根据每个测试样本属于正样本的概率值从大到小排序。图中共有20个测试样本，“Class”一栏表示每个测试样本真正的标签（p表示正样本，n表示负样本）， “Score”表示每个测试样本属于正样本的概率
推荐系统评价指标综述
汇报人：李烽
.
文献来源：朱郁筱,吕琳媛. 推荐系统评价指标综述[J]. 电子科技大学学报,2012,02:163-175.
.
研究背景
信息过载
多种推荐算法
孰优孰劣
.
3
研究背景
信息过载
Web2.0时代，每个人既是信息接收者，也是信息创造者。信息数量庞大但质量参差不齐，造成信息过载。
并非衡量系统预测具体评分值的能力，只要是没有影响商品分类的评分偏差都是被允许的。
最常用的分类准确度指标：准确率(precision)、召回率(recall)、F1指标和AUC。
.
分类准确度
.
分类准确度
.
分类准确度
准确率与召回率容易受到推荐列表长度、评分稀疏性以及喜好阈值的等多方面因素的影响，很多学者不提倡用准确率与召回率来评价系统，特别是只考虑一种指标时偏差极大。准确率和召回率指标往往是负相关的而且依赖于推荐列表长度。一般情况下，随着推荐列表长度的增大，准确率指标会减小而召回率会增大。
.
分类准确度
从高到低依次将”Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时，我们认为它为正样本，否则为负样本。
AUC指标仅用一个数值就表征了推荐算法的整体表现，而且它涵盖了所有不同推荐列表长度的表现。但是 AUC指标没有考虑具体排序位置的影响，导致在ROC 曲线面积相同的情况下很难比较算法好坏，所以它的适用范围也受到了一些限制
推荐系统中的多样性体现在用户间的多样性和用户内的多样性。
在信息论中，两个字码中不同位值的数目称为汉明距离（异或操作）例如： 1011101 与 1001001 之间的汉明距离是 2。 2143896 与 2233796 之间的汉明距离是 3。 "toned" 与 "roses" 之间的汉明距离是 3。
.
预测评分关联
.
预测评分关联
弱关系排序问题：在实际系统中可能有某用户对两个或者多个商品评分一致的情况。
.
预测评分关联
.
预测评分关联
某用户对商品实际评分为：4.4，3.9, 3.8, 3.9, 1.0 推荐系统预测评分为：3.3, 3.1, 3.0, 4.3, 3.1 那么此时，具有严格偏好差别的商品对有(1,2)、(1,3) 、(1,4)、(1,5)、(2,3) 、(2,5) 、 (3,4) 、(3,5) 、(4,5) 排序相悖的商品对： (1,4)、 (3,5) 排序兼容的商品对： (2,5) 得 NDMP=(2*2+1)/2*9=0.278
.
分类准确度
对于一个没有明确二分喜好的系统？推荐的阈值不确定？往往采用AUC指标来衡量推荐效果的准确性。 AUC指标表示ROC（receiver operator curve）曲线下的面积，它衡量一个推荐系统能够在多大程度上将用户喜欢的商品与不喜欢的商品区分开来。
正如我们在这个ROC曲线的示例图中看到的那样， ROC曲线的横坐标为false positive rate （FPR），纵坐标为true positive rate（TPR）
NDMP指标不仅适用于弱关系排序问题还可以用来评价推荐算法在不同数据及上的表现。 PS：这些预测评分关联额性指标都是只关注于预测排序值而不关注于具体的预测评分值，所以它们不适用于那些旨在为用户提供精确预测评分值的系统。
.
分类准确度
衡量推荐系统能正确预测用户喜欢或者不喜欢某个商品的能力。适用于那些有明确二分喜好的用户系统，对于非二分喜好系统，需要设定一个阈值来区分用户的喜好。
局限：对MAE指标贡献大的往往是那种很难预测准确的低分商品
.
预测评分的准确度
MSE和RMSE指标对每个绝对误差首先做平方运算，所以这两个指标对比较大的绝对误差有了更重的惩罚
.
预测评分的准确度
.
Hale Waihona Puke 预测评分关联衡量算法预测的评分与用户实际评分之间的相关性最常见的三种相关性指标：Pearson积距相关、Spearman相关、Kendall’s Tau
离线评价
根据待评价的推荐系统在实验数据集上的表现来衡量推荐系统的质量方便、经济数据集的划分（常用随机划分）与评价指标的选择
.
6
评价指标
✓ 准确度指标 ✓ 基于排序加权的指标 ✓ 覆盖率 ✓ 多样性和新颖性
.
7
准确度指标
.
预测评分的准确度
衡量算法预测的评分与用户实际评分的贴近程度思路：计算预测评分和用户真实评分的差异
多种推荐算法
信息过滤，为满足用户需求推荐个性化推荐。协同过滤算法、基于内容的推荐算法、混合推荐算法。。。
孰优孰劣
如何有效、客观评价推荐系统的效能，从实验室到实际应用的转换。
.
4
研究背景
.
评价方法
在线评价
设计在线用户实验，根据用户在线实时反馈或事后问卷调查等结果来衡量推荐系统的表现 A/B测试高额成本
.
多样性和新颖性
.
.
THANKS
.

推荐系统评价指标综述