协同过滤推荐算法精品PPT课件

合集下载

11-基于图的协同过滤推荐算法

第一次游走
从A节点以各自50%的概率走到了a和c，这样a和c就分得了A的部分重要度，PR(a)=PR(c)=α ∗PR(A)∗0.5。
PR(A)变为1−α
18
基于图的推荐算法
PersonalRank算法示例
第二次游走
PR
(v)

(1

vin (v)
)
这样,经过很多次随机游走后,每个物品节点被访问到的概率会收敛到一个数。最终的推荐列表中物品的权重就是物品节点的访问概率。
16
基于图的推荐算法
PersonalRank算法
随机游走概率的计算
核心公式
PR
(v)

(1

vin (v)
)
|
PR out
(v) (v) | PR(v)
PR(A)要加上1−α
19
基于图的推荐算法
PersonalRank算法
PR
(v)

(1

vin (v
)
)
|
PR out
(v) (v) | PR(v)

vin(v) | out(v) |
v vu v vu
def PersonalRank(G. alpha, root, max_step) rank=dict() rank= (x:0 for x in G. keys() rank[root]=1 for k in range (max_step): tmp={x:0 for x in G. keys()} for i, ri in G.items(): for i, wij in ri. items (): if j not in tmp: tmp[j]=0 tmp[j]+ alpha*rank[i]/(1.0* len (ri)) if j==root: tmp[j]+= 1- alpha rank=tmp retern rank

什么是协同过滤推荐算法？

什么是协同过滤推荐算法？剖析千⼈千⾯的⼤脑——推荐引擎部分，其中这篇是定位：对推荐引擎中的核⼼算法：协同过滤进⾏深挖。

⾸先，千⼈千⾯融合各种场景，如搜索，如feed流，如⼴告，如风控，如策略增长，如购物全流程等等；其次千⼈千⾯的⼤脑肯定是内部的推荐引擎，这⾥有诸多规则和算法在实现对上述各个场景进⾏“细分推荐排序”；最后是推荐引擎的算法⼜以“协同过滤”为最核⼼、最主流热门，也是当下众多内容型、电商型、社交⼯具、分发型的基础。

由于协同过滤的算法介绍，⽹上也蛮多但⽚段化。

要么侧重讲“原理流程”，这个占了4成；要么讲算法公式，这个占5成；还有1成是偏向业务的理解，但这个笼统很难参考。

因此，这篇是属于推荐引擎-理论搭建体系-之⼆，PM可以侧重关注：（1）了解协同过滤之前，先知道什么是：集体智慧。

（没有对⽐就没有“感知”，这个集体智慧是更好帮助了解、对⽐协同过滤。

因为⽹上很多⽚段化的⽂章，没有对⽐出来，不利于PM去联想和学习的）（2）了解什么是协同过滤（这点偏向理论，⽹上的很多也如此。

但我挑选了精简部分，就只要2点关键：1知道它有什么作⽤，2为什么需要是它）（3）学习协同过滤的核⼼。

要实现包括三⼤重要部分：【⼲货，核⼼】1. ⼀是收集⽤户偏好（知道为什么要收、收哪些哪样的、如何收集、收集过程有什么原则？）；2. ⼆是找到相似的⽤户或者物品（这⾥的核⼼有2⼤⽅⾯：1是怎样定义算“相似”，属于相似度问题，⽤什么公式去计算、有什么特点；2是相似邻居问题，可⽤什么公式计算两个相似邻居）；3. 三是计算推荐（这⾥核⼼是基于物品的⽅式是如何计算推荐、基于⽤户⼜是如何、两者PK⼜有什么差异点，如在场景，多样性）每个部分再挖出各个关键点、（学习，不是了解，是学习）（4）举个推荐引擎中-应⽤协同过滤的实践案例。

国外的产品案例。

（包括如何使⽤，⽤什么公式，什么场景，有什么问题，怎么解决，代码层⾯附录。

PS：为什么选国外呢？是因为这个推荐最早是应⽤于国外，不管是算法还是理论层⾯，确实要⽐国内深究多⼀分，觉得⽐较客观，可以参考和适⽤更强，这点可以跳着看。

CollaborativeFiltering（协同过滤）算法详解

CollaborativeFiltering（协同过滤）算法详解基本思想基于⽤户的协同过滤算法是通过⽤户的历史⾏为数据发现⽤户对商品或内容的喜欢(如商品购买，收藏，内容评论或分享)，并对这些喜好进⾏度量和打分。

根据不同⽤户对相同商品或内容的态度和偏好程度计算⽤户之间的关系。

在有相同喜好的⽤户间进⾏商品推荐。

简单的说就是如果A,B两个⽤户都购买了x、y、z三本图书，并且给出了5星的好评。

那么A和B就属于同⼀类⽤户。

可以将A看过的图书w也推荐给⽤户B。

基于⽤户协同过滤算法的原理图所以，协同过滤算法主要分为两个步骤：1、寻找相似的⽤户集合；2、寻找集合中⽤户喜欢的且⽬标⽤户没有的进⾏推荐。

具体实现⼀、寻找⽤户间的相似度1、Jaccard公式Jaccard系数主要⽤于计算符号度量或布尔值度量的个体间的相似度，因为个体的特征属性都是由符号度量或者布尔值标识，因此⽆法衡量差异具体值的⼤⼩，只能获得“是否相同”这个结果，所以Jaccard系数只关⼼个体间共同具有的特征是否⼀致这个问题。

如果⽐较X与Y的Jaccard相似系数，只⽐较xn和yn中相同的个数。

Jaccard公式2、⽪尔逊相关系数⽪尔逊相关系统是⽐欧⼏⾥德距离更加复杂的可以判断⼈们兴趣相似度的⼀种⽅法。

它在数据不是很规范时，会倾向于给出更好的结果。

假定有两个变量X、Y，那么两变量间的⽪尔逊相关系数可通过以下公式计算：公式⼀：⽪尔逊相关系数公式⼀公式⼆：⽪尔逊相关系数公式⼆公式三：⽪尔逊相关系数公式三公式四：⽪尔逊相关系数公式四上述四个公式等价，其中E是数学期望，cov表⽰协⽅差，N表⽰变量取值的个数。

3、欧⼏⾥德距离假定两个⽤户X、Y，均为n维向量，表⽰⽤户对n个商品的评分，那么X与Y的欧⼏⾥德距离就是：多维欧⼏⾥德距离公式数值越⼩则代表相似度越⾼，但是对于不同的n，计算出来的距离不便于控制，所以需要进⾏如下转换：相似度公式使得结果分布在(0,1]上，数值越⼤，相似度越⾼。

协同过滤推荐算法与应用

机器学习算法day03_协同过滤推荐算法及应用课程大纲课程目标：1、理解协同过滤算法的核心思想2、理解协同过滤算法的代码实现3、掌握协同过滤算法的应用步骤：数据处理、建模、运算和结果判定4、1. CF协同过滤推荐算法原理1.1 概述什么是协同过滤(Collaborative Filtering, 简称CF)？首先想一个简单的问题，如果你现在想看个电影，但你不知道具体看哪部，你会怎么做？大部分的人会问问周围的朋友，看看最近有什么好看的电影推荐，而我们一般更倾向于从口味比较类似的朋友那里得到推荐。

这就是协同过滤的核心思想。

协同过滤算法又分为基于用户的协同过滤算法和基于物品的协同过滤算法1.2 案例需求如下数据是各用户对各文档的偏好：现在需要基于上述数据，给A用户推荐一篇文档1.3 算法分析1.3.1 基于用户相似度的分析直觉分析：“用户A/B”都喜欢物品A和物品B，从而“用户A/B”的口味最为相近因此，为“用户A”推荐物品时可参考“用户B”的偏好，从而推荐D这种就是基于用户的协同过滤算法UserCF指导思想1.3.2 基于物品相似度的分析直觉分析：物品组合(A,D)被同时偏好出现的次数最多，因而可以认为A/D两件物品的相似度最高，从而，可以为选择了A物品的用户推荐D物品这种就是基于物品的协同过滤算法ItemCF指导思想1.4 算法要点1.4.1、指导思想这种过滤算法的有效性基础在于：1、用户偏好具有相似性，即用户可分类。

这种分类的特征越明显，推荐准确率越高2、物品之间具有相似性，即偏好某物品的人，都很可能也同时偏好另一件相似物品1.4.2、两种CF算法适用的场景什么情况下使用哪种算法推荐效果会更好？不同环境下这两种理论的有效性也不同，应用时需做相应调整。

a.如豆瓣上的文艺作品，用户对其的偏好程度与用户自身的品位关联性较强；适合UserCFb.而对于电子商务网站来说，商品之间的内在联系对用户的购买行为影响更为显著。

大数据在互联网领域的应用——协同过滤.pptx

基于用户的协同过滤（User CF）
6 1. 基于用户的协同过滤（UserCF）
• 计算用户相似度 • 实现UserCF算法的关键步骤是计算用户与用户之间的兴趣相似度。目前较多使用的相似度算法有： • 泊松相关系数（Person Correlation Coefficient） • 余弦相似度（Cosine-based Similarity） • 调整余弦相似度（Adjusted Cosine Similarity）
• 给定用户u和用户v，令N(u)表示用户u感兴趣的物品集合，令N(v)为用户v感兴趣的物品集合，则使用余弦相似度进行计算用户相似度的公式为：
7 1. 基于用户的协同过滤（UserCF）
• 计算用户相似度 • 由于很多用户相互之间并没有对同样的物品产生过行为，因此其相似度公式的分子为0，相似度也为0 • 我们可以利用物品到用户的倒排表（每个物品所对应的、对该物品感兴趣的用户列表），仅对有对相同物品产生交互行为的用户进行计算
• UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品 • ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品
• UserCF算法的推荐更偏向社会化，而ItemCF算法的推荐更偏向于个性化
17 3. UserCF算法和ItemCF算法的对比
• UserCF算法的推荐更偏向社会化：适合应用于新闻推荐、微博话题推荐等应用场景，其推荐结果在新颖性方面有一定的优势
• 协同过滤可分为基于用户的协同过滤和基于物品的协同过滤
4 1. 基于用户的协同过滤（UserCF）
• 算法思想
• 基于用户的协同过滤算法（简称UserCF算法）在1992年被提出，是推荐系统中最古老的算法 • UserCF算法符合人们对于“趣味相投”的认知，即兴趣相似的用户往往有相同的物品喜好：当

协同过滤推荐算法.ppt

2. 矩阵降维技术-奇异值分解
通过降低用户-项目矩阵的维数解决矩阵的稀疏性问题, 奇异值分解(Singular Value Decompo sition, SVD)是一种矩阵分解技术, 它深刻揭露了矩阵的内部结构, 它可以将一个m×n (假设m ≥n)的矩阵R分解为三个矩阵U,S,V,大小分别为m×m,m×n,n×n .
把用户评分看作n 维项目空间上的向量, 用户间的相似性通过向量间的余弦夹角度量, 设用户i和用户j在n 维项目空间上的评分分别表示为向量, 则用户i和用户j之间的相似性为:
计算机应用技术
二：相似性比较方法
2. 修正的余弦相似性
余弦相似性度量方法中没有考虑不同用户的评分尺度问题, 修正的余弦相似性度量方法通过减去用户对项目的平均评分来改善上述缺陷。
1.1 BP 神经网络
BP 神经网络对复杂的输入输出关系有比较强大的学习和建模能力,能够有效地处理非完整信息。BP神经网络是一个3层网络,分别为输入层、隐含层和输出层.
计算机应用技术
三：用户-项目矩阵稀疏性问题及解决办法
BP 神经网络把用户对各个项目的评分看作训练样本, 分别输入到输入层的各个单元中; 这些单元经过加权, 输出到隐含层的各个单元; 隐含层的加权输出再经过一次加权作为输出层的单元输入; 最后由输出层产生给定样本的预测值.这种矩阵填充技术对噪声数据有较强的承受能力, 可以有效降低用户-项目矩阵的稀疏性, 达到提高推荐精度的目的. 然而,BP 算法的缺点为存在随着训练时间的增加, 收敛速度有变慢的趋势,以致会延长最近邻居的查找时间.
协同过滤这一概念首次于1992 年由Goldberg、Nicols、Oki及 Terry提出,应用于Tapestry系统, 该系统仅适用较小用户群(比如, 某一个单位内部),而且对用户有过多要求(比如,要求用户显式的给出评价).目前,许多电子商务网站都已经使用了推荐系统, 如 Amazon、CDNow、Drugstore，当当网上书店和Moviefinder 等。

基于协同过滤的推荐算法研究及应用

图录图2.1 协同过滤过程 (7)图2.2 基于物品(Item-based)模型 (8)图2.3 PMF模型图 (13)图2.4 用户物品二分图模型 (14)图2.5 准确率和召回率描述 (17)图3.1 推荐算法框架 (20)图3.2 Book-Crossing数据集中的User表 (21)图3.3 Last.fm数据集中男女用户分布 (21)图3.4 用户组示例图 (22)图3.5 部分职业分类树 (23)图3.6 k-medoids算法示例图 (25)图3.7 项目-用户组偏好矩阵 (27)图3.8 融合项目偏好信息的PMF模型 (28)图3.9 参数变化对比图 (32)图3.10 用户组个数对RMSE的影响 (33)图3.11 特征个数对RMSE的影响 (34)图4.1 算法框架图 (39)图4.2 算法整体流程图 (40)图4.3 用户项目关系二分图 (42)图4.4 评分相似度计算流程 (44)图4.5 物品-标签二分图模型 (45)图4.6 资源分配过程 (46)图4.7 标签流行度长尾分布 (48)图4.8 MovieLens数据可视化图 (49)图4.9F1对比图 (50)图4.10不同参数下的F1值变化情况 (51)图4.11 准确率对比图 (52)图4.12 召回率对比图 (52)图4.13 推荐列表长度对F1的影响 (53)图4.14 3种算法推荐质量对比 (53)图5.1 TSRS系统架构图 (55)图5.2 业务层 (56)图5.3 数据存储层 (57)图5.4 TSRS数据库E-R图 (60)图5.5 环境搭建 (60)图5.6 Redis服务 (61)图5.7 管理员登录 (62)图5.8 主题后台管理首页 (63)图5.9 添加主题资源 (63)图5.10 移动端登录 (64)图5.11 主题推荐界面 (64)图5.12 主题详情推荐 (64)表录表2.1 用户-项目评分矩阵 (9)表2.2 获取各种评测指标的途径 (17)表3.1 用户组划分伪代码 (26)表3.2 不同特征维度下参数对RMSE的影响 (33)表4.1 算法伪代码 (41)表4.2 CF-IT算法与CF-Tag算法准确率与召回率对比 (54)表5.1 用户信息表(tb_tm_user) (58)表5.2评分表(tb_tm_rate) (58)表5.3主题资源信息表(tb_tm_theme_info) (59)表5.4 主题资源表(tb_tm_theme) (59)表5.5主题推荐表(tb_tm_recommend) (59)第1章绪论1.1研究背景及意义近年来，随着计算机技术和网络技术的飞速发展，互联网(Internet)改变了人们消费、出行、学习以及获取信息的方式，普通用户在享受Internet带来便捷的同时，也面临着越来越严重的冗余信息过滤，即所谓的“信息超载”问题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

协同过滤推荐算法
2011年11月17日
一：协同过滤算法综述二：在个性化服务中的应用
计算机应用技术
综述
➢ 算法简介 ➢ 相似性比较方法 ➢ 用户-项目矩阵稀疏性问题及解决办法 ➢ 冷启动问题 ➢ 推荐速度 ➢ 推荐策略 ➢ 评估方法
计算机应用技术
一算法简介
随着互联网的普及，网络资源的激增，用户很难快速找到需要的信息。为了提供精确而又快速的推荐, 研究者提出了多种推荐算法, 其中协同过滤推荐算法是应用最为成功的一种。
计算机应用技术
三：用户-项目矩阵稀疏性问题及解决办法
1. 矩阵填充技术
最简单的填充办法就是将用户对未评分项目的评分设为一个固定的缺省值, 或者设为其他用户对该项目的平均评分. 然而用户对未评分项目的评分不可能完全相同,这种办法不能从根本上解决稀疏性问题.
能够产生较理想的推荐效果, 矩阵填充技术主要有以下几类:
计算机应用技术
三：用户-项目矩阵稀疏性问题及解决办法
1.2 Naive Bayesian 分类方法
Naive Bayesian 分类方法基于概率模型进行分类,可以使用该方法估算一个实例属于某一类的概率, 在得到某一个项目所属的分类之后, 可以利用此分类中其他项目的评分情况来预测未评分项目的评分, 从而可以填充用户-项目矩阵, 降低稀疏性.
1.3 基于内容的预测
基于内容的预测又称基于属性的预测或基于语义的预测, 该方法根据项目的属性联系以及项目所处的地位、相互关系和项目元信息等内容计算项目之间的内容相似性, 而不依赖于用户对项目的评分.
计算机应用技术
三用户-项目矩阵稀疏性问题及解决办法
得到项目之间的内容相似性后, 选择与目标项目相似性最大的若干个项目进行评分预测, 用预测评分填充用户-项目矩阵中的空项, 降低其稀疏性. 由于不同类别的项目之间在属性描述上有较大差别, 因此基于语义的方法无法计算跨类别的项目之间的相似性, 也就无法进行跨类别的评分预测.另外基于语义的相似性计算需要提取项目的属性特征,涉及到领域知识, 应用面较窄.
修正的余弦相似性方法在余弦相似性基础上, 减去了用户对项目的平均评分, 然而该方法更多体现的是用户之间的相关性而非相似性, 相关性和相似性是两个不同的概念,相似性反映的是聚合特点, 而相关性反映的是组合特点;
相似相关性方法, 依据双方共同评分的项目进行用户相似性评价, 如果用户间的所有评分项目均为共同评分项目, 那么相似相关性和修正的余弦相似性是等同的. 用户对共同评分项目的评分确实能很好地体现用户的相似程度, 但由于用户评分数据的极端稀疏性, 用户间共同评分的项目极稀少, 使得相似相关性评价方法实际不可行.
扩展性：是指发现相似关系的运算法则通常需要很长的计算时间 ,并且时间会随着用户数目和产品数目的增加而增加 ,特别是在在线实时推荐中 ,这是一个急需解决的问题。
2. 基于协同过滤技术的推荐过程可分为 3个阶段:
数据表述;发现最近邻居;产生推荐数据集。
计算机应用技术
二：相似性比较方法
相似性计算是协同过滤推荐算法中最关键的一步，传统的相似度计算方法有以下几种： 1.余弦相似性
计算机应用技术
二：相似性比较方法
3. 相关相似性
设经用户i和用户j共同评分的项目集合用Iij表示,则用户i 和用户j 之间的相似性sim ( i, j )通过Pearson 相关系数度量：
计算机应用技术
二：相似性比较方法
余弦相似性度量方法把用户评分看作一个向量, 用向量的余弦夹角度量用户间的相似性, 然而没有包含用户评分的统计特征;
1.1 BP 神经网络
力,能够有效地处理非完整信息。BP神经网络是一个3层网络,分别为输入层、隐含层和输出层.
计算机应用技术
三：用户-项目矩阵稀疏性问题及解决办法
BP 神经网络把用户对各个项目的评分看作训练样本, 分别输入到输入层的各个单元中; 这些单元经过加权, 输出到隐含层的各个单元; 隐含层的加权输出再经过一次加权作为输出层的单元输入; 最后由输出层产生给定样本的预测值.这种矩阵填充技术对噪声数据有较强的承受能力, 可以有效降低用户-项目矩阵的稀疏性, 达到提高推荐精度的目的. 然而,BP 算法的缺点为存在随着训练时间的增加, 收敛速度有变慢的趋势,以致会延长最近邻居的查找时间.
计算机应用技术
一算法简介
目前主要有两类协同过滤推荐算法: 基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法.
基于用户的协同过滤推荐算法基于这样一个假设, 即如果用户对一些项目的评分比较相似, 则他们对其他项目的评分也比较相似. 算法根据目标用户的最近邻居(最相似的若干用户)对某个项目的评分逼近目标用户对该项目的评分.
协同过滤这一概念首次于1992 年由Goldberg、Nicols、Oki及 Terry提出,应用于Tapestry系统, 该系统仅适用较小用户群(比如, 某一个单位内部),而且对用户有过多要求(比如,要求用户显式的给出评价).目前,许多电子商务网站都已经使用了推荐系统, 如 Amazon、CDNow、Drugstore，当当网上书店和Moviefinder 等。
把用户评分看作n 维项目空间上的向量, 用户间的相似性通过向量间的余弦夹角度量, 设用户i和用户j在n 维项目空间上的评分分别表示为向量, 则用户i和用户j之间的相似性为:
计算机应用技术
二：相似性比较方法
2. 修正的余弦相似性
余弦相似性度量方法中没有考虑不同用户的评分尺度问题, 修正的余弦相似性度量方法通过减去用户对项目的平均评分来改善上述缺陷。
基于项目的协同过滤推荐算法认为, 用户对不同项目的评分存在相似性, 当需要估计用户对某个项目的评分时, 可以用户对该项目的若干相似项目的评分进行估计.
计算机应用技术
一算法简介
1. 存在两个问题：
稀疏性：在推荐系统中,每个用户涉及的信息相当有限 ,用户所评价或者购买的产品占产品总数的比例很小,造成用户—项目偏好矩阵非常稀疏 ,很难找到相似用户 ,推荐性能可能很差。