加权填充与兴趣相融合的相似度改进算法

合集下载

基于用户的协同过滤算法

基于用户的协同过滤算法
原理
基于用户的协同过滤算法通过计算用户之间的相似度来评估他们的兴趣相似程度。通常使用余弦相似 度来计算用户之间的相似度,该算法通过计算两个用户在多个项目上的评分向量的夹角余弦值来评估 他们的兴趣相似程度。夹角越小,相似度越高。
基于用户协同过滤的分类
01
基于用户协同过滤可以分为两类
基于内存的协同过滤和基于模型的协同过滤。
05
基于用户的协同过滤算法 的应用案例
电商网站的推荐系统
用户行为数据
通过收集和分析用户在电商网站上的购买、浏览、搜索等行为数 据,可以了解用户的兴趣和需求。
用户相似度计算
基于用户行为数据的相似度计算,将用户划分为不同的群体,将 具有相似购买行为的用户归为一类。
商品推荐
根据用户所属的群体,以及用户的历史购买和浏览记录,推荐相 似的商品或者相关联的商品。
未来发展趋势与研究方向
结合其他推荐算法
如基于内容的推荐、混合推荐等,提高推荐 的质量和多样性。
考虑用户的行为模式
挖掘用户的兴趣爱好、行为习惯等信息,提 高推荐的准确性。
跨领域应用
将基于用户的协同过滤算法应用于其他领域 ,如社交网络、电子商务等。
在其他领域的应用前景
社交网络
根据用户在社交网络上的行为,如发表 的状态、评论等,挖掘用户的兴趣爱好 和社交关系,为广告投放、活动推广等 提供支持。
VS
电子商务
结合用户的购买历史、浏览记录等数据, 推荐相关的商品或服务,提高用户的购买 率和满意度。
THANKS
感谢观看
通过收集用户在电影平台上的观 影记录,了解用户的电影喜好和 偏好。
02
03
用户相似度计算
电影推荐
基于用户的观影记录,计算用户 之间的相似度,将具有相似观影 行为的用户归为一类。

Slope One推荐算法改进

Slope One推荐算法改进

Slope One推荐算法改进黄义纯【摘要】相对于传统的协同过滤推荐算法,Slope One算法以其简单、高效而广泛使用.原生Slope One推荐算法是基于各个项目之间的平均偏差预测用户评分,最终以多个预测评分的均值作为用户的最终预测评分.而带权重Slope One是在原生Slope One算法的基础上,以项目共同评价的用户个数作为权重,在一定程度上提高算法的推荐精度.但该算法并未考虑项目之间的相似度,为了进一步提高算法的推荐精度,提出一种改进的Slope One算法,该算法同时考虑了用户共同评分个数以及项目之间相似度,并以两者的乘积为权重.其中项目之间相似度分别采用余弦相似度、修正余弦相似度和皮尔逊相似度进行求解.使用标准MovieLens中的数据集对3种改进算法预测结果分别进行验证,结果表明:相对于原始Slope One算法和带权重的Slope One算法,改进算法提高预测的准确性.【期刊名称】《现代计算机(专业版)》【年(卷),期】2017(000)035【总页数】5页(P24-27,34)【关键词】Slopeone;权重;相似度;平均差;评分矩阵【作者】黄义纯【作者单位】四川大学计算机学院,成都 610065【正文语种】中文0 引言随着信息技术和互联网技术的飞速发展,人们逐步从信息匮乏的年代迈入了信息过载的时代。

为了解决人们信息过载的问题,推荐系统受到了广泛的使用。

近年来,推荐算法的研究主要分为以下三个方向:协同过滤、项目内容和用户知识[1]。

Slope one是一种协同过滤的推荐算法,首先由Lemire等人提出。

它是基于物品之间的平均评分偏差来预测评分,只依照项目评分计算,而不考虑项目之间的相似度。

该算法思想虽然简单却极为高效,同时它的推荐精度也令人满意。

相比其他基于邻域的协同过滤算法[2],Slope one算法一个很重要的特点就是基本不存在“冷启动”问题,即推荐精度不受系统评分数据的数量的影响。

精准营销个性化推荐系统方案

精准营销个性化推荐系统方案

精准营销个性化推荐系统方案第1章引言 (3)1.1 背景与意义 (3)1.2 研究目标与内容 (3)第2章市场现状与需求分析 (4)2.1 市场现状 (4)2.2 需求分析 (4)第3章个性化推荐系统理论基础 (5)3.1 推荐系统概述 (5)3.2 个性化推荐算法 (5)第4章数据收集与预处理 (6)4.1 数据来源与采集 (6)4.1.1 数据源选择 (6)4.1.2 数据采集方法 (6)4.2 数据预处理 (7)4.2.1 数据清洗 (7)4.2.2 数据标准化 (7)4.2.3 数据整合 (7)4.2.4 特征工程 (7)4.2.5 数据采样 (7)4.2.6 数据存储 (7)第5章用户画像构建 (7)5.1 用户特征提取 (8)5.1.1 基础特征提取 (8)5.1.2 行为特征提取 (8)5.1.3 兴趣特征提取 (8)5.1.4 社交特征提取 (8)5.2 用户画像建模 (8)5.2.1 用户画像表示 (8)5.2.2 用户画像更新 (9)5.2.3 用户画像应用 (9)第6章商品特征提取与建模 (9)6.1 商品特征提取 (9)6.1.1 商品特征概述 (9)6.1.2 商品特征提取方法 (9)6.1.3 商品特征处理 (10)6.2 商品建模 (10)6.2.1 商品表示模型 (10)6.2.2 商品建模方法 (10)6.2.3 商品建模优化 (10)第7章个性化推荐算法设计 (11)7.1 基于内容的推荐算法 (11)7.1.2 特征提取 (11)7.1.3 用户兴趣建模 (11)7.1.4 推荐 (11)7.2 协同过滤推荐算法 (11)7.2.1 算法原理 (11)7.2.2 用户相似度计算 (11)7.2.3 项目相似度计算 (11)7.2.4 推荐 (11)7.3 混合推荐算法 (12)7.3.1 算法原理 (12)7.3.2 算法融合策略 (12)7.3.3 推荐 (12)7.3.4 算法优化 (12)第8章系统架构设计与实现 (12)8.1 系统架构设计 (12)8.1.1 整体架构 (12)8.1.2 数据流图 (13)8.2 系统模块实现 (13)8.2.1 数据层实现 (13)8.2.2 核心层实现 (13)8.2.3 应用层实现 (13)第9章系统评估与优化 (14)9.1 系统评估指标 (14)9.1.1 准确性指标 (14)9.1.2 用户满意度指标 (14)9.1.3 系统功能指标 (14)9.2 系统优化策略 (14)9.2.1 数据处理优化 (14)9.2.2 算法优化 (14)9.2.3 系统架构优化 (15)9.2.4 用户体验优化 (15)第10章应用案例与展望 (15)10.1 应用案例 (15)10.1.1 零售行业 (15)10.1.2 金融行业 (15)10.1.3 传媒行业 (15)10.2 市场前景与展望 (15)10.2.1 市场前景 (15)10.2.2 市场展望 (16)10.3 未来研究方向 (16)10.3.1 推荐系统冷启动问题 (16)10.3.2 多模态推荐系统 (16)10.3.3 隐私保护与安全 (16)10.3.5 跨领域推荐系统 (16)第1章引言1.1 背景与意义互联网技术的飞速发展,信息量呈现出爆炸式增长,消费者在众多商品和服务中寻找符合自己需求的物品变得越来越困难。

数据清洗中文本相似度算法的比较与优化

数据清洗中文本相似度算法的比较与优化

三、算法研究
在本次研究中,我们采用了基于余弦相似度的简历匹配算法。具体流程如下:
1、数据预处理
首先,我们对简历进行预处理,包括分词、去除停用词和词干提取等步骤。这 些步骤可以帮助我们将文本转化为计算机可理解的形式,从而提高匹配的准确 性。
2、向量化
在数据预处理之后,我们将每个简历表示为一个向量。向量的每个元素表示该 简历中的一个单词,向量的维度是简历中不同单词的数量。向量的数值则通过 将每个单词的权重乘以其在简历中出现频率得到。
一、背景介绍
随着经济的发展和社会的进步,就业市场竞争越来越激烈,用人单位对人才的 需求也日益苛刻。在这样的背景下,传统的简历筛选方式已经无法满足现代社 会的需求。如何快速、准确地找到符合岗位需求的优秀人才成为了一个亟待解 决的问题。针对这一问题,本次演示提出了一种基于文本相似度的简历匹配算 法研究,旨在提高简历筛选的效率和准确性。
优化基于词袋模型的文本相似度 算法的参数调整
为提高基于词袋模型的文本相似度算法的性能,我们可以通过调整参数进行优 化。具体来说,可以增加词汇表的长度以提高算法的精度,但需要注意控制词 汇表的大小以保持计算效率。另外,可以使用不同的距离度量方法(如欧氏距 离、曼哈顿距离等)来衡量词频向量之间的差异,根据具体应用场景选择合适 的度量方法。
比较
1、基于词袋模型的文本相似度 算法
基于词袋模型的文本相似度算法是一种简单而广泛使用的算法。它将文本表示 为词频向量,然后通过计算两个向量之间的余弦相似度来衡量文本的相似性。 这种算法的优点是简单易用,计算效率高,适用于大规模数据集。然而,它忽 略了文本的语义信息,可能导致一些语义相似度较高的文本被误判为不相似。
相关研究
传统的文本相似度算法主要基于文本的表面特征,如词袋模型、TF-IDF等。 这些方法在处理大规模文本数据时具有一定的效果,但无法准确衡量文本的语 义相似度。针对这一问题,研究者们提出了基于语义的文本相似度算法,如潜 在语义分析(LSA)、基于BERT的语义相似度计算等。这些方法通过挖掘文本 的深层次语义信息,能够有效衡量文本的相似性。

基于用户兴趣变化的混合推荐算法分析

基于用户兴趣变化的混合推荐算法分析

第8期2021年4月No.8April,20211 推荐算法研究现状(1)协同过滤:协同过滤算法根据具有相同行为习惯的人对用户进行推荐[1]。

(2)基于内容的推荐算法:基于内容的推荐算法,实际上是对用户行为数据的属性信息进行分析,包括了用户的属性及商品的属性。

(3)混合推荐算法:混合推荐算法避免了单一算法的弊端,将几种算法进行结合,达到取长补短的效果。

2 基于时间权重的协同过滤算法2.1 时间相关算法介绍为了提高推荐算法的精度,时间是比较重要的信息,它具有一定的时效性[2]。

根据用户行为的时间信息发现用户兴趣的变化。

将用户的评分融入协同过滤算法[3],目前有两种主要的算法时间感知算法和时间依赖算法[4-5]。

时间感知算法的主要思想是用不同的分类方法对时间进行分类。

用户的兴趣具有周期性是将能够采用这种分类方法。

实验也证明了这种方法的结果优于未利用时间感知信息的推荐算法。

时间依赖算法则是把用户的兴趣变化和时间紧紧地联系在一起,认为用户的兴趣变化和时间是连续变化的量。

假设考虑时间因素,那么每个用户近期的评分比之前远期的评分更能反应用户的兴趣偏好。

所以时间依赖算法在传统推荐算法的基础上加入了时间因子,给近期的评分更大的参考价值。

2.2 相似度计算用户的相似度计算主要有余弦相似度和Pearson 相关系作者简介:范铭煜(1995— ),男,广东汕头人,硕士研究生;研究方向:推荐算法,机器学习,大数据处理与分析。

摘 要:推荐算法被应用在商品购物、音乐推荐、书籍推荐等网站。

如何根据这些已有的用户行为数据让用户快速做出抉择,推荐算法显得十分重要。

传统的协同过滤算法没有考虑到用户的兴趣是随时间而变化的。

文章首先在传统的协同过滤算法的基础上构建时间变化函数,对用户以往的评分数据,对数据做时间加权,提高预测用户兴趣的能力。

针对当前推荐算法都会遇到的评分稀疏性问题,文章提出了把基于时间权重的协同过滤算法与基于关联规则的推荐算法进行混合推荐,提高了算法的准确率。

基于兴趣点凸包与SVM加权反馈的图像检索方法

基于兴趣点凸包与SVM加权反馈的图像检索方法

用兴趣点凸包和SVM加权反馈实现图像检索苏小红丁进马培军(哈尔滨工业大学计算机科学与技术学院,哈尔滨 150001)摘要针对采用环状颜色直方图的图像检索方法存在的不足,提出一种基于兴趣点凸包的图像特征提取方法,通过对用小波变换检测出的兴趣点递归求出它们的凸包,并将每个凸包上的兴趣点按一定的算法安插在相应的桶内,对每个桶求出颜色直方图,利用桶与桶之间的相似度定义两幅图像的相似度。

这种特征提取方法可有效抑制兴趣点集合中出现游离兴趣点的情况,结合基于兴趣点的空间离散度和Gabor小波纹理等特征实现图像检索,可有效提高图像检索精度。

最后,提出一种新的相关反馈方法,通过利用支持向量机分类结果设置权值来改进移动查询点相关反馈方法。

实际图像数据库上的实验表明,引入这种反馈方法后可将图像检索的查准率提高20%左右,查全率提高10%左右。

关键词图像检索;小波变换;兴趣点; 凸包;支持向量机;相关反馈中图法分类号TP391Image retrieval by convex hulls of interest points andSVM-based weighted feedbackSU Xiao-Hong DING Jin MA Pei-Jun(School of Computer Science and T echnology, Harbin Institute of T echnology, Harbin Heilongjiang 150001) Abstract To solve the problem of image retrieval method based on annular color histogram, a new image characteristics extraction method based on convex hulls of interest points is presented. Firstly, the interest points on an image are detected by wavelet transform. Then, convex hulls of interest points are calculated recursively and these points are assigned to some buckets by a specific algorithm to form a color histogram for every bucket. Combined with spatial distribution feature and Gabor texture feature based on convex hulls of interest points, the system of image retrieval is built. Experiments on image database show that this method works well when isolated points exist in the interest points set and so provide more accurate retrieval performance comparing with other retrieval method based on interest points. Further more, a novel relevance feedback method is presented. It improves the query point movement relevance feedback method by setting weights based on support vectormachine cluster results. The experiments show that by using this method combined with the image retrieval method based on convex hulls of interest points, the precision and recall can be improved about 20% and 10% respectively.Key words Image Retrieval; Wavelet Transform; Interest Points; Convex Hull; Support Vector Machine; Relevance Feedback引言由于数字图像数量的猛增,对其进行快速、高速检索的要求愈加强烈。

多重检验加权融合的短文本相似度计算方法

多重检验加权融合的短文本相似度计算方法
个正整数,如果用其衡量相似度,将缺少一个限定值
作 为 界 定 是 否 相 似 的 标 准 ,因 此 ,本 文 提 出 DLR
(Damerau-Levenshtein-Ratio),其 将 2 个 文 本 的 编 辑
距 离 转 化 为 比 值 形 式 ,通 过 式(2)计 算 DLR 以 表 示
2 个文本之间的相似度:
VSM[6]和 LSA[7]等 ,三 是 基 于 深 度 学 习 的 计 算 方 法 ,
如基于深度学习语义匹配模型的 DSSM[8]、通过神经
网 络 生 成 词 向 量 以 计 算 相 似 度 的 Word2vec[9]和
Glove[10]等 。 文 献[11]基 于 CNN 并 引 入 多 注 意 力 机
响,在分析传统文本相似度计算方法的基础上,利用
基于深度学习的方法计算相似度,通过阈值对相似度
值 进 行 检 验 筛 选 ,并 将 改 进 的 Damerau-Levenshtein
距 离 算 法 、考 虑 词 频 的 语 义 相 似 度 计 算 算 法 、基 于


0 ≤ j ≤ n,通 过 式(1)来 计 算 2 个 字 符 串 之 间 的
极大关注[2]。
目前,文本相似度计算方法主要分为三类,一是
基 于 字 符 串 的 计 算 方 法 ,如 通 过 统 计 文 本 共 有 字 词
数 量 计 算 相 似 度 的 N-gram[3]和 Jaccard[4]算 法 ,二 是
基于语料库的计算方法,如忽略词序、句法结构等关
基 金 项 目 :中 国 博 士 后 科 学 基 金(2017M613216);陕 西 省 自 然 科 学 基 金(2017JM6059);陕 西 省 重 点 研 发 计 划(2019ZDLNY07);陕 西 省

电商行业——智能推荐算法优化方案

电商行业——智能推荐算法优化方案

电商行业——智能推荐算法优化方案第1章智能推荐算法概述 (3)1.1 推荐系统的基本概念 (3)1.2 智能推荐算法的重要性 (3)1.3 常见智能推荐算法简介 (3)第2章推荐系统架构与评估指标 (4)2.1 推荐系统架构设计 (4)2.1.1 数据收集与预处理 (4)2.1.2 用户画像与商品画像 (4)2.1.3 推荐算法选择 (4)2.1.4 推荐结果融合与排序 (5)2.1.5 系统部署与实时更新 (5)2.2 推荐系统的评估指标 (5)2.2.1 准确率(Precision) (5)2.2.2 召回率(Recall) (5)2.2.3 F1值 (5)2.2.4 覆盖率(Coverage) (5)2.2.5 新颖度(Novelty) (5)2.2.6 用户满意度(User Satisfaction) (5)2.3 推荐系统的优化方向 (6)2.3.1 提高推荐算法的实时性 (6)2.3.2 增强推荐算法的个性化 (6)2.3.3 提高推荐系统的可解释性 (6)2.3.4 优化推荐系统的评估指标 (6)2.3.5 加强推荐系统的冷启动问题处理 (6)第3章协同过滤算法优化 (6)3.1 协同过滤算法原理 (6)3.2 用户相似度计算优化 (6)3.3 物品相似度计算优化 (7)3.4 冷启动问题解决方案 (7)第4章内容推荐算法优化 (8)4.1 内容推荐算法原理 (8)4.2 文本向量表示方法 (8)4.3 基于深度学习的文本相似度计算 (8)4.4 多维度内容推荐优化 (9)第5章深度学习推荐算法 (9)5.1 深度学习在推荐系统中的应用 (9)5.1.1 深度神经网络 (9)5.1.2 卷积神经网络 (9)5.1.3 循环神经网络 (10)5.2 神经协同过滤算法 (10)5.2.1 基于内积的协同过滤 (10)5.3 序列模型在推荐系统中的应用 (10)5.3.1 循环神经网络及其变体 (10)5.3.2 注意力机制 (10)5.4 基于图神经网络的推荐算法 (10)5.4.1 图卷积神经网络 (10)5.4.2 图注意力网络 (10)5.4.3 基于图神经网络的异构图推荐算法 (11)第6章多任务学习在推荐系统中的应用 (11)6.1 多任务学习概述 (11)6.2 多任务学习架构设计 (11)6.2.1 硬参数共享 (11)6.2.2 软参数共享 (11)6.3 多任务学习在推荐系统中的实践 (11)6.3.1 多任务学习模型 (11)6.3.2 应用场景 (12)6.4 多任务学习优化策略 (12)6.4.1 权重分配策略 (12)6.4.2 正则化策略 (12)第7章强化学习在推荐系统中的应用 (12)7.1 强化学习概述 (13)7.2 强化学习在推荐系统中的优势 (13)7.3 基于强化学习的推荐算法设计 (13)7.4 强化学习推荐系统的挑战与解决方案 (13)第8章长短期兴趣融合推荐算法 (14)8.1 用户兴趣表示方法 (14)8.1.1 长期兴趣表示 (14)8.1.2 短期兴趣表示 (14)8.2 长短期兴趣融合策略 (14)8.2.1 动态权重分配 (14)8.2.2 融合表示学习 (15)8.3 实践中的优化技巧 (15)8.3.1 冷启动问题 (15)8.3.2 实时性优化 (15)8.3.3 多样性优化 (15)8.4 长短期兴趣融合推荐算法的应用 (15)8.4.1 个性化首页推荐 (15)8.4.2 精细化运营 (15)8.4.3 购物路径优化 (15)8.4.4 跨域推荐 (16)第9章跨域推荐算法研究 (16)9.1 跨域推荐系统概述 (16)9.2 跨域数据表示与融合 (16)9.2.1 数据表示 (16)9.3 跨域推荐算法设计 (16)9.3.1 基于模型迁移的跨域推荐算法 (16)9.3.2 基于深度学习的跨域推荐算法 (16)9.3.3 多任务学习在跨域推荐中的应用 (17)9.4 跨域推荐系统的实践与挑战 (17)9.4.1 数据异构性 (17)9.4.2 冷启动问题 (17)9.4.3 算法实时性 (17)9.4.4 用户隐私保护 (17)9.4.5 系统可扩展性 (17)第10章隐私保护推荐算法 (17)10.1 隐私保护概述 (17)10.2 基于差分隐私的推荐算法 (18)10.3 联邦学习在推荐系统中的应用 (18)10.4 隐私保护推荐算法的实践与挑战 (18)第1章智能推荐算法概述1.1 推荐系统的基本概念推荐系统作为信息过滤的一种有效手段,旨在解决信息过载问题,为用户在众多选项中提供个性化、精准的推荐结果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

加权填充与兴趣相融合的相似度改进算法作者:黄迪吴静来源:《物联网技术》2018年第03期摘要:针对传统协同过滤推荐算法在面临用户评分矩阵极端稀疏而导致推荐结果不佳的问题,文中提出了一种改进的协同过滤推荐算法。

该算法的相似度值由用户评分相似度值和用户兴趣相似度值组成,其中用户兴趣相似度用来拟补单独填充值导致用户个性化不足的问题。

用户评分相似度值采用混合加权填充值对用户评分矩阵进行填充,即在原用户评分矩阵上采用由用户评分矩阵行和列的平均数、众数、中位数等混合加权拟合成的最终值对未评分项目进行填充,加权值的权重取决于这三种值单独填充的实验结果。

首先将加权填充后的矩阵作为伪矩阵,在伪矩阵上进行相似度计算。

然后通过用户兴趣相似度值建立用户兴趣矩阵,拟采用用户对项目属性评价的次数来衡量用户对不同项目属性的偏好度,利用相似度计算公式计算用户间的兴趣相似度值。

最后对Movielens电影数据集进行仿真实验。

实验结果表明,相比传统的协同过滤推荐算法,改进的评分矩阵混和加权填充与用户兴趣相结合的协同过滤推荐算法不仅有效缓解了数据稀疏问题的影响,同时也提高了推荐精度。

关键词:推荐系统;相似度融合;协同过滤;混合加权填充;稀疏性;兴趣中图分类号:TP391 文献标识码:A 文章编号:2095-1302(2018)03-00-040 引言电子商务和社交网络的快速发展,极大地改变了人们的生活方式,但同时网络用户量每年呈指数级的增长也造就了信息量的急速增长和膨胀,出现了“信息过载”现象[1]。

为解决这一问题,多种方法已被提出。

众所周知,信息检索技术需要手动输入关键字,虽在一定程度上节约了大量时间,但该技术需要用户明确查找的信息。

而网络信息量的增大,导致检索的信息亦数量巨大,因此该项技术也面临着越来越严峻的挑战:如果无法准确给出检索内容,那么查找目标内容就比较困难。

推荐技术依赖于对用户以往数据的分析,同时参考用户的喜好和行为习惯[2],可主动为用户推荐,相当于智能推荐。

然而个性化的推荐技术依赖于用户的行为信息,推荐精度也取决于用户所遗留信息轨迹的多寡。

现有推荐算法主要面对的是数据稀疏性[2]、冷启动 [3,4]以及可扩展性问题。

当前各种改进算法层出不穷。

李颖[5]等人利用稀疏的用户项目评分矩阵,分析近邻用户组与推荐精度间的关系,提出一种基于双重阈值近邻查找的协同过滤算法;Sarwar[6]等人提出SVD分解技术降低稀疏矩阵的维数,提高了项目或用户间的相似度,在一定程度上提高了推荐精度,但需注意,降维技术会损失部分信息;于世华[7]等人提出用户-项目类别评分和用户-项目类别兴趣相似度融合的算法,提高了推荐精度,该算法对合适权值的选取会直接影响用户的最终相似度值,影响推荐的质量;黄创光[8]等提出不确定近邻因子来预测评分产生推荐;陈宗言等人[9]提出一种基于项目特征属性的稀疏数据预处理方法来提高推荐精度,该方法只对数据预处理进行了改进,并未对协同过滤算法进行改进,因此有待进一步研究。

本文在上述研究的基础上,提出一种改进的协同过滤推荐算法。

该算法首先在解决数据稀疏的问题上充分考虑了填充值对推荐质量的影响,采用加权填充的方式,缓解矩阵的稀疏性。

在预测精度上,充分利用用户个性化的兴趣信息,将融入的伪矩阵和兴趣矩阵相似度值作为最终相似度值,最后把得到的相似度值在原矩阵上进行评分预测,采用Top-N算法筛选,利用平均绝对误差值来衡量算法的优劣。

1 混合加权填充方法和用户喜好矩阵的建立1.1 协同过滤推荐算法介绍表1所列是一个用户-项目评分矩阵R={rij}m×n。

该评分矩阵中的m代表用户数目,n代表项目数目。

元素rij代表用户i对项目j的评分,空缺值代表该项目没有被评分。

一般的协同过滤推荐算法主要分析用户-项目矩阵,预测未评分项目值,向目标用户推荐,基于用户的协同过滤算法计算目标用户与所有用户的相似度值,找出最为相似的用户集,选择对目标项目评过分且相似度最大的前k个用户作为目标用户的邻居集。

通过评分预测公式计算出未评分项目评分。

常用的相似度计算方法包括余弦相似性[10]、Pearson相关相似性以及修正的余弦相似性[10]。

这里采用Pearson相关相似性进行计算。

Pearson相关相似性公式如下:1.2 各项填充值的计算以及混合加权方法可采用填充值的办法解决矩阵稀疏的问题。

考虑到单独值的填充过于单一且不具有代表性,则采用三种值混合填充,这里采用每行和每列的平均值、众数值以及中位数值混合,这三个值分别用Fa,Fp,Fm表示。

(假设用户u没有对项目v评过分,Iu表示已被用户u评过分的项目,而Uv表示已被评过分的用户集合)(1)评分矩阵行和列的平均值计算(4)混合加权值计算过于单一的值不具有代表性,相比单独值,混合所有值考虑到了三种值的所有情况,更具说服力。

在用户-项目评分矩阵中将评分矩阵计算的三种值[11](平均值,众数,中位数)全部分配一定的权值(权值都小于1),即α,β,χ且α+β+χ=1,各种权值的大小取决于单独填充实验的准确度。

混和加权填充值的计算公式如下:1.3 用户喜好相似度的概述单独的矩阵填充能够缓解数据的稀疏性,但填充值并未考虑到用户的兴趣,无法体现个性化用户的偏好程度。

因此,为拟补填充值缓解用户数据稀疏带来的用户个性化问题的不足,引入了用户-项目属性的兴趣相似度。

可以通过统计用户评价的项目属性次数之和来定义用户-项目兴趣的程度。

例如,一个人看过很多电影(一部电影包含不止一个属性),如果想对这个人看过的爱情属性的电影进行统计,那么就可以从评价过的电影中包含爱情属性的次数来衡量这个人对爱情电影的偏好程度,次数越高代表兴趣程度越大。

建立一个兴趣矩阵sm×k,用以表示用户对各项目属性的感兴趣程度。

其中:Cuv表示用户u和用户v评价过的所有项目属性的集合,tu,c表示用户u评价的项目包含属性c的总次数,tv,c表示用户v评价过的项目包含属性c的总次数,和分别表示用户u和用户v评价所有项目属性次数的平均值。

2 改进的协同过滤推荐算法2.1 相似度融合由(1)式可知用户评分的相似性,用户评分相似度用simR(u,v)表示,而用户对项目属性偏好相似度用(8)式的simI(u,v)表示,将这两种相似度融合得到最终相似度sim (u,v),这里引入一个权重参数w,。

sim(u,v)=wsimI(u,v)+(1-w)simR(u,v)(9)2.2 混合加权填充和用户兴趣相结合的协同过滤推荐算法流程输入用户评分信息,项目评分矩阵R={rij}m×n,项目属性矩阵sm×k,邻居数目k,输出目标用户的预测评分。

算法简要的步骤如下:(1)通过扫描用户评分矩阵R={rij}m×n,计算行和列的平均值、众数、中位数等值,依次添加到空缺值部分,形成对应的伪矩阵。

(2)在形成的伪矩阵上利用式(1)计算与目标用户的相似度值,根据设定邻居数目k选出各邻居集合。

(3)利用评分预测式(2)在原矩阵上预测根据设定的k个邻居用户预测目标用户评分,根据MAE比较各项填充实验的精度大小。

(4)根据步骤(3)得到的实验结果,分配三种值的权重,利用式(6)计算得到混合加权值,再重复步骤(2)得到用户评分相似度值和邻居集。

(5)扫描项目属性矩阵sm×k,利用式(8)计算用户间的偏好相似度值。

(6)融合步骤(4)和步骤(5)计算的相似度值(融合参数实验部分包括如何选取)。

(7)重复步骤(3)得到预测评分以及MAE值。

3 实验结果与分析3.1 实验所用的数据集采用著名的Movielens数据集[12]进行实验,该数据集可以在线获得,它提供了用户信息表、电影信息表和评分信息表。

用户信息表包含用户的年龄、国籍、性别等,评分信息表包括943位用户、1 682部电影以及100 000条评分,评分范围为1~5分,电影信息表包含电影的发布时间以及电影类型等。

每个用户至少对20部电影有过评分。

我们用x表示该数据集稀疏程度:x=1-100 000/(943×1 682)=0.936 9。

将数据集随机分为训练集和测试集,比例为4∶1。

训练集用来进行算法实验与预测估算,测试集用来比对预测估算的结果。

3.2 实验评估标准本实验为验证混合加权填充值,结合用户喜好的改进算法的推荐效率比未填充以及单独填充的传统协同过滤推荐效率高,采用平均绝对误差(MAE)衡量其推荐精度。

这种衡量推荐精度的办法比较容易理解,其实质是计算预测值和真实值之间的平均偏差。

用pi表示预测值,qi表示真实值,那么MAE的表达式如下:平均绝对误差值越小,推荐的结果就越准确,推荐算法性能就越好。

3.3 实验结果3.3.1 混合加权填充值α,β,χ的确定为确定混合加权填充值权值关系的大小,可分别进行单独的填充实验,即平均数、众数、中位数填充实验。

为保证实验的准确性,可采用多次实验得到的MAE计算平均值(即5-交叉测试方法)。

邻居集的大小从5增加到40,比较三种填充值实验得出的推荐精度的大小关系,精度越好给它的混合权重就越大。

实验采用Person相关相似性在各填充后的伪矩阵上计算相似度,评分预测在原矩阵上进行。

实验结果如图1所示。

观察图1可知,平均数、众数、中位数作为填充值会生成不同的伪矩阵,并以伪矩阵作为信息矩阵,计算各用户的相似度,然后,在原矩阵上进行评分预测。

实验结果表明,相比较传统的协同过滤算法,三种填充实验均有效改善了推荐精度,并且可知,选择中位数填充得到的推荐精度依次好于众数和平均数填充。

因此,对于混合加权填充权重的大小关系有χ>β>α>0,且,这三种填充值均满足式(6)条件。

3.3.2 相似度融合参数ω的确定式(9)中的相似度参数ω会直接影响最终相似度值的大小,即最终的推荐质量。

为确保融合参数的可靠性,将数据集按1∶4的比例随机分成两组不同的测试集和训练集,分别用D1和D2表示。

分别在D1和D2数据集上进行仿真实验,将最近邻居用户数k设为15,25,35,参数ω的步长设为0.1,,实验同样采用5-交叉测试方法,取5次测试实验的平均值作为最后结果。

D1数据集上MAE的仿真结果如图2所示,D2数据集上MAE的仿真结果如图3所示。

从图2和图3 可知,不同的用户邻居集影响最终的平均绝对误差,当实验中邻居集中的用户个数为35时,相比邻居用户个数为15或25的情况,可取得较精确的推荐结果。

同时从两组图中可以观察到,当相似度融合因子为0.3时,推荐系统的MAE取得最小值,表明最合适的相似度融合参数为0.3。

因此对于式(9),在用户总的相似度计算过程中,用户评分相似度所占的权重为0.7,用户兴趣相似度权重为0.3。

相关文档
最新文档