一种结合主题模型的推荐算法

合集下载

十大经典大数据算法

十大经典大数据算法

十大经典大数据算法大数据算法是指应用于大规模数据集的算法,旨在从这些数据中提取有价值的信息和洞察力。

下面是十大经典大数据算法的介绍:1. MapReduce算法:MapReduce是一种用于处理大规模数据集的编程模型,它将任务分成多个子任务并在分布式计算环境中并行执行。

这种算法在Google的大数据处理框架Hadoop中得到广泛应用。

2. PageRank算法:PageRank是一种用于评估网页重要性的算法,通过分析网页之间的链接关系来确定网页的排名。

它在谷歌搜索引擎的排名算法中起到了重要作用。

3. Apriori算法:Apriori算法用于挖掘关联规则,通过发现数据集中的频繁项集来识别项目之间的关联。

该算法在市场篮子分析和推荐系统中有广泛应用。

4. k-means算法:k-means算法是一种聚类算法,用于将数据集划分为k个不重叠的簇。

该算法在数据挖掘和图像分析中常用于聚类分析。

5. 随机森林算法:随机森林是一种集成学习算法,通过构建多个决策树并对它们的结果进行投票来进行分类或回归。

该算法在数据挖掘和机器学习中常用于分类和预测问题。

6. SVM算法:支持向量机(SVM)是一种监督学习算法,用于进行分类和回归分析。

它通过构建一个最优的超平面来将不同类别的样本分开。

7. LDA算法:潜在狄利克雷分配(LDA)是一种用于主题建模的生成模型,用于从文本数据中发现隐藏的主题结构。

该算法在自然语言处理和信息检索中有广泛应用。

8. 特征选择算法:特征选择是一种用于从数据集中选择最相关特征的方法。

常用的特征选择算法包括信息增益、卡方检验和互信息等。

9. 随机梯度下降算法:随机梯度下降是一种用于优化模型参数的迭代优化算法。

该算法通过计算损失函数的梯度来更新模型参数,从而最小化损失函数。

10. 奇异值分解算法:奇异值分解(SVD)是一种矩阵分解方法,用于降低数据维度和提取数据的主要特征。

该算法在推荐系统和图像处理中常用于降维和特征提取。

主题建模算法

主题建模算法

主题建模算法主题建模是一种在自然语言处理领域中常用的技术,它旨在从大规模文本数据中发现潜在主题并进行建模分析。

主题建模算法能够为我们理解文本数据提供重要线索和洞察,并在信息检索、推荐系统、情感分析等应用中发挥关键作用。

本文将介绍主题建模算法的背景、常见方法以及应用。

背景:主题建模算法诞生于20世纪90年代,最早由David Blei等人提出。

其背后的理论基础是概率图模型,其中最具代表性的是潜在狄利克雷分配(Latent Dirichlet Allocation,简称LDA)模型。

LDA模型将文本看作是由多个主题组成的混合物,每个主题又由一系列词语组成。

通过推断模型参数,可以揭示文本数据中的主题结构。

常见方法:除了LDA模型,主题建模还有其他一些常见方法,如隐含语义分析(Latent Semantic Analysis,简称LSA)和非负矩阵分解(Non-negative Matrix Factorization,简称NMF)。

LSA通过对文本矩阵进行奇异值分解来提取主题信息,而NMF则将文档词频矩阵分解为非负的文档-主题矩阵和主题-词语矩阵,从而得到主题表示。

应用:主题建模算法在诸多领域具有广泛应用。

在信息检索领域,主题建模可以用于提高搜索引擎的相关性排序。

通过将用户查询与文本集合中的主题进行匹配,能够更好地理解用户需求并返回相关的文档。

在推荐系统中,主题建模可以用于分析用户兴趣和行为,从而实现个性化推荐。

此外,主题建模还可以应用于情感分析和舆情分析等领域,帮助了解和挖掘文本中的情感或意见。

主题建模算法的优势在于能够发现并表示潜在的主题结构,而不依赖于人工标注的训练数据。

同时,它还能够处理大规模的文本数据,为大数据时代的文本挖掘提供了有力工具。

然而,主题建模算法也存在一些挑战和限制。

例如,对于复杂的主题结构,模型可能存在无法准确表示的问题;对于稀疏的词语频率分布,模型可能无法准确地挖掘主题。

综上所述,主题建模算法是一种在自然语言处理中应用广泛的技术。

融合网络图模型和排序模型的论文个性化推荐算法

融合网络图模型和排序模型的论文个性化推荐算法

本节首先介绍UAMQ模型构建,然后介绍如何
42
ห้องสมุดไป่ตู้
2019.2数据通信
技术交流| /
Technology Discussion IX
采用重启随机游走算法推荐相关论文,最后介绍如何 利用相关信息对相关论文进行排序生成Top- N推荐 列表。本文涉及到的主要符号及其含义如表1所示。
表!符号与含义
符号
含义
G U, ui A, Ai
表示UAMQ图模型 用户集合,第i个用户 论文集合,第i篇论文
M, M
UAMQ的邻接矩阵,RWR的转移概率 矩阵
PE
第i篇论文的影响因子
Quality (i),Qi
第i篇论文的质量权重
Topical)
第i篇论文的主题热门度
2.1 UAMQ模型构建 本文将学术论文推荐问题转换为网络图模型中寻
找相似顶点的问题。首先构建合适网络图模型。用户 和学术论文表示模型中不同的顶点集合,利用阅读关 系可以构造成简单的二部图,然后在二部关系图模型 的基础上添加顶点关系和论文顶点权重 , 构造
存在质量一般和用户满意度低的问题。
在学术领域进行推荐,不同身份的用户对不同类
型论文的需求是不同的。
,对
学者而,
“ 文”
理解究领域;对一
般用户而,应该为 推荐与兴趣和究方向类似
的高质量的论文或沿进;对
而,为
推荐的学术资源需要 重该领域的沿进,或者
推荐 相关领域的高质量的
果。但是传统的
究 用户的身份等同处理了,这是 学术推
方式, 得重 随
法结
论文
重进行 ; (2)
需求

( Need -Rank, NRank), 相似度、 质量和 题 度

融合评论主题分布和情感评分的多样性信息推荐方法郭旭旺

融合评论主题分布和情感评分的多样性信息推荐方法郭旭旺

融合评论主题分布和情感评分的多样性信息推荐方法郭旭旺发布时间:2023-05-11T03:23:48.134Z 来源:《中国科技信息》2023年5期作者:郭旭旺[导读] 互联网上信息体量的爆炸式增长,人类早已从信息匮乏的时代进入到信息过载的时代,推荐技术已经成为当代为用户提供多样化服务的关键技术手段。

由于消费者对商品多元化的高需求,多样性推荐方法开始逐渐进入人们的视野。

广东工业大学管理学院广东广州 510520摘要:互联网上信息体量的爆炸式增长,人类早已从信息匮乏的时代进入到信息过载的时代,推荐技术已经成为当代为用户提供多样化服务的关键技术手段。

由于消费者对商品多元化的高需求,多样性推荐方法开始逐渐进入人们的视野。

针对现有的基于重排序的多样性推荐方法中,诸如数据不可靠、损失准确率以提高多样性等问题,本文提出了融合评论主题分布和情感评分的多样性推荐方法。

首先,通过情感挖掘技术改善评分差异性;然后,挖掘项目的多维特征构建综合项目相似度;最后,融合用户兴趣分布进行重排序,计算用户的项目推荐列表。

在豆瓣影评的真实可靠数据集上的实验表明,与基准方法相比,本文方法在保证准确率的同时,提升了推荐多样性和覆盖率。

关键词:推荐系统;协同过滤;多样性;情感分析;兴趣挖掘中图分类号:TP182,G2031 引言最近十多年间,经过理论和技术的飞速发展,关于推荐系统的研究已经取得了质的飞跃,但是目前大部分相关研究都是围绕如何提高推荐准确率,而没有考虑推荐结果排序是否合理、是否会提高用户的满意度以及是否会为企业产生增益。

HuRong等 [1]对推荐多样性和用户满意度之间的关系进行了实证研究,相关结果表明,推荐列表中的类别多样性与用户感知的系统易用性、感知的系统有用性以及用户对系统的态度显著相关,从而对用户的使用意向产生积极的影响。

这表明推荐准确率并不是提升用户对推荐产品满意度的唯一指标,推荐多样性也是影响用户满意度的关键指标之一。

lda算法案例

lda算法案例

lda算法案例一、引言随着互联网的迅速发展和信息爆炸式增长,如何从大量的文本数据中提取出有用的信息成为一项重要的任务。

主题模型是一种常用的文本挖掘方法,它可以自动地从文本中发现潜在的主题,并将每个文档分配到这些主题中。

LDA(Latent Dirichlet Allocation)是主题模型中最经典的算法之一,本文将以LDA算法为例,介绍其原理和应用案例。

二、LDA算法原理LDA算法是一种无监督学习方法,其基本思想是假设每个文档都由多个主题组成,而每个主题又由多个单词组成。

具体来说,LDA算法将文本数据看作是由多个潜在主题的混合生成的,通过统计单词的出现频率来推断出每个文档的主题分布和每个主题的单词分布。

LDA算法的核心是概率模型,其基本假设是:1. 每个主题都对应一个单词的概率分布;2. 每个文档都由多个主题的概率分布混合生成;3. 每个单词都由某个主题生成。

三、LDA算法应用案例1. 新闻主题分析假设我们有一批新闻文本数据,我们希望从中提取出不同的主题,如体育、政治、经济等。

通过LDA算法,我们可以分析每篇新闻文本的主题分布,从而了解不同主题在新闻中的权重和分布情况,为后续的新闻分类、推荐等任务提供基础。

2. 社交媒体舆情分析社交媒体上的文本数据量庞大,通过LDA算法可以将这些文本数据分解成不同的主题。

例如,我们可以分析微博上的话题分布,从而了解用户的关注点和兴趣爱好,为企业的市场调研和产品推广提供参考。

3. 产品评论分析在电商平台上,用户对产品的评价是非常重要的信息。

通过LDA算法,我们可以将产品评论分解成不同的主题,了解用户对产品的不同方面的评价,如外观、性能、价格等,从而为产品改进和市场定位提供指导。

4. 学术文献主题挖掘在学术领域,研究者们需要从大量的学术文献中了解最新的研究动态。

通过LDA算法,可以将学术文献分解成不同的主题,从而了解不同领域的研究热点和趋势,为研究者提供参考。

5. 情感分析情感分析是指通过分析文本中的情感色彩,如正面、负面或中性情感,来了解用户对某个产品、事件或话题的态度和情感倾向。

基于主题模型的文本数据挖掘与分析研究

基于主题模型的文本数据挖掘与分析研究

基于主题模型的文本数据挖掘与分析研究随着互联网的普及,人们创造的内容越来越丰富,而其中最重要的一种就是文本数据。

然而,文本数据的数量如此之大,如果仅仅依靠人力去挖掘、分析这些数据,那么时间和精力都无法承受。

于是,研究如何利用计算机技术快速高效地挖掘、分析文本数据便成了一个热门的研究领域。

而本文将聚焦于基于主题模型的文本数据挖掘与分析研究,探讨其原理和应用。

一、主题模型主题模型是一种文本分析方法,它旨在从大量文本数据中发掘出主题,并给出这些主题的一种概率分布。

其核心思想是:认为文本数据中的每一个单词,都是由某个主题随机生成的一种词语。

而一个文档内的所有单词,则是由一组主题组合而成的。

如此一来,便可以通过计算每个主题所包含的单词概率来确定文档涉及到的主题。

主题模型不仅可以用于挖掘文本数据中的主题,还可以用于文本分类、推荐系统、情感分析等研究领域。

二、主题模型的算法主题模型的算法有很多种,其中最常见的是LDA(Latent Dirichlet Allocation)算法。

LDA算法可以将每一个文档看做一个生成模型,并且认为每个文档都是通过随机选取若干主题的方式生成的。

同时,每个主题又是由一些词共同组成的。

接着,在给定一些文档的基础上,对于每一个单词,通过计算它属于每个主题的概率,来推断出每个文档的主题分布和所有主题的单词分布。

LDA算法的优点在于,能够自动提取出文本中的主题,并且可以有效地处理高维稀疏数据。

三、主题模型的应用主题模型在很多领域都有着广泛的应用。

首先,它可以用于文本分类。

在这种情况下,我们需要先训练一个主题模型,并将不同类别的文本分别赋予不同的主题。

之后,我们可以将新来的文本分别与这些主题进行比较,从而将其分类到相应的类别中去。

其次,主题模型可以用于推荐系统。

假设我们想为某个用户推荐一些文档。

在这种情况下,我们可以先利用主题模型,将每个文档分别属于哪些主题进行统计。

之后,我们可以找到该用户经常浏览的主题,并为他推荐那些与这些主题相关的文档。

lda算法案例

lda算法案例

lda算法案例一、什么是LDA算法LDA(Latent Dirichlet Allocation)是一种文本主题模型,用于从大规模文本语料库中发现隐藏的主题结构。

它基于概率图模型,将文档看作是主题的混合,每个主题又由单词的分布组成。

LDA算法可以帮助我们理解文本数据中的主题关联,从而实现文本分类、信息检索等应用。

二、LDA算法的原理LDA算法的核心思想是假设每个文档都由多个主题组成,每个主题又由多个单词组成。

LDA算法的目标是通过观察文档中的单词分布来推断主题的分布。

具体地,LDA算法的过程如下:1.初始化:设定主题数量K和每个主题的单词分布。

2.对于每个文档d中的每个单词w:–以一定的概率选择一个主题z,并从该主题的单词分布中选择一个单词w。

–更新主题z的单词分布和文档d中的主题分布。

3.重复步骤2,直到达到收敛条件。

三、LDA算法的应用场景LDA算法在自然语言处理领域有广泛的应用,例如:1. 文本分类LDA算法可以将文本数据转化为主题分布向量,从而实现文本分类。

通过计算文档与各个主题之间的相似度,可以将文档分到最相关的主题类别中。

2. 信息检索LDA算法可以用于信息检索,帮助用户快速找到相关的文档。

通过对用户查询进行主题建模,可以将查询与文档的主题向量进行匹配,从而得到相关的文档列表。

3. 推荐系统LDA算法可以用于推荐系统,帮助用户发现与其兴趣相关的内容。

通过对用户历史行为进行主题建模,可以将用户的兴趣与文档的主题进行匹配,从而实现个性化推荐。

4. 文本生成LDA算法可以用于生成新的文本内容,例如自动生成文章摘要、新闻标题等。

通过对主题分布进行采样,可以生成具有一定主题结构的文本。

四、LDA算法案例分析下面以一个新闻主题分类的案例来说明LDA算法的应用。

1. 数据准备我们收集了一批新闻文章,并对其进行了预处理,包括分词、去停用词等操作。

2. 模型训练使用LDA算法对预处理后的新闻文章进行建模。

无监督学习方法在推荐系统中的应用研究

无监督学习方法在推荐系统中的应用研究

无监督学习方法在推荐系统中的应用研究推荐系统是一种基于用户个性化需求和兴趣的信息过滤系统,它通过分析用户的历史行为、个人喜好以及其他辅助信息,来为用户提供个性化的推荐结果。

在推荐系统中,无监督学习方法被广泛应用,以帮助解决信息过载和信息过滤的问题。

本文将探讨无监督学习方法在推荐系统中的应用研究。

一、无监督学习方法简介无监督学习是一种机器学习的方法,其目标是从无标签的、未知的数据中发现模式和结构。

相对于监督学习需要有带有标签的数据进行训练,无监督学习不需要标签信息,从而更适用于推荐系统中的信息过滤任务。

在推荐系统中,无监督学习方法可以帮助挖掘用户和物品之间的隐藏关系,发现潜在的用户兴趣和物品特征,从而更准确地进行推荐。

二、基于聚类的推荐算法聚类是无监督学习中常用的方法之一,它可以将相似的用户或物品归为一类。

在推荐系统中,基于聚类的算法能够将用户和物品进行分类,从而将相似用户或物品之间的关系进行发现和挖掘。

通过聚类算法,推荐系统可以根据用户的历史行为和个人喜好,将用户分组为相似的群体,并针对不同群体进行不同的推荐策略。

同时,聚类算法还可以根据物品的特征和属性,将物品进行分类,从而为用户推荐具有相似特征的物品。

三、基于主题建模的推荐算法主题建模是一种无监督学习的方法,它可以从文本数据中发现潜在的主题或话题。

在推荐系统中,主题建模能够分析用户对文本信息的兴趣和偏好,从而为用户提供更加个性化的推荐结果。

通过主题建模算法,推荐系统可以将用户的文本数据进行分析,提取出用户的兴趣主题和关键词,并将用户归入不同的文本主题群体。

然后,推荐系统可以根据不同的主题群体为用户推荐相关的主题内容。

四、基于隐因子模型的推荐算法隐因子模型是一种无监督学习的方法,它通过将用户和物品映射到低维的隐空间中,从而将用户的兴趣和物品的特征进行表示。

在推荐系统中,隐因子模型能够将用户和物品之间的关系进行潜在因子的挖掘和建模,从而进行个性化的推荐。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
—————————— 收稿日期:2017-12-19;修回日期:2018-02-06
作者简介:曹占伟(1992-) ,男,四川达川人,硕士研究生,主要研究方向为推荐算法、云计算(530702649@) ;胡晓鹏(1972-) ,男,陕西中人, 副教授,博士,主要研究方向为软件架构、分布式云.
I1 I2 I3 … In F1 Y11 Y21 Y31 … Yn1
表3 F2 Y12 Y22 Y32 … Yn2
稠密矩阵 Y F3 Y13 Y23 Y33 … Yn3 … … … … … … Fk Y1k Y2k Y3k … Ynk
ALS 矩阵分解的目的是将 User 和 Item 映射到一个维度为 k(k<<m、n)的隐式空间,这样 User 对 Item 的评分就可以通 过隐式空间矩阵建模。ALS 算法求解矩阵 X 和 Y 方法如算法 1。 算法 1 ALS 矩阵分解算法
本隐式主题挖掘的有效性和 KL 散度在主题分布相似性度量的准确性,提出了结合 LDA 主题模型的矩阵分解推荐算 法。首先,利用改进的 LDA 算法输出项目-主题分布,并用困惑度作为主题数设置的修正函数;然后分别基于余弦相 似度和 KL 散度计算得到项目相似度矩阵,将得到的相似度矩阵结合原评分训练集输出预评分,再将预评分填充到训 练集;最后将训练集输入 ALS 矩阵分解算法得到推荐结果。通过 MovieLens 数据集的实验结果表明,该算法在不同隐 式参数设定下均能得到比 ALS 推荐算法以及更小的预测误差,并且最优预测误差小于传统推荐算法。该实验说明了通 过集成 LDA 主题模型的 ALS 算法效果要优于其他推荐算法。 关键词:推荐算法;矩阵分解;隐式狄利克雷分布;KL 散度;主题模型 中图分类号:TP301.6 doi: 10.3969/j.issn.1001-3695.2017.12.0811
0
引言
随着互联网的飞速发展,各大电商网站的数据呈现井喷式
对高阶评分矩阵进行降维,缓解了数据稀疏的问题,但是由于 计算复杂度过高以及存在冷启动问题,在商业领域运用并不广 泛。Rahul 等[4]提出利用 K-Means 算法对用户进行聚类以减小 邻居搜索空间,该法考虑到了用户对项目属性的偏好, 推荐效果 Maryam 等人[5] 优于传统推荐算法,但是依然存在冷启动问题。 针对用户兴趣的动态性,提出了 PIDFAR ( potential interest discovery method based on fuzzy association rules)方法。该算法 结合 LDA(latent dirichlet allocation ) ,通过模糊关联规则挖掘 出兴趣-时间模型, 再根据关联规则和主题分布计算项目相似度。 该算法在准确率上优于传统推荐算法并缓解了冷启动问题,但
的增长,为满足用户在海量信息中进行有效选择的需求,推荐 系统应运而生,而推荐算法[1]又是推荐系统的精髓。 主流推荐算法主要包括协同过滤推荐算法、基于内容的推 荐、 关联规则以及混合推荐方法。 其中, 协同过滤推荐算法 [2]由 于具有可利用用户行为数据和基于群体智慧的优势,在当前电 商系统中应用最广泛。Zhengzheng 等人[3]提出了一种奇异值分 解(singular value decomposition, SVD)的协同过滤算法,该法
第 36 卷第 6 期 优先出版
计算机应用研究 Application Research of Computers
Vol. 36 No. 6 Online Publication
一种结合主题模型的推荐算法
曹占伟,胡晓鹏
(西南交通大学 信息科学与技术学院, 成都 611756) 摘 要:针对传统协同过滤推荐算法存在的冷启动、数据稀疏以及相似度度量的准确性问题,基于 LDA 主题模型对文
————————————————————————————————————————————————
一种结合主题模型的推荐算法
作者 机构 DOI 预排期卷 摘要 曹占伟,胡晓鹏 西南交通大学 信息科学与技术学院 10.3969/j.issn.1001-3695.2017.12.0811 《计算机应用研究》 2019 年第 36 卷第 6 期 针对传统协同过滤推荐算法存在的冷启动、 数据稀疏以及相似度度量的准确性问题, 基于 LDA 主题模型对文本隐式主题挖掘的有效性和 KL 散度在主题分布相似性度量的准确性,提出了 结合 LDA 主题模型的矩阵分解推荐算法。首先,利用改进的 LDA 算法输出项目-主题分布, 并用困惑度作为主题数设置的修正函数;然后分别基于余弦相似度和 KL 散度计算得到项目 相似度矩阵, 将得到的相似度矩阵结合原评分训练集输出预评分, 再将预评分填充到训练集; 最后将训练集输入 ALS 矩阵分解算法得到推荐结果。通过 MovieLens 数据集的实验结果表 明,该算法在不同隐式参数设定下均能得到比 ALS 推荐算法以及更小的预测误差,并且最优 预测误差小于传统推荐算法。该实验说明了通过集成 LDA 主题模型的 ALS 算法效果要优于 其他推荐算法。 关键词 作者简介 推荐算法;矩阵分解;隐式狄利克雷分布;KL 散度;主题模型 曹占伟( 1992- ) ,男,四川达川人,硕士研究生,主要研究方向为推荐算法 、 云计算 (530702649@) ;胡晓鹏(1972-) ,男,陕西中人,副教授,博士,主要研究方向为 软件架构、分布式云. 中图分类号 访问地址 投稿日期 修回日期 发布日期 TP301.6 /article/02-2019-06-020.html 2017 年 12 月 19 日 2018 年 2 月 6 日 2018 年 3 月 16 日
1.1 ALS 算法 协同过滤算法中用户对物品的评分可以表示成一个评分矩 阵 R(m*n),其中元素 Rij 表示索引号为 i(0<i<=m)的用户对索 引号为 j(0<j<=n)的物品的评分,如表 1 所示。 在推荐系统中用户对项目的评分往往低于 5%[8] ,例如 MovieLens 数 据 集 的 稀 疏 度 是 4.5% , Netflix 是 1.2% , Bibsonomy 是 0.35%,Delicious 是 0.046%。因此表 1 所示的评 分矩阵中的大多数元素往往为空。本文称这些空值为缺失值 (Missing Value) 。推荐系统中往往需要得到某用户对所有物品 的评分,假设 R22 为缺失值,则就需要通过某些方法预测 U2 对 I2 的评分,即“矩阵补全(填充) ” 。 ALS 矩阵补全即通过交替最小二乘法 来填补评分矩阵。 ALS 算法的核心基于以下假设:评分矩阵 R 是近似低秩的,也 就是说一个 m*n 的评分矩阵 R 可以用两个小稠密矩阵 X (m*k) 和Y (n*k) 的乘积来近似表示, 如表 2 和表 3 所示, 其中 R≈XYT, k<<m、n,k 为隐式因子。
一种结合主题模型的推荐算法 ———————————————————————————————————————————————— 引用格式 曹 占 伟 , 胡 晓 鹏 . 一 种 结 合 主 题 模 型 的 推 荐 算 法 [J/OL]. 2019, 36(6). [2018-03-16]. /article/02-2019-06-020.html.
优先出版
曹占伟,等:一种结合主题模型的推荐算法
第 36 卷第 6 期
对数据稀疏问题未能深入讨论。 Zhou 等人[6]在 NetFlix 大赛中首次提出了基于交替最小二 ALS) 乘法 (alternating least squares, 的矩阵分解协同过滤算法。 该方法在多用户、多项目以及稀疏数据的情况下优于经典的协 同过滤算法,并在大赛中取得优异成绩,但是该法并未过多考 虑新用户或新项目动态加入的因素,依然存在冷启动问题。 针对上述不足, 本文提出了基于主题模型的 ALS 矩阵分解 算法 LDA-IT-ALS(LDA insert to ALS ) 。该方法运用 LDA 主 题模型[7]将项目属性映射成输入文档, 通过 LDA 算法输出项目 之间的主题分布,进而得到相似度矩阵,然后通过此矩阵与原 评分矩阵进行联合操作得到预评分,再将预评分填充到源矩阵 ALS 算法缓解了数据稀 中, 最后通过 ALS 算法得到推荐结果。 疏问题,本文算法在此基础上结合主题模型进行数据填充缓解 了冷启动问题,并进一步缓解了数据稀疏问题,通过多次实验 证明了本文方法能得到更低的预测误差。
a )定义损失函数 C
( i , j )R
r
i, j
xiT y j xi
22Biblioteka yj2 ,
1
ALS 矩阵分解算法与 LDA 主题模型
其中 ri,j 代表初始评分矩阵中用户 i 对项目 j 的评分,xi 为 X (m*k)的第 i 行的一个列向量,yj 为 Y(n*k)的第 j 行的一 个列向量,λ 为正则化参数; b)随机生成一个 X(0),一般可以取 0 值或者全局均值; c)固定 X(0),即将 X(0)当作常量,求解 Y(0);此时的损失 函数为 C
Recommendation algorithm combining theme model
Cao Zhanwei, Hu Xiaopeng
(1. School of Information Science & Technology, Southwest Jiaotong University, Chengdu Sichuan 611756, China) Abstract: In order to solve the problem of cold start and data sparsity for traditional collaborative filtering recommendation algorithm, and the accuracy of similarity measurement, this paper proposed a matrix decomposition recommendation algorithm based on the LDA theme model. Firstly, it uses the improved LDA algorithm to output the project-topic distribution, using the perplexity as the modified function of the subject number; Secondly, it calculate the similarity matrix of the project based on the cosine similarity and the KL divergence, combineing the obtained similarity matrix with the original scoring training set to output the pre score, and then fills the preliminary score to the training set. Finally, it input the training set to ALS matrix decomposition algorithm to get the recommended results. The experimental results of the MovieLens data set show that the proposed algorithm can get a smaller MAE values than the traditional ALS algorithm under different implicit parameter settings and it greater than traditional recommdation algorithm . The experiment shows that the results of the ALS algorithm are better than other algorithms by integrating the LDA theme model. Key words: recommendation algorithm; matrix decomposition; Latent Dirichlet distribution (LDA); KL divergence; theme model
相关文档
最新文档