基于LSH和MapReduce的近邻模型推荐算法_陈佑雄_向_阳_张_骐_等

合集下载

一种改进的 LSH/MinHash 协同过滤算法

一种改进的 LSH/MinHash 协同过滤算法

一种改进的 LSH/MinHash 协同过滤算法卞艺杰;陈超;马玲玲;陈远磊【期刊名称】《计算机与现代化》【年(卷),期】2013(0)12【摘要】近年来很多基于协同过滤的推荐系统得到了成功应用,但随着系统中用户和项目数量的不断增加,相似度计算量剧增,使得协同过滤推荐系统的扩展性问题变得日益突出。

本文提出改进的基于近似最近邻的LSH/MinHash算法,并运用到图书馆资源聚类中,以解决在合理时间复杂度下的高维大数据量聚类问题,降低相似度计算量,提高算法的可扩展性。

实验表明此算法有较高的效率与精度。

%In recent years , many collaborative filtering-based recommender systems have been successfully applied , but with the increasing number of system users and projects , the amount of similarity calculation increases sharply , collaborative filtering rec-ommendation system scalability issues become increasingly prominent .This paper puts forward a LSH/MinHash algorithm based on the approximate nearest neighbor , and applies it to the clustering of library resources , for solving the problem of high dimen-sion and a amount of data cluster in the complexity under reasonable time .It reduces the amount of similarity calculation , im-proves the scalability of the algorithm .Experiments show that this algorithm is of higher efficiency and accuracy .【总页数】5页(P19-22,26)【作者】卞艺杰;陈超;马玲玲;陈远磊【作者单位】河海大学商学院,江苏南京 210098;河海大学商学院,江苏南京210098;河海大学商学院,江苏南京 210098;河海大学商学院,江苏南京210098【正文语种】中文【中图分类】TP301.6【相关文献】1.一种改进Minhash的分布式协同过滤推荐算法 [J], 吴博文;陈曦2.一种改进相似度的协同过滤算法 [J], 于金霞;臧利明;王俊峰;汤永利3.一种基于MinHash的改进新闻文本聚类算法 [J], 王安瑾4.一种改进相似度的协同过滤算法实现 [J], 许凤翔5.协同过滤算法中一种改进相似度度量的方法 [J], 连自建因版权原因,仅展示原文概要,查看原文内容请购买。

基于SVD与层次聚类的协同过滤推荐算法实现

基于SVD与层次聚类的协同过滤推荐算法实现

基于SVD与层次聚类的协同过滤推荐算法实现作者:徐泽兵王忠来源:《数字技术与应用》2018年第01期摘要:在如今这个信息爆炸的时代,我们要面对“信息过载”这一难题;以个性化推荐技术为核心的推荐系统有效的解决这一问题,其中协同过滤算法是目前应用最广泛也是最成熟的个性化推荐技术。

基于此,本文提出一种基于SVD与层次聚类中的BIRCH算法来实现协同过滤算法。

该算法在MovieLens数据集上的实验数据表明该算法有效的提高了推荐的质量。

关键词:个性化推荐;SVD;BIRCH算法中图分类号:TP312 文献标识码:A 文章编号:1007-9416(2018)01-0130-02最近几年,协同过滤算法[1]是比较成功并具有代表性的推荐算法,目前协同过滤算法大致分为两类:一是基于内存的协同过滤算法;二是基于模型的协同过滤算法。

本文针对数据的稀疏性、可扩展性等问题提出了基于奇异值分解与BIRCH层次聚类算法[2]的协同过滤算法。

并且使用物理学上的能量守恒定律来确定SVD在降维时保存尽可能多的信息。

使用BIRCH聚类算法缩小查询最近邻时的范围。

实验表明,本文算法能够提高推荐质量。

1 传统的基于用户的协同过滤算法在传统的基于用户的协同过滤算法中,我们完成推荐的过程一般分为下面几个步骤:第一:构建评分矩阵:第二:计算相似度,确定K个最近邻;第三:完成预测评分,实现推荐。

因此我们完成的推荐的第一步就是对数据进行初始化,构建评分矩阵。

1.1 数据初始化将用户集及评分项目集合构造出一个评分矩阵,其中代表有m个用户,代表有n个项目,表示用户对项目的评分值。

1.2 获取最近邻集合基于用户的协同过滤算法完成推荐功能的第二步是为目标用户找到最近邻的集合,最近邻集合的确定是通过计算相似度来确认的,皮尔森相关系数在计算相似度时更加的准确,设来表示用户u与v之间的相似度,公式如下:2 基于SVD与BIRCH层次聚类的协同过滤算法在本节中将对本文提出的改进算法进行详细叙述,本算法的主要思想为:首先,通过奇异值分解对原始的用户评分矩阵进行预处理:构造出用户相关矩阵;其次,利用BIRCH算法进行归类,形成K个用户簇;之后根据目标用户确定目标簇并确定最近邻;最后实现top-N推荐。

基于改进LSH的协同过滤推荐算法

基于改进LSH的协同过滤推荐算法

基于改进LSH的协同过滤推荐算法
李红梅;郝文宁;陈刚
【期刊名称】《计算机科学》
【年(卷),期】2015(42)10
【摘要】协同过滤是个性化推荐系统中应用较为成功与广泛的技术之一,影响协同过滤推荐质量的关键在于获取目标用户的k近邻用户,然后基于k近邻对其未评价的项目进行评分预测与推荐.针对用户评分数据的规模大、维度高、高度稀疏以及直接进行相似性度量的实时性差等对推荐性能的影响,提出一种基于LSH的协同过滤推荐算法,并对其进行改进.该算法基于p稳态分布的局部敏感哈希对用户评分数据进行降维与索引,并采用多探寻的机制对其进行改进,缓解多个哈希表对内存的压力,快速获取目标用户的近邻用户集合,然后采用加权方法来预测用户评分并产生推荐.标准数据集上的实验结果表明,该方法能有效克服评分数据的高维稀疏,并在保证一定推荐精度的前提下,大幅度提高推荐效率和降低内存消耗.
【总页数】6页(P256-261)
【作者】李红梅;郝文宁;陈刚
【作者单位】解放军理工大学指挥信息系统学院南京210007;解放军理工大学指挥信息系统学院南京210007;解放军理工大学指挥信息系统学院南京210007【正文语种】中文
【中图分类】TP391.3
【相关文献】
1.基于协同过滤的改进课程推荐算法 [J], 尚立
2.基于改进的BiasSVD和聚类用户最近邻的协同过滤混合推荐算法 [J], 刘超;赵文静;贾毓臻;蔡冠宇
3.基于改进的协同过滤图书推荐算法 [J], 唐高芳
4.基于改进聚类与融合用户属性特征的协同过滤推荐算法 [J], 王汇琳;陈欣
5.基于改进局部敏感哈希的协同过滤推荐算法 [J], 曹界杰;张娟
因版权原因,仅展示原文概要,查看原文内容请购买。

基于Hadoop的新闻推荐算法研究

基于Hadoop的新闻推荐算法研究

基于Hadoop的新闻推荐算法研究发布时间:2023-02-01T05:32:28.525Z 来源:《科学与技术》2022年第16期8月作者:尹铁源张思淇[导读] 随着线上阅读新闻方式的兴起,传统的新闻推荐算法存在着特征稀疏、缺少多样性等问题。

为解决以上问题,本文提出一种基于Hadoop的融合兴趣模型推荐算法。

尹铁源张思淇沈阳工业大学信息科学与工程学院辽宁沈阳 110870摘要:随着线上阅读新闻方式的兴起,传统的新闻推荐算法存在着特征稀疏、缺少多样性等问题。

为解决以上问题,本文提出一种基于Hadoop的融合兴趣模型推荐算法。

首先,考虑特征稀疏问题,将特征词扩展得到兴趣扩展模型,其次,考虑新闻热度和阅读时长对相似度的影响,提出了改进的相似度计算方法,得到用户潜在兴趣扩展模型,最后,将两个模型进行混合得到融合兴趣模型,进行新闻推荐。

实验结果表明,在hadoop中运行改进后的算法,推荐效果有所提升。

关键词:新闻推荐;Hadoop;基于内容的推荐Research on Hadoop-based news recommendation algorithmYIN Tie-yuan, ZHANG Si-qi(School of information science and engineering, Shenyang University of technology, Shenyang, Liaoning 110870)Absrtact: With the rise of online news reading, traditional news recommendation algorithms have some problems, such as sparse features and lack of diversity. To solve the above problems, this paper proposes a Hadoop based fusion interest model recommendation algorithm. Firstly, considering the problem of feature sparsity, the feature words are extended to obtain the interest expansion model. Secondly, considering the impact of news popularity and reading time on the similarity, an improved similarity calculation method is proposed to obtain the user potential interest expansion model. Finally, the two models are mixed to obtain the fusion interest model for news recommendation. The experimental results show that the performance of the improved algorithm in Hadoop is improved.Key words: news recommendation; Hadoop; Content based recommendations1引言随着互联网的崛起式发展,更多的人偏爱于网上阅读新闻报道,但由于网络上新闻报道的数量成千上万,使得用户在海量新闻中陷入迷茫,这就产生了“信息过载”的问题[1]。

一种云计算环境下基于MapReduce的分布式并行文本聚类方法[发明专利]

一种云计算环境下基于MapReduce的分布式并行文本聚类方法[发明专利]

专利名称:一种云计算环境下基于MapReduce的分布式并行文本聚类方法
专利类型:发明专利
发明人:沈晔,周天和,李思剑,任培荣
申请号:CN201710286671.2
申请日:20170427
公开号:CN106971005A
公开日:
20170721
专利内容由知识产权出版社提供
摘要:本发明涉及一种云计算环境下基于MapReduce的分布式并行文本聚类方法,首先利用向量空间模型提出一种文本相似度计算方法;其次,基于“互为最小相似度文本对”搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K‑means聚类算法;最后,基于MapReduce框架面向云计算应用的大规模文本设计出并行聚类方法。

本发明方法在Hadoop平台上运用真实文本数据的实验表明,并行聚类模型在获得相当聚类效果的同时,具有明显效率优势,在不同数据规模和计算节点数目上具有良好的扩展性。

申请人:杭州杨帆科技有限公司
地址:310000 浙江省杭州市西湖区文三路199号创业大厦0666-2室
国籍:CN
代理机构:杭州之江专利事务所(普通合伙)
代理人:张慧英
更多信息请下载全文后查看。

基于深度学习的内容推荐算法研究综述

基于深度学习的内容推荐算法研究综述

协同过滤推荐可以分为基于近邻和基于模型的推荐
方 法 ,是 利 用 用 户 物 品 交 互 数 据(比 如 评 分 数 据)实
现 推 荐(预 测)的 推 荐 方 法 ;混 合 推 荐 是 通 过 组 合 不
同的模型弥补模型之间的缺点来提高整个系统推荐
性 能 的 一 种 方 法[16]。 本 节 主 要 从 推 荐 的 算 法 思 路 、
0 概述
信息网络的迅速发展使得数据规模呈现爆发式
增 长 ,各 种 应 用 软 件(如 电 子 商 务 平 台 等)对 数 据 的 依 赖 性 越 来 越 强[1]。 但 是 ,数 据 的 增 量 超 过 了 平 台 或 系 统 的 承 受 范 围 ,这 种 现 象 被 称 为“ 信 息 过 载 ”问
近 年 来 ,应 用 软 件 的 数 量 呈 现 爆 发 式 增 长 ,滋 生 了越来越多的多源异构数据。这些数据来源多样、 结 构 复 杂 ,传 统 机 器 学 习 方 法 无 法 有 效 地 提 取 其 中 的 表 征 。 面 临 数 据 带 来 的 一 系 列 问 题 ,深 度 学 习 对 多源异构数据表征的充分学习获得了广泛的关注, 迅速成为研究热点之一。深度学习作为前沿技术, 泛指端到端的非线性可微模型。其优势主要体现在 非 线 性 转 换 、深 层 特 征 学 习 、高 弹 性 及 可 用 性 等 3 个 方 面 。 在 学 术 研 究 层 面 ,深 度 学 习 的 快 速 发 展 激 发 了 学 者 对 推 荐 领 域 学 术 研 究 的 兴 趣 ,逐 渐 出 现 了 Wide&Deep[9]、CDL[10]、AutoRec[11]等 经 典 的 深 度 推 荐 模 型 。 在 工 业 应 用 层 面 ,基 于 深 度 学 习 应 用 的 推 荐 算 法 不 断 改 进 与 创 新[12-14],为 各 领 域 的 产 品 提 供 商业化服务。

基于LSH的中文文本快速检索

基于LSH的中文文本快速检索

基于LSH的中文文本快速检索蔡衡;李舟军;孙健;李洋【期刊名称】《计算机科学》【年(卷),期】2009(036)008【摘要】目前,高维数据的快速检索问题已经受到越来越多的关注.当向量空间的维度高于10时,R-tree,Kd-tree,SR-tree的检索效率反而不如线性检索,而位置敏感的哈希(Locality Sensitive Hashing,缩写为LSH)算法成功地解决了高维近邻数据的快速检索问题,因而受到国内外学术界的高度关注.首先介绍了LSH算法的基本原理和方法,然后使用多重探测的方法对二进制向量的LSH算法做了进一步改进.最后实现了这两种LSH算法,并通过详细的实验验证表明:在改进后的算法中,通过增加偏移量可以提高检索的召回率,而在不提高时间复杂度的情况下则可降低空间复杂度.【总页数】5页(P201-204,230)【作者】蔡衡;李舟军;孙健;李洋【作者单位】北京航空航天大学计算机学院,北京,100083;北京航空航天大学计算机学院,北京,100083;新浪网技术(中国)有限公司研发中心-搜索-新技术部,北京,100191;新浪网技术(中国)有限公司研发中心-搜索-新技术部,北京,100191【正文语种】中文【中图分类】TP3【相关文献】1.CB-LSH:基于压缩位图的高性能LSH索引算法 [J], 吴羽;寿黎但;陈刚2.基于E2LSH的特定人物快速检索方法 [J], 赵永威;李弼程;高毫林;李志刚3.M2LSH:基于LSH的高维数据近似最近邻查找算法 [J], 李灿;钱江波;董一鸿;陈华辉4.基于LSH的shapelets转换方法 [J], 丁智慧;乔钢柱;程谭;宿荣5.一种基于LSH技术的链路预测方法 [J], 黄寿孟;夏王霞因版权原因,仅展示原文概要,查看原文内容请购买。

基于MapReduce和HBase的海量网络数据处理

基于MapReduce和HBase的海量网络数据处理

基于MapReduce和HBase的海量网络数据处理景晗;郑建生;陈鲤文;许朝威【摘要】根据ERF数据的特点结合分布式框架Hadoop针对海量数据的计算优势,改进了网络数据的解析模式和数据存储模式,完成了ERF网络数据自动上传.根据XML文件解析多种类型的网络数据、HBase存储数据和HBase数据导入与数据查询的优化等一系列网络数据自动化处理工作.提出了一种新的MapReduce解析二进制数据的算法,该方案有效的解决了MapReduce读取和解析二进制数据的问题,在此基础上实现的海量网络数据处理系统,解析效率较高,数据库存储和查询数据的速度较快,系统自动化运行且稳定性强,有良好的应用前景.【期刊名称】《科学技术与工程》【年(卷),期】2015(015)034【总页数】10页(P182-191)【关键词】MapReduce;HBase;网络数据;分布式计算【作者】景晗;郑建生;陈鲤文;许朝威【作者单位】武汉大学,武汉430072;武汉大学,武汉430072;武汉大学,武汉430072;武汉大学,武汉430072【正文语种】中文【中图分类】TN311.13网络数据通常是人们对数据进行分析和挖掘的原始数据,其数据格式通常是与网络通信协议紧密结合二进制数据,例如PCAP和ERF等。

对网络数据进行分析和挖掘的首要步骤就是二进制数据的解析,即从原始数据中按照一定规则提取出需要的信息,以易读的文本形式或者表格的形式存储。

随着网络应用的飞速发展,网络间传输的数据量极速增长,网络数据解析的工作压力也随之日益增大。

传统的网络数据处理模式在大数据面前已显得力不从心,必须寻求更高效的网络数据计算模式和数据存储模式。

随着分布式平台的快速发展,涌现出许多分布式计算的产品,也带动了基于分布式框架的NoSQL数据库的飞速发展,弥补了传统计算模式的不足。

大数据处理领域和分布式计算领域的融合越来越好,在网络数据的解析方面,亦可以运用分布式计算的思想进行并行计算,整体提高二进制数据解析的效率。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

48
微电子学与计算机
2013 年
CF 最 常 见 的 模 型 是 KNN[3]模 型.KNN 模 型 的核心是 兴 趣 相 似 的 用 户 对 某 一 项 的 评 价 会 差 不 多 ,或 者 比 较 接 近 的 项 得 到 的 评 价 会 差 不 多 .不 管 是 基于用户还 是 基 于 项 的 KNN 模 型 实 现 都 很 简 单, 解释起来很直观.
收 稿 日 期 :2013-02-25;修 回 日 期 :2013-04-23 基金项目:国家自然科学基金 (71171148);国 家 科 技 计 划 课 题 (2012BAD35B01);上 海 市 科 技 创 新 计 划 (11DZ1501703);陈 家
镇 智 慧 社 区 和 智 能合 LSH 和 MapReduce的 KNN 模型
LSH 是一种快速寻找相似数据的办法,这 里 引 入是为了整 合 到 KNN 模 型 中,它 将 能 够 将 相 似 的 用户以一定的概率 散 列 到 相 同 的 同 一 个 桶 中,其 基
本的预测公式如下:
∑ rus =

ui
(u,ui)I珔(ui,s),
户项目的矩阵.这里 每 个 用 户 点 击 的 项 目 以 及 项 目 的个数都很可能不一样,因此需要利用 MinHash的 思想为用户矩阵建 立 一 个 签 名 矩 阵,建 立 签 名 矩 阵 的算法如下:
SIG(i,c)表 示 signature matrix 中 的 第i 行c 列的元素值
对r 行 : 1.Compute h1(r),h2(r),… ,hn(r). 2.For each column c do the following: (a)If c has 0in rowr,do nothing. (b)However,if c has 1in row r,then for each i= 1,2,…,nset SIG(i,c)to the smaller of the current value of SIG(i,c)and hi(r). 通过 MinHash所建 立 的 签 名 矩 阵 保 留 了 原 来 用 户 项 目 矩 阵 的 特 征 ,并 且 将 数 据 变 得 更 规 范 ,对 于 维数高的向量也起到了降维的效果. 下一步利用 LSH 算 法 将 签 名 矩 阵 中 的 向 量 哈 希 到 不 同 的 桶 中 ,其 算 法 如 下 : Preprocessing: 1.Choose L functions gj,j = 1,…,L,by setting gj= (h1,j,h2,j,…,hk,j),where h1,j, … ,hk ,j are chosen at random from the LSH fami- ly H . 2.Construct Lhash tables,where,for each j = 1,…,L,the jth hash table contains the dataset points hashed using the function gj. Query algorithm for a query point q: 1.For each j = 1,2,…,L i)Retrieve the points from the bucket gj(q)in the jth hash table. ii)For each of the retrieved point,compute the distance fromqto it, iii)(optional)Stop as soon as the number of reported points is more than L. 通过这两个步骤即可以将用户哈希到 L 个桶 中,寻找某个用户的 邻 居 只 需 要 遍 历 其 所 在 桶 的 用 户 ,并 计 算 相 似 度 即 可 以 获 得 . 以上是传统的 LSH 与 MinHash 的 实 现,虽 然 能够在线性的时间 内 完 成 计 算,但 如 果 单 机 运 行 时 间复 杂 度 还 是 比 较 高,于 是 引 入 MapReduce,将 LSH 与 MinHash 的 计 算 放 到 MapReduce 的 编 程 框架下实现.另 外,原 算 法 中 每 个 用 户 被 hash 到 L 个桶中,当用 户 量 比 较 大 时,遍 历 L 个 桶 的 时 间 复 杂度依然很 高.于 是 将 L 个 哈 希 值 进 行 连 接 操 作,
Nearest Neighbor Model Recommendation Algorithm Based on LSH and MapReduce
CHEN You-xiong1,XIANG Yang1,ZHANG Qi 2,PAN Tao2
(1Department of Computer Science and Technology,Tongji University,Shanghai 201804,China; 2Shenghua Hollysys Information Technology Limited Company,Beijing 100009,China)
30 卷 第12期 2013年12月
微电子学与计算机 MICROELECTRONICS & COMPUTER
Vol.30 No.12 December 2013
基于 LSH 和 MapReduce的近邻模型推荐算法
陈 佑 雄1,向 阳1,张 骐2,潘 涛2
(1 同济大学 计算机科学与技术系,上海 201804;2 神华和利时信息技术有限公司,北京 100009)
式中,w(u,ui)是用户u和ui 的相似度,I珔(ui,s)是指
示向量,当ui 选择了项目s 时取值为1,否则为0.
结合基准分的预测公式:
∑ rus =u+bu +bi +

ui
(u,ui)I珔(ui,s)
对 于 用 户 和 项 目 很 大 的 系 统 ,如 腾 讯 微 博 用 户 ,
首先寻找出每一个 用 户 所 点 击 的 项 目,构 建 一 个 用
摘 要:传统的近邻模型(k-nearest Neighborhood,KNN)是一种使用广 泛 的 协 同 过 滤 模 型,但 是 随 着 用 户 和 项 目 的 增 加 ,需 要 计 算 大 量 用 户 或 项 之 间 的 相 似 度 ,其 时 间 复 杂 度 过 高 .通 过 结 合 位 置 敏 感 哈 希 (Locality-Sensitive Has- hing,LSH)与 MapReduce,提出了一种能够在线性时间复杂度内并行 计 算 用 户 或 项 之 间 相 似 度 的 近 邻 模 型 推 荐 算 法,降低了时间和空间复杂度.在 Tencent Weibo数据集上进行 了 仿 真 实 验,实 验 表 明 提 出 的 模 型 能 有 效 解 决 传 统 近 邻 模 型 对 于 大 数 据 集 时 间 复 杂 度 过 高 的 问 题 ,显 著 地 提 高 了 传 统 近 邻 模 型 的 精 度 和 降 低 传 统 近 邻 模 型 的 耗 时 . 关 键 词 :协 同 过 滤 ;K-nearest Neighbor;LSH;MapReduce 中 图 分 类 号 :TP31 文 献 标 识 码 :A 文 章 编 号 :1000-7180(2013)12-0047-03
Abstract:Traditional k-nearest neighborhood (KNN)model has been widely used in the recommender systems. However,with the increasing of users and items,the large scale of similarity between users or items need to be calculated and the time complexity is too high.In this paper,a nearest neighbor model recommendation algorithm combined with a locality sensitive hash (Locality-Sensitive Hashing,LSH)and MapReduce is proposed ,which is a way to linear time complexity by parallel computing similarity between users or items,reducing the time and space complexity.Simulate experiments in Tencent Weibo datasets show that the proposed model can effectively solve the problem of high time complexity exists in the traditional nearest neighbor model for large data sets and significantly improve the accuracy of the traditional nearest neighbor model and reduce the time-consuming. Key words:collaborative Filtering;K-nearest neighborhood;LSH;MapReduce
2 相 关 工 作
本文 m 为用户数,n 为项目数,下标u 和v 代表 用户,i和j代表项.打分值rui 代表用户u 对项i的喜 好程度,rui 值越大代表喜好程度越高.抽象来讲,CF 模型等同于缺失值估 计:给 定 一 个 带 有 许 多 缺 失 值 的用 户 项 矩 阵 Rm×n,根 据 已 有 的 值 来 填 充 缺 失 值[3].一般来讲,CF 模 型 分 为 两 类:邻 居 模 型 和 潜 在因子模型如 SVD 模型.后者通过抽取出用户和项 的隐藏特征来描述数据的特性.除 了 CF 之 外,还 有 一些传统的挖掘算法加以适当的改动也能够完成打 分预测的功能.本文 用 到 的 聚 类 预 测 模 型 是 基 于 传 统 K-means 模 型,文 献 [3-7]对 KNN 模 型,Min Hash、LSH 和 MaP Reduce做了较深入的介绍.
相关文档
最新文档