Taste 是 Apache Mahout 提供的一个协同过滤算法的高效实现

合集下载

mahout算法解析与案例实战

mahout 算法解析与案例实战【篇一：mahout 算法解析与案例实战】mahout 算法解析与案例实战一书一般被简称为mahout 实战，关于这本书存在两种比较明显的评价，有人说本书是一本经典的mahout 著作，而有人表示这本书前边对于算法的介绍还比较好，但是后面实战部分太差了——甚至认为本书关于调用mahout 与hadoop 的平台的接口什么的都没讲。

正所谓，一千个读者就有一千哈姆雷特，该书到底是好是坏，当然只有你看了之后才知道。

本节内容东坡小编为大家整理带来的是一份pdf 格式高清中文电子版mahout 算法解析与案例实战，欢迎感兴趣的朋友前来下载查阅！mahout 算法解析与案例实战目录第一部分基础篇第1 章mahout 简介2 1.1 mahout 应用背景21.2 mahout 算法库31.2.1 聚类算法41.2.2 分类算法51.2.3 协同过滤算法61.2.4 频繁项集挖掘算法71.3 mahout 应用71.4 本章小结8第 2 章mahout 安装配置92.1 mahout 安装前的准备92.1.1 安装jdk 102.1.2 安装hadoop 122.2 两种安装方式202.2.1 使用maven 安装202.2.2 下载发布版安装222.3 测试安装222.4 本章小结24 第二部分算法篇第3 章聚类算法263.1 canopy 算法263.1.1 canopy 算法简介263.1.2 mahout 中canopy 算法实现原理283.1.3 mahout 的canopy 算法实战293.1.4 canopy 算法小结373.2 k-means 算法373.2.1 k-means 算法简介373.2.2 mahout 中k-means 算法实现原理383.2.3 mahout 的k-means 算法实战393.2.4 k-means 算法小结463.3 mean shift 算法463.3.1 mean shift 算法简介463.3.2 mahout 中mean shift 算法实现原理463.3.3 mahout 的mean shift 算法实战483.3.4 mean shift 算法小结513.4 本章小结51第 4 章分类算法524.1 bayesian 算法534.1.1 bayesian 算法简介534.1.2 mahout 中bayesian 算法实现原理554.1.3 mahout 的bayesian 算法实战594.1.4 拓展704.1.5 bayesian 算法小结704.2 random forests 算法704.2.1 random forests 算法简介704.2.2 mahout 中random forests 算法实现原理724.2.3 mahout 的random forests 算法实战774.2.4 拓展814.2.5 random forests 算法小结824.3 本章小结83第 5 章协同过滤算法845.1 distributed item-based collaborative filtering 算法855.1.1 distributed item-based collaborative filtering 算法简介855.1.2 mahout 中distributed itembased collaborative filtering 算法实现原理865.1.3 mahout 的distributed item based collaborative filtering 算法实战905.1.4 拓展935.1.5 distributed itembased collabo-rative filtering 算法小结94 5.2 collaborative filtering with alswr 算法945.2.1 collaborative filtering with alswr 算法简介945.2.2 mahout 中collaborative filtering with als-wr 算法实现原理985.2.3 mahout 的collaborative filtering with als-wr 算法实战99 5.2.4 拓展1075.2.5 collaborative filtering with alswr 算法小结1075.3 本章小结107第 6 章模式挖掘算法1086.1 fp 树关联规则算法1096.1.1 fp 树关联规则算法简介1096.1.2 mahout 中parallel frequent pattern mining 算法实现原理1136.1.3 mahout 的parallel frequent pattern mining 算法实战120 6.1.4 拓展1256.2 本章小结126第7 章mahout 中的其他算法1277.1 dimension reduction 算法1287.1.1 dimension reduction 算法简介1287.1.2 mahout 中dimension reduction 算法实现原理1297.1.3 mahout 的dimension reduction 算法实战1337.1.4 拓展1397.2 本章小结142 第三部分实战篇第8 章friend find 系统1448.1 系统功能1458.1.1 系统管理员1458.1.2 普通用户1468.1.3 总体功能1468.2 数据库设计1478.2.1 原始用户数据表1488.2.2 注册用户数据表1498.2.3 系统管理员表1498.2.4 聚类中心表1498.3 系统技术框架1508.4 系统流程1528.4.1 登录1528.4.2 注册1538.4.3 上传数据1548.4.4 调用k-means 算法1558.4.5 查看用户分组1578.4.6 查看分组情况1588.4.7 查看分组成员1598.5 系统实现1598.5.1 登录1598.5.2 注册1618.5.3 上传数据1628.5.4 调用k-means 算法1638.5.5 查看用户分组1678.5.6 查看分组情况1678.5.7 查看分组成员1688.6 本章小结170第9 章wine identification 系统171 9.1 系统功能1729.1.1 用户管理模块1739.1.2 随机森林模型建立模块173 9.1.3 随机森林模型预测模块173 9.2 系统框架1739.3 数据库设计1809.3.1 用户表1809.3.2 系统常量表1819.4 系统流程1819.4.1 登录1829.4.2 注销1829.4.3 权限修改1829.4.4 密码修改1839.4.5 用户列表1839.4.6 数据上传1849.4.7 随机森林模型建立1859.4.8 随机森林模型评估1869.4.9 随机森林模型预测1879.5 系统实现1889.5.1 登录1889.5.2 注销1889.5.3 权限修改1899.5.4 密码修改1909.5.5 用户列表1919.5.6 数据上传1939.5.7 随机森林模型建立1949.5.8 随机森林模型评估1949.5.9 随机森林模型预测1959.6 本章小结196第10 章dating recommender 系统197 10.1 系统功能19810.1.1 系统管理员功能19810.1.2 普通用户功能19910.1.3 功能总述19910.2 系统框架20010.3 数据库设计20310.3.1 系统管理员表20310.3.2 原始用户推荐信息表20410.3.3 基础数据top10 表20410.4 系统流程20410.4.1 登录20510.4.2 上传数据20510.4.3 推荐分析20610.4.4 单用户推荐21010.4.5 新用户推荐21110.5 算法设计21410.5.1 协同过滤算法接口设计21410.5.2 top10 算法设计21510.5.3 新用户推荐算法设计22110.6 系统实现22810.6.1 登录22810.6.2 上传数据22910.6.3 推荐分析23010.6.4 单用户推荐23210.6.5 新用户推荐23410.7 本章小结235第11 章博客推荐系统23711.1 系统功能23811.1.1 用户管理23811.1.2 建立知识库23911.1.3 博客管理23911.2 系统框架24011.3 数据库设计24611.3.1 用户信息表24611.3.2 知识库信息表24711.3.3 系统常量表24811.4 系统流程24811.4.1 登录24811.4.2 注册24811.4.3 密码修改24911.4.4 订阅博客查看24911.4.5 博客订阅与退订24911.4.6 博客推荐25011.4.7 上传数据25211.4.8 调用fp 树关联规则算法25311.5 算法设计26011.6 系统实现26211.6.1 登录26211.6.2 注册26311.6.3 密码修改26411.6.4 订阅博客查看26511.6.5 运行fp 云算法26611.6.6 博客订阅与退订26711.6.7 博客推荐26811.7 本章小结270mahout 算法解析与案例实战内容简介全书11 章共分为三个部分：第一部分为基础篇（第1〜2章），首先介绍了mahout的应用背景、mahout 算法库收录的算法、mahout 的应用实例，以及开发环境的搭建；第二部分为算法篇（第3〜7章），分析了mahout算法库中不同模块的各个算法的原理以及mahout 实现流程，同时在各章节含有每个算法的实战，让读者可以自己运行程序，感受程序运行的各个流程；第三部分为实战篇（第8〜11 章），通过对4 个不同系统案例的分析讲解，让读者了解开发完整的云平台系统的各个流程，即需求分析、系统框架选择及构建、系统功能设计和功能开发。

规则推理算法 T r e a t

深度学习资源Table of ContentsCommon Lisp以下是根据不同语言类型和应用领域收集的各类工具库，持续更新中。

通用机器学习Recommender?- 一个产品推荐的C语言库，利用了协同过滤.计算机视觉CCV?- C-based-Cached-Core Computer Vision Library ,是一个现代化的计算机视觉库。

VLFeat?- VLFeat 是开源的 computer vision algorithms库, 有Matlab toolbox。

计算机视觉OpenCV?- 最常用的视觉库。

有 C++, C, Python 以及 Java 接口)，支持Windows, Linux, Android and Mac OS。

DLib?- DLib 有 C++ 和 Python 脸部识别和物体检测接口。

EBLearn?- Eblearn 是一个面向对象的 C++ 库，实现了各种机器学习模型。

VIGRA?- VIGRA 是一个跨平台的机器视觉和机器学习库，可以处理任意维度的数据，有Python接口。

通用机器学习MLPack?- 可拓展的 C++ 机器学习库。

DLib?- 设计为方便嵌入到其他系统中。

encog-cppVowpal Wabbit (VW)?- A fast out-of-core learning system.sofia-ml?- fast incremental 算法套件.Shogun?- The Shogun Machine Learning ToolboxCaffe?- deep learning 框架，结构清晰，可读性好，速度快。

CXXNET?- 精简的框架，核心代码不到 1000 行。

XGBoost?- 为并行计算优化过的 gradient boosting library.CUDA?- This is a fast C++-CUDA implementation of convolutional [DEEP LEARNING]Stan?- A probabilistic programming language implementing full Bayesian statistical inference with Hamiltonian Monte Carlo samplingBanditLib?- A simple Multi-armed Bandit library.Timbl?- 实现了多个基于内存的算法，其中 IB1-IG （KNN分类算法）和 IGTree（决策树）在NLP中广泛应用.自然语言处理MIT Information Extraction Toolkit?- C, C++, and Python 工具，用来命名实体识别和关系抽取。

协同过滤实验

协同过滤实验实验算法协同过滤实验【实验名称】协同过滤实验【实验要求】掌握协同过滤模型应用过程，根据模型要求进行数据预处理，建模，评价与应用；【背景描述】协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息，回应不一定局限于特别感兴趣的，特别不感兴趣信息的纪录也相当重要。

【知识准备】了解协同过滤模型的使用场景，数据标准。

了解Python/Spark数据处理一般方法。

了解spark模型调用，训练以及应用方法【实验设备】Windows或Linux操作系统的计算机。

部署Spark，Python，本实验提供centos6.8环境。

【实验说明】采用ratings数据集作为算法数据，把数据集随机划分为训练数据和测试数据，分别用来对模型进行训练和测试。

【实验环境】Spark2.3.1，Pyrhon3.X，实验在命令行pyspark中进行，或者把代码写在py脚本，由于本次为实验，以学习模型为主，所以在命令行中逐步执行代码，以便更加清晰地了解整个建模流程。

【实验步骤】第一步：启动pyspark：命令行中键入pyspark--masterlocal[4],本地模式启动spark与python：第二步：导入用到的包，并读取数据：importpandasaspdfrompysparkimportSparkContext,S QLContext,SparkConfsqlContext=SQLContext(sc)#读取数据ratings=sc.textFile(ufile:/root/opt/algorithm/ratin gs/ratings.csv).map(lambdax:str(x).split(,)).filter (lambdax:x[0]!=userId)#转换为DataFrameratings_df=sqlContext.createDataFrame(rati ngs.map(lambdax:[int(x[0]),int(x[1]),float(x[2]),in t(x[3])])).toDF(userID,movieId,rating,time)#显示数据ratings_df.show()第三步：划分数据集并建立模型#划分训练集,测试集(training,test)=ratings_df.randomSplit([0.8,0.2])#模型训练frompyspark.ml.evaluationimportRegressionEvaluatorf rompyspark.ml.recommendationimportALSfrompyspark.ml .recommendationimportALSModelals=ALS(maxIter=20,#设置最大迭代次数rank=10,#设置协同过滤拆分维度kregParam=0.01,#设置正则化参数userCol=userID,#指定用户列itemCol=movieId,#指定物品列ratingCol=rating,#指定评分列implicitPrefs=False,#是否采用隐式评分(当有显式评分数据时候,用False,如本例子)alpha=1.0)#学习速率model=als.fit(training)#type:ALSModel第四步：构建模型评估方法并输出模型效果#模型预测predictions=model.transform(test)#评价算法,计算标准误差evaluator=RegressionEvaluator(metricName=rmse,label Col=rating,predictionCol=prediction)rmse=evaluator. evaluate(predictions.na.fill(0.0,prediction))print(标准误差=+str(rmse))第六步：模型应用-电影推荐importnumpyasnp#电影推荐#获取客户矩阵与商品矩阵user_df=erFactorsitem_df=model.itemFactors#例如,为userID=10的用户推荐电影user_10=user_df.filter(id=10).rdd.map(lambdax:x.asD ict()[features]).first()#向量乘法defdoc_list(list1=[],list2=[]):if(len(list1)==len(l ist2)):list1=np.array(list1)list2=np.array(list2) re=list1*list2returnre.sum()#评分预测item_score_10=pd.DataFrame(item_df.rdd.map(lambdax: [x.asDict()[id],doc_list(x.asDict()[features],user_ 10)]).collect())top_20=item_score_10.sort_values(by =[1],ascending=False,axis=0).head(20)#剔除已观看电影,完成推荐过程watch=ratings_df.filter(userID=10).select(movieId). distinct().rdd.map(lambdax:x.asDict()[movieId]).col lect()set_to_put=set(top_20[0])-set(watch)#打印数据print(set_to_put)第七步：通过以下命令,执行整个文件查看结果spark-submit/opt/algorithm/ratings/spark_to.py【问题与回答】1、Q：什么是显式评分和隐式评分A：显式评分就是真真切切的评分数据，例如淘宝的五星好评，隐式评分区别于显式，用用户的行为代替评分，例如，对于快消品，用户购买越多，则认为用户对这个商品的评价越好（觉得好用才多买）。

协同过滤名词解释

协同过滤名词解释
协同过滤是一种基于用户行为（如评分、购买、浏览等）的分析方法，用于发现用户的行为模式和兴趣偏好。

通过协同过滤，可以根据其他用户的行为和兴趣来推荐相关内容或产品给特定用户。

这种方法的核心思想是利用集体智慧来预测个体行为，通过分析大量用户的行为数据来发现相似的用户群体，并基于这些群体来推荐内容或产品。

协同过滤可以分为基于用户的协同过滤和基于物品的协同过滤两种类型。

基于用户的协同过滤是找到与目标用户行为相似的其他用户，并根据这些用户的行为来推荐内容或产品给目标用户。

而基于物品的协同过滤则是找到与目标物品相似的其他物品，并根据这些物品被其他用户的行为来推荐给目标用户。

协同过滤的优点包括能够发现用户潜在的兴趣、提高推荐精度、能够处理冷启动问题等。

协同过滤的基本思想

协同过滤的基本思想
协同过滤（CollaborativeFiltering）推荐算法是最经典、最常用的推荐算法。

所谓协同过滤，基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品(基于对用户历史行为数据的挖掘发现用户的喜好偏向，并预测用户可能喜好的产品进行推荐)，一般是仅仅基于用户的行为数据（评价、购买、下载等）,而不依赖于项的任何附加信息（物品自身特征）或者用户的任何附加信息（年龄，性别等）。

目前应用比较广泛的协同过滤算法是基于邻域的方法，而这种方法主要有下面两种算法：
1、基于用户的协同过滤算法(UserCF)：给用户推荐和他兴趣相似的其他用户喜欢的产品。

2、基于物品的协同过滤算法(ItemCF)：给用户推荐和他之前喜欢的物品相似的物品。

不管是UserCF还是ItemCF算法，非常重要的步骤之一就是计算用户和用户或者物品和物品之间的相似度，所以下面先整理常用的相似性度量方法，然后再对每个算法的具体细节进行展开。

机器学习技术中的协同过滤算法详解

机器学习技术中的协同过滤算法详解协同过滤算法是机器学习中一种常用的推荐系统技术。

它通过分析用户的行为和偏好，找出与用户兴趣相似的其他用户或物品，从而进行个性化推荐。

本文将详细解析协同过滤算法的原理、应用和优缺点。

协同过滤算法的原理协同过滤算法主要基于两种思路：用户协同和物品协同。

用户协同指根据用户的相似性进行推荐，即找出与目标用户相似的其他用户，并将这些用户喜欢的物品推荐给目标用户。

物品协同则是根据物品的相似性进行推荐，即找出与目标物品相似的其他物品，并推荐给用户。

在实际应用中，协同过滤算法通常基于用户的评分数据或行为数据进行计算。

算法会对用户或物品进行特征提取和相似度计算，以确定相似性。

常用的相似度计算方法包括余弦相似度和皮尔逊相关系数等。

通过相似度计算，可以建立用户与用户之间或物品与物品之间的关联关系。

协同过滤算法的应用协同过滤算法在推荐系统中有广泛的应用。

例如，电商网站可以利用协同过滤算法来为用户推荐商品，音乐和视频平台可以通过该算法为用户推荐喜欢的音乐和影视作品。

此外，社交媒体平台也可以利用协同过滤算法为用户推荐朋友和关注的内容。

协同过滤算法的优缺点协同过滤算法具有以下优点：1. 个性化推荐：协同过滤算法可以根据用户的行为和偏好进行个性化推荐，提高用户体验。

2. 隐性信息发现：协同过滤算法可以从用户的行为中发现隐藏的用户兴趣和关联关系，挖掘潜在的推荐物品。

3. 灵活性和扩展性：协同过滤算法可以根据用户和物品的数量和特征进行灵活的扩展，适用于不同规模和特性的推荐系统。

然而，协同过滤算法也存在一些缺点：1. 数据稀疏性：当用户的行为数据较稀疏时，难以准确计算用户之间或物品之间的相似性，从而影响推荐的准确性。

2. 冷启动问题：对于新用户或新物品，缺乏足够的行为数据来进行准确的推荐，导致冷启动问题。

3. 推荐瀑布效应：协同过滤算法容易向热门物品偏好，导致推荐效果不够多样化，忽略了长尾物品的推荐。

名词解释协同过滤

名词解释协同过滤协同过滤是一种用于推荐系统的算法，其基本原理是通过分析用户的行为和偏好，发现与其相似的其他用户或物品，然后根据这些相似性，将其他用户或物品的相关信息推荐给目标用户。

在协同过滤中，有两种主要的方式：基于用户的协同过滤和基于物品的协同过滤。

基于用户的协同过滤是指根据用户之间的相似性来进行推荐。

它的基本思想是，如果两个用户在过去的行为中具有相似的偏好，那么他们在将来的偏好也可能是相似的。

算法首先通过计算用户之间的相似性度量，如皮尔逊相关系数或余弦相似度，来确定用户之间的相似程度。

然后，根据相似用户的喜好，将目标用户可能感兴趣的物品推荐给目标用户。

基于物品的协同过滤是指根据物品之间的相似性来进行推荐。

这种方法的基本思想是，如果用户喜欢一个物品，那么他们也可能喜欢与该物品相似的其他物品。

算法首先计算物品之间的相似度，通常使用欧氏距离或余弦相似度来度量。

然后，根据目标用户过去的偏好，将与目标用户喜欢的物品相似的其他物品推荐给目标用户。

协同过滤具有一些优点。

首先，它不需要事先对用户或物品进行特征提取，而是通过分析用户行为数据来进行推荐。

其次，协同过滤能够发现用户可能没有意识到的偏好，从而提供个性化的推荐结果。

此外，协同过滤也可以应对新用户和新物品的情况，因为只需要依赖用户行为数据进行推荐。

然而，协同过滤也存在一些限制。

首先，它对数据的质量和数量要求较高，需要足够的用户行为数据才能准确地计算相似度。

其次，冷启动问题也是协同过滤的挑战之一，即对于新用户或新物品，由于缺乏足够的数据，无法准确进行推荐。

而且，协同过滤容易出现流行度偏差问题，即倾向于推荐热门物品，而忽略了小众和个性化的用户偏好。

为了克服这些限制，研究者们不断提出了一些改进的方法。

例如，基于上下文的协同过滤结合了用户和物品的其他信息，如时间、地点等，来提高推荐的准确性。

混合推荐方法将协同过滤与其他推荐算法相结合，以取长补短。

而基于社交网络的协同过滤利用用户之间的社交关系来进行推荐，更加符合用户的个性化需求。

浅析高校数字图书馆用户推荐系统

浅析高校数字图书馆用户推荐系统1引言在高校数字图书馆中，海量的数字化馆藏资源让用户难以快速准确地查找到所需资源，也未能提供用户个性化的信息服务。

针对这一问题，本文提出在高校数字图书馆环境下应用推荐系统，通过对系统的需求分析和设计，最终构造出系统原型，并生成了一定的推荐效果。

2系统需求分析高校数字图书馆用户推荐系统的环境较特殊，系统用户构成稳定且能以专业学科等属性天然划分不同用户群，用户群之间的差异性明显，群内用户之间存在较多的相似性。

数字化馆藏资源能以中图法和学科专业进行划分且能与用户进行关联。

系统信息服务提供的对象以文本为主，从推荐技术实现上更有效可行。

从Taylor的四阶段信息需求模型。

可知，用户存在着较难以清晰表达的隐性化信息需求，用户需要引导以发现自己的内在需求。

但另一方面，用户的隐性化信息需求可表达为用户在系统中的点击、浏览、收藏和查询等行为，以及相似用户已表达但当前用户未察觉的需求。

结合用户评分所表达的显性化偏好，采取偏好混合提取方式。

并设用户的显式偏好为较高权重，可生成用户偏好描述文件。

在用户推荐系统中，这一描述文件由偏好模型转化。

偏好模型。

是描述数字图书馆中所有用户综合在一个周斯内的信息需求的模型，它包括用户的持久偏好、即时偏好和可能偏好。

持久偏好是基于用户的学历、学科专业、年龄和性别等基本信息而产生。

即时偏好基于用户的浏览行为和查询记录等隐性化偏好，依据系统的偏好规则而产生。

可能偏好是用户未能表达的偏好，但在相似用户中存在的偏好。

把用户的偏好模型，以一个引导机制来实现用户偏好的表达，并建立集成检索和个性化导航等多种服务方式于一体的个性化服务体系，其基本框架如图1。

3系统设计分析高校数字图书馆的用户环境可知，用户能较好的协作，适宜采用协同过滤推荐算法。

产生推荐。

为克服传统CF算法中的稀疏评分数据问题。

结合系统用户和资源的特点，把对应1～4的分值与用户的点击、浏览、收藏以及查询行为关联起来，建立修正的I-U评分矩阵。

基于Hadoop平台协同过滤推荐算法的探究

2018.10大部分协同过滤推荐算法是通过计算某一个用户对未评价项目的预测评分作为用户推荐的依据。

然而协同过滤推荐算法存在可拓展性、稀疏性等问题,无法真正推荐用户感兴趣的信息。

因此,协同过滤推荐算法需要解决数据信息的可拓展性和稀疏性等问题。

基于Hadoop 平台对协同过滤推荐算法进行改进,选择分布式数据库保存用户评分矩阵数据库,从而确保MapRe⁃duce 框架下协同过滤推荐算法的实施,再将计算任务分配给Hadoop 集群平台的机器,提高整个过滤推荐算法的效率。

1Hadoop 平台以及特点Hadoop 平台Apache 基金会研发的一种分布式架构系统,开发者不需要了解分布式底层架构,就可以实现分布式编写程序,充分利用集群的高速运算和存储能力实现分布式文件系统。

Hadoop 平台是当前云计算和大数据解决的主要办法,通过Hadoop 分布式文件系统,让用户可以利用Hadoop 轻松构建分布式计算机平台,并充分利用Hadoop 的集群能力和计算能力,实现对海量数据信息的处理。

这种架构的系统具有高容错性,即便在硬件条件不好的基础上,它也可以应对集中访问应用程序,尤其适合那些超大数据集的应用程序。

Hadoop 平台具有以下优点:(1)它是能对大量数据信息处理软件框架,平台能够以一种可靠、高效的数据处理方式工作。

(2)Hadoop 平台具有高扩展性,在可用计算机集簇间分配数据并完成计算的,这些集簇可以将其扩展到数以千计的节点中。

(3)高容错性能。

Hadoop 可以自动保存数据的多个副本,并自动将匹配失败的任务进行重新分配。

(4)成本低。

Hadoop 和一体机、商用数据库、Yonghong Z-Suite 等数据集相比,Hadoop 软件合成本相对比较低。

(5)编程方便。

Hadoop 平台自带Java 语言编写框架,在Linux 系统上运行非常畅通。

此外,Hadoop 平台上的应用程序还可以用C 语言进行编写。

基于受限玻尔兹曼机协同过滤和Hadoop-Mahout的课程推荐算法的研究

基于受限玻尔兹曼机协同过滤和Hadoop-Mahout的课程推荐算法的研究基于受限玻尔兹曼机协同过滤和Hadoop-Mahout的课程推荐算法的研究Research on Curriculum Recommendation Algorithm based onRestricted Boltzmann Machine Collaborative Filtering andHadoop-MahoutAbstractDeep learning has been developing rapidly in many fields since it was put forward.Deep learning application research is mainly related to the field of computer and educational technology.There are different concepts research objects and roles in the two fields.In the field of educational technology,it is mainly to promote students'deep learning and improve the quality of education in discipline teaching.Meanwhile,in the field of educational technology,we also use the concept of deep learning in computer field to carry out research and development of education and teaching.Recommendation algorithm as the main application of collaborative filtering algorithm in Internet application plays a leading role, convolutional neural network.RBM and depth of confidence plays an important part in the research and application of network of neural network model in deep learning.which restricted Boltzmann machine in the collaborative filtering recommendation algorithm is the most widely used in.In this paper,the application of the limited Boltzmann machine in the recommendation algorithm of collaborative filtering is studied,The application of the MOOC education curriculum recommendation is put forward.At present,the online education of MOOC has been developing and the number of online learners is increasing.In view of the fact that MOOC online learners are not easy to find suitable courses in massive curriculum information.Blind selection leads to low learning efficiency and poor learning effect.In this paper,a restricted Boltzmann RBM recommendation algorithm is proposed.In this algorithm,IRS curriculum evaluation index system is put forward,which carries out a unified standard evaluation of online courses. Combines and improves the machine learning framework Apache-Mahout collaborative filtering recommendation algorithm recommending personalized courses for online learners. Based on the Hadoop distributed cloud computing platform.The data of a large number of learners are analyzed and the course recommendation ismade.Experimental results show that the recommendation algorithm proposed in this paper is effective and applicable to distributed cloud computing environment.And verifies the efficiency of parallel computing in distributed environment.辽宁师范⼤学硕⼠学位论⽂Key Words：Deep Learning;Collaborative Filtering;Parallel Computing;Recommendation Algorithm;Hadoop基于受限玻尔兹曼机协同过滤和Hadoop-Mahout的课程推荐算法的研究⽬录摘要 (1) Abstract......................................................................................................................................II 1绪论. (1)1.1课题背景与研究意义 (1)1.2本⽂的主要⼯作和组织结构 (2)2深度学习的多视⾓认识 (4)2.1教育技术领域的深度学习 (4)2.1.1深度学习和浅层学习 (4)2.1.2深度学习的发展状况 (5)2.2计算机领域的深度学习的定义与发展 (5)2.3深度学习的经典算法及应⽤ (6)2.3.1卷积神经⽹络 (7)2.3.2受限玻尔兹曼机模型理论 (7)2.3.3深度置信⽹ (10)2.4计算机领域与教育技术领域深度学习的联系与展望 (11)3协同过滤推荐算法 (13)3.1相似性 (13)3.2K-最近邻算法 (15)3.3Slope One算法 (17)3.4基于受限玻尔兹曼机的协同过滤算法 (17)4基于RBM与Mahout的课程推荐算法 (19)4.1基于RBM的推荐算法 (19)4.2Mahout推荐算法 (20)4.3IRS课程评价⽅法 (22)4.3.1学习参与度与交互度 (22)4.3.2IRS课程指标 (22)4.3.3课程实例 (23)5并⾏环境下的课程推荐算法 (25)5.1并⾏机性能评价 (25)5.2Hadoop并⾏环境配置与搭建 (26)5.2.1集群配置与搭建 (26)5.2.2⽹络配置与ssh的配置 (26)5.3分布式云计算推荐服务与算法 (30)5.3.1IRS推荐算法 (30)5.3.2IRS分布式推荐算法流程 (30)5.4实验及结果分析 (31)5.4.1实验环境 (31)5.4.2实验内容 (31)5.4.3推荐效果及对⽐ (33)6总结与展望 (35)参考⽂献 (36)攻读硕⼠学位期间发表学术论⽂情况 (39)致谢 (40)1绪论1.1课题背景与研究意义深度学习是机器学习领域的⼀个新的研究⽅向，近年来在语⾳识别，计算机视觉等多类应⽤中取得了突破性的进展，从2006年深度学习被提出开始，其⽬标识别领域从最开始的MNIST⼿写图像问题到近⼏年的⾃然图像的⽬标识别，2011年，微软公司在语⾳识别的领域应⽤了深度学习的技术，成功降低了20%~30%的错误率，使其取得该领域近⼗年来最⼤突破。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Taste 是Apache Mahout 提供的一个协同过滤算法的高效实现Taste 是Apache Mahout 提供的一个协同过滤算法的高效实现(2011-04-17 11:09:33)转载▼Web 2.0 的一个核心思想就是“群体智慧”，即基于大众行为，为每个用户提供个性化的推荐。

这使得如何让用户能更快速更准确的获得所需要的信息，成为了Web 应用成败的关键。

Apache Mahout 是ASF（Apache Software Foundation）的一个较新的开源项目，提供机器学习领域的一些经典算法的高效实现。

本文主要讲述如何基于Apache Mahout 来构建社会化推荐引擎，帮助Web 应用开发者更高效的实现个性化推荐功能，从而提高最终用户满意度。

推荐引擎利用特殊的信息过滤（IF，Information Filtering）技术，将不同的内容（例如电影、音乐、书籍、新闻、图片、网页等）推荐给可能感兴趣的用户。

通常情况下，推荐引擎的实现是通过将用户的个人喜好与特定的参考特征进行比较，并试图预测用户对一些未评分项目的喜好程度。

参考特征的选取可能是从项目本身的信息中提取的，或是基于用户所在的社会或社团环境。

根据如何抽取参考特征，我们可以将推荐引擎分为以下四大类：基于内容的推荐引擎：它将计算得到并推荐给用户一些与该用户已选择过的项目相似的内容。

例如，当你在网上购书时，你总是购买与历史相关的书籍，那么基于内容的推荐引擎就会给你推荐一些热门的历史方面的书籍。

基于协同过滤的推荐引擎：它将推荐给用户一些与该用户品味相似的其他用户喜欢的内容。

例如，当你在网上买衣服时，基于协同过滤的推荐引擎会根据你的历史购买记录或是浏览记录，分析出你的穿衣品位，并找到与你品味相似的一些用户，将他们浏览和购买的衣服推荐给你。

基于关联规则的推荐引擎：它将推荐给用户一些采用关联规则发现算法计算出的内容。

关联规则的发现算法有很多，如Apriori、AprioriTid、DHP、FP-tree 等。

混合推荐引擎：结合以上各种，得到一个更加全面的推荐效果。

随着互联网上数据和内容的不断增长，人们越来越重视推荐引擎在互联网应用中的作用。

可想而知，由于互联网上的数据过多，用户很难找到自己想要的信息，通过提供搜索功能来解决这个问题是远远不够的。

推荐引擎可以通过分析用户的行为来预测用户的喜好，使用户能更容易找到他们潜在需要的信息。

这里以电子商务应用中的推荐引擎为例来说明推荐引擎在互联网应用中的重要性。

电子商务推荐系统(E-Commence Recommendation System) 向客户提供商品信息和购买建议，模拟销售人员帮助客户完成购买过程。

智能推荐系统的作用可以概括为：将电子商务网站的浏览者转变为购买者，提高电子商务网站的交叉销售能力，提高客户对电子商务网站的忠诚度。

电子商务推荐系统的界面表现形式有以下几种：浏览：客户提出对特定商品的查询要求，推荐引擎根据查询要求返回高质量的推荐；相似商品：推荐引擎根据客户购物篮中的商品和客户可能感兴趣的商品推荐与它们类似的商品；Email：推荐系统通过电子邮件的方式通知客户可能感兴趣的商品信息；评论：推荐系统向客户提供其他客户对相应产品的评论信息。

Apache Mahout 是Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。

经典算法包括聚类、分类、协同过滤、进化编程等等，并且，在Mahout 的最近版本中还加入了对ApacheHadoop 的支持，使这些算法可以更高效的运行在云计算环境中。

Taste 简介Taste 是Apache Mahout 提供的一个协同过滤算法的高效实现，它是一个基于Java 实现的可扩展的，高效的推荐引擎。

Taste 既实现了最基本的基于用户的和基于内容的推荐算法，同时也提供了扩展接口，使用户可以方便的定义和实现自己的推荐算法。

同时，Taste 不仅仅只适用于Java 应用程序，它可以作为内部服务器的一个组件以HTTP 和Web Service 的形式向外界提供推荐的逻辑。

Taste 的设计使它能满足企业对推荐引擎在性能、灵活性和可扩展性等方面的要求。

Taste 工作原理图1. Taste 的主要组件图是Apache Mahout 提供的一个协同过滤算法的高效实现" alt="图1. Taste 的主要组件图" src="/DownloadImg/2012/09/2 514/27155487_2.gif" width="351" height="273"real_src="/DownloadImg/2012/ 09/2514/27155487_2.gif">Taste 由以下五个主要的组件组成：DataModel：DataModel 是用户喜好信息的抽象接口，它的具体实现支持从任意类型的数据源抽取用户喜好信息。

Taste 默认提供JDBCDataModel 和FileDataModel，分别支持从数据库和文件中读取用户的喜好信息。

UserSimilarity 和ItemSimilarity：UserSimilarity 用于定义两个用户间的相似度，它是基于协同过滤的推荐引擎的核心部分，可以用来计算用户的“邻居”，这里我们将与当前用户口味相似的用户称为他的邻居。

ItemSimilarity类似的，计算内容之间的相似度。

UserNeighborhood：用于基于用户相似度的推荐方法中，推荐的内容是基于找到与当前用户喜好相似的“邻居用户”的方式产生的。

UserNeighborhood 定义了确定邻居用户的方法，具体实现一般是基于UserSimilarity 计算得到的。

Recommender：Recommender 是推荐引擎的抽象接口，Taste 中的核心组件。

程序中，为它提供一个DataModel，它可以计算出对不同用户的推荐内容。

实际应用中，主要使用它的实现类GenericUserBasedRecommender 或者GenericItemBasedRecommender，分别实现基于用户相似度的推荐引擎或者基于内容的推荐引擎。

Taste 的安装与简单的Demo 实现安装Taste 的软件需求：如果需要build 源代码或者例子，需要Apache Ant 1.5+或Apache Maven 2.0.10+。

Taste 应用程序需要Servlet 2.3+ 容器，例如Jakarta Tomcat。

Taste 中的MySQLJDBCDataModel 实现需要MySQL 4.x+ 数据库。

安装Taste 并运行Demo：从SVN 或是下载压缩包得到Apache Mahout 的发布版本：从SVN 获得；下载压缩包；从Grouplens 下载数据源："1 Million MovieLens Dataset"。

解压数据源压缩包，将movie.dat 和ratings.dat 拷贝到Mahout 安装目录下的taste-web/src/main/resources/org/apache/mahout/cf/taste/example/grou plens 目录下。

回到在core 目录下，运行"mvn install"，将Mahout core 安装在本地库中。

进入taste-web, 拷贝 ../examples/target/grouplens.jar 到taste-web/lib 目录编辑taste-web/recommender.properties，将recommender.class 设置为org.apache.mahout.cf.taste.example.grouplens.GroupLensRecommender。

在Mahout 的安装目录下，运行"mvn package"。

运行“mvn jetty:run-war”。

这里需要将Maven 的最大内存设置为1024M，MAVEN_OPTS=-Xmx1024M。

如果需要在Tomcat 下运行，可以在执行"mvn package"后，将taste-web/target 目录下生成的war 包拷贝到Tomcat 的webapp 下，同时也需要将Java 的最大内存设置为1024M，JAVA_OPTS=-Xmx1024M，然后启动Tomcat。

访问“http://localhost:8080/[your_app]/RecommenderServlet?userID=1”，得到系统为编号为1的用户的推荐内容。

参看图2，Taste demo 运行结果界面，每一行第一项是推荐引擎预测的评分，第二项是电影的编号。

同时，Taste 还提供Web 服务访问接口，通过以下URL 访问：http://localhost:8080/[your_app]/RecommenderService.jws WSDL 文件：http://localhost:8080/[your_app]/RecommenderService.jws ?wsdl也可以通过简单的HTTP 请求调用这个Web 服务：http://localhost:8080/[your_app]/RecommenderService.jws ?method=recommend&userID=1&howMany=10图2. Taste Demo 运行结果界面是Apache Mahout 提供的一个协同过滤算法的高效实现"name="image_operate_13491303010019099" alt="图2. Taste Demo 运行结果界面"src="/DownloadImg/2012/09/2 514/27155487_3.png" width="572" height="414"real_src="/DownloadImg/2012/ 09/2514/27155487_3.png">使用Taste 构建推荐引擎实例–电影推荐引擎根据上面的步骤，我们可以得到一个简单的推荐引擎demo 环境，下面介绍如何使用Taste 方便地构建自定义的推荐引擎。