亚马逊电影数据抓取及推荐系统分析

合集下载

基于大数据分析的推荐系统研究——基于Hadoop的电影推荐系统的设计与实现

基于大数据分析的推荐系统研究——基于Hadoop的电影推荐系统的设计与实现基于大数据分析的推荐系统研究——基于Hadoop的电影推荐系统的设计与实现随着互联网的快速发展，用户在网络上获取信息的难度已经降低了很多。

然而，在面对大量的数据和信息时，用户也面临着一个新的问题，即如何从各种信息中找到自己感兴趣的内容。

为了解决这个问题，推荐系统应运而生。

推荐系统是一种基于用户历史行为和兴趣信息，通过分析大量数据，自动给用户推荐可能感兴趣的内容。

它能够过滤掉用户不感兴趣的内容，为用户提供个性化、精准的推荐，提升用户体验和满意度。

在设计推荐系统时，我们首先需要考虑的是如何获取用户的历史行为和兴趣信息。

电影推荐系统中，我们可以通过用户的观影记录、评分和评论等数据来获取用户的兴趣信息。

而这些数据的处理和分析，正是大数据分析技术所擅长的领域。

Hadoop是一个开源的分布式计算框架，它能够处理大规模数据并行计算的问题。

在电影推荐系统的设计与实现中，我们选用Hadoop作为基础技术平台，以处理用户的观影记录数据和电影的特征数据，并进行协同过滤。

在电影推荐系统中，协同过滤是一种常用的推荐算法，它通过分析用户和物品之间的关联关系，找出用户可能感兴趣的物品。

具体而言，协同过滤可以分为基于用户的协同过滤和基于物品的协同过滤。

基于用户的协同过滤算法假设相似的用户拥有相似的兴趣，因此它通过分析用户之间的相似性，来推荐给用户他们可能感兴趣的电影。

而基于物品的协同过滤算法则认为相似的物品会被同样的用户喜欢，因此它更关注物品之间的相似性，以推荐给用户和他们观看过的电影相似的其他电影。

设计基于Hadoop的电影推荐系统需要以下几个步骤：1. 数据采集：从多个电影网站或应用中获取用户的观影记录、评分和评论等数据，并对数据进行清洗和整理，以便后续分析处理。

2. 数据存储：将清洗后的数据存储到Hadoop分布式文件系统（HDFS）中，以便后续进行大数据分析。

基于数据挖掘的电影推荐算法研究

基于数据挖掘的电影推荐算法研究随着互联网的迅速普及，电影热度持续升温，人们喜欢通过网络平台观看最新的电影、评论电影并交流看法。

因此，网络电影推荐算法成为了各大网站的重点研究和广告投放的最佳选择。

电影推荐算法基于数据挖掘技术，能够快速、准确地分析用户的兴趣爱好，为用户推荐最合适的电影。

在本文中，我们将对基于数据挖掘的电影推荐算法进行深入研究，以探索其优缺点，同时掌握其开发方法和算法原理。

一、数据挖掘数据挖掘是从大量数据中提取出有意义的信息、分析有规律的模式、建立新的模型并作出预测的过程。

数据挖掘的主要任务包括：分类、聚类、预测、关联和数据降维等。

在电影推荐系统中，数据挖掘技术主要应用于分类和预测任务。

通过对用户的访问习惯和喜好进行分析，可以有效地提高电影推荐系统的推荐精度和用户体验。

数据挖掘是庞大的数据处理过程，其数据来源可以是用户个人信息、历史记录、搜索关键字、浏览记录等等，同时，数据挖掘还需要考虑数据清洗、数据整合、数据抽样、数据预处理等系列预备工作。

数据挖掘的关键是正确地选择算法和模型，以便从数据中找出最有用的信息。

二、电影推荐算法的研究现状目前，众多网站都提供了电影推荐服务，如：IMDB、Netflix、豆瓣电影等。

这些服务都实现了电影推荐系统。

最常见的基于数据挖掘的电影推荐算法包括基于协同过滤的推荐算法和基于内容推荐算法。

1. 基于协同过滤的电影推荐算法基于协同过滤的推荐算法是目前使用最为广泛的推荐算法之一，其利用用户历史记录和其他用户的行为进行推荐。

算法的核心思想是，根据用户的历史记录和喜好，找到与之兴趣相同的其他用户，通过对这些用户进行分析，推荐给当前用户相对应的电影。

该算法的推荐精度高，根据预测精度可分为基于用户的协同过滤和基于物品的协同过滤两种方式。

该算法最大的缺点是它扩展性差，很难处理大规模的数据量，而且对新用户的推荐效果非常差，因为新用户缺乏足够的用户数据以进行分析。

2. 基于内容推荐算法基于内容推荐算法是通过将用户历史记录和电影特征相比较，找出与之最为相似的电影进行推荐，实现电影推荐的。

电影推荐系统中的推荐算法研究

电影推荐系统中的推荐算法研究随着互联网的发展，电影推荐系统越来越受到关注。

然而，制定一个好的推荐系统并不是易事。

由于数据量庞大，推荐过程涉及到的算法也变得愈来愈复杂。

推荐系统的性能与效果取决于算法的选择和使用。

本文将探讨电影推荐系统中的推荐算法研究。

一、电影推荐系统的组成部分一般来说，一个电影推荐系统可以分为以下几个部分。

1.数据收集部分：包括爬虫和用户数据处理。

2.数据清洗和预处理部分：主要是对数据进行去重和统一格式，以便后续的数据挖掘和分析。

3.特征提取和分析部分：将电影数据进行处理和转换，以便进行后续的特征选择和特征提取。

4.推荐算法模型部分：设计和选择推荐算法模型，包括协同过滤、基于内容的推荐、基于模型的推荐和混合推荐等算法。

5.模型评价和优化部分：根据数据集和用户反馈，对推荐算法模型进行判断和评估，并进行优化。

二、推荐算法的种类推荐算法的种类非常多，这里我们介绍几种主流的推荐算法。

1.基于内容的推荐算法基于内容的推荐算法是指根据用户的历史记录和个人喜好，在推荐电影时，通过分析电影的特征和描述来推荐相似的电影。

该算法通常使用统计学和机器学习方法。

2.协同过滤算法协同过滤算法是指通过分析用户之间的兴趣和相似性，从而进行电影推荐的一种算法。

该算法需要大量的用户数据，根据用户对电影的评分和行为，来推测用户对其他电影的兴趣程度。

3.基于模型的推荐算法基于模型的推荐算法是指通过对电影数据进行分析和统计建模，预测用户对电影的评分，并基于预测结果进行推荐。

该算法需要在大量的数据上建模，然后使用建模结果进行预测和推荐。

三、推荐系统的优化方法在推荐系统的优化过程中，根据不同的需求和目标，我们可以采用以下几种方法。

1.调节推荐算法的参数通过修改推荐算法的参数，可以调整推荐系统的性能和效果。

例如，增加对用户个性化需求的覆盖能力，提高推荐算法的准确性和推荐结果的质量。

2.数据增强和扩展在推荐系统中，数据是最重要的因素之一。

基于大数据分析的电影推荐系统研究与设计

基于大数据分析的电影推荐系统研究与设计随着网络和移动设备的普及，电影观影方式也发生了巨大的变化。

越来越多的人选择在家中通过在线视频平台观看电影，这给电影推荐系统提供了更多的机会和挑战。

以往的推荐系统主要基于用户的行为和兴趣，但是这种方式无法全面理解用户的兴趣和偏好。

随着大数据分析技术的发展，基于大数据分析的电影推荐系统逐渐成为一种新兴的推荐方式。

一、大数据分析技术在电影推荐系统中的应用大数据分析技术包括数据采集、数据存储、数据处理和数据分析等环节，这些环节相互配合形成一个完整的数据分析链路。

在电影推荐系统中，大数据分析技术的应用可以包括以下几个方面：1. 数据采集：电影推荐系统需要收集用户的观影历史数据、用户的评分数据、电影的标签数据等。

通过采集大量的数据，可以建立一个用户-电影的关系网络，从而更好地理解用户的观影兴趣。

2. 数据存储：采集到的大量数据需要进行存储，以便后续的数据处理和分析。

常用的数据存储方式有关系型数据库、NoSQL数据库和分布式文件系统等。

3. 数据处理：在数据存储的基础上，需要进行一系列的数据处理操作，例如数据清洗、数据集成、数据转换等。

这些处理过程旨在使原始数据更具有可用性和可分析性。

4. 数据分析：通过对处理后的数据进行统计分析、机器学习和数据挖掘等技术的应用，可以从中发现用户的观影偏好、电影的相关性等。

这些分析结果可以为电影推荐系统提供有价值的指导。

二、基于大数据分析的电影推荐系统设计思路1. 用户建模：通过对用户的行为和兴趣进行建模，可以更好地理解用户的观影习惯和喜好。

用户建模可以基于用户的观影历史数据、社交网络关系、地理位置等多方面的信息。

通过将用户分成不同的群体，可以实现个性化的推荐。

2. 电影建模：对电影进行全面的建模，包括电影的内容、类型、导演、演员等多个方面。

通过对电影的建模，可以发现电影之间的相关性和用户的观影偏好。

3. 推荐策略：基于用户和电影的建模结果，可以设计出不同的推荐策略。

大数据资料之电影推荐系统设计

大数据资料之电影推荐系统设计电影推荐系统是基于大数据技术，通过分析用户行为和电影信息，为用户推荐感兴趣的电影。

本文将从数据收集、数据预处理、特征工程、算法选择和系统优化等方面介绍电影推荐系统的设计。

数据收集之后，需要对数据进行预处理。

首先，对用户行为数据进行清洗和去重，去除不合理的数据。

然后，对电影信息数据进行清洗和标准化，确保数据的一致性和完整性。

接下来，将用户行为数据和电影信息数据进行合并，构建用户-电影的行为矩阵，方便后续特征工程和算法选择。

在选择推荐算法时，可以根据数据的特点和业务需求选择合适的算法。

常用的算法包括基于内容的推荐算法、协同过滤算法、矩阵分解算法等。

基于内容的推荐算法将电影推荐给用户，其内容与用户历史行为相似的电影。

协同过滤算法根据用户历史行为和其他用户的行为进行推荐，可以分为基于用户的协同过滤和基于物品的协同过滤。

矩阵分解算法通过分解用户-电影行为矩阵，将用户和电影映射到低维空间，从而进行推荐。

最后，为了提高推荐效果和用户体验，需要对系统进行优化。

可以使用增量式算法更新推荐模型，随着用户行为的不断变化，动态地进行推荐。

同时，可以引入用户反馈机制，收集用户对推荐结果的反馈，根据用户的反馈调整推荐策略。

还可以使用多样性和惊喜度等指标评价推荐结果，提高推荐系统的多样性和个性化程度。

综上所述，电影推荐系统的设计涵盖了数据收集、数据预处理、特征工程、算法选择和系统优化等方面。

通过合理设计和优化，可以构建一个准确、高效、个性化的电影推荐系统，为用户提供最好的观影体验。

基于大数据技术的电影推荐系统设计与实现

基于大数据技术的电影推荐系统设计与实现在信息化时代，大数据技术已经被广泛应用于各行各业。

而在电影领域，基于大数据的推荐系统也成为了一个热门话题。

随着互联网的发展和智能手机的普及，越来越多的人开始通过网络观看电影，并需要一个基于自己兴趣爱好的推荐系统来查找更多值得观看的电影。

因此，设计并实现一个基于大数据技术的电影推荐系统，以满足用户的需求，变得愈发重要。

一、系统分析与设计1.数据爬取首先，需要从网络中获取电影的相关数据。

这里可以使用Python爬虫进行信息的抓取与筛选。

通常使用的Python爬虫工具有Scrapy、Requests、BeautifulSoup 等。

2.用户行为数据的采集在建立推荐系统时，需要收集用户的行为数据。

这包括用户的浏览历史、评分和评论。

一些在线电影网站，如IMDb、豆瓣电影等，允许用户对电影进行评分和评论，这为推荐算法提供了有价值的数据。

3.数据编码获取和收集数据之后，需要对数据进行编码和数字化处理，这样才能为推荐算法使用。

数据编码通常使用独热编码、二进制编码或整数编码等方法，将数据转换为可用的数值型数据。

4.特征选择数据的特征选择是推荐系统的关键环节。

基于我们的数据样本和目标，我们需要选择哪些特征参与推荐算法的计算。

这通常由专业的数据科学家进行，他们会评估哪些特征可以帮助推荐算法实现最佳性能。

5.训练和优化推荐算法根据以上的数据处理和特征选择，我们需要构建适用于推荐系统的评估算法，并利用现有的数据来训练和优化算法。

常见的推荐算法有协同过滤、基于用户的协同过滤，基于物品的协同过滤等。

6.部署和应用系统在进行完上述步骤后，我们便可以将推荐算法应用到推荐系统中。

在此过程中，需要完善用户界面和交互体验，保证系统的易用性和可靠性。

二、系统实现推荐系统具体的实现可以使用Flask、Django等Python Web框架来完成。

整个推荐系统可以分为三个模块：1.用户管理模块这个模块是推荐系统的核心，实时更新用户的电影浏览历史、评分和评论等行为数据。

基于大数据分析的电影推荐系统设计与实现

基于大数据分析的电影推荐系统设计与实现随着互联网和大数据技术的发展，电影行业也逐渐趋向了多元化和个性化。

人们对于电影的需求也不再局限于传统的院线观影，而更多地倾向于通过在线观影平台来满足自己的观影需求。

然而，由于电影市场的庞大和复杂性，人们在选择一部适合自己观看的电影时往往感到困惑和无从下手。

为了解决这个问题，电影推荐系统应运而生。

电影推荐系统利用大数据技术和智能算法，通过分析用户的观影历史、评分、评论等数据，来推荐符合用户喜好的电影。

基于大数据分析的电影推荐系统设计与实现，正是为了改善用户的观影体验，提供个性化的电影推荐。

首先，设计基于大数据分析的电影推荐系统需要收集海量的电影数据。

这些数据包括电影的基本信息（如电影名称、导演、演员、发行时间等）、用户的观影历史、评分、评论等。

为了获取这些数据，推荐系统需要通过网络爬虫技术从各个电影数据库和用户评分评论平台上进行数据的抓取和提取。

同时，为了保证数据的准确性和完整性，推荐系统还需要对收集到的数据进行数据清洗和预处理。

接下来，基于大数据分析的电影推荐系统需要构建合适的数据模型和算法来分析和挖掘电影数据。

常用的模型包括用户兴趣模型和内容相似度模型。

用户兴趣模型通过分析用户的观影历史、评分、评论等数据，来建立用户对不同类型电影的兴趣偏好。

内容相似度模型则通过分析电影的特征属性（如类型、导演、演员等），来计算电影之间的相似度。

同时，推荐系统还可以采用协同过滤算法来根据用户的行为和喜好，挖掘出相似用户的观影偏好，从而为用户推荐适合自己的电影。

然后，基于大数据分析的电影推荐系统需要利用机器学习和数据挖掘技术对电影数据进行深度分析和挖掘。

机器学习算法可以通过对用户的观影历史和行为进行建模，来预测用户对电影的评分和喜好。

数据挖掘算法可以通过对电影数据的分析和挖掘，来挖掘隐藏在数据背后的规律和模式，从而为用户提供更准确的电影推荐。

最后，设计基于大数据分析的电影推荐系统需要考虑用户体验和系统的实现。

《2024年基于Spark的电影推荐系统的设计与实现》范文

《基于Spark的电影推荐系统的设计与实现》篇一一、引言随着互联网的快速发展，人们面临着信息过载的问题。

在这样的背景下，推荐系统应运而生，帮助用户从海量数据中筛选出他们可能感兴趣的内容。

本文将介绍一个基于Spark的电影推荐系统的设计与实现。

该系统通过分析用户的行为和电影的特征，提供个性化的电影推荐，从而提高用户体验。

二、系统需求分析1. 用户需求：用户可以通过该系统浏览电影信息，观看电影推荐，并可根据自己的喜好调整推荐策略。

2. 业务需求：系统需要分析用户的观影历史、电影的属性和特征等数据，为每个用户提供个性化的电影推荐。

同时，系统还应具有可扩展性，以便处理未来的数据增长。

三、系统设计1. 数据源：系统从电影数据库、用户行为日志等数据源中获取数据。

其中，电影数据库包含电影的属性、类型、导演、演员等信息；用户行为日志记录了用户的观影历史、评分等行为。

2. 数据处理：系统使用Spark对数据进行处理。

首先，对数据进行清洗和转换，以便进行后续的分析和建模。

然后，通过Spark的机器学习库进行特征工程，提取出有用的特征。

最后，将数据存储在Spark的分布式存储系统中，以便进行实时分析和查询。

3. 推荐算法：系统采用协同过滤算法作为主要的推荐算法。

协同过滤算法通过分析用户的行为和电影的属性，找出相似的用户或相似的电影，从而为用户推荐他们可能感兴趣的电影。

此外，系统还结合了内容过滤算法，根据电影的属性和特征进行推荐。

4. 系统架构：系统采用微服务架构，将不同的功能模块拆分成独立的服务。

包括数据服务、推荐服务、用户服务、日志服务等。

各个服务之间通过API进行通信，提高了系统的可扩展性和可维护性。

四、系统实现1. 数据预处理：使用Spark对数据进行预处理，包括数据清洗、转换和特征工程等步骤。

通过编写Spark程序，将数据读取到Spark分布式存储系统中，并进行相应的转换和特征提取。

2. 推荐算法实现：使用Spark的机器学习库实现协同过滤算法和内容过滤算法。

基于大数据分析的个性化电影推荐系统设计与实现

基于大数据分析的个性化电影推荐系统设计与实现随着科技的不断进步，大数据在各行各业的应用越来越广泛。

在电影行业，人们对于电影的喜好千差万别，如何更好的推荐符合用户口味的电影，是一个亟待解决的问题。

个性化电影推荐系统应运而生，旨在根据用户个人偏好，为用户推荐最适合的电影。

本文将介绍基于大数据分析的个性化电影推荐系统的设计和实现。

一、数据采集与处理众所周知，任何一个好的推荐系统都离不开丰富的数据。

数据的质量和数量直接决定了推荐系统的效果。

本个性化电影推荐系统采集了大量用户评分和评论数据。

我们以某国内知名电影评论网站为例，通过爬虫技术获取用户评分、评论、电影名等数据，并存储在数据库中。

数据的采集是一个复杂的过程，需要具备爬虫技术和数据库管理技能的相关人员。

采集的数据需要进行初步的处理和加工，以便更好地适应推荐算法的要求。

数据的处理主要包括实现用户-物品-评分三元组，去除异常数据和重复数据等。

通过数据的加工发现，某些用户只对特定类型或制片国家的电影感兴趣，而对其他类型或国家的电影评分就非常低。

为了更好地满足用户的需求，我们对数据进行细致分析，并根据用户的个人历史数据，计算出每位用户对于电影类型的评分偏好值。

因此，我们能够更好地推荐符合用户偏好的电影。

二、特征抽取和分析为了更好地建立用户个性化模型和电影推荐模型，我们需要对用户和电影的各种特征进行分析和抽取。

电影的特征包括电影类型、演员阵容、导演、电影时长、制片国家等多个方面。

其中电影类型是最为重要的特征之一，因为用户对电影类型的偏好是最为明显的。

用户的特征包括年龄、性别、职业、地域等方面。

因为不同类型的人对电影的偏好不同，所以对用户进行分类是推荐系统的一个重要步骤。

三、推荐算法根据大量的数据分析和特征抽取，我们采用多种推荐算法进行用户个性化电影推荐。

常用的推荐算法包括基于协同过滤的推荐算法、基于内容过滤的推荐算法等。

其中基于协同过滤的推荐算法是应用最广泛的一种算法，因为它不需要对电影内容进行分析，只通过用户评分对电影进行相似度计算，并通过相似度计算推荐给用户相似的电影。

《2024年基于大数据分析的推荐系统研究——基于Hadoop的电影推荐系统的设计与实现》范文

《基于大数据分析的推荐系统研究——基于Hadoop的电影推荐系统的设计与实现》篇一一、引言随着互联网技术的飞速发展，大数据时代已经来临。

海量的数据资源为各行各业提供了前所未有的机遇和挑战。

在电影推荐领域，基于大数据分析的推荐系统已经成为了一种趋势。

本文将介绍一种基于Hadoop的电影推荐系统的设计与实现，通过分析用户行为数据和电影内容数据，提供精准、个性化的电影推荐服务。

二、相关技术概述2.1 Hadoop技术Hadoop是一个开源的分布式计算平台，能够处理海量数据。

它包括分布式文件系统HDFS和分布式计算框架MapReduce等核心技术，能够提供高效、可靠的数据存储和计算服务。

2.2 推荐系统技术推荐系统是一种利用用户行为数据和物品特征数据，为用户提供个性化推荐服务的系统。

常见的推荐算法包括协同过滤、内容过滤、深度学习等。

三、系统设计3.1 系统架构设计本系统采用分布式架构，基于Hadoop平台进行设计。

整个系统包括数据采集层、数据处理层、推荐算法层和应用层。

其中，数据采集层负责收集用户行为数据和电影内容数据；数据处理层负责对数据进行清洗、转换和存储；推荐算法层负责运用各种推荐算法进行电影推荐；应用层负责向用户提供电影推荐服务。

3.2 数据处理流程设计数据处理流程包括数据采集、数据预处理、特征提取、模型训练和结果输出等步骤。

首先，通过爬虫等技术收集用户行为数据和电影内容数据；然后，对数据进行清洗、转换和存储；接着，提取出用户特征和电影特征，运用推荐算法进行模型训练；最后，输出电影推荐结果。

3.3 推荐算法选择与实现本系统采用协同过滤和内容过滤相结合的混合推荐算法。

协同过滤算法包括基于用户的协同过滤和基于物品的协同过滤，能够根据用户的历史行为数据和物品的相似度进行推荐；内容过滤算法则根据电影的内容特征和用户偏好进行推荐。

在实现上，我们采用Hadoop的MapReduce框架进行分布式计算，提高系统的可扩展性和性能。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

DATS 6101: Amazon movie data grasping and recommendation

system analysis final project

Prepared by: Pseudo_yuan December 16, 2015 Introduction Big data provide useful information to the recommendation system. A good recommendation system is based on efficient algorithms. There are three popular recommendation algorithms: user-based recommendation algorithm, item-based recommendation algorithm and collaborative filtering recommendation. Based on one movie, Amazon recommends other movies that customs who watch this movie also watched. That is, this recommendation system is based on the user. However, in this system recommendations are limited, because some movies could fail to be recommended when few people have watched them. To address this problem, I will analyze attributes of the recommended movies and discuss the similarity of them to see whether it is possible to make a recommendation based on the attributes of items. In detail, with the help of the R package “rvest” I will grasp data from Amazon website pages and analysis the relationship between one movie and movies that customs who watch this movie also watched. Based on these relationships, customers’ preference could be predicted and more unpopular movies can be recommended.

Description and Quality of Data In one Amazon movie website page, there are lots of data such as the name, the genres, the director, the staring and the rates providing useful information for this movie. Amazon also gives links to recommended movies. A collection of informed data of a single movie could be a sub-dataset. One movie always associated to more than 6 recommended movies. And each recommended movie could create a new sub-dataset. In my database, one dataset includes information of one movie (the basic movie) and 6 movies that are recommended (the sub-movie) and movies that are recommended based on the sub-movies. In one dataset, there are attributes of name, year, mins, IMDb rate, BoxOffice, genre 1, genre 2, director, star 1, star 2 and studio in 43 movies. These data are website data and distribute in text, graphs even in image. The data are unstructured and sometimes could be missing, so they need cleaning before analyzed.

Data Acquisition and clean R package “rvest” is a useful package that helps to grasp data from html website pages. The function “read_html” helps to read the html website and the function“html_nodes” helps to select nodes from a HTML document. the function “html_text”, “html_name”, “html_children” or “html_attrs” helps extract attributes, text and tag name from html. With these functions, we can grasp wanted data from the website page. For example, we can use the following code to fetch the movie name from the given address.

movie <- read_html(address) Name <- movie %>% html_nodes("#aiv-content-title") %>% html_text() In this example, we get the movie name. However, the result contains useless black space. We can use the following code to delete it and make the data clean.

name <- trimws(strsplit(Name,"\n")[[1]][2]) The full code using for grasping and cleaning data is showed in appendix 1 and the result is showed in appendix 2.

The Amazon Movie data In this project, I build four data sets based on movie “A Most Wanted Man”, “Big Hero 6”, “Saving Christmas” and “Schindler’s List” and name them “group 1”, “group 2”, “group 3” and “group 4” separately. One data set includes the information of one movie and the movies recommended based on it. So in one data set the movies are recommendation relative. The full data sets are showed in the excel document named “ShuyuanZhao_FinalProjectData_Amazon Movie.xlsx”.

To detect the insights, I will visualize the data with the R package “ggplot2”. Firstly, I will present the year and IMDb rate of the movies in four data set with the following code: p <- ggplot(data=AmazonMovie,mapping=aes(x=YEAR,y=IMDBRATE)) p + geom_point(aes(color=GROUP)) The result is presented in Figure 1. Figure 1. the year and IMDbRate of the movies in four groups As we can see, movies in group 4 have relative high IMDb rate and movies in group 3 have relative low IMDb rate. In the middle, the rate of movies in group 2 is higher than the rate of movies in group 1. Andthe rate of the basic movie in group 4 is 8.9, in group 2 is 7.9, in group 1 is 6.9 and in group 3 is 1.6. The sort of the recommended movies matches to the sort of the basic movies in each group in IMDb rate. So in this case, we can conclude that the rate of basic movie has relationship with the rate of the recommended movies. Then, I will show the box office and mins of the movies in four data set using the following code: p <- ggplot(data=AmazonMovie,mapping=aes(x=BoxOffice,y=MINS)) p + geom_point(aes(color=GROUP))