《大数据开发基础》课程教学大纲
大数据基础(通识课)课程教学大纲

《大数据基础》课程教学大纲一、课程性质、目的与任务大数据时代已经全面开启,带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面。
了解大数据概念、具备大数据思维,是新时代对人才的新要求。
本课程高屋建瓴探讨大数据,内容深入浅出,通俗易懂,适合非计算机专业高职学生学习。
本书详细阐述了培养具有数据素养的技术技能型人才所需要的大数据相关基础知识。
本书在确定知识布局时,秉持的一个基本原则是,紧紧围绕大数据通识教育核心理念,培养学生的数据意识、数据思维、数据安全和数据分析能力。
全书共7章,内容包括大数据概述,大数据思维,数据库基础知识,大数据分析技术及相关应用,数据可视化概论,大数据安全,大数据与云计算、物联网、人工智能、数字货币、区块链等新一代信息技术的融合应用。
为了避免陷入空洞的理论介绍,本书在很多章节都融入了丰富的案例,这些案例就发生在我们生活的大数据时代,很具有代表性和说服力,能够让学生直观感受相应理论的具体内涵。
二、培养目标本课程旨在实现以下几个培养目标:(1)引导学生步入大数据时代,积极投身大数据的变革浪潮之中;(2)了解大数据概念,培养大数据思维,养成数据安全意识;(3)认识大数据伦理,努力使自己的行为符合大数据伦理规范要求;(4)熟悉大数据应用,探寻大数据与自己专业的应用结合点;(5)激发学生基于大数据的创新创业热情。
三、教学方法本课程以课程理论教学为主,并安排课堂讨论,以深化学生对知识的理解。
在理论教学层面,高屋建瓴地探讨大数据,超脱技术讲解技术,内容深入浅出,通俗易懂,适合非计算机专业学生学习;同时,在课堂上为学生展示丰富的实际应用案例,激发学生学习兴趣,开拓学生视野,培养学生大数据思维。
四、主要内容及学时安排五、考核方式与要求(1)平时成绩:包括上课考勤、课堂讨论和课堂作业;(2)期末考试:采用笔试,闭卷;(3)最终成绩:平时成绩和期末考试成绩按3:7比例加权求和。
Hadoop大数据开发基础教案Hadoop介绍教案

Hadoop大数据开发基础教案Hadoop介绍教案第一章:Hadoop概述1.1 课程目标了解Hadoop的定义、发展历程及应用场景掌握Hadoop的核心组件及其作用理解Hadoop在大数据领域的优势1.2 教学内容Hadoop的定义与发展历程Hadoop的核心组件:HDFS、MapReduce、YARN Hadoop的应用场景与优势1.3 教学方法讲解与案例分析相结合互动提问,巩固知识点1.4 课后作业简述Hadoop的发展历程及其在大数据领域的优势。
第二章:HDFS(分布式文件系统)2.1 课程目标掌握HDFS的架构与工作原理了解HDFS的优势与局限性掌握HDFS的常用操作命令2.2 教学内容HDFS的架构与工作原理HDFS的优势与局限性HDFS的常用操作命令:hdfs dfs, hdfs dfsadmin2.3 教学方法讲解与实践操作相结合案例分析,理解HDFS的工作原理2.4 课后作业利用HDFS命令练习文件的与。
第三章:MapReduce编程模型3.1 课程目标掌握MapReduce的基本概念与编程模型理解MapReduce的运行原理与执行过程学会使用MapReduce解决大数据问题3.2 教学内容MapReduce的基本概念:Mapper、Reducer、Shuffle与Sort MapReduce的编程模型:Map阶段、Shuffle阶段、Reduce阶段MapReduce的运行原理与执行过程3.3 教学方法讲解与编程实践相结合剖析经典MapReduce案例,理解编程模型3.4 课后作业编写一个简单的MapReduce程序,实现单词计数功能。
第四章:YARN(资源管理器)4.1 课程目标掌握YARN的基本概念与架构了解YARN的工作原理与调度策略掌握YARN的资源管理与优化方法4.2 教学内容YARN的基本概念与架构YARN的工作原理与调度策略YARN的资源管理与优化方法4.3 教学方法讲解与案例分析相结合实操演练,掌握YARN的资源管理方法4.4 课后作业分析一个YARN集群的资源使用情况,提出优化方案。
《大数据开发基础》课程教学大纲(含目录)

课程名称:大数据开发基础英文名称:Big Data Development Foundation适用对象:计算机专业本科三年级以上的学生课时:32课时一、课程性质、目的和任务1.本课程为计算机专业大学本科生及研究生选修的一门课程;2.目的是让学生了解并掌握四个领域(即大数据系统的起源及系统特征、大数据系统的架构设计及功能目标设计、大数据系统程序开发、企业大数据案例分析)的内容,同时利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力;3.本课程重点让学生掌握五个方面的内容:(1)HDFS使用操作;(2)MapReduce开发;(3)HBase数据库的开发;(4)Hive数据仓库开发;(5)大数据案例分析;二、教学内容及要求第一章大数据概述授课学时:1基本要求:1.了解大数据概念、特征、数据计量单位以及大数据的类型;2.了解大数据系统的设计背景、以及当前大数据系统存在的不足;3.了解大数据系统的设计思想、设计目标和设计原则;4.了解大数据系统的整体逻辑架构设计及运行逻辑,了解当前大数据系统的主流架构;第二章大数据应用开发思路和开发环境配置授课学时:1基本要求:1.掌握大数据系统应用读写操作的开发流程;2.掌握分析大数据开发技术及思路;3.掌握大数据Java开发的环境配置、Plugin插件的安装,Hadoop环境配置;第三章HDFS 分布式文件系统授课学时:4基本要求:1.了解HDFS设计目标、基本概念;2.掌握HDFS文件系统的命令操作;3.掌握Java对HDFS的程序开发操作,包含目录管理、文件列表、读取、导入导出、文件压缩等开发;4.真机实操训练(实验环节1);第四章 MapReduce 分布式编程授课学时:6基本要求:1.了解MapReduce的设计思想、基本概念;2.了解MapReduce的系统架构、作业运行机制和关键技术;3.掌握MapReduce的数据类型的自定义以及数据类型的使用;4.掌握MapReduce开发,定制输入输出的数据格式;5.掌握将HDFS文件系统中整个文件作为输入数据的开发;6.掌握利用MapReduce完成小文件聚合成一个大文件的开发;7.掌握压缩数据处理程序开发;8.掌握任务组合过程,掌握迭代组合、并行组合及串行组合;9.掌握任务的前后链式组合;10.掌握多数据源连接的开发,包含Map端开发以及Reduce端开发;11.掌握Hadoop全局参数的使用,全局文件的使用;12.掌握与关系型数据库的访问连接;13.真机实操训练(实验环节2);第五章 HBase 分布式数据库授课学时:4基本要求:1.了解HBase分布式数据库的设计目标、基本概念;2.了解HBase逻辑架构以及物理架构;3.掌握HBase分布式数据库Shell命令操作;4.掌握HBase数据库系统的Java开发,包含创建表、删除表,查询所有表操作;5.掌握HBase数据库系统的Java开发,包含插入记录、查询数据,组合查询、修改删除记录等开发;6.真机实操训练(实验环节3);第六章 Hive数据仓库开发授课学时:6基本要求:1.了解Hive数据仓库的工作原理及特点;2.了解Hive架构设计,包含数据类型、数据存储方式以及查询方式;3.掌握Hive数据仓库系统的HQL语言语法;4.掌握HQL的创建表、查看表及查询有结构,修改表以及删除表;5.掌握利用HQL语句将HDFS的文件导入数据仓库;6.掌握分区表、桶表、外部表的使用;7.掌握HQL语句的联合查询、子查询、创建视图等操作;8.掌握利用Java开发UDF自定义函数,以及自定义函数的使用;9.掌握Java连接Hive数据仓库进行数据查询;10.真机实操训练(实验环节4);第七章Spark数据挖掘授课学时:4基本要求:1.了解数据挖掘的基本概念和手段,介绍数据挖掘的常用算法、编程语言等;2.了解常用的数据挖掘工具;3.了解最新大数据处理技术Spark平台,包括RDD基础及编程接口介绍,以及SparkSQL逻辑架构,流式处理技术SparkStream等;4.了解介绍Spark平台下机器学习(Machine Learning)架构解析,以及Spark MLlib经典算法解析和案例;5.案例详解,解析通过Spark MLlib的协同过滤算法,来分析某大型电商的商品推荐过程,并说明实现方法和代码;第八章综合案例分析1、某网站访问日志分析授课学时:2基本要求:1.了解网站访问日志的数据结构;2.了解网站访问日志的分析方法以及本次分析日志需要完成的目录;3.了解分析过程以及分析工具的使用;4.大数据环境实验(实验环节5);2、某搜索引擎网站日志分析授课学时:2基本要求:1.了解搜狐网站对关键词搜索记录的数据结构;2.了解关键词搜索的分析目标及预期完成分析结果;3.了解分析流程、分析工具以及重点代码的介绍;4.大数据环境实验(实验环节6);3、某大型电商数据分析授课学时:2基本要求:1.了解本案例中电商数据的字段结构;2.了解本次电商数据预期完成分析的指标以及分析结果的再利用介绍;3.了解分析流程、分析工具以及重点代码的介绍;4.大数据环境实验(实验环节7);三、课程考核课程成绩中期末考试成绩占60%,平时成绩占40%;期末考试分笔试和上机操作两部分进行。
《大数据》课程教学大纲(本科)

《大数据》课程教学大纲课程编号:04224课程名称:大数据英文名称:Big Data课程类型:学科选修课课程要求:选修学时/学分:32/2 (讲课学时:28上机学时:4)适用专业:智能科学与技术一、课程性质与任务大数据分析是智能科学与技术、计算机科学技术等专业的一门学科选修课,该课程涉及各类常用的挖掘与分析方法,提供了从数据准备到统计分析、关联规则建立及集成学习等整个数据分析过程的内容。
本课程全面地介绍了大数据处理相关的基本概念和原理,着重讲述了介绍数据挖掘、分析相关的理论、方法及实现工具。
本课程在教学内容方面着重基本知识、基本理论和基本设计方法的讲解;在培养实践能力方面着重数据分析的基本训练,为学生今后从事大数据的研究与预测打下坚实的基础。
(本课程可支撑毕业要求中的3.3, 7.2, 10.1, 12.2)二、课程与其他课程的联系本课程的先修课程为人工智能基础、机器学习等专业基础课程。
通过对人工智能基础的学习能够掌握智能的算法和搜索技术,通过对机器学习能够了解数据的分类、过滤等方法。
这些先修课程为本课程的讲授打下了基础。
本课程的后续课程包括智能机器人、模式识别等。
通过本课程可为后续课程提供理论与方法实践基础。
三、课程教学目标1.考虑社会、健康、安全、法律、文化以及环境等因素,设计一个能实现预期功能的硬件或软件系统,进行仿真研究或开发出系统原型或实物(支撑毕业要求中的3.3);2.能够评价智能系统工程实践对环境、社会可持续发展的影响(支撑毕业要求中的7.2);3.将大数据技术作为重点,以应用为目的,全面介绍大数据的数据挖掘与预测方法。
使学生既能对大数据处理技术有一个全景的把握,又能深入理解和使用大数据进行决策。
4.有不断学习和适应智能科学与技术发展的能力(支撑毕业要求中的12.2)5.了解大数据挖掘与预测分析学科的前沿和最新发展动向,具有跟踪学科发展前沿的意识和文献检索基本技能。
(支撑毕业要求中的10.1)四、教学内容、基本要求与学时分配五、其他教学环节(课外教学环节、要求、目标)大作业:1.对数据挖掘的认识。
《大数据技术基础》-课程教学大纲

《大数据技术基础》课程教学大纲一、课程基本信息课程代码:16176903课程名称:大数据技术基础英文名称:Fundamentals of Big Data Technology课程类别:专业课学时:48学分:3适用对象: 软件工程,计算机科学与技术,大数据管理考核方式:考核先修课程:计算机网络,云计算基础,计算机体系结构,数据库原理,JA V A/Python 程序设计二、课程简介当前在新基建和数字化革命大潮下,各行各业都在应用大数据分析与挖掘技术,并紧密结合机器学习深度学习算法,可为行业带来巨大价值。
这其中大数据处理与开发框架等大数据技术是进行数字化,数智化应用建设的核心和基础,只有努力提升大数据处理与开发技术与性能,建立行业数字化和智能化转型升级才能成功。
大数据处理与开发技术是新基建和数字化革命核心与基础。
大数据技术基础课程,为学生搭建起通向“大数据知识空间”的桥梁和纽带,以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,为学生在大数据领域“深耕细作”奠定基础、指明方向。
课程将系统讲授大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、基于内存的大数据处理架构Spark、大数据在互联网、生物医学和物流等各个领域的应用。
在Hadoop、HDFS、HBase、MapReduce、Spark等重要章节,安排了入门级的实践操作,让学生更好地学习和掌握大数据关键技术。
同时本课程将介绍最前沿的业界大数据处理与开发技术和产品平台,包括阿里大数据服务平台maxcompute,华为大数据云服务平台FusionInsight,华为高性能分布式数据库集群GaussDB等业界最先进技术,以及国家大数据竞赛平台网站和鲸社区。
让学生学以致用,紧跟大数据领域最领先技术水平,同时,面对我国民族企业,头部公司在大数据领域取得的巨大商业成功与前沿技术成果应用产生强烈民族自豪感,为国家数字化经济与技术发展努力奋斗,勇攀知识高峰立下志向。
2024年度《大数据技术导论》课程教学大纲

NoSQL数据库概述
阐述NoSQL数据库的概念、特点及其与关系型数据库的区别。
主要NoSQL数据库类型
介绍键值存储、列式存储、文档存储和图形存储等主要的NoSQL 数据库类型及其代表产品。
NoSQL数据库应用案例
展示NoSQL数据库在不同领域的应用实例,如MongoDB在Web 开发中的应用、Cassandra在分布式系统中的应用等。
及其在大数据存储中的角色。
HDFS架构与原理
02
详细解析HDFS的架构,包括NameNode、DataNode、Block
等核心概念,以及其高可的基本操作指南,如文件的上传、下载、查看等,并
通过实例演示其用法。
12
NoSQL数据库简介
2024/3/23
数据加密技术
采用先进的数据加密技术,确保数据在传输和存储过程中的安全性 。
隐私保护法规
制定和完善隐私保护法规,规范大数据的收集、存储和使用行为,保 护个人隐私不受侵犯。
2024/3/23
24
数据质量与治理问题
数据质量问题
大数据中存在着大量重 复、错误和不完整的数 据,严重影响数据分析 结果的准确性和可信度 。
2024/3/23
智能能源管理
利用大数据和物联网技术 ,实现能源的智能分配和 优化。
公共安全监控
通过大数据分析,提高城 市公共安全监控和应急响 应能力。
22
06 大数据挑战与未来发展
2024/3/23
23
数据安全与隐私保护问题
数据泄露风险
随着大数据技术的广泛应用,数据泄露事件频繁发生,对企业和个 人隐私造成严重威胁。
10
讲解数据可视化的基本 原理和常用工具,如 Tableau、D3.js等,以 及如何将分析结果以直 观的方式呈现出来。
大数据开发技术课程设计

大数据开发技术课程设计一、课程目标知识目标:1. 理解大数据基本概念,掌握大数据技术体系结构;2. 学会使用至少一种大数据处理框架(如Hadoop、Spark)进行数据处理;3. 掌握数据挖掘和数据分析的基本方法,并能够运用到实际项目中;4. 了解大数据在各行业的应用场景及其解决方案。
技能目标:1. 具备编写大数据处理程序的能力,能够运用所学的编程语言(如Java、Python)实现数据清洗、存储、分析和可视化;2. 能够运用大数据技术解决实际问题,具备一定的数据分析和问题解决能力;3. 熟练使用常见的大数据处理工具和平台,如Hadoop、Spark、Hive等;4. 具备团队协作和沟通能力,能够在项目中发挥积极作用。
情感态度价值观目标:1. 培养学生对大数据技术的兴趣,激发学生主动学习的热情;2. 培养学生的数据敏感度,使其认识到数据的价值,树立数据驱动的思维;3. 培养学生的创新意识和实践能力,鼓励学生将所学知识运用到实际项目中;4. 培养学生的团队协作精神,使其在团队中发挥积极作用,共同解决问题。
课程性质:本课程为实践性较强的课程,旨在帮助学生掌握大数据开发技术的基本知识和技能,培养学生解决实际问题的能力。
学生特点:学生具备一定的编程基础和数学基础,对大数据技术有一定了解,但实践经验不足。
教学要求:结合学生特点和课程性质,注重理论与实践相结合,强化实践操作,培养学生实际动手能力。
在教学过程中,注重启发式教学,引导学生主动探索,提高学生的创新意识和解决问题的能力。
同时,关注学生的情感态度价值观培养,使其在学习过程中形成正确的价值观和积极的态度。
通过课程学习,使学生能够达到上述课程目标,为未来的学习和工作打下坚实基础。
二、教学内容1. 大数据概念与背景- 大数据的定义、特征与发展历程- 大数据在各领域的应用案例2. 大数据技术体系- 分布式计算框架:Hadoop、Spark- 分布式存储:HDFS、HBase- 数据仓库:Hive、Pig- 流式处理:Kafka、Flume3. 数据处理与挖掘- 数据清洗、预处理与存储- 数据挖掘基本算法:分类、聚类、关联规则挖掘- 数据分析方法与案例4. 大数据编程实践- 编程语言:Java、Python- 大数据框架应用:Hadoop、Spark编程实践- 数据分析与可视化工具:Tableau、ECharts5. 大数据项目实战- 项目分析与设计- 团队协作与分工- 项目实施与总结教学大纲安排:第一周:大数据概念与背景第二周:大数据技术体系介绍第三周:分布式计算框架Hadoop与Spark第四周:分布式存储HDFS与HBase第五周:数据仓库Hive与Pig第六周:流式处理Kafka与Flume第七周:数据处理与挖掘基本方法第八周:大数据编程实践第九周:数据分析与可视化第十周:大数据项目实战教学内容根据课程目标制定,注重科学性与系统性。
大数据分析基础课程教学大纲详细完整标准版.doc

《大数据分析基础》课程教学大纲课程名称:大数据分析基础适用专业:会计学、审计学、财务管理学时:32学时。
其中理论16学时,实践16学时学分:2学分大纲执笔人:XX大纲审核人:XX制定时间:20XX年XX月一、课程简介:课程类型:专业课课程性质:必修内容要点:随着“大智移云物”(大数据、人工智能、移动互联网、云计算与物联网)技术的发展,很多财会人员正积极向智能可视化的财务分析方向转型。
2019年2月,国际著名咨询机构Gartner公司发布的《商业智能和分析平台魔力象限》年度报告显示,微软超越一切对手,再次成为最具领导力和超前愿景的 BI公司。
本课程以微软Power BI为工具,以案例驱动方式讲解数据分析(数据获取与整理、数据建模、数据可视化)的一般思路及方法,为后续课程打下基础。
先修课程:《计算机基础》、《会计学基础》、《管理学》后续课程:《数据库基础与应用》二、课程培养目标(知识、能力、素质)一级指标二级指标三级指标1.知识目标1. 1通用知识(1)了解大数据相关的基础常识,形成一定的大数据文化;(2)了解数据分析的相关知识,形成一定的数据分析意识。
1.2专业知识(1)理解大数据的定义和数据分析的要求;(2)掌握PowerrBI的使用。
2.能力目标2. 1获取知识的能力(1)能够独立的通过专业书籍、网站资源等信息媒介,获取大数据、数据分析、数据可视化相关的识,具备一定的自学能力;(2)能够通过理论学习、实践操作、综合实验、小组讨论和合作等方式获取知识。
2. 2应用知识的能力(1)能收集、处理、准备和加工数据;(2)能熟练使用PowerrBI完成数据分析和数据可视化2. 3迁移知识能力(1)能够利用数据分析思维去思考和解决生活、工作、学习中遇到的问题;(2)能够通过学习PowerrBI,养成解决类似问题的能力。
3.素质目标3.1团队协作能力通过学生小组形式开展学习与实践,使学生形成良好的团队合作意识与能力,养成良好的团队沟通技巧,能寻找有效的团队学习工作方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据开发基础
一、课程性质、目的和任务
1. 本课程为计算机专业大学本科生及研究生选修的一门课程;
2. 目的是让学生了解并掌握四个领域(即大数据系统的起源及系统特征、大数据系统的架构设计
及功能目标设计、大数据系统程序开发、企业大数据案例分析)的内容,同时利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力;
3. 本课程重点让学生掌握五个方面的内容:
(1)HDFS使用操作;
(2)MapReduce开发;
(3)HBase数据库的开发;
(4)Hive数据仓库开发;
(5)大数据案例分析;
二、教学内容及要求
第一章大数据概述
授课学时:1
基本要求:
1.了解大数据概念、特征、数据计量单位以及大数据的类型;
2.了解大数据系统的设计背景、以及当前大数据系统存在的不足;
3.了解大数据系统的设计思想、设计目标和设计原则;
4.了解大数据系统的整体逻辑架构设计及运行逻辑,了解当前大数据系统的主流架构;
第二章大数据应用开发思路和开发环境配置
授课学时:1
基本要求:
1.掌握大数据系统应用读写操作的开发流程;
2.掌握分析大数据开发技术及思路;
3.掌握大数据Java开发的环境配置、Plugin插件的安装,Hadoop环境配置;
第三章HDFS分布式文件系统
授课学时:4
基本要求:
1.了解HDFS设计目标、基本概念;
2.掌握HDFS文件系统的命令操作;
3.掌握Java对HDFS的程序开发操作,包含目录管理、文件列表、读取、导入导出、文件压缩等开发;
4. 真机实操训练(实验环节 1);
第四章MapReduce分布式编程
授课学时:6
基本要求:
1.了解MapReduce的设计思想、基本概念;
2.了解MapReduce的系统架构、作业运行机制和关键技术;
3.掌握MapReduce的数据类型的自定义以及数据类型的使用;
4.掌握MapReduce开发,定制输入输出的数据格式;
5.掌握将HDFS文件系统中整个文件作为输入数据的开发;
6.掌握利用MapReduce完成小文件聚合成一个大文件的开发;
7.掌握压缩数据处理程序开发;
8.掌握任务组合过程,掌握迭代组合、并行组合及串行组合;
9.掌握任务的前后链式组合;
10.掌握多数据源连接的开发,包含Map端开发以及Reduce端开发;
11.掌握Hadoop全局参数的使用,全局文件的使用;
12.掌握与关系型数据库的访问连接;
13.真机实操训练(实验环节2);
第五章HBase分布式数据库
授课学时:4
基本要求:
1.了解HBase分布式数据库的设计目标、基本概念;
2.了解HBase逻辑架构以及物理架构;
3.掌握HBase分布式数据库Shell命令操作;
4.掌握HBase数据库系统的Java开发,包含创建表、删除表,查询所有表操作;
5.掌握HBase数据库系统的Java开发,包含插入记录、查询数据,组合查询、修改删除记录等开发;
6.真机实操训练(实验环节3);
第六章Hive数据仓库开发
授课学时:6
基本要求:
1.了解Hive数据仓库的工作原理及特点;
2.了解Hive架构设计,包含数据类型、数据存储方式以及查询方式;
3.掌握Hive数据仓库系统的HQL语言语法;
4.掌握HQL的创建表、查看表及查询有结构,修改表以及删除表;
5.掌握利用HQL语句将HDFS的文件导入数据仓库;
6.掌握分区表、桶表、外部表的使用;
7.掌握HQL语句的联合查询、子查询、创建视图等操作;
8.掌握利用Java开发UDF自定义函数,以及自定义函数的使用;
9.掌握Java连接Hive数据仓库进行数据查询;
10.真机实操训练(实验环节4);
第七章Spark数据挖掘
授课学时:4
基本要求:
1.了解数据挖掘的基本概念和手段,介绍数据挖掘的常用算法、编程语言等;
2.了解常用的数据挖掘工具;
3.了解最新大数据处理技术Spark平台,包括RDD基础及编程接口介绍,以及SparkSQL逻辑架构,流式处理技术SparkStream等;
4.了解介绍Spark平台下机器学习(Machine Learning)架构解析,以及Spark MLlib经典算法解析和案例;
5.案例详解,解析通过Spark MLlib的协同过滤算法,来分析某大型电商的商品推荐过程,并说明实现方法和代码;
第八章综合案例分析
1、某网站访问日志分析
授课学时:2
基本要求:
1.了解网站访问日志的数据结构;
2.了解网站访问日志的分析方法以及本次分析日志需要完成的目录;
3.了解分析过程以及分析工具的使用;
4.大数据环境实验(实验环节5);
授课学时:2
基本要求:
1.了解搜狐网站对关键词搜索记录的数据结构;
2.了解关键词搜索的分析目标及预期完成分析结果;
3.了解分析流程、分析工具以及重点代码的介绍;
4.大数据环境实验(实验环节6);
3、某大型电商数据分析
授课学时:2
基本要求:
1.了解本案例中电商数据的字段结构;
2.了解本次电商数据预期完成分析的指标以及分析结果的再利用介绍;
3.了解分析流程、分析工具以及重点代码的介绍;
4.大数据环境实验(实验环节7);
三、课程考核
课程成绩中期末考试成绩占60%,平时成绩占40%;
期末考试分笔试和上机操作两部分进行。
附录1:实验环节介绍
●
实验环节1:HDFS操作命令操作
实验目标及要求:让学生掌握分布式文件系统HDFS的文件操作,包含导入导出文件、列表、查找、删
除文件等。
●
实验环节2:MapReduce开发(单词计数)
实验目标及要求:让学生掌握在HDFS文件系统内的Map及Reduce的Java开发,实现对指定文本文件
的单词计数,将统计结果输出至控制台。
●
实验环节3:HBase数据库命令操作
实验目标及要求:让学生掌握分布式文件数据库系统HBase的数据库操作,包含创建表、删除表、增
加列、导入记录、删除记录等。
●
实验环节4:Hive数据仓库基础使用
实验目标及要求:让学生掌握在Hive数据仓库的基本命令的操作,包含创建数据仓库、创建表、删除
表、导入及导出数据,统计查询等在CLI模式下的使用操作。
●
实验环节5:分析网站访问日志
实验目标及要求:实践在企业应用中的互联网网站访问日志的分析案例,利用Hive工具完成对每小时
内的访问PV及IP数据,同时将统计结果输出至网页。
●
实验环节6:分析搜索引擎网站日志数据
实验目标及要求:分析关键字的统计日志的数据,利用Hive工具完成对关键词的统计,包含搜索关键
词排行、用户习惯点击第几个连接、访问目标网站排行等,同时将统计结果输出至网页。
●
实验环节7:分析电商网站数据
实验目标及要求:对此大型电商数据进行实践分析,利用Hive工具完成对商品销售统计,同类商品推荐等分析指标,将分析结果导出至关系型数据库Mysql。