大数据技术与应用基础教学大纲

合集下载

(完整)大数据技术与应用基础-教学大纲

《大数据技术与应用基础》教学大纲学时：60代码:适用专业：制定：审核：批准：一、课程的地位、性质和任务大数据技术的发展，已被列为国家重大发展战略。

而在过去的几年里，无论是聚焦大数据发展的《促进大数据发展行动纲要》，还是《“十三五”规划》中都深刻体现了政府对大数据产业和应用发展的重视。

目前国内大数据发展还处于加速期、转型期，数据与传统产业的融合还处于起步阶段,各行业对大数据分析和挖掘的应用还不理想。

但随着市场竞争的加剧，各行业对大数据技术研究的热情越来越高，在未来几年，各领域的数据分析都将大规模应用.本课程在注重大数据时代应用环境前提下，考虑大数据处理分析需求多样复杂的基本情况，从初学者角度出发,以轻量级理论、丰富的实例对比性地介绍大数据常用计算模式的各种系统和工具。

考虑到当前大数据发展处于起步并逐步赶超先进的阶段，其应用领域丰富广泛，在教学过程中应注重掌握大数据分析的实践操作。

本课程通过丰富简单易上手的实例,让学生能够切实体会和掌握各种类型工具的特点和应用。

二、课程教学基本要求1. 了解大数据的发展和基本概念,理解并掌握大数据的特征及主要技术层面.2。

掌握Scrapy环境的搭建，了解网络爬虫获取数据的过程，熟悉爬虫项目的创建。

3. 深刻了解hadoop的基础理论,理解并掌握Hadoop单机及集群环境的部署方法。

4。

掌握HDFS的基本概念和HDFS在hadoop中的作用，理解并识记HDFS的使用，了解HDFS的JAVA API 接口及数据流原理；让学生明白Map过程与Reduce过程这两个独立部分各自的原理及合作途径，知道如何独立编写满足自己需求的MapReduce程序。

5。

理解HBase中涉及的基本概念，掌握HBase的简单应用；让学生了解数据仓库的基础概念，熟悉Hive 与HDFS、MapReduce直接的关心。

6。

熟悉Spark和RDD的基本概念,熟悉spark接口的使用，解决实战时的步骤及思路.7. 明白Hadoop和Storm之间的差别，掌握对Storm的使用。

《Hadoop大数据技术与应用》教学大纲

《Hadoop大数据技术与应用》课程教学大纲
【课程名称】HadoOP大数据技术与应用
【课程类型】专业必修课
【授课对象】大数据技术与应用、云计算技术与应用专业、人工智能技术专业高职，二年级学生【学时学分】周学时4,64学时，6学分
【课程概况】
《Hadoop大数据技术与应用》课程是大数据技术与应用、云计算技术与应用专业必修课，是计算机基础理论与应用实践相结合的课程，也是大数据专业的高核心课程，它担负着系统、全面地理解大数据，提高大数据应用技能的重任。

本课程的先修课为《大数据技术概论》、《编程基础》、《1inux操作系统》、《数据库设计与实现》等课程，要求学生掌握HadOOP生态系统的框架组件，操作方法。

［课程目标］
通过本课程的学习，让学生接触并了解HadOOP生态系统各组件的原理和使用方法，使学生具有Had。

P相关技术，具备大数据开发的基本技能，并具有较强的分析问题和解决问题的能力，为将来从事大数据相关领域的工作打下坚实的基础。

【课程内容及学时分布】
【使用教材及教学参考书】
使用教材：《Hadoop生态系统及开发》，邓永生、刘铭皓等主编，西安电子
科技大学出版社,2023年
大纲执笔人：
大纲审定人：
年月日。

《大数据技术及应用》教学大纲[3页]

教学重点：HDFS的体系结构和工作原理、HDFS文件系统的操作命令
教学难点：利用pyhdfs实现HDFS文件系统的操作
4+2
第5章HBase基础与应用
教学内容：
（1）HBase的体系结构、核心组件和工作原理
（2）HBase的常用命令，使用命令对HBase系统进行操作
（3）利用Jyhdfs实现HBase数据库系统的操作
课程学习目标
学习目标1：掌握大数据的基本原理、主流的大数据处理平台和技术方法。
学习目标2：提高学生应用大数据思维和技术方法解决实际问题的能力。
学习目标3：培养学生运用大数据技术中的科学思维与计算思维，激发学生科技报国、奉献社会的情怀和使命担当。
二、课程教学内容和学时分配
章节
教学内容及其重难点
学时安排
4+2
第8章大数据分析与挖掘
教学内容：
（1）数据的描述性分析
（2）回归、分类与聚类的基本原理与常用算法
（3）分布式大数据挖掘算法典型案例
教学重点：回归、分类与聚类的基本原理与常用算法
教学难点：基于MapReduce的分布式大数据挖掘算法的设计与实现
4+2
第9章数据可视化
教学内容：
（1）数据可视化的常用方法
《大数据技术及应用》课程教学大纲
一、课程基本信息
课程
编号
课程
名称
大数据技术及应用
课程基本情况
学时
32（课堂）+18（实验）
课程性质
专业选修
先修课程
高级语言程序设计，数据库原理
考核方式
考试，作业考核，课堂表现考核
教材及
参考书
教材：严宣辉，张仕，赖会霞，韩凤萍.大数据技术及应用—基于Python语言.电子工业出版社.2021.10

大数据技术原理与应用教学大纲

大数据技术原理与应用教学大纲一、课程介绍本课程主要介绍大数据技术的基本原理和常见应用。

学生将通过本课程掌握大数据处理的基本方法与技术，了解大数据在不同领域的应用案例，并能够使用相关工具和技术进行大数据处理和分析。

二、课程目标1.理解大数据的基本概念、背景和发展趋势。

2.掌握大数据处理的基本方法和技术，包括数据获取、存储、处理、分析和可视化等。

3.了解大数据在不同领域的应用案例，包括商业、金融、医疗、社交网络、智能交通等。

4. 学习使用大数据处理和分析的相关工具和技术，如Hadoop、Spark、SQL、Python等。

三、教学内容1.大数据概述1.1大数据定义和特点1.2大数据的发展背景和趋势2.大数据处理方法2.1数据获取与清洗2.2数据存储与管理2.3数据处理与分析2.4数据可视化与展示3.大数据应用案例3.1商业与金融领域的大数据应用3.2医疗与健康领域的大数据应用3.3社交网络与推荐系统的大数据应用3.4智能交通与城市管理的大数据应用4.大数据处理与分析工具与技术4.1 Hadoop与MapReduce4.2 Spark与分布式计算4.3SQL与关系型数据库4.4 Python与数据分析5.大数据安全与隐私保护5.1大数据安全的挑战与问题5.2大数据隐私保护的方法与技术四、教学方法1.理论课讲授：通过课堂讲解，介绍大数据的基本理论知识和相关技术。

2.实验操作：通过实验操作，学生亲自使用大数据处理和分析工具，加深对大数据技术的理解和掌握。

3.案例研究：通过实际的大数据应用案例，引导学生分析和解决实际问题，提高实际应用能力。

五、考核方式1.平时成绩（包括参与讨论、实验报告等）占40%。

2.期末考试占60%。

六、教材与参考资料教材：1.《大数据导论》，王磊著，清华大学出版社。

2. 《Hadoop权威指南》，Tom White著，人民邮电出版社。

参考资料：1. 《Spark快速大数据分析》2. 《Python数据分析实战》3.《数据孤岛》4.《深入理解计算机系统》七、教学进度安排第一周：课程介绍、大数据概述第二周：数据获取与清洗第三周：数据存储与管理第四周：数据处理与分析第五周：数据可视化与展示第六周：商业与金融领域的大数据应用第七周：医疗与健康领域的大数据应用第八周：社交网络与推荐系统的大数据应用第九周：智能交通与城市管理的大数据应用第十周：Hadoop与MapReduce第十一周：Spark与分布式计算第十二周：SQL与关系型数据库第十三周：Python与数据分析第十四周：大数据安全与隐私保护第十五周：复习备考以上为《大数据技术原理与应用教学大纲》的大致内容，主要涵盖了大数据的基本概念、处理方法和应用领域，以及相关工具和技术的学习。

Spark大数据技术与应用》教学大纲

Spark大数据技术与应用》教学大纲2.理解HBase的数据模型和架构3.掌握HBase的部署和使用方法4.了解HBase的性能优化和数据管理策略5.了解HBase与Hadoop的集成方式6.了解HBase在实际应用中的案例和经验7.掌握HBase的调试和故障排查方法8.了解HBase的未来发展趋势和技术挑战2.了解Cassandra的历史和特点3.理解Cassandra的数据模型和架构4.掌握Cassandra的部署和使用方法5.了解Cassandra的性能优化和数据管理策略6.了解Cassandra在实际应用中的案例和经验7.掌握Cassandra的调试和故障排查方法8.了解Cassandra的未来发展趋势和技术挑战2.了解MongoDB的历史和特点3.理解MongoDB的数据模型和架构4.掌握MongoDB的部署和使用方法5.了解MongoDB的性能优化和数据管理策略6.了解MongoDB在实际应用中的案例和经验7.掌握MongoDB的调试和故障排查方法8.了解MongoDB的未来发展趋势和技术挑战2.了解Neo4j的历史和特点3.理解Neo4j的数据模型和架构4.掌握Neo4j的部署和使用方法5.了解Neo4j的性能优化和数据管理策略6.了解Neo4j在实际应用中的案例和经验7.掌握Neo4j的调试和故障排查方法8.了解Neo4j的未来发展趋势和技术挑战2.了解Redis的历史和特点3.理解Redis的数据模型和架构4.掌握Redis的部署和使用方法5.了解Redis的性能优化和数据管理策略6.了解Redis在实际应用中的案例和经验7.掌握Redis的调试和故障排查方法8.了解Redis的未来发展趋势和技术挑战本课程旨在介绍NoSQL数据库的基本技术原理、常见存储模式等知识，让学生掌握常见NoSQL数据库的部署和使用方法，理解分布式大数据系统可能遇到的技术难题和解决方法，并深入理解大数据领域的开源工具和技术原理。

大数据技术原理与应用课程教学大纲

大数据技术原理与应用课程教学大纲课程名称：大数据技术原理与应用课程类型：专业选修课课程学时：60学时课程教学目标：本课程旨在介绍大数据技术的原理和应用，使学生了解大数据技术的基本概念、关键技术和应用场景，并具备基本的大数据技术分析和应用能力。

通过本课程的学习，学生将能够掌握大数据技术的基本原理、企业级大数据技术体系结构、大数据分析方法和工具、大数据应用案例等知识，为学生未来从事大数据相关职业提供良好的基础。

授课内容和教学安排：第一章：大数据技术概述1.1 大数据技术的定义和特点1.2 大数据对社会和企业的影响1.3 大数据技术的发展历程1.4 大数据技术体系结构和组成部分第二章：大数据存储和处理技术2.1 大数据存储技术概述2.2 关系型数据库和NoSQL数据库2.3 Hadoop分布式文件系统2.4 大数据处理技术概述2.5 大数据处理框架：Hadoop MapReduce第三章：大数据挖掘和分析技术3.1 数据挖掘概述3.2 数据预处理和特征选择3.3 分类和聚类算法3.4 关联规则挖掘和推荐系统3.5 大数据分析工具概述：Spark、Flink等第四章：大数据应用实践4.1 电商大数据分析实践4.2 社交媒体数据分析实践4.3 金融数据分析实践4.4 健康医疗数据分析实践第五章：大数据技术发展趋势和展望5.1 大数据技术的发展趋势5.2 大数据技术在人工智能和物联网中的应用5.3 大数据伦理和安全问题教学方法：本课程采用多种教学方法，包括理论讲解、实例分析、案例研究和实践操作等。

通过理论讲解，学生将了解大数据技术的基本概念和原理；通过实例分析，学生将掌握大数据技术在实际场景中的应用方法；通过案例研究，学生将学会分析和解决大数据相关问题；通过实践操作，学生将运用所学知识完成大数据分析任务。

同时，教师将引导学生参与小组讨论和项目实践，促进学生的合作能力和创新思维。

评估方式：本课程的评估方式包括平时成绩和期末考试成绩两部分。

《Hadoop大数据技术原理与应用》课程教学大纲

《Hadoop大数据技术原理与应用》课程教学大纲课程编号：3250578学分：4学分学时：72学时（其中：讲课学时36上机学时：36）先修课程：《Linux基础》、《关系数据库基础》、《程序设计基础》、《Java面向对象编程》后续课程：Spark,《Python编程基础》、《Python数据分析与应用》适用专业：大数据应用技术一、课程的性质与目标《大数据应用开发》本课程是软件技术专业核心课程，大数据技术入门课程。

通过学习课程使得学生掌握大数据分析的主要思想和基本步骤，并通过编程练习和典型应用实例加深了解；同时对Hadoop平台应用与开发的一般理论有所了解，如分布式数据收集、分布式数据存储、分布式数据计算、分布式数据展示。

开设本学科的目的是让学生掌握如何使用大数据分析技术解决特定业务领域的问题。

完成本课程学习后能够熟练的应用大数据技术解决企业中的实际生产问题。

二、教学条件要求操作系统：CenterOSHadoop版本：Hadoop2.7.4开发工具：Eclipse三、课程的主要内容及基本要求第I章初识Hadoop第3章HDFS分布式文件系统本课程为考试课程，期末考试采用百分制的闭卷考试模式。

学生的考试成绩由平时成绩（30%）和期末考试（70%）组成，其中，平时成绩包括出勤（5%）、作业（5%）、上机成绩（20%）o六、选用教材和主要参考书本大纲是参考教材《Hadoop大数据技术原理与应用》所设计的。

七、大纲说明本课程的授课模式为：课堂授课+上机，其中，课堂主要采用多媒体的方式进行授课，并且会通过测试题阶段测试学生的掌握程度；上机主要是编写程序，要求学生动手完成指定的程序设计或验证。

《大数据技术及应用》教学大纲

二、课程的性质、目的和任务《大数据技术及应用》是计算机相关专业大学本科生及研究生选修的一门专业课程，通过本课程学习，使学生能较系统地掌握大数据的基本知识、原理和方法，初步具备大数据的应用、开发的能力，为从事大数据分析、建模、可视化奠定基础。

目的是让学生了解并掌握四个领域即大数据系统的起源及系统特征；大数据系统的架构设计及功能目标设计；大数据系统程序开发；企业大数据案例分析的内容，同时利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力；本课程重点让学生掌握三个方面的内容：（1）基础篇：主要包括HDFS使用操作、MapReduce开发；、HBase数据库的开发；（2）核心篇：YARN架构、Spark集群计算、Spark机器学习、Hive数据仓库开发；（3）应用篇：医药大数据案例分析。

三、课程教学目标（一）总体目标掌握大数据分析的基本理论、技术，了解大数据分析的典型应用场景、掌握如何分析数据、解决问题、完成相关研究的方法，具有创新和独立思意识。

（二）具体目标通过本课程的学习，学生应达到如下目标：1．知识与技能（1）了解大数据平台搭建的步骤，掌握大数据的存储、分析的原理；（2）了解大数据分析的典型应用场景，例如文本挖掘、Web广告、聚类、推荐系统、Web链接分析、社交网络大数据分析、频繁项集；（3）理解大数据分析和挖掘的基本理论技术；（4）能获取、处理、分析和应用大数据资源。

2．过程与方法（1）经过对大数据领域的探索，学会用大数据思维认识、分析和解决问题。

3．情感与态度（1）通过探究活动，养成认真严谨的学习态度；（2）通过师生、生生互动交流，体验大数据的价值和魅力。

四、教学内容及教学基本要求第一章大数据概述（一）教学目的通过本章的学习掌握大数据基本概念，理解大数据的处理流程，了解大数据在行业中的应用和未来趋势。

（二）教学要求1、解释大数据基本概念；2、分析大数据的分析处理流程；3、知道大数据技术应用场景和前景。

《大数据技术与应用》课程教学大纲

《大数据技术与应用》教学大纲一、课程基本信息1.课程代码：211226002.课程中文名称：大数据技术与应用课程英文名称：Technologies and Applications of Big Data3.面向对象：信息工程学院软件工程系三年级学生4.开课学院(课部)、系(中心、室)：信息工程学院软件工程系5.总学时数：40讲课学时数：24,实验学时数：166.学分数：2.57.授课语种：中文，考试语种：中文8.教材：待定二、课程内容简介课程将系统讲授大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce,流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。

三' 课程的地位、作用和教学目标专业选修课，大数据技术入门课程，为学生搭建起通向“大数据知识空间”的桥梁和纽带，以“构建知识体系、说明基本原理、引导初级实践、了解相关应用”为原那么，为学生在大数据领域“深耕细作”奠定基础、指明方向。

在Hadoop、HDFS> HBase和MapReduce等重要章节，安排了入门级的实践操作，让学生更好地学习和掌握大数据关键技术。

四'与本课程相联系的其他课程先修课程：数据库系统概论、计算机高级语言程序设计五' 教学基本要求(1)能够建立对大数据知识体系的轮廓性认识，了解大数据开展历程、基本概念、主要影响、应用领域、关键技术、计算模式和产业开展，并了解云计算、物联网的概念及其与大数据之间的紧密关系；(2)能够了解Hadoop的开展历史、重要特性和应用现状，Hadoop工程结构及其各个组件, 并熟练掌握Hadoop平台的安装和使用方法；(3)能够了解分布式文件系统的基本概念、结构和设计需求，掌握Hadoop分布式文件系统HDFS的重要概念、体系结构、存储原理和读写过程，并熟练掌握分布式文件系统HDFS 的使用方法；(4)能够了解分布式数据库HBase的访问接口、数据模型、实现原理和运行机制，并熟练掌握HBase的使用方法；（5）能够了解NoSQL数据库与传统的关系数据库的差异、NoSQL数据库的四大类型以及NoSQL数据库的三大基石；基本掌握Redis、MongoDB等NoSQL数据库的使用方法；（6）能够了解云数据库的概念、基本原理和代表性产品的使用方法；（7）能够熟练掌握分布式编程框架MapReduce的基本原理和编程方法；（8）能够了解流计算与批处理的区别，以及流计算的基本原理；（9）能够了解图计算的基本原理；（10）能够了解数据可视化的概念和相关工具；（11）能够了解大数据在互联网等领域的典型应用。

大数据技术原理与应用教学大纲

大数据技术原理与应用教学大纲课程概述入门级大数据课程，适合初学者，完备的课程在线服务体系，可以帮助初学者实现“零基础”学习大数据课程。

课程采用厦门大学林子雨老师编著的国内高校第一本系统性介绍大数据知识专业教材《大数据技术原理与应用》。

课程紧紧围绕“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”的指导思想，对大数据知识体系进行系统梳理，做到“有序组织、去粗取精、由浅入深、渐次展开”。

课程由国内高校知名大数据教师厦门大学林子雨副教授主讲。

授课目标课程的定位是入门级课程，本课程的目标是为学生搭建起通向“大数据知识空间”的桥梁和纽带。

本课程将系统梳理总结大数据相关技术，介绍大数据技术的基本原理和大数据主要应用，帮助学生形成对大数据知识体系及其应用领域的轮廓性认识，为学生在大数据领域“深耕细作”奠定基础、指明方向。

课程大纲第1讲大数据概述1.1 大数据时代1.2 大数据概念和影响1.3 大数据的应用1.4 大数据的关键技术1.5 大数据与云计算、物联网本讲配套讲义PPT-第1讲-大数据概述第1讲大数据概述章节单元测验第2讲大数据处理架构Hadoop本讲实验答疑-第2讲-大数据处理架构Hadoop2.1 概述2.2 Hadoop项目结构2.3 Hadoop的安装与使用2.4 Hadoop集群的部署和使用本讲配套讲义PPT-第2讲-大数据处理架构Hadoop 大数据处理架构Hadoop单元测验第3讲分布式文件系统HDFS3.1 分布式文件系统HDFS简介3.2 HDFS相关概念3.3 HDFS体系结构3.4 HDFS存储原理3.5 HDFS数据读写过程3.6 HDFS编程实践本讲配套讲义PPT-第3讲-分布式文件系统HDFS 分布式文件系统HDFS单元测验第4讲分布式数据库HBase4.1 HBase简介4.2 HBase数据模型4.3 HBase的实现原理4.4 HBase运行机制4.5 HBase应用方案4.6 HBase安装配置和常用Shell命令4.7 HBase常用Java API及应用实例本讲配套讲义PPT-第4讲-分布式数据库HBase 分布式数据库HBase单元测验第5讲NoSQL数据库5.1 NoSQL概述5.2 NoSQL与关系数据库的比较5.3 NoSQL的四大类型5.4 NoSQL的三大基石5.5 从NoSQL到NewSQL数据库5.6 文档数据库MongoDB本讲配套讲义PPT-第5讲-NoSQL数据库NoSQL数据库单元测验第6讲云数据库6.1 云数据库概述6.2 云数据库产品6.3 云数据库系统架构6.4 Amazon AWS和云数据库6.5 微软云数据库SQL Azure6.6 云数据库实践本讲配套讲义PPT-第6讲-云数据库云数据库单元测验第7讲MapReduce7.1 MapReduce概述7.2 MapReduce的体系结构7.3 MapReduce工作流程7.4 Shuffle过程原理7.5 MapReduce应用程序执行过程7.6 实例分析：WordCount7.7 MapReduce的具体应用7.8 MapReduce编程实践本讲配套讲义PPT-第7讲-MapReduce MapReduce单元测验第8讲Hadoop再探讨8.1 Hadoop的优化与发展8.2 HDFS2.0的新特性8.3 新一代资源管理调度框架YARN8.4 Hadoop生态系统中具有代表性的功能组件本讲配套讲义PPT-第9讲-Hadoop再探讨Hadoop再探讨单元测验第9讲数据仓库Hive9.1 数据仓库概念9.2 Hive简介9.3 SQL转换成MapReduce作业的原理9.4 Impala9.5 Hive编程实践本讲配套讲义PPT-第9讲-数据仓库Hive数据仓库Hive单元测验第10讲Spark10.1 Spark概述10.2 Spark生态系统10.3 Spark运行架构10.4 Spark SQL10.5 Spark的部署和应用方式10.6 Spark编程实践本讲配套讲义PPT-第10讲-SparkSpark单元测验第11讲流计算11.1 流计算概述11.2 流计算处理流程11.3 流计算的应用11.4 开源流计算框架Storm11.5 Spark Streaming、Samza以及三种流计算框架的比较11.6 Storm编程实践本讲配套讲义PPT-第11讲-流计算流计算单元测验第12讲Flink12.1Flink简介12.2为什么选择Flink12.3Flink应用场景12.4Flink技术栈、体系架构和编程模型12.5 Flink的安装与编程实践本讲配套讲义PPT-第12讲-FlinkFlink单元测验第13讲图计算13.1 图计算简介13.2 Pregel简介13.3 Pregel图计算模型13.4 Pregel的C++ API13.5 Pregel的体系结构13.6 Pregel的应用实例——单源最短路径13.7 Hama的安装和使用本讲配套讲义PPT-第13讲-图计算图计算单元测验第14讲大数据在不同领域的应用14.1 大数据应用概览14.2 推荐系统14.3 大数据在智能医疗和智能物流领域运用本讲配套讲义PPT-第14讲-大数据在不同领域的应用大数据在不同领域的应用单元测验预备知识面向对象编程（比如Java）、数据库、操作系统参考资料林子雨.大数据技术原理与应用（第3版），人民邮电出版社，2020年9月（教材官网）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据技术与应用基础》教学大纲时：60码：适用专业：定：核：准：、课程的地位、性质和任务大数据技术的发展，已被列为国家重大发展战略。

目前国内大数据发展还处于加速期、转型期，数据与传统产业的融合还处于起步阶段，各行业对大数据分析和挖掘的应用还不理想。

但随着市场竞争的加剧，各行业对大数据技术研究的热情越来越高，在未来几年，各领域的数据分析都将大规模应用。

本课程在注重大数据时代应用环境前提下，考虑大数据处理分析需求多样复杂的基本情况，从初学者角度出发，以轻量级理论、丰富的实例对比性地介绍大数据常用计算模式的各种系统和工具。

考虑到当前大数据发展处于起步并逐步赶超先进的阶段，其应用领域丰富广泛，在教学过程中应注重掌握大数据分析的实践操作。

本课程通过丰富简单易上手的实例，让学生能够切实体会和掌握各种类型工具的特点和应用。

、课程教学基本要求1.了解大数据的发展和基本概念，理解并掌握大数据的特征及主要技术层面。

2.掌握Scrapy 环境的搭建，了解网络爬虫获取数据的过程，熟悉爬虫项目的创建。

3.深刻了解hadoop的基础理论，理解并掌握Hadoop单机及集群环境的部署方法。

4 . 掌握HDFS的基本概念和HDFS在hadoop中的作用，理解并识记HDFS勺使用，了解HDFS的JAVA API接口及数据流原理；让学生明白Map过程与Reduce过程这两个独立部分各自的原理及合作途径，知道如何独立编写满足自己需求的Map Reduces序。

5.理解HBase中涉及的基本概念，掌握HBase的简单应用；让学生了解数据仓库的基础概念，熟悉Hive与HDFS Map Reduced接的关心。

6.熟悉Spark和RDM基本概念，熟悉spark接口的使用，解决实战时的步骤及思路。

7.明白Hadoop和Storm之间的差别，掌握对Storm的使用。

理解Apex的工作过程并能简单应用。

8. 了解Druid 的基本概念、应用场景以及集群架构，掌握批量数据加载、流数据加载的操作。

了解Flink 的重要概念和基本架构，掌握Flink 简单的使用实例。

9. 理解Elasticsearch 的基本架构，掌握Elasticsearch 的一些入门操作。

了解并基本掌握怎样利用所学的工具对目标实例进行数据分析。

三、课程的内容1．大数据概述了解大数据的产生和发展，识记大数据的特征、数据类型和系统，大数据的计算模式和技术层面间的关联。

2．数据获取识记基本概念，识记各功能应怎样用Scrapy 爬虫实现，了解采集目标数据项定义，领会并掌握爬虫运行和数据存储技术。

3. Hadoop基础领会Hadoo P 的主要特点，识记Hadoop HDFS Hadoop Map Reduce Hadoop YARN勺原理，了解其生态系统中重要组成的原理，熟悉Hado op的配置。

4. HDFS基本应用HDFS勺接口。

熟悉HDFS所需的API接口，了解数据流的工作过程，能简单操作5. MapReduce应用开发了解所需的开发环境eclipse，领会Map过程与Reduce过程的工作原理，了解使用map reduce解决实际问题时的步骤和思路，识记Map Reduce代码的不同功能。

6．分布式数据库HBase识记HBase的基本概念，熟悉安装HBase集群的步骤，了解HBaseAPI的基本步骤。

7．数据仓库工具Hive领会Hive 的作用，掌握Hive 接口的使用，会利用Hive 解决实战问题。

8．开源集群计算环境SparkAPI 等，熟悉Spark 实战的完整工了解Spark 的基本思想，熟悉Spark 所需的环境及作过程，领会其所需的代码。

9．流实时处理系统Storm识记Storm相关概念，掌握Storm环境的安装配置, 了解Storm 的基本使用10．企业级、大数据流处理Apex识记Apex的基本概念，掌握Apex的环境配置过程，理解常见组件的原理和特点，会简单的应用Apex解决问题。

11 .事件流OLAP之Druid了解Druid 的概念及其应用场所,掌握Druid 单机环境的安装方法和步骤,并能利用Druid 进行加载流数据处理数据查询等。

12．事件数据流引擎Flink识记Flink 的基本概念，明白Flink 的基本架构，能够安装Flink 的单机和集群环境。

13．分布式文件搜索Elasticsearch了解Elasticsearch 包含重要部分的基本概念，掌握Elasticsearch 重要的安装过程，掌握简单的操作。

14．实例电商数据分析能够通过已经学习了解过的环境和工具等，有条理有步骤的对实例进行数据挖掘、数据处理和数据分析等，进而得出相关的结论。

四、课程的重点、难点1．大数据概述重点：大数据的概念和特征。

难点：大数据的计算模式和技术层面间的关联。

2．数据获取重点：Scrapy 环境的搭建。

难点：网络爬虫获取数据的过程。

3. Hadoop基础重点：Hadoop的基础理论及安装。

难点：Hadoop单机及集群环境的部署方法。

4. HDFS基本应用重点：掌握HDFS勺两种使用方法。

5. MapReduce应用开发重点：明白Map过程与Reduce过程的原理。

难点：独立编写满足自己需求的Map Reduce程序。

6.分布式数据库HBase重点：HBase所包含的3个重要组件的工作方式。

难点：如何通过HBase shell 和HBase API 访问HBase。

7.数据仓库工具Hive重点：熟悉简单的Hive 命令。

8.开源集群计算环境Spark重点：理解Spark 的工作机制。

难点：解决实战时的步骤及思路。

9．流实时处理系统Storm重点：Storm 的实时处理。

难点：利用Storm 的特点对数据进行合适的处理。

10．企业级、大数据流处理Apex重点：Apex 的流处理功能。

11 .事件流OLAP之Druid重点：使用Druid 进行加载和查询数据。

12．事件数据流引擎Flink重点：明白Flink 的基本架构。

难点：Flink 系统中进程间处理信息的原理。

13．分布式文件搜索Elasticsearch重点：Elasticsearch 的基本架构。

14．实例电商数据分析难点：怎样利用所学的工具对目标实例进行数据分析。

五、课时分配表六、实验项目及基本要求实验一通过爬虫获取数据要求：能安装爬虫所需环境，创建简单的爬虫项目。

成功完成爬虫核心实现。

实验二Hadoop安装与配置要求：HadooP单机和集群模式的配置。

实验三实战HDFS的接口要求：能自主操作Java 和命令行接口。

实验四编写简单的Mapreduce程序要求：完成Map Reduces需环境的配置，完成Ma preduce应用实例实验五分布式数据库HBase要求：安装HBase集群模式，能简单使用HBase shell和Hbase API。

实验六Hive 的使用要求：会进行简单的Hive 命令使用，熟悉Hive 的复杂语句。

实验七Spark 简单编程与聚类实战要求：了解Spark简单的RDD创建，了解各个实战的编程实现及解决过程。

实验八Storm 安装与配置要求：了解Storm的概念及原理，了解Storm的安装和基本使用。

实验九Spark 的使用和配置要求：掌握Apex的使用，了解Apex的基本配置。

实验十Druid 环境配置要求：了解Druid 的概念和使用，理解Druid 的作用。

实验十事件数据流引擎Flink 的使用要求：了解Flink 的概念和部署过程，理解Flink 的使用。

七、考核办法1．考试采用统一命题，闭卷考试，考试时间为120 分钟。

2．本大纲各部分所规定基本要求、知识点及知识点下的知识细目，都属于考核的内容。

考试命题覆盖到各部分，并适当突出重点部分，加大重点内容的覆盖密度。

3．不同能力层次要求的分数比例大致为：识记占20%，领会占30%，简单应用占30%，综合应用占20%4．题的难度可分为易、较易、较难和难四个等级。

试卷中不同难度试题的分数比例一般为2:3:3:25．试题主要题型有：填空、单项选择、多选、简答、及综合应用等。

八、使用说明在本课程学习中，应从“了解” 、“识记”、“领会”、“简单应用”、“综合应用”五个能力层次去把握：1. 了解：要求概念的基本掌握，是最基本要求。

2. 识记：要求能够识别和记忆本课程有关知识点的主要内容，并能够做出正确的表达、选择和判断。

3.领会：在识记的基础上，要求能够领悟和理解本课程中有关知识点的内涵与外延，熟悉其内容要点和它们之间的区别与联系。

并能够根据考核的不同要求，做出正确的解释、说明和论述。

4.简单应用：在领会的基础上，要求能够运用本课程中少量知识点，分析和解决一般的应用问题。

5.综合应用：在简单应用的基础上，要求能够运用本课程中多个知识点，综合分析和解决复杂的应用问题。

九、教材及参考书大数据技术与应用基础人民邮电出版社陈志德主编2017.1。

大数据技术与应用基础教学大纲

(完整)大数据技术与应用基础-教学大纲

《Hadoop大数据技术与应用》教学大纲

《大数据技术及应用》教学大纲[3页]

大数据技术原理与应用教学大纲

Spark大数据技术与应用》教学大纲

大数据技术原理与应用 课程教学大纲

《Hadoop大数据技术原理与应用》课程教学大纲

《大数据技术及应用》教学大纲

《大数据技术与应用》课程教学大纲

大数据技术原理与应用教学大纲

大数据技术原理与应用课程教学大纲