(林子雨-2017新版-大数据技术原理与应用)厦门大学本科课程教学大纲
大数据技术原理与应用-厦门大学数据库试验室

3.1.1 Spark简介
Spark具有如下几个主要特点: •运行速度快:使用DAG执行引擎以支持循环数据流与内存计算 •容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过 Spark Shell进行交互式编程 •通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算 、机器学习和图算法组件 •运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也 可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、 HBase、Hive等多种数据源
《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 ziyulin@
3.1 Spark概述
3.1.1 Spark简介 3.1.2 Scala简介 3.1.3 Spark与Hadoop的比较
《大数据处理技术Spark》
厦门大学计算机科学系
林子雨
ziyulin@
存储在 内存中 读取 内存 存储在 内存中
读询 1
存储在 内存中
结果 1
查询 2
结果 2
输入
...
图16-2 Hadoop与Spark的执行流程对比
林子雨 ziyulin@
(b) Spark执行流程
《大数据处理技术Spark》
厦门大学计算机科学系
3.1.3 Spark与Hadoop的对比
《大数据处理技术 厦门大学计算机科学系 Spark》
厦门大学计算机科学系
林子雨
2017ziyulin@ 年版
提纲
• • • • 3.1 Spark概述 3.2 Spark生态系统 3.3 Spark运行架构 3.4 Spark的部署和应用方式
厦门大学-林子雨-大数据技术原理与应用-上机练习-图计算框架Hama的基础操作实践

厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习图计算框架Hama的基础操作实践(版本号:2016年1月18日版本)主讲教师:林子雨厦门大学数据库实验室二零一六年一月(版权所有,请勿用于商业用途)目录目录1作业题目 (1)2作业目的 (1)3作业性质 (1)4作业考核方法 (1)5作业提交日期与方式 (1)6作业准备 (1)6.1、Hama计算框架的安装配置 (1)6.2、用Hama计算模型实现寻找最大独立集问题算法 (3)7作业内容 (9)8实验报告 (9)附录1:任课教师介绍 (9)附录2:课程教材介绍 (10)《大数据技术原理与应用》图计算框架Hama基础操作实践上机练习说明主讲教师:林子雨E-mail: ziyulin@ 个人主页:/linziyu1作业题目图计算框架Hama基础操作实践。
2作业目的旨在让学生了解Pregel图计算模型,并学会用Pregel的开源实现Hama实现一些基本操作。
3作业性质课后作业,必做,作为课堂平时成绩。
4作业考核方法提交上机实验报告,任课老师根据上机实验报告评定成绩。
5作业提交日期与方式图计算章节内容结束后的下一周周六晚上9点之前提交。
6作业准备请阅读厦门大学林子雨编著的大数据专业教材《大数据技术原理与应用》(官网:/post/bigdata/),了解图计算的概念与意义。
6.1、Hama计算框架的安装配置A pache Hama是Google Pregel的开源实现,与Hadoop适合于分布式大数据处理不同,Hama主要用于分布式的矩阵、graph、网络算法的计算。
简单说,Hama是在HDFS 上实现的BSP(Bulk Synchronous Parallel)计算框架,弥补Hadoop在计算能力上的不足。
(1). 安装好合适版本的jdk和hadoop,并且进行测试,保证他们能用。
(2). 下载hama安装文件,从/downloads.html处下载合适的版本,我当时下的是0.6.4版本的。
厦门大学林子雨编著《大数据技术原理与应用》教材配套实验

厦门大学林子雨编著《大数据技术原理与应用》教材配套实验实验一:熟悉常用的Linux操作和Hadoop操作一、实验目的Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。
.本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。
.二、实验平台●操作系统:Linux(建议Ubuntu16. 04);●Hadoop版本:2. 7. 1。
.三、实验步骤(一)熟悉常用的Linux操作●cd命令:切换目录(1)切换到目录“/usr/local”(2)切换到当前目录的上一级目录(3)切换到当前登录Linux系统的用户的自己的主文件夹●ls命令:查看文件与目录(4)查看目录“/usr”下的所有文件和目录●mkdir命令:新建目录(5)进入“/tmp”目录,创建一个名为“a”的目录,并查看“/tmp”目录下已经存在哪些目录(6)进入“/tmp”目录,创建目录“a1/a2/a3/a4”●rmdir命令:删除空的目录(7)将上面创建的目录a(在“/tmp”目录下面)删除(8)删除上面创建的目录“a1/a2/a3/a4”(在“/tmp”目录下面),然后查看“/tmp”目录下面存在哪些目录●cp命令:复制文件或目录(9)将当前用户的主文件夹下的文件. bashrc复制到目录“/usr”下,并重命名为bashrc1(10)在目录“/tmp”下新建目录test,再把这个目录复制到“/usr”目录下●mv命令:移动文件与目录,或更名(11)将“/usr”目录下的文件bashrc1移动到“/usr/test”目录下(12)将“/usr”目录下的test目录重命名为test2●rm命令:移除文件或目录(13)将“/usr/test2”目录下的bashrc1文件删除(14)将“/usr”目录下的test2目录删除●cat命令:查看文件内容(15)查看当前用户主文件夹下的. bashrc文件内容●tac命令:反向查看文件内容(16)反向查看当前用户主文件夹下的. bashrc文件的内容●more命令:一页一页翻动查看(17)翻页查看当前用户主文件夹下的. bashrc文件的内容●head命令:取出前面几行(18)查看当前用户主文件夹下. bashrc文件内容前20行(19)查看当前用户主文件夹下. bashrc文件内容,后面50行不显示,只显示前面几行●tail命令:取出后面几行(20)查看当前用户主文件夹下. bashrc文件内容最后20行(21)查看当前用户主文件夹下. bashrc文件内容,并且只列出50行以后的数据●touch命令:修改文件时间或创建新文件(22)在“/tmp”目录下创建一个空文件hello,并查看文件时间(23)修改hello文件,将文件时间整为5天前●chown命令:修改文件所有者权限(24)将hello文件所有者改为root帐号,并查看属性●find命令:文件查找(25)找出主文件夹下文件名为. bashrc的文件●tar命令:压缩命令(26)在根目录“/”下新建文件夹test,然后在根目录“/”下打包成test. tar. gz(27)把上面的test. tar. gz压缩包,解压缩到“/tmp”目录●grep命令:查找字符串(28)从“~/. bashrc”文件中查找字符串'examples'●配置环境变量(29)请在“~/. bashrc”中设置,配置Java环境变量(30)查看JAVA_HOME变量的值(二)熟悉常用的Hadoop操作(31)使用hadoop用户登录Linux系统,启动Hadoop(Hadoop的安装目录为“/usr/local/hadoop”),为hadoop用户在HDFS中创建用户目录“/user/hadoop”(32)接着在HDFS的目录“/user/hadoop”下,创建test文件夹,并查看文件列表(33)将Linux系统本地的“~/. bashrc”文件上传到HDFS的test文件夹中,并查看test (34)将HDFS文件夹test复制到Linux系统本地文件系统的“/usr/local/hadoop”目录下四、实验报告实验二:熟悉常用的HDFS操作一、实验目的●理解HDFS在Hadoop体系结构中的角色;●熟练使用HDFS操作常用的Shell命令;●熟悉HDFS操作常用的Java API。
林子雨编著《大数据导论》教案

林子雨编著《大数据导论》教案篇 1一、教学目标1. 让学生深入理解大数据的基本概念和原理,包括大数据的定义、特点、价值等。
2. 帮助学生熟练掌握大数据处理的基本技术和工具,如Hadoop、Spark 等。
3. 培养学生运用大数据思维解决实际问题的能力。
二、教学重点与难点1. 教学重点(1)大数据的核心概念和关键技术。
(2)实际案例中的大数据应用与分析。
2. 教学难点(1)如何让学生理解复杂的大数据技术原理。
(2)引导学生将大数据知识应用到实际项目中。
三、教学方法1. 讲授法:系统讲解大数据的理论知识。
2. 案例分析法:通过具体案例分析,加深学生对大数据应用的理解。
3. 实践操作法:让学生亲自动手操作大数据工具,提高实践能力。
4. 小组讨论法:组织学生进行小组讨论,促进学生之间的思想交流。
四、教学过程1. 课程导入(约15 分钟)-先向同学们提问:“大家在生活中有没有听说过大数据呀?能举个例子吗?”引导同学们思考并回答。
-接着展示一些大数据在生活中应用的场景图片,比如电商推荐、智能交通等,激发学生的兴趣。
然后说:“同学们,今天咱们就一起走进大数据的世界!”2. 背景介绍(约10 分钟)-讲解大数据产生的背景,随着信息技术的飞速发展,数据量呈爆炸式增长,传统的数据处理方式已经无法满足需求,从而引出大数据的概念。
- “同学们,大数据时代的到来,给我们的生活和工作带来了巨大的变革!”3. 作者介绍(约5 分钟)-简单介绍林子雨老师在大数据领域的研究成果和贡献,增强学生对教材的信任感。
- “林子雨老师在大数据方面可是专家哦,咱们要好好学习他编著的这本书!”4. 课文朗读(约10 分钟)-请一位同学朗读教材中的一段内容,其他同学认真倾听。
-朗读结束后,表扬这位同学:“读得真不错,声音洪亮又清晰!”5. 问题思考(约15 分钟)-提出一些问题,如“大数据与传统数据处理方式有什么区别?”“大数据的价值体现在哪些方面?”让同学们分组讨论。
《大数据》课程教学大纲(本科)

《大数据》课程教学大纲课程编号:04224课程名称:大数据英文名称:Big Data课程类型:学科选修课课程要求:选修学时/学分:32/2 (讲课学时:28上机学时:4)适用专业:智能科学与技术一、课程性质与任务大数据分析是智能科学与技术、计算机科学技术等专业的一门学科选修课,该课程涉及各类常用的挖掘与分析方法,提供了从数据准备到统计分析、关联规则建立及集成学习等整个数据分析过程的内容。
本课程全面地介绍了大数据处理相关的基本概念和原理,着重讲述了介绍数据挖掘、分析相关的理论、方法及实现工具。
本课程在教学内容方面着重基本知识、基本理论和基本设计方法的讲解;在培养实践能力方面着重数据分析的基本训练,为学生今后从事大数据的研究与预测打下坚实的基础。
(本课程可支撑毕业要求中的3.3, 7.2, 10.1, 12.2)二、课程与其他课程的联系本课程的先修课程为人工智能基础、机器学习等专业基础课程。
通过对人工智能基础的学习能够掌握智能的算法和搜索技术,通过对机器学习能够了解数据的分类、过滤等方法。
这些先修课程为本课程的讲授打下了基础。
本课程的后续课程包括智能机器人、模式识别等。
通过本课程可为后续课程提供理论与方法实践基础。
三、课程教学目标1.考虑社会、健康、安全、法律、文化以及环境等因素,设计一个能实现预期功能的硬件或软件系统,进行仿真研究或开发出系统原型或实物(支撑毕业要求中的3.3);2.能够评价智能系统工程实践对环境、社会可持续发展的影响(支撑毕业要求中的7.2);3.将大数据技术作为重点,以应用为目的,全面介绍大数据的数据挖掘与预测方法。
使学生既能对大数据处理技术有一个全景的把握,又能深入理解和使用大数据进行决策。
4.有不断学习和适应智能科学与技术发展的能力(支撑毕业要求中的12.2)5.了解大数据挖掘与预测分析学科的前沿和最新发展动向,具有跟踪学科发展前沿的意识和文献检索基本技能。
(支撑毕业要求中的10.1)四、教学内容、基本要求与学时分配五、其他教学环节(课外教学环节、要求、目标)大作业:1.对数据挖掘的认识。
《大数据导论》,林子雨编著 教学大纲

《大数据导论》,林子雨编著教学大纲本课程是一门介绍大数据概念、技术和应用的导论课程。
学生将在此课程中了解大数据的定义、特点、处理方法、分析技术和应用场景。
通过本课程的学习,学生将掌握大数据的基本概念和技术知识,以及了解大数据在不同领域的应用和发展趋势。
二、课程教学目标本课程旨在帮助学生:1.理解大数据的概念和特点;2.掌握大数据的处理方法和分析技术;3.了解大数据在不同领域的应用场景;4.了解大数据的发展趋势和未来发展方向。
三、课程内容本课程的主要内容包括以下几个方面:1.大数据概念和特点;2.大数据处理方法和技术;3.大数据分析技术和应用;4.大数据在不同领域的应用场景;5.大数据的发展趋势和未来发展方向。
四、教学方法本课程采用多种教学方法,包括讲授、互动讨论、案例分析、课程设计等,以帮助学生深入理解大数据概念、技术和应用。
五、考核方式本课程的考核方式主要包括平时成绩和期末考试成绩。
平时成绩包括课堂表现、作业完成情况等;期末考试成绩占总成绩的70%左右。
六、教材参考书目1.《大数据时代》雷颐著2.《大数据的互联世界》马化腾著3.《大数据技术与应用》吴军著4.《大数据导论》林子雨编著5.《大数据分析与挖掘技术》刘洋著七、教学进度安排第一周:课程介绍、大数据概念和特点第二周:大数据处理方法和技术第三周:大数据分析技术和应用第四周:大数据在不同领域的应用场景第五周:大数据的发展趋势和未来发展方向第六周:总结与复习八、备注本课程的教学内容和进度安排仅供参考,实际教学中可根据学生情况进行适当调整。
厦门大学-林子雨-大数据技术原理与应用-第11章大数据在互联网领域的应用-Python安装与基本使用

厦门大学计算机系研究生课程《大数据技术原理与应用》Python的安装与基本使用
Python的安装与基本使用
厦门大学计算机科学系林子雨
E-mail: ziyulin@ 个人主页:/linziyu
一、Windows上的安装与使用
访问官网下载地址:https:///download/releases/2.7.6/,请选择32位安装程序https:///ftp/python/2.7.6/python-2.7.6.msi。
下载并打开安装程序,一路点next,默认安装即可。
安装完成后,我们可以使用其提供的IDE来编写、执行代码。
在开始菜单里的“Python 2.7”下,打开IDLE (Python GUI),点击File->New File,输入如下两行代码:
# coding: utf-8
print "hello world"
接着点击File->Save,保存为hello.py,再点击Run->Run Module,即可看到运行结果。
二、Linux上的安装与使用
Linux系统默认安装了Python,可以直接使用。
通过vim或者文本编辑器写好代码后,在终端中执行python+代码文件位置即可,如假设代码文件位置为: /home/user/hello.py,则打开终端,执行如下代码就可得到运行结果:
cd /home/user
python hello.py
主讲教师:林子雨/linziyu 第1页。
Chapter0-厦门大学-林子雨-大数据技术原理与应用-课程介绍资料

主讲教师和助教
主讲教师:林子雨
单位:厦门大学计算机科学系 E-mail: ziyulin@ 个人网页:/linziyu 数据库实验室网站:
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
课程特色大 数 据 Fra bibliotek 门搭建起通向“大数据知识空间”的桥梁和纽带 构建知识体系、阐明基本原理 引导初级实践、了解相关应用 为学生在大数据领域“深耕细作”奠定基础、指明方向
《大数据技术原理与应用》
厦门大学计算机科学系
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@
内容提要
• 本课程系统介绍了大数据相关知识,共有13章 • 系统地论述了大数据的基本概念、大数据处理架构 Hadoop、分布式文件系统HDFS、分布式数据库HBase、 NoSQL数据库、云数据库、分布式并行编程模型 MapReduce、流计算、图计算、数据可视化以及大数据 在互联网、生物医学和物流等各个领域的应用 • 在Hadoop、HDFS、HBase和MapReduce等重要章节, 安排了入门级的实践操作,让学生更好地学习和掌握大数 据关键技术
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
篇章安排
第一篇:大数据基础篇 第二篇:大数据存储篇 第三篇:大数据处理与分析篇 第四篇:大数据应用篇
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
第一篇:大数据基础篇
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
厦门大学本科课程教学大纲
XMU Undergraduate Course Syllabus
厦门大学本科课程大纲填写说明(Notes)
1.须同时填写课程大纲中文版和英文版。
2.课程名称必须准确、规范。
3.课程代码:非任课教师填写。
该课程在教务系统生成后,由学院代为填写。
4.授课对象填写专业。
5.适用年级填写可修读本课程的时间,如本科三年级第一学期。
6.课程类型指公共基本课程、通识教育课程、学科通修课程、专业(或专业方向)课程、其他教学环节。
7.课程课型指理论课、实验课、技能课、实践课。
8.总学时=授课学时+讨论学时+实验学时+上机学时+其他学时
9.先修课程是与该课程具有严格的前后逻辑关系,非先修课程则无法学习该课程。
10.培养目标不少于150字。
11.考核方式包括成绩登记方式、成绩组成、考核标准等。
成绩登记方式包括百分制、
通过/不通过等。
成绩组成指各种考核方式占比。
考核标准指衡量各项考评指标得分的基准。
12.选用教材和主要参考书要求注明作者、书目、出版社、出版年份。
例如,“丹利维
尔:《民主、官僚制组织和公共选择》,中国青年出版社,2001年。
”
13.其它信息指课堂规范要求等,如课上禁止使用手机、缺勤要求等。
14.课程英文类别代号:。