教材及参考书目录-大数据工具应用-微课视频版-钟雪灵-清华大学出版社

合集下载

广金大数据工具应用第二次实验报告答案

广金大数据工具应用第二次实验报告答案

广东金融学院实验报告课程名称:大数据工具应用6. 使用EM聚类器对数据集进行聚类,选择2个簇,其他参数保持默认值,忽略play属性。

四、实验结果(对必要的实验步骤进行截图,并加以文字描述)1、完成文件到arff文件的转换。

(1)打开“”-点击“文件”-点击“另存为”-保存类型选中“CSV(逗号分隔)”-点击“保存”。

(2)打开weka-点击“Tools”-点击“ArffViewer”-点击“File-open”–文件类型选中“所有文件”-选中“”-“打开”点击“file”-点击“save as”-文件类型选中“Arff data files ”-“保存”2、对数据集中的数值型属性“温度(temperature)”离散成低温(cool),中温(mild),高温(hot)三个等级。

(1)打开weka-点击“Explorer”-点击“Open file”-选中“点击“打开”点击“Choose”-选中“Discretize”-点击空白处-在“attributelndices”中输入2,在“bins”中输入3,其他保持不变-点击“OK”,再点击“Apply”为避开可读性较差的问题,先另存为,点击“Save”。

(2)打开“word”,打开“这个文件选中“'\'(-inf-71]\''”,点击“替换”选中“'\'(71-78]\''”,替换成“mild”选中“'\'(78-inf)\''”,替换成“hot”点击“保存”。

(3)用weka打开查看3、生成数据集的决策树。

(1)打开weka-点击“Explorer”-点击“Open file”-选中“点击“打开”,切换到“Classify”-单击“Choose”-打开“trees”条目-点击“J48”,选择“Use traning set”,单击“Strart”。

(2)在结果列表中右击“J48”条目,选择可视化菜单项“Visualize tree”4. 对数据集使用M5P分类器进行线性回归。

《大数据》课程教学大纲(本科)

《大数据》课程教学大纲(本科)

《大数据》课程教学大纲课程编号:04224课程名称:大数据英文名称:Big Data课程类型:学科选修课课程要求:选修学时/学分:32/2 (讲课学时:28上机学时:4)适用专业:智能科学与技术一、课程性质与任务大数据分析是智能科学与技术、计算机科学技术等专业的一门学科选修课,该课程涉及各类常用的挖掘与分析方法,提供了从数据准备到统计分析、关联规则建立及集成学习等整个数据分析过程的内容。

本课程全面地介绍了大数据处理相关的基本概念和原理,着重讲述了介绍数据挖掘、分析相关的理论、方法及实现工具。

本课程在教学内容方面着重基本知识、基本理论和基本设计方法的讲解;在培养实践能力方面着重数据分析的基本训练,为学生今后从事大数据的研究与预测打下坚实的基础。

(本课程可支撑毕业要求中的3.3, 7.2, 10.1, 12.2)二、课程与其他课程的联系本课程的先修课程为人工智能基础、机器学习等专业基础课程。

通过对人工智能基础的学习能够掌握智能的算法和搜索技术,通过对机器学习能够了解数据的分类、过滤等方法。

这些先修课程为本课程的讲授打下了基础。

本课程的后续课程包括智能机器人、模式识别等。

通过本课程可为后续课程提供理论与方法实践基础。

三、课程教学目标1.考虑社会、健康、安全、法律、文化以及环境等因素,设计一个能实现预期功能的硬件或软件系统,进行仿真研究或开发出系统原型或实物(支撑毕业要求中的3.3);2.能够评价智能系统工程实践对环境、社会可持续发展的影响(支撑毕业要求中的7.2);3.将大数据技术作为重点,以应用为目的,全面介绍大数据的数据挖掘与预测方法。

使学生既能对大数据处理技术有一个全景的把握,又能深入理解和使用大数据进行决策。

4.有不断学习和适应智能科学与技术发展的能力(支撑毕业要求中的12.2)5.了解大数据挖掘与预测分析学科的前沿和最新发展动向,具有跟踪学科发展前沿的意识和文献检索基本技能。

(支撑毕业要求中的10.1)四、教学内容、基本要求与学时分配五、其他教学环节(课外教学环节、要求、目标)大作业:1.对数据挖掘的认识。

《Hadoop大数据技术原理与应用》课程教学大纲

《Hadoop大数据技术原理与应用》课程教学大纲

《Hadoop大数据技术原理与应用》课程教学大纲课程编号:3250578学分:4学分学时:72学时(其中:讲课学时36 上机学时:36)先修课程:《Linux基础》、《关系数据库基础》、《程序设计基础》、《Java面向对象编程》后续课程:Spark,《Python编程基础》、《Python数据分析与应用》适用专业:大数据应用技术一、课程的性质与目标《大数据应用开发》本课程是软件技术专业核心课程,大数据技术入门课程。

通过学习课程使得学生掌握大数据分析的主要思想和基本步骤,并通过编程练习和典型应用实例加深了解;同时对Hadoop平台应用与开发的一般理论有所了解,如分布式数据收集、分布式数据存储、分布式数据计算、分布式数据展示。

开设本学科的目的是让学生掌握如何使用大数据分析技术解决特定业务领域的问题。

完成本课程学习后能够熟练的应用大数据技术解决企业中的实际生产问题。

二、教学条件要求操作系统:Center OSHadoop版本:Hadoop2.7.4开发工具:Eclipse三、课程的主要内容及基本要求第1章初识Hadoop第2章构建Hadoop集群第3章 HDFS分布式文件系统第4章 MapReduce分布式计算系统第5章 Zookeeper分布式协调服务第6章 Hadoop2.0新特性第7章 Hive数据仓库第8章 Flume日志采集系统第9章 Azkaban工作流管理器第10章 Sqoop数据迁移第11章综合项目——网站流量日志数据分析系统四、学时分配五、考核模式与成绩评定办法本课程为考试课程,期末考试采用百分制的闭卷考试模式。

学生的考试成绩由平时成绩(30%)和期末考试(70%)组成,其中,平时成绩包括出勤(5%)、作业(5%)、上机成绩(20%)。

六、选用教材和主要参考书本大纲是参考教材《Hadoop大数据技术原理与应用》所设计的。

七、大纲说明本课程的授课模式为:课堂授课+上机,其中,课堂主要采用多媒体的方式进行授课,并且会通过测试题阶段测试学生的掌握程度;上机主要是编写程序,要求学生动手完成指定的程序设计或验证。

第1章 大数据基本概念与应用案例-大数据工具应用-微课视频版-钟雪灵-清华大学出版社

第1章 大数据基本概念与应用案例-大数据工具应用-微课视频版-钟雪灵-清华大学出版社

大数据工具应用广东金融学院互联网金融与信息工程学院大数据工具应用•“大数据”的相关技术和应用正在快速改变着整个社会生活的方方面面。

它对“大数据”人才培养也提出新的要求和挑战:一方面需要具备一定的理论和技术基础,和使用工具的技术能力;另一方面需要能将技术手段与具体业务结合的“落地”能力。

•本课程从经济、管理类专业学生的需求出发,强调基本思想方法和快速工具应用,淡化理论推导和技术细节。

以案例驱动和操作演示来完成“大数据应用”入门课程的学习。

2大数据工具应用•课程章节包括:•第1章大数据基本概念与应用案例•第2章数据获取•第3章数据分析入门•第4章数据分析进阶3•2011年5月,麦肯锡研究院第一次给大数据做出相对清晰的定义:“大数据是指其大小超出了常规数据库工具获取、存储、管理和分析能力的数据集。

”第一章大数据基本概念与应用案例41.1 基本概念4 V 特征种类多(V a r i e ty )速度快(V e l o c i t y )价值高/低(V a lu e )体量大(V o l u m e )大数据与传统数据相比,数据来源广、维度多、类型杂,相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

随着现代感测、互联网、计算机技术的发展,数据生成、储存、分析、处理的速度远远超出人们的想象力,这是大数据区别于传统数据或小数据的显著特征。

价值密度的高低与数据总量的大小成反比。

以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。

如何通过强大的机器算法更迅速地完成数据的价值“提纯”,成为目前大数据背景下亟待解决的难题。

从2013年至2020年,人类的数据规模将扩大50倍,每年产生的数据量将增长到44万亿GB ,相当于美国国家图书馆数据量的数百万倍,且每18个月翻一番。

51.1 基本概念•大数据获取•新产生的格式化、半格式化数据:•典型的格式化数据如银行产生的交易数据•典型的非格式化数据如医院产生的病历数据•物联网产生的大量传感器数据(包括地理位置、周边环境等等)•新获取的半格式化、无格式化数据:•网络爬虫获取的网页内容信息•类似Google图书馆项目产生的书籍扫描数据•导入的格式化、半格式化历史数据:•各种现有数据库数据•现存的孤立系统统一数据接口后的可交换数据61.1 基本概念•大数据存储•导入预处理•包括数据清理、数据集成、数据变换和数据规约等步骤•关系/非关系数据库作为基础存储数据库•本地/云存储硬件设备71.1 基本概念•大数据管理•数据资源管理•“大”中取精,取优•大数据硬件平台管理•硬件平台的稳定性、可靠性、先进性等•大数据软件平台管理•软件平台的兼容性、可扩展性、维护性等•大数据应用管理•数据挖掘算法的开发、运行、优化等81.1 基本概念•大数据分析•分类•根据数据集的特点把未知类别的样本归类到给定类别中(贴标签)•聚类•将数据集内具有相似特征属性的数据聚集在一起,同一个数据群中的数据特征要尽可能相似,不同的数据群中的数据特征要有明显的区别(找朋友)•关联规则•找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则(拉关系)•时间序列分析/预测•在结构化与非结构化数据中使用以确定未来结果的算法和技术(测将来)91.2 应用案例•随着国内互联网和移动互联网产业的迅速发展,依托全世界最大规模的用户数量,国内的互联网大数据应用涌现了非常多的代表性案例。

数据分析技术(第2版) 使用SQL和Excel工具

数据分析技术(第2版) 使用SQL和Excel工具
● 是访问数据的成熟且标准化的语言 ● 拥有多个供应商,包括开源 ● 扩展性可以涵盖广泛的硬件范围 ● 拥有用于操作数据的非编程的操作界面 在继续介绍 SQL 之前,了解 SQL 在其他环境中的作用是很有价值的。
1.1.1 什么是大数据?
在过去的时间里,大数据的定义几经变化。在 19 世纪,最初发明统计学时,研究者 只处理几十或几百条数据。这看起来并不多,但如果是使用铅笔和纸张来完成,并通过使 用计算尺手动做除法,那就是很多的数据了。
2 数据分析技术(第 2 版)——使用 SQL 和 Excel 工具
接在 SQL 中创建(详见第 11 章“SQL 中的数据挖掘”)——这可能会使多数读者感到惊讶。 任何分析的重要一步,就是为建模构建可用格式的数据——客户签名。
最后一章由分析转到讨论性能。该章是对在不同表之间做查询的良好性能主题的综述。 本章介绍用来做数据分析和数据挖掘的 SQL。不可否认,该介绍严重偏向于查询数据, 而非建立和管理数据。从三个不同的方面介绍 SQL,有些方面可能会与不同的读者产生强 烈的共鸣。第一个方面是介绍数据的结构,着重强调实体关系型图表。第二个方面是使用 数据流处理数据,这也是多数关系型数据库引擎中的“底层实现”。第三方面是后续章节的 主要思路,介绍 SQL 自身的语法。尽管通过关系和实体详细地描述了数据,并以数据流进 行处理,但最终目的是在 SQL 中实现数据转换并通过 Excel 展示结果。
产品编号:064477-01
1第 章
数据挖掘者眼中的 SQL
数据收集一直都在发生。每一件事务、每一次网页浏览、每一次支付以及更多其他信 息都正在以原始数据的形式存储于数据库及相关的类似存储中。计算能力和存储的性价比 已经越来越高,今天的智能手机甚至比往年的超级电脑更强大,这已经是一种趋势。数据 库不再是数据排序的平台;在将数据转换为关于客户、产品、业务实践相关的有用信息时, 数据库是强大的数据转换引擎。

《大数据技术及应用》教学大纲[3页]

《大数据技术及应用》教学大纲[3页]
教学重点:HDFS的体系结构和工作原理、HDFS文件系统的操作命令
教学难点:利用pyhdfs实现HDFS文件系统的操作
4+2
第5章HBase基础与应用
教学内容:
(1)HBase的体系结构、核心组件和工作原理
(2)HBase的常用命令,使用命令对HBase系统进行操作
(3)利用Jyhdfs实现HBase数据库系统的操作
课程学习目标
学习目标1:掌握大数据的基本原理、主流的大数据处理平台和技术方法。
学习目标2:提高学生应用大数据思维和技术方法解决实际问题的能力。
学习目标3:培养学生运用大数据技术中的科学思维与计算思维,激发学生科技报国、奉献社会的情怀和使命担当。
二、课程教学内容和学时分配
章节
教学内容及其重难点
学时安排
4+2
第8章大数据分析与挖掘
教学内容:
(1)数据的描述性分析
(2)回归、分类与聚类的基本原理与常用算法
(3)分布式大数据挖掘算法典型案例
教学重点:回归、分类与聚类的基本原理与常用算法
教学难点:基于MapReduce的分布式大数据挖掘算法的设计与实现
4+2
第9章数据可视化
教学内容:
(1)数据可视化的常用方法
《大数据技术及应用》课程教学大纲
一、课程基本信息
课程
编号
课程
名称
大数据技术及应用
课 程 基 本 情 况
学时
32(课堂)+18(实验)
课程性质
专业选修
先修课程
高级语言程序设计,数据库原理
考核方式
考试,作业考核,课堂表现考核
教材及
参考书
教材:严宣辉,张仕,赖会霞,韩凤萍.大数据技术及应用—基于Python语言.电子工业出版社.2021.10

《大数据挖掘及应用》课程教学大纲 (2022版)

《大数据挖掘及应用》课程教学大纲 (2022版)

《大数据挖掘及应用》课程教学大纲一、课程基本情况表1 课程基本情况表二、课程简介(中英文版)《大数据挖掘及应用》是计算机科学与技术院智能科学技术的必修课,是掌握数据分析能力的一门重要基础课程。

本课程首先讲授了数据分析的基本知识概念、数据分析预处理的手段,接着从数据分析方法的角度,介绍了数据挖掘关联分析、分类以及聚类三大类算法的基本知识、必要理论基础以及一些经典的数据挖掘算法。

通过对本门课程的学习,学生能够系统地获得数据分析方法的基本概念和理论技术,掌握关联规则分析、分类和聚类等数据挖掘算法,从而使学生学会利用数据预处理和数据挖掘的技术去分析和解决不同行业应用领域中对数据进行处理和获取知识的问题,对培养学生形成良好的计算机科学技术和人工智能领域知识的运用能力有很大的帮助。

《大数据挖掘及应用》是计算机科学与技术学院智能科学与技术专业的必修课,是培养学生具备数据分析能力的重要专业课程。

本课程教学内容涵盖了数据分析从特征提取,特征工程直至模型构建和可视化的全流程。

具体包括数据分析的基本知识概念,各种不同数据分析预处理的手段,以及不同类型的经典数据分析方法,如数据分析的关联分析、无标签分析以及有标签分析三大类算法的基本知识和理论原理。

和实际工程应用中的数据仓库基础知识介绍。

三、课程目标通过本课程的学习,使学生系统地获得数据挖掘基本知识和基本理论;本课程重点学习关联规则挖掘算法、分类和聚类算法,并注重培养学生熟练的编程能力和较强的抽象思维能力﹑逻辑推理能力﹑以及从海量数据中挖掘知识的能力,有助于学生能够利用相关算法去分析法和解决一些实际问题,为学习后续课程和进一步增强计算机编程能力奠定必要的算法基础.课程目标对应的学生知识和能力要求如下:课程目标1: 掌握数据挖掘基本概念和数据预处理知识(支撑毕业要求2.2)课程目标2:掌握关联规则分析、分类分析、聚类分析、深度学习中的经典算法,熟悉算法原理和理论基础(支撑毕业要求3.2)课程目标3: 掌握关联规则分析、分类分析、聚类分析、深度学习中的实验评价指标(支撑毕业要求4.2)课程目标4:熟悉分布式与并行计算基本概念及技术知识,能够对各类数据分析算法进行综合运用,具备分析和解决复杂工程实际问题的能力(支撑毕业要求5.3)课程目标5:通过撰写报告和口头表达,具有良好的沟通交流能力(支撑毕业要求10.1)四、“立德树人”育人内涵结合数据挖掘课程的相关教学内容,通过对数据分析算法与应用技术的讲授、课程大作业、前沿技术探讨等教学组织形式,在培养学生的创新意识和复杂工程问题解决能力的同时,培养学生的辩证思维、人工智能伦理和法律意识,以及求真务实精益求精的专业精神,踏实严谨的科学素养和理论联系实际的学习与创新方法,引导学生认识到新一代人工智能技术变革带来的机遇与挑战,爱党爱国,自觉践行社会主义核心价值观,坚定理想信念,勇担时代使命。

实验报告三-大数据工具应用-微课视频版-钟雪灵-清华大学出版社

实验报告三-大数据工具应用-微课视频版-钟雪灵-清华大学出版社
小提示:产品结构——产品-类别-子类别-制造商-产品名称
问题维度——利润与销售额的关系/销售额与折扣的关系/利润与销售数量的关系
分析步骤——(1)画思维导图,建议3-4步内得出结论【一定要有一个清晰的结论,不需面面俱到】
(2)基于思维导图的步骤,画图、展示、美化。
四、实验结果(对必要的实验步骤进行截图,并加以文字描述)
五、实验总结(包括心得体会、问题回答及实验改进意见,可附页)
六、教师评语
□实验态度端正,实验步骤、结果正确,实验总结认真,评分:优秀
□实验态度端正,实验步骤、结果正确,评分:良好
□实验步骤、结果正确,评分:中等
□能够按照实验步骤完成实验,评分:及格
□无法完成实验,评分:不及格
指导老师:
2019.11
1.使用软件:Tableau Desktop
2.实验设备:装有Windows7的联网的个人计算机
三、实验内容
1.先后完成tableau自带数据“示例-超市”,产品的分层和解除分层。
2.tableau自带数据“示例-超市”:统计分层“产品”项下的销售总额,并实现自由向下钻取。
3.根据销售总额和销售总利润两个维度,剖析“南方市场”和“北方市场”的情况。
4.分析销售总额的走势:高折扣客户和低折扣客户的对比【高折扣和低折扣自行厘定,两类客户需要有较明显的差异】。
5.将题1-4的结果放置在一个仪表板内,仪表板的大小选择“自动”,并根据仪表板的基础功能自行美化仪表板的排版,排版方式要求:浮动。
6.综合实验:基于tableau自带数据“示例-超市”,分析当前产品结构存在的问题,并做成仪表板展示。
广东金融学院实验报告
课程名称:大数据工具应用
实验编号
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[6]王国平. Tableau数据可视化:从入门到精通.北京:清华大学出版社,2017.
[7]周苏,王文.大数据可视化.北京:清华大学出版社,2019.
[8]美智讯. Tableau商业分析:从新手到高手.北京:电子工业出版社,2018.
[9] Malekipirbazari M , Aksakalli V . Risk assessment in social lending via random forests[J]. Expert Systems with Application, 2015, 42(10): 4621-4631.
[2]喻梅,于健.数据分析与数据挖掘.北京:清华大学出版社,2018.
[3]雷明.机器学习:原理、算法与应用.北京:清华大学出版社,2019.
[4]朱洁,罗华霖.大数据架构详解:从数据获取到深度学习.北京:电子工业出版社,2016.
[5]刘红阁,王淑娟,温融冰.人人都是数据分析师:Tableau应用实战(第2版).北京:人民邮电出版社,
使用教材
《大数据工具应用》(微课视频版),钟雪灵,郭艺辉主编.清华大学出版社.高等学校大数据管理与应用专业规划教材. ISBN 9787302559641. 2020, 08.
参考书目
[1]袁梅宇.数据挖掘与机器学习Weka应用技术与实践(第二版).北京:清华大学出版社,2016.
相关文档
最新文档