大学生mooc大数据技术原理与应用(林子雨)题库答案
Chapter1-林子雨-大数据技术原理与应用-大数据概述(2016年2月17日版本)

典型的大数据应用实例
Kevin Spacey
大数据分析 David Fincher 风靡全球的美剧《纸牌屋》 英国同名小说《纸牌屋》
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@
典型的大数据应用实例
从谷歌流感趋势看大数据的 应用价值
“谷歌流感趋势”,通过跟踪 搜索词相关数据来判断全美地区 的流感情况
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
1.4大数据的应用
• 大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、 医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
1.2.3处理速度快
从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少 1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
流计算
图计算 查询分析计算
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
1.7大数据产业
• 大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经 济活动的集合
产业链环节 IT基础设施层 包含内容 包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数 据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、 思杰、SUN、Redhat等 大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据( 交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据( 淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的 HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle 、MySQL、SQL Server、HBase、GreenPlum等) 包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架 MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具( MicroStrategy、Cognos、BO)等等 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业能电网等行业应用的企业、机构或政府部门,比如交通主 管部门、各大医疗机构、菜鸟网络、国家电网等
厦门大学林子雨编著

厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习熟悉MongoDB的基本操作(版本号:2016年3月14日版本)主讲教师:林子雨厦门大学数据库实验室二零一六年三月目录目录1作业题目 (1)2作业目的 (1)3作业性质 (1)4作业考核方法 (1)5作业提交日期与方式 (1)6实验平台 (1)7实验内容和要求 (1)8实验报告 (2)附录1:任课教师介绍 (2)附录2:课程教材介绍 (2)附录3:中国高校大数据课程公共服务平台介绍 (3)厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习熟悉MongoDB的基本操作上机练习说明主讲教师:林子雨E-mail: ziyulin@ 个人主页:/linziyu1作业题目熟悉MongoDB的基本操作。
2作业目的1. 理解NoSQL数据库和关系型数据库的区别;2. 熟练使用MongoDB操作常用的Shell命令;3作业性质课后作业,必做,作为课堂平时成绩。
4作业考核方法提交上机实验报告,任课老师根据上机实验报告评定成绩。
5作业提交日期与方式林子雨编著《大数据技术原理与应用》教材第五章NoSQL数据库内容结束后的下一周周六晚上9点之前提交。
6实验平台操作系统:LinuxMongoDB版本:3.0以上版本7实验内容和要求1.根据上面给出的表格,用MongoDB设计student学生表格。
a)设计完后,用find指令浏览表的所有数据。
b)查询学号为95002 的所有信息。
给出截图。
c)删除姓名为liuchen的数据d)将学号为95001的年龄改为22岁8 实验报告附录1:任课教师介绍林子雨(1978-),男,博士,厦门大学计算机科学系助理教授,主要研究领域为数据库,实时主动数据仓库,数据挖掘.主讲课程:《大数据技术基础》办公地点:厦门大学海韵园科研2号楼E-mail: ziyulin@个人主页:/linziyu数据库实验室网站: 附录2:课程教材介绍《大数据技术原理与应用——概念、存储、处理、分析与应用》,由厦门大学计算机科学系教师林子雨博士编著,是中国高校第一本系统介绍大数据知识的专业教材。
数据库原理与应用_常熟理工学院中国大学mooc课后章节答案期末考试题库2023年

数据库原理与应用_常熟理工学院中国大学mooc课后章节答案期末考试题库2023年1.将查询 SC 表的权限授予用户 U1,并允许该用户将此权限授予其他用户。
实现此功能的SQL 语句是()。
参考答案:GRANT SEIECT ON SC TO U1 WITH GRANT OPTION2.用于实现数据存取安全性的 SQL 语句是()。
参考答案:GRANT 和 REVOKE3.层次模型、网状模型和关系模型的划分原则是参考答案:数据之间的联系4.在数据库中,产生数据不一致的根本原因是:参考答案:数据冗余5.在描述完整性约束规则时,应给出约束的()参考答案:数据对象6.完整性措施的防范对象是()参考答案:不合语义的数据7.数据库中,数据的物理独立性是指:参考答案:用户的应用程序与存储在磁盘上的数据库中的数据是相互独立的8.数据库技术的奠基人之一E.F.Codd从1970年起发表过多篇论文,主要论述的是:参考答案:关系数据模型9.在数据库三级模式间引入二级映像的主要作用是:参考答案:提高数据与程序的独立性10.数据模型的三要素是:参考答案:数据结构、数据操作和完整性约束11.数据库管理系统能实现对数据库中数据的查询、插入、修改和删除,这类功能称为:参考答案:数据操纵功能12.若事务 T 对数据 R 已加 X 锁,则其他事务对数据 R()参考答案:不能加任何锁13.数据库系统与文件系统的主要区别是:参考答案:文件系统不能解决数据冗余和数据独立性问题,而数据库系统可以解决14.数据管理技术的发展过程中,经历了人工管理阶段、文件系统阶段和数据库系统阶段。
在这几个阶段中,数据独立性最高的阶段是参考答案:数据库系统15.事务的一致性是指()参考答案:事务必须使数据库从一个一致性状态变到另一个一致性状态16.解决并发操作带来的数据不一致性问题时普遍采用()参考答案:封锁17.()是 DBMS 的基本单位,它是用户定义的一组逻辑一致的程序序列参考答案:事务18.事务的隔离性是指()参考答案:一个事务内部的操作及使用的数据对并发的其他事务是隔离的19.判断关系所属范式(1NF、2NF、3NF、BCNF),若R(X,Y,Z) FD={X→Y,X→Z},则该关系模式属于___。
厦门大学林子雨编著《大数据技术原理与应用》教材配套实验

厦门大学林子雨编著《大数据技术原理与应用》教材配套实验实验一:熟悉常用的Linux操作和Hadoop操作一、实验目的Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。
.本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。
.二、实验平台●操作系统:Linux(建议Ubuntu16. 04);●Hadoop版本:2. 7. 1。
.三、实验步骤(一)熟悉常用的Linux操作●cd命令:切换目录(1)切换到目录“/usr/local”(2)切换到当前目录的上一级目录(3)切换到当前登录Linux系统的用户的自己的主文件夹●ls命令:查看文件与目录(4)查看目录“/usr”下的所有文件和目录●mkdir命令:新建目录(5)进入“/tmp”目录,创建一个名为“a”的目录,并查看“/tmp”目录下已经存在哪些目录(6)进入“/tmp”目录,创建目录“a1/a2/a3/a4”●rmdir命令:删除空的目录(7)将上面创建的目录a(在“/tmp”目录下面)删除(8)删除上面创建的目录“a1/a2/a3/a4”(在“/tmp”目录下面),然后查看“/tmp”目录下面存在哪些目录●cp命令:复制文件或目录(9)将当前用户的主文件夹下的文件. bashrc复制到目录“/usr”下,并重命名为bashrc1(10)在目录“/tmp”下新建目录test,再把这个目录复制到“/usr”目录下●mv命令:移动文件与目录,或更名(11)将“/usr”目录下的文件bashrc1移动到“/usr/test”目录下(12)将“/usr”目录下的test目录重命名为test2●rm命令:移除文件或目录(13)将“/usr/test2”目录下的bashrc1文件删除(14)将“/usr”目录下的test2目录删除●cat命令:查看文件内容(15)查看当前用户主文件夹下的. bashrc文件内容●tac命令:反向查看文件内容(16)反向查看当前用户主文件夹下的. bashrc文件的内容●more命令:一页一页翻动查看(17)翻页查看当前用户主文件夹下的. bashrc文件的内容●head命令:取出前面几行(18)查看当前用户主文件夹下. bashrc文件内容前20行(19)查看当前用户主文件夹下. bashrc文件内容,后面50行不显示,只显示前面几行●tail命令:取出后面几行(20)查看当前用户主文件夹下. bashrc文件内容最后20行(21)查看当前用户主文件夹下. bashrc文件内容,并且只列出50行以后的数据●touch命令:修改文件时间或创建新文件(22)在“/tmp”目录下创建一个空文件hello,并查看文件时间(23)修改hello文件,将文件时间整为5天前●chown命令:修改文件所有者权限(24)将hello文件所有者改为root帐号,并查看属性●find命令:文件查找(25)找出主文件夹下文件名为. bashrc的文件●tar命令:压缩命令(26)在根目录“/”下新建文件夹test,然后在根目录“/”下打包成test. tar. gz(27)把上面的test. tar. gz压缩包,解压缩到“/tmp”目录●grep命令:查找字符串(28)从“~/. bashrc”文件中查找字符串'examples'●配置环境变量(29)请在“~/. bashrc”中设置,配置Java环境变量(30)查看JAVA_HOME变量的值(二)熟悉常用的Hadoop操作(31)使用hadoop用户登录Linux系统,启动Hadoop(Hadoop的安装目录为“/usr/local/hadoop”),为hadoop用户在HDFS中创建用户目录“/user/hadoop”(32)接着在HDFS的目录“/user/hadoop”下,创建test文件夹,并查看文件列表(33)将Linux系统本地的“~/. bashrc”文件上传到HDFS的test文件夹中,并查看test (34)将HDFS文件夹test复制到Linux系统本地文件系统的“/usr/local/hadoop”目录下四、实验报告实验二:熟悉常用的HDFS操作一、实验目的●理解HDFS在Hadoop体系结构中的角色;●熟练使用HDFS操作常用的Shell命令;●熟悉HDFS操作常用的Java API。
Chapter7-厦门大学-林子雨-大数据技术原理与应用-第七章-MapReduce

图7-1 MapReduce工作流程
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
Hale Waihona Puke ziyulin@7.2.2MapReduce各个执行阶段
节点1
从分布式文件系统中加载文件
节点2
从分布式文件系统中加载文件
InputFormat 文件 文件 Split Split Split Split
7.3.1WordCount程序任务
表7-2 WordCount程序任务 WordCount
一个包含大量单词的文本文件 文件中每个单词及其出现次数(频数),并按照单词 字母顺序排序,每个单词和其频数占一行,单词和频 数之间有间隔
程序 输入 输出
表7-3 一个WordCount的输入和输出实例 输入 Hello World Hello Hadoop Hello MapReduce 输出 Hadoop 1 Hello 3 MapReduce 1 World 1
输入的中间结果<k2,List(v2)>中的 List(v2)表示是一批属于同一个k2的 value
Reduce
<k2,List(v2)>
<k3,v3>
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
7.2 MapReduce工作流程
• 7.2.1 • 7.2.2 • 7.2.3 工作流程概述 MapReduce各个执行阶段 Shuffle过程详解
1.“Hello World Bye World”
Map
2.“Hello Hadoop Bye Hadoop”
Map
3.“Bye Hadoop Hello Hadoop”
大数据技术原理与应用(管理学门类)_郑州大学中国大学mooc课后章节答案期末考试题库2023年

大数据技术原理与应用(管理学门类)_郑州大学中国大学mooc课后章节答案期末考试题库2023年1.大数据建模的步骤为参考答案:模型建立-模型训练-模型评估-模型应用2.超级计算机可应用的领域有()参考答案:防震减灾领域_交通领域_气象预报领域_医药领域3.Hadoop1.0和2.0都具有完善的HDFS HA策略。
参考答案:错误4.下列Amazon的云数据库属于关系数据库的是( )参考答案:Amazon RDS5.Spark的主要特点有()参考答案:全栈式数据处理_快速高效_快速高效_兼容性高6.下列哪项不是Storm的主要特点()参考答案:容错性不好7.下列对HBase的理解正确的是参考答案:HBase是针对谷歌BigTable的开源实现_HBase多用于存储非结构化和半结构化的松散数据8.NoSQL数据库的BASE特性是指参考答案:最终一致性_基本可用_软状态9.因为Hadoop有多个副本,所以NameNode不存在单点问题。
参考答案:错误10.决策数据挖掘不包括参考答案:信息挖掘11.Hadoop是一个分布式的、容错的实时计算系统,能够对实时动态的多源异构数据进行实时计算,获得有价值的信息。
参考答案:错误12.MapReduce的主要特点有()参考答案:易于编程_高容错性_良好的扩展性_适合PB级以上海量数据的离线处理13.一个数据库事务具有ACID是指:原子性,一致性,持久性,隔离性参考答案:正确14.CAP是指参考答案:分区容忍性_可用性_一致性15.分布式架构中的计算机有明显的主/从之分,所有计算机节点都是不对等的。
参考答案:错误16.Pregel是一种基于模型实现的并行图处理系统,搭建了一套可扩展的、有容错机制的平台,提供了一套非常灵活的,可以描述各种各样的图计算,主要用于、、等。
参考答案:BSP、API 、图遍历、最短路径、PageRank计算17.数据资产包括:参考答案:企业内部数据、企业外部数据、企业购买数据18.大数据的发展历程总体上可以划分为4个重要阶段。
大数据分析原理和应用_中央财经大学中国大学mooc课后章节答案期末考试题库2023年

大数据分析原理和应用_中央财经大学中国大学mooc课后章节答案期末考试题库2023年1.大数据的起源是()。
答案:互联网2.下列关于计算机存储容量单位的说法中,错误的是()。
答案:一个汉字需要一个字节的存储空间3.过一系列处理,在基本保持原始数据完整性的基础上,减小数据规模的是()。
答案:数据规约4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( )答案:数据预处理5.可用作数据挖掘分析中的关联规则算法有()。
Apriori算法、FP-Tree算法6.采用客户端读取HDFS存储的数据时,以下哪种描述是正确的?()答案:编程接口提供了隔离性,让用户无需深入了解HDFS便可以进行文件数据读写7.以下关于HDFS特点的描述错误的是()答案:只能有一个NameNode8.以下不是分布式文件系统的是()FAT9.以下哪个负责HDFS的数据存储()答案:DataNode10.以下关于SecondaryNameNode的描述,哪项是正确的?()答案:它的目的是帮助NameNode合并编辑日志,减少NameNode的启动时间11.以下哪个不属于NameNode的功能?()答案:保存文件块并汇报文件块信息12.Shuffle步骤在Map进行到哪一步时,就可以开始执行?()答案:至少有一个Map任务开始有输出13.下面关于MapReduce模型中Map函数与Reduce函数的描述正确的是()。
答案:一个Map函数就是对一部分原始数据进行指定的操作。
14.下列关于网络用户行为的说法中,错误的是()。
答案:数字轨迹用完即自动删除15.以下哪个和NameNode在同一个节点启动?()答案:JobTracker16.用4个V 来描述大数据的四个基本特征,这4V 是()。
答案:速度快产生价值体量大多样性17. HDFS的NameNode中,存储的有关核心数据包括()答案:文件系统树文件操作日志18.客户端上传文件时哪项正确?()答案:当某个DataNode失败,客户端会继续传给其他DataNode客户端将文件以block为单位,管道方式依次传到DataNode19.关于数据并行化,以下说法正确的是()答案:数据并行需要输入数据能够被切分成独立的若干块,可以分别处理不是所有数据都可以用数据平行的方法处理20.有人改进了MapReduce的架构,Map函数的输出不写入本地磁盘,而是直接(通过网络)传递给Reduce任务,reduce任务收到所有Map的输入后,再开始Reduce的处理。
Chapter14厦门大学林子雨-大数据技术原理与应用-第十四章基于Hadoop的数据仓库Hive(

温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字
第八讲 基于Hadoop的数据仓库Hive
(PPT版本号:2016年4月6日版本)
E-mail: 主页:
《大数据技术原理与应用》
厦2门01大6 学计算机科学系
林子雨
课堂内容与教材对应关系说明
《大数据技术原理与应用》
全方位、一站式服务
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
提纲
• 14.1 概述 • 14.2 Hive系统架构 • 14.3 Hive工作原理 • 14.4 Hive HA基本原理 • 14.5 Impala • 14.6 Hive编程实践
本PPT是如下教材的配套讲义: 21世纪高等教育计算机规划教材 《大数据技术原理与应用 ——概念、存储、处理、分析与应用》 (2015年8月第1版) 厦门大学 林子雨 编著,人民邮电出版社 ISBN:978-7-115-39287-9
第9讲-Hadoop架构再探讨
新增第15章,不在当前第1版教材中,将放入第2版教材
第10讲-流计算
第8章-流计算
第11讲-Spark
新增第16章,不在当前第1版教材中,将放入第2版教材
第12讲-图计算
第9章-图计算
第13讲-数据可视化
第10章-数据可视化
第14讲-大数据在互联网领域的应用 第11章-大数据在互联网领域的应用
厦门大学林子雨编著《大数据技术原理与应用》 2015年8月1日人民邮电出版社出版发行 第1版教材共包含13章内容
第一章 大数据概述 第二章 大数据处理架构Hadoop 第三章 分布式文件系统HDFS 第四章 分布式数据库HBase 第五章 NoSQL数据库 第六章 云数据库 第七章 MapReduce 第八章 流计算 第九章 图计算 第十章 数据可视化 第十一章 大数据在互联网领域的应用 第十二章 大数据在生物医学领域的应用(自学) 第十三章 大数据的其他应用(自学)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
作者:解忧书店 JieYouBookshop 第1章大数据概述
1单选(2分)
第三次信息化浪潮的标志是:
A.个人电脑的普及
B.云计算、大数据、物联网技术的普及
C.虚拟现实技术的普及
D.互联网的普及
正确答案:B你选对了
2单选(2分)
就数据的量级而言,1PB数据是多少TB?
A.2048
B.1000
C.512
D.1024
正确答案:D你选对了
3单选(2分)
以下关于云计算、大数据和物联网之间的关系,论述错误的是:
A.云计算侧重于数据分析
B.物联网可以借助于云计算实现海量数据的存储
C.物联网可以借助于大数据实现海量数据的分析
D.云计算、大数据和物联网三者紧密相关,相辅相成
正确答案:A你选对了
4单选(2分)
以下哪个不是大数据时代新兴的技术:
A.Spark
B.Hadoop
C.HBase
D.MySQL
正确答案:D你选对了
每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:
A.MapReduce
B.Dremel
C.Storm
D.Pregel
正确答案:A你选对了
6单选(2分)
每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:
A.GraphX
B.S4
C.Impala
D.Hive
正确答案:B你选对了
7单选(2分)
每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:
A.Pregel
B.Storm
C.Cassandra
D.Flume
正确答案:A你选对了
8单选(2分)
每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:
A.HDFS
B.S4
C.Dremel
D.MapReduce
正确答案:C你选对了
9多选(3分)
数据产生方式大致经历了三个阶段,包括:
A.运营式系统阶段
B.感知式系统阶段
C.移动互联网数据阶段
正确答案:ABD你选对了
10多选(3分)
大数据发展的三个阶段是:
A.低谷期
B.成熟期
C.大规模应用期
D.萌芽期
正确答案:BCD你选对了
11多选(3分)
大数据的特性包括:
A.价值密度低
B.处理速度快
C.数据类型繁多
D.数据量大
正确答案:ABCD你选对了
12多选(3分)
图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历了哪几种范式:
A.计算科学
B.数据密集型科学
C.实验科学
D.理论科学
正确答案:ABCD你选对了
13多选(3分)
大数据带来思维方式的三个转变是:
A.效率而非精确
B.相关而非因果
C.精确而非全面
D.全样而非抽样
正确答案:ABD你选对了
14多选(3分)
大数据主要有哪几种计算模式:。