《大数据导论》复习资料
大数据导论 第1章 概论

1 . 1 大揭 秘数 大据 数的 据概 念
1.1.3 大数据生命周期
推荐系统
预测
决策
可视化
分析报告
人机交互
数据认知
数据建模
机器学习
SQL 结构化
NoSQL
NewSQL
半结构化
非结构化 平台
第一章 大概数论据概念及其应用
应用 解释 分析 存储 采集
1.1 揭秘大数据
表1.1 大数据生命周期个阶段相关技术产品
7
数据处理模式:小众参与→ 大众协同
8
思维方式: 整体思维+相关思维+容错思维
第一章 概述
1.1 揭秘大数据 1.2 Linux系统概述
1.2 Linux系统概述
1.2.1 Linux的选择
第一章 概论
CentOS
1
/sw-search-
sp/soft/08/15321/VirtualBox_5.0.10.4061_104061_Win.1448355141.exe
大数据技术导论
第一章 绪论
1.1 揭秘大数据 1.2 Linux概述
1.1 揭秘大数据
第一章 概论
1.1.1 大数据产生历史必然
(1)数据产生方式的变革促成大数据时代的来临 数据产生方式经历了被动产生主动产生自动产生三个阶段(见图1.1)。
产生方式自动的。
1.1 揭秘大数据
1.1.1 大数据产生历史必然 (2)云计算是大数据诞生的前提和必要条件 图1.2给出云的发展历程。
第一章 概论
1.1 揭秘大数据
1.1.4 大数据与物联网、云计算、人工智能
第一章 概论
云计算为大数据提供了技术基础 大数据为云计算提供用武之地
大数据导论(通识课版)-第11章-大数据治理(2020年春季学期)

11.2 大数据治理要素
管控风险
目标要素
实现价值
促成要素
需
组织结构
政策与策略
求
相关责任人
第四 大数据治理在形成可 持续治理体系下,明确权 属关系,需要设计与决策 相关的治理活动来解决一 些问题,比如,是什么决 策,为什么要做这种决策 如何做好这种决策,如何 对这种决策做有效监控
01
02
03
04
11.1.4 大数据治理的基本概念
宏观层
01Βιβλιοθήκη 02概念体系包括明确目标、权力层次、 治理对象以及解决问题四个方面
在数据更新、维护、 备份、销毁等数据全 生命周期管理方面, 缺乏相关的机制
01
02
03
04
11.1.1 数据治理的必要性
数据为的什概么念需要数据治理
企业
企业的信息系统建设烙印着企业 规模和信息技术的发展轨迹,普遍 存在各系统间数据标准和规范不 同、信息相互不通等问题,致使系 统的协同性等问题越来越显著
11.1.1 数据治理的必要性
数据为的什概么念需要数据治理
缺少统一规划各自为政,导 致存在数据孤岛问题;在主 要业务数据方面,无法实现 有序集中整合,无法保证业 务数据的完整性和正确性
缺乏统一数据规范和 数据模型,导致组织 内对数据的描述和理 解存在不一致的情况
缺少完备的数据管理职能 体系,对于一些重点领域 的管理(比如元数据、主 数据、数据质量等),没 有明确职责,不能保障数 据标准和规范的有效执行 以及数据质量的有效控制
第二 大数据治理在权属实 现过程中,是为实现大数 据价值,大数据的资产和 权属属性需要被发挥出来 大数据具体表现为占有、 使用、收益和处分4种权属
大数据导论 2.1.1 熟悉大数据的定义

二、大数据的3V和5V特征
大数据实现的主要价值可以基于下面3个评价准则中的1个或多个进行评判: (1)它提供了更有用的信息吗? (2)它改进了信息的精确性吗? (3)它改进了响应的及时性吗? 总之,大数据是个动态的定义,不同行业根据其应用的不同有着不同的理解, 其衡量标准也在随着技术的进步而改变。
Big Data
二、大数据的3V和5V特征
典型的生成大量数据的数据源包括: (1)在线交易,例如官方在线销售点和网银。 (2)科研实验,例如大型强子对撞机和阿塔卡玛大型毫米及次毫米波阵列 望远镜。 (3)传感器,例如GPS传感器,RFID标签,智能仪表或者信息技术。 (4)社交媒体、脸书、推特、微信、QQ等。
Big Data
二、大数据的3V和5V特征
种类表示所有的数据类型。其中,爆发式增长的一些数据,如互联网上的 文本数据、位置信息、传感器数据、视频等,用企业中主流的关系型数据库是 很难存储的,它们都属于非结构化数据。
当然,在这些数据中,有一些是过去就一直存在并保存下来的。和过去不 同的是,除了存储,还需要对这些大数据进行分析,并从中获得有用的信息。 例如监控摄像机中的视频数据。近年来,超市、便利店等零售企业几乎都配备 了监控摄像机,最初目的是为了防范盗窃,但现在也出现了使用监控摄像机的 视频数据来分析顾客购买行为的案例。
四、 大数据的结构类型
人们通常最熟悉结构化数据的分析,然而,半结构化数据(XML)、“准” 结构化数据(网站地址字符串)和非结构化数据代表了不同的挑战,需要不同 的技术来分析。
除了三种基本的数据类型以外,还有一种重要的数据类型为元数据。元数 据提供了一个数据集的特征和结构信息。这种数据主要由机器生成,并且能够 添加到数据集中。搜寻元数据对于大数据存储、处理和分析是至关重要的一步, 因为元数据提供了数据系谱信息,以及数据处理的起源。
大数据导论第一章总结

大数据导论第一章总结大数据导论是一门介绍大数据的基本概念、技术和应用的课程。
通过学习这门课程,我们可以深入了解大数据的定义、特点和挑战,以及大数据的处理和分析方法。
本章主要介绍了大数据的概念和背景,并讨论了大数据对社会和经济的影响。
本章明确了大数据的概念。
大数据是指规模巨大、种类繁多且产生速度快的数据集合。
这些数据通常无法使用传统的数据处理方法进行管理和分析。
大数据的特点包括四个方面:数据量大、速度快、多样性和价值密度低。
接着,本章介绍了大数据的背景和发展。
随着互联网的快速发展和智能设备的普及,大数据的产生和积累呈现出指数级的增长。
大数据的发展给各行业带来了巨大的机遇和挑战。
通过对大数据的分析,我们可以发现隐藏在数据中的规律和趋势,从而为决策提供科学依据。
然后,本章探讨了大数据对社会和经济的影响。
大数据的广泛应用已经改变了许多行业的商业模式和运营方式。
例如,在医疗健康领域,大数据可以帮助医生进行个性化诊断和治疗,提高医疗服务的质量和效率。
在金融领域,大数据可以用于风险管理和反欺诈等方面,提高金融机构的安全性和稳定性。
本章总结了大数据的重要性和挑战。
大数据具有巨大的潜力,可以为社会和经济发展带来巨大的推动力。
然而,大数据的处理和分析也面临着诸多挑战,如数据隐私和安全、数据质量和数据分析能力等方面。
因此,我们需要不断发展和完善大数据的技术和方法,以应对这些挑战。
大数据导论第一章介绍了大数据的概念、背景和发展,以及大数据对社会和经济的影响。
通过学习这门课程,我们可以深入了解大数据的本质和应用,为未来的数据科学和数据分析奠定基础。
大数据的时代已经来临,我们需要积极适应和应对,以更好地利用大数据的潜力推动社会和经济的发展。
大数据导论-思维、技术与应用 第4章 大数据处理系统

MapReduce执行流程
5 当Reduce worker程序接收到master程序发来的数据存储位置信息后,使用 RPC从Map worker所在主机的磁盘上读取这些缓存数据。当Reduce worker读取 了所有的中间数据后,通过对key进行排序后使得具有相同key值的数据聚合在一 起。
6 Reduce worker程序遍历排序后的中间数据,对于每一个唯一的中间key值, Reduce worker程序将这个key值和它相关的中间value值的集合传递给用户自定 义的Reduce函数。Reduce函数的输出被追加到所属分区的输出文件。
MapReduce执行流程
split0 split1 split2 split3 split4
(1)fork
User Program
(1)fork
(1)fork
Master
(2)assign map
(2)assign reduce
worker
(3)read (4)local write
worker
可以方便的增加Chunk Server; Master可以掌握系统内所有Chunk Server的情况,方便进行负载均衡; 不存在元数据的一致性问题。
文件操作大部分是流式读写,不存在大量 重复的读写,因此即使使用缓存对系统性能 的提高也不大; Chunk Server上的数据存储在本地文件系 统上,若真的出现频繁存取,那么本地文件 系统的缓存也可以支持; 若建立系统缓存,那么缓存中的数据与 Chunk Server中的数据的一致性很难保证。
n.www
<html> <html>
t3
t5
CNN
t9
大数据导论 1.1.3 进入大数据时代——数据集与数据分析

二、 数据集与数据分析
规范性分析比其他三种分析的价
值都高,同时还要求最高级的训练集, 商业规则
甚至是专门的分析软件和工具。
这种分析能将内部数据与外部数据结 合起来。内部数据可能包括当前和过
OLAP
分析学方法
1010110 1010001 0100110 0011110 1010111
Big Data
二、数据集与数据分析
3. 预测性分析——常在需要预测一个事件的结果时使用。通过预测性分析,信息将 得到增值,这种增值主要表现在信息之间是如何相关的。这种相关性的强度和重要 性构成了基于过去事件对未来进行预测的模型的基础。这些用于预测性分析的模型 与过去已经发生的事件的潜在条件是隐式相关的,如果这些潜在的条件改变了,那 么用于预测性分析的模型也需要进行更新。
Big Data
二、数据集与数据分析
诊断性分析比描述性分析提供了更加有价值的信息,但同时也要求更加高 级的训练集。
诊断性分析常常需要从不同的信息源搜集数据,并将它们以一种易于进行 分析的结构加以保存。而诊断性分析的结果可以由交互式可视化界面显示,让 用户能够清晰地了解模式与趋势。诊断性分析是基于分析处理系统中的多维数 据进行的,而且,与描述性分析相比,它的查询处理更加复杂。
与企业整体的战略目标和任务相联系。同时,它常常用来识别经营业绩中的一些问 题,以及阐释一些执行标准。因此,KPI通常是一个测量企业整体绩效的特定方面 的定量参考指标。KPI常常通过专门的仪表板显示。仪表板将多个关键绩效指标联 合起来展示,并且将实测值与关键绩效指标阈值相比较。
Big Data
感谢聆听!
预测性分析尝试着预测事件的结果,而预测则基于模式、趋势以及来自于历史 数据和当前数据的期望。目的是分辨风险与机遇。
吉林大学《大数据导论》期末考试备考资料41

不是技术也能看懂云计算,大数据,人工智能我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提大数据,谈人工智能的时候也会提云计算。
所以说感觉他们又相辅相成不可分割,如果是非技术的人员来讲可能比较难理解说这三个之间的相互关系,所以有必要解释一下。
一、云计算最初是实现资源管理的灵活性我们首先来说云计算,云计算最初的目标是对资源的管理,管理的主要是计算资源,网络资源,存储资源三个方面。
管数据中心就像配电脑什么叫计算,网络,存储资源呢?就说你要买台笔记本电脑吧,你是不是要关心这台电脑什么样的CPU啊?多大的内存啊?这两个我们称为计算资源。
这台电脑要能上网吧,需要有个网口可以插网线,或者有无线网卡可以连接我们家的路由器,您家也需要到运营商比如联通,移动,电信开通一个网络,比如100M的带宽,然后会有师傅弄一根网线到您家来,师傅可能会帮您将您的路由器和他们公司的网络连接配置好,这样您家的所有的电脑,手机,平板就都可以通过您的路由器上网了。
这就是网络。
您可能还会问硬盘多大啊?原来硬盘都很小,10G之类的,后来500G,1T,2T的硬盘也不新鲜了。
(1T是1024G),这就是存储。
对于一台电脑是这个样子的,对于一个数据中心也是同样的。
想象你有一个非常非常大的机房,里面堆了很多的服务器,这些服务器也是有CPU,内存,硬盘的,也是通过类似路由器的设备上网的。
这个时候的一个问题就是,运营数据中心的人是怎么把这些设备统一的管理起来的呢?灵活就是想啥时要都有,想要多少都行管理的目标就是要达到两个方面的灵活性。
哪两个方面呢?比如有个人需要一台很小很小的电脑,只有一个CPU,1G内存,10G的硬盘,一兆的带宽,你能给他吗?像这种这么小规格的电脑,现在随便一个笔记本电脑都比这个配置强了,家里随便拉一个宽带都要100M。
大数据导论知识点总结

大数据导论知识点总结大数据是指数据量巨大、传统数据处理工具无法处理的数据集合。
随着信息科技的快速发展,大数据的意义与作用也越来越受到关注。
在大数据领域,有一些重要的知识点需要我们了解和掌握。
本文将对大数据导论的知识点进行总结,包括大数据的定义、特点、挑战以及应用等方面。
一、大数据的定义大数据的定义尚无统一标准,但通常包括以下几个方面:数据量大、数据类型多样、数据生成速度快、数据价值高等。
简单来说,大数据是指规模庞大、难以用传统的数据处理工具进行存储、管理和分析的数据集合。
二、大数据的特点1. 高容量:大数据所包含的数据量庞大,远远超出传统数据库的存储能力。
2. 多样性:大数据涵盖了多种类型的数据,包括结构化数据(如数据库、电子表格等)和非结构化数据(如文本、图像、音频等)。
3. 实时性:大数据的生成速度极快,有些数据源甚至以每秒钟数十万条的速度产生。
4. 不确定性:大数据往往具有一定的噪音和不准确性,需要采用特殊的处理方式。
三、大数据的挑战1. 存储挑战:大数据的存储需求极大,传统的数据库和文件系统无法满足其存储需求。
2. 处理挑战:大数据的处理需要使用分布式计算、并行计算等技术,传统的串行计算方式已无法满足需求。
3. 分析挑战:大数据分析需要解决大规模数据的算法设计和计算模型的问题,如数据挖掘、机器学习等。
4. 隐私保护挑战:大数据的应用涉及大量的个人隐私信息,如何保护隐私成为一大挑战。
四、大数据的应用1. 商业智能:大数据分析可以帮助企业了解用户行为、市场趋势等,从而为决策提供依据。
2. 社交网络分析:大数据分析可以揭示社交网络中的关系、影响力等,为社会学、心理学等领域提供支持。
3. 金融领域:大数据分析可以帮助金融机构发现欺诈行为、进行风险评估等。
4. 医疗健康:大数据分析可以帮助医疗机构提供个性化治疗方案、预测疾病传播等。
5. 城市管理:大数据分析可以帮助城市进行交通管理、环境监测等,提升城市的智能化水平。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《大数据导论》课程期末复习资料《大数据导论》课程讲稿章节目录:第1章大数据概述(1)大数据的概念(2)大数据的特征(3)大数据的数据类型(4)大数据的技术(5)大数据的应用第2章大数据采集与预处理(1)大数据采集(2)大数据预处理概述(3)数据清洗(4)数据集成(5)数据变换(6)数据规约第3章大数据存储(1)大数据存储概述(2)数据存储介质(3)存储系统结构(4)云存储概述(5)云存储技术(6)新型数据存储系统(7)数据仓库第4章大数据计算平台(1)云计算概述(2)云计算平台(3)MapReduce平台(4)Hadoop平台(5)Spark平台第5章大数据分析与挖掘(1)大数据分析概述(2)大数据分析的类型及架构(3)大数据挖掘(4)大数据关联分析(5)大数据分类(6)大数据聚类(7)大数据分析工具第6章大数据可视化(1)大数据可视化概述(2)大数据可视化方法(3)大数据可视化工具第7章社交大数据(1)社交大数据(2)国内社交网络大数据的应用(3)国外社交网络大数据的应用第8章交通大数据(1)交通大数据概述(2)交通监测应用(3)预测人类移动行为应用第9章医疗大数据(1)医疗大数据简介(2)临床决策分析应用(3)医疗数据系统分析第10章大数据的挑战与发展趋势(1)大数据发展面临的挑战(2)大数据的发展趋势一、客观部分:(单项选择、多项选择)(一)、单项选择1.以下不是NoSQL数据库的是()A.MongoDBB.HBaseC.CassandraD.DB2★考核知识点:NoSQL与NewSQL主流系统参考讲稿章节:3.7附1.1.1(考核知识点解释):目前市场上主要的NoSQL数据存储工具有:BigTable、Dynamo 、Hbase、MongoDB、CouchDB、Hypertable还存在一些其他的开源的NoSQL数据库,Neo4j、Oracle Berkeley DB、Apache Cassandra等另外,NewSQL数据库。
例如:GoogleSpanner、V oltDB、RethinkDB、Clustrix、TokuDB和MemSQL等。
2以下不是目前主流开源分布式计算系统的是()A.AzureB.HadoopC.SparkD.Storm★考核知识点:主流开源分布式计算系统参见讲稿章节:4.2附1.1.2:(考核知识点解释)由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。
Yahoo的工程师DougCutting和MikeCafarella在2005年合作开发了分布式计算系统Hadoop。
后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。
Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS 分布式文件系统,根据BigTable开发了HBase数据存储系统。
尽管和Google内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。
不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。
Yahoo,Facebook,Amazon以及国内的百度、阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。
Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。
它在Hadoop的基础上进行了一些架构上的改良。
Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。
它在Hadoop的基础上提供了实时运算的特性,可以实时地处理大数据流。
Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的、复杂的大数据处理,spark常用于离线的、快速的大数据处理,而storm常用于在线的、实时的大数据处理。
3.Apriori算法是一种()算法A.关联规则B.聚类C.分类D.预测★考核知识点:大数据挖掘算法参见讲稿章节:5.3-5.7附1.1.2:(考核知识点解释)关联分析(Association analysis)是从有噪声的、模糊的、随机的海量数据中,挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程,或称关联规则学习(Association rule learning)。
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,算法有两个关键步骤:一是发现所有的频繁项集;二是生成强关联规则。
FP(Frequent Pattern)-growth算法基于Apriori构建,但采用了高级的数据结构减少扫描次数,大大加快了算法速度。
分类(Classification)任务是在给定数据基础上构建分类模型,根据分类模型确定目标对象属于哪个预定义的目标类别。
常用的分类算法有:决策树、感知机、K近邻、朴素贝叶斯、贝叶斯网络、逻辑斯谛回归、支持向量机、遗传算法、人工神经网络等。
聚类分析(Cluster analysis)简称聚类(Clustering),是把数据对象划分成子集(类)的过程,每个子集称为一个簇(Cluster),同一个簇中的数据之间存在最大相似性,不同簇之间的数据间存在最大的差异性。
K-MEANS(K-均值)算法是一种划分聚类方法,以k 为参数,将n 个对象分为k 个簇,以使簇(类)内具有较高的相似度,而簇间的相似度最低。
(二)、多项选择1.大数据的特征包括()A.体量大(V olume)B.多样性(Variety)C.速度快(Velocity)D.价值高(Value)★考核知识点:大数据的特征参考讲稿章节:1.2附1.2.1(考核知识点解释):目前在描述大数据特征时,一般是按照国际数据公司IDC所提的“4V”模型来刻画,即体量大(V olume)、多样性(Variety)、速度快(Velocity)、价值高(Value)。
1). 体量大(V olume):数据量大是大数据的基本属性。
数据规模的大小是用计算机存储容量的单位来计算的,数量的单位从TB级别跃升到PB级别、EB级别,甚至ZB级别。
2). 多样性(Variety):大数据除了体量大外,另一个最重要的特征就是数据类型的多样化。
即数据存在形式包括结构化数据、半结构化数据和非结构化数据。
3) 速度快(Velocity):大数据环境中速度快有两层含义:一是数据产生速度快;二是要求数据分析处理速度快。
4) 价值高(Value):大数据拥有大量有价值信息,通过提炼的信息,能够在更高的层面和视角,将在更大的范围帮助用户提高决策力,洞察未来创造出更大的价值和商机。
2. 按照数据结构分类,数据可分为()A.结构化数据B.半结构化数据C.非结构化数据D.无结构数据★考核知识点:按照数据结构分,大数据的数据类型参考讲稿章节:1.3附1.2.2(考核知识点解释):大数据不仅仅体现在数据量大,也体现在数据类型多。
按照数据结构分,数据可分为结构化数据、半结构化数据和非结构化数据。
在现有大数据的存储中,结构化数据仅有20%,其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。
据统计,全球结构化数据增长速度约为32%,半结构化数据和非结构化数据的增速高达63%。
(1)结构化数据:结构化数据,通常存储在关系数据库中,并用二维表结构通过逻辑表达实现。
所有关系型数据库(如SQL Server、Oracle、MySQL、DB2等)中的数据全部为结构化数据。
生活中我们常见的结构化数据有企业计划系统(Enterprise Resource Planning,ERP)、医疗的医院信息系统(Hospital Information System,HIS)、校园一卡通核心数据库(2)半结构化数据就是介于完全结构化数据和完全无结构化的数据之间的数据。
例如邮件、HTML、报表、具有定义模式的XML数据文件等。
典型应用场景如邮件系统、档案系统、教学资源库等。
半结构化数据的格式一般为纯文本数据,其数据格式较为规范,可以通过某种方式解析得到其中的每一项数据。
最常见的半结构化数据是日志数据,采用XML、JSON等格式的数据(3)非结构化数据是指非纯文本类数据,没有标准格式,无法直接解析出相应的值。
非结构化数据无处不在,常风的包括Web网页.即时消息或者时间数据(如微博、微信、Twitter等数据)、富文本文档(Rich Text Format , RTF)、富媒体文件(Rich Media)、实时多媒体数据(如各种视频,音频、图像文件)3. 根据产生主体的不同,大数据可以分为()A.产量企业应用产生的数据B.大量个人用户产生的数据C.由巨量机器产生的数据D.科研数据★考核知识点:根据产生主体分,大数据的数据类型参考讲稿章节:1.3附1.2.3(考核知识点解释):数据可根据产生主体的不同分为三类:(1)由少量企业应用而产生的数据。
关系型数据库中的数据、数据仓库中的数据。
(2)大量个人用户产生的数据。
社交媒体,如微博、博客、QQ、微信、Facebook、Twitter等产生的大量文字、图片、视频、音频数据)、企业应用的相关评论数据、电子商务在线交易、供应商交易的日志数据。
(3)由巨量机器产生的数据。
应用服务器日志(Web站点、游戏)、传感器数据(天气、水、智能电网)、图像和视频监控、RFID、二维码或者条形码扫描的数据。
4. 根据作用方式不同,大数据可以分为()A.交互数据B.社交数据C.交易数据D.个人数据★考核知识点:根据作用方式的不同,大数据的数据类型分类参考讲稿章节:1.3附1.2.4(考核知识点解释):数据还可根据作用方式的不同分为两类:(1)交互数据:指相互作用的社交网络产生的数据,包括人为生成的社交媒体交互和机器设备交互生成的新型数据。
(2)交易数据:交易数据是指来自于电子商务和企业应用的数据。
包括EPR (网络公关系统)、B2B(企业对企业)、B2C(企业对个人)、C2C(个人对个人)、O2O(线上线下)、团购等系统产生的数据。
这些数据存储在关系型数据库和数据仓库中,可以执行联机分析处理(OLAP)和联机事务处理(OLTP)。
随着大数据的发展,此类数据的规模和复杂性一直在提高。
交互和交易这两类数据的有效融合是大数据发展的必然趋势,大数据应用要有效集成这两类数据,并在此基础上,实现对这些数据的处理和分析。
5. Google分布式计算模型不包括()A. GFSB. BigTableC. MapReduceD.RDD★考核知识点:Google的分布式计算模型参见讲稿章节:4.2、4.3附1.2.5:(考核知识点解释)2003年到2004年间,Google发表了MapReduce、GFS(Google File System)和BigTable三篇技术论文,提出了一套全新的分布式计算理论。