开源大数据查询分析底层技术三大基石引擎现状_光环大数据培训

合集下载

开源分布式网络软件 Open R _光环大数据培训

开源分布式网络软件 Open/R _光环大数据培训Open/R是这个知名社交网站和Terragraph无线互联网项目的一个核心部分。

位于北卡罗来纳州弗里斯特城的Facebook数据中心现在无论你怎么看待Facebook，很难不敬畏它的技术。

五年前，情况却远非如此：由于当时系统运行起来踉踉跄跄，时常出现暂时的停顿，大多数用户碰到停运几乎是家常便饭。

今非昔比。

近几年我发现这个网站带来的问题就是，它浪费了我的太多时间。

考虑到正常显示Facebook页面所必不可少的繁重工作，这是令人印象深刻的成就。

而且页面打开的速度还很快。

据数字营销公司Zephoria声称，Facebook 占到全美页面浏览量（PV）的五分之一，每分钟发布510000条留言。

这涉及大量的计算。

它是如何做到的呢？一方面就是借助使用该公司内部开发的一种用途广泛的路由平台：Open/R。

今天这个社交网络开源Open/R，设计需要像Facebook那样高速路由的应用程序的任何人都可以随意使用。

它使用“宽松”的麻省理工学院（MIT）许可证来发布，因而它既可以用于开源项目，又可以用于专有项目。

此举并不罕见。

该公司已开源了大批的软件，如果你希望的话，简直可以用它们来开办一家自己的Facebook山寨公司。

这个山寨公司甚至可以在同样的硬件上运行、在类似设计的数据中心中运行，那是由于这些知识产权中大部分也已通过开放计算项目（Open Compute Project）开源。

Open/R平台已经在众多使用场合下得到了证明自身的价值。

实际上，它最初不是为了在Facebook本地使用而设计的，而是为Terragraph项目而设计的，这个多节点无线系统旨在把高速互联网引入到密集的城市地区。

Terragraph最初计划落实于加州圣何塞，该市最近进入了测试阶段。

圣何塞市主管民间创新的副经理基普•哈克尼斯（Kip Harkness）告诉IT外媒TechTarget的物联网议程（IoTAgenda）栏目：“我们刚完成了把50个设备装到整个城市核心地区的电线杆和交通信号灯上的工作，目前我们正在进行工程测试，以测试网络及其处理流量的能力。

开源大数据技术汇总_深圳光环大数据培训机构

开源大数据技术汇总_深圳光环大数据培训机构20个最佳开源大数据技术1. Spark在Apache的大数据项目中，Spark是最火的一个，分外是像IBM这样的重量级进献者的深入参与，使得Spark的成长和进步速度飞快。

与Spark产生最甜美的火花点仍然是在机器学习领域。

去年以来DataFrames API取代SchemaRDD API，类似于R和Pandas的创造，使数据访问比原始RDD接口更大略。

Spark的新成长中也有新的为建立可重复的机器学习的事情流程，可扩展和可优化的支持各种存储格式，更大略的接口来访问机器学习算法，改进的集群成本的监控和任务跟踪。

在Spark1.5的默认环境下，TungSten内存管理器经过进程微调在内存中的数据布局布局供应了更快速的处理能力。

末了，新的网站上有超过100个第三方进献的链接库扩展，增加了许多有用的功能。

2. StormStorm是Apache项目中的一个分布式打算框架项目，紧张利用于流式数据实时处理领域。

他基于低延时交互情势理念，以应对复杂的变乱处理需要。

和Spark不同，Storm可以或许或者结束单点随机处理，而不仅仅是微批量任务，而且对内存的需要更低。

在我的经验中，他对于流式数据处理更有优势，分外是当两个数据源之间的数据快速传输进程傍边，需要对数据结束快速处理的场景。

Spark掩盖了许多Storm的光芒，但其实Spark在许多消散数据处理的利用场景中其实不得当。

Storm经常和Apache Kafka一起配合利用。

3. H2OH2O是一种分布式的内存处理引擎用于机器学习，它拥有一个令人印象深入的数组的算法。

早期版本仅仅支持R措辞，3.0版本开始支持Python和Java措辞，同时它也可以或许或者作为Spark在后端的履行引擎。

利用H2O的最佳办法是把它作为R环境的一个大内存扩展，R环境其实不直接作用于大的数据集，而是经过进程扩展通信协议比喻REST API与H2O集群通信，H2O来处理大量的数据事情。

大数据培训公司光环大数据_大数据主流工具

大数据培训公司光环大数据_大数据主流工具业内有这样一种说法，SQL虽然在大数据分析领域久经考验，但是无奈长江后浪推前浪，和炙手可热的Hadoop相比，SQL已经过时了。

这个说法有点言过其实，现在很多的项目都是将Hadoop作为数据存储，然后利用SQL进行前端查询。

这说明Hadoop需要一种高级查询语言的支持。

Hadoop MapReduce虽然能够进行数据分析，但是太复杂了。

于是，开发人员开发出了类似SQL的Pig和Hive。

大数据时代，我们有很多的查询工具可以选择。

虽然SQL占据着绝对优势，但是随着大数据的持续升温，也给了Apache Pig和Hive很大的发挥空间。

工欲善其事必先利其器，如果选择了合适的平台和语言，会让数据的提取，处理和分析达到事半功倍的效果。

未来，数据会越来越大，数据分析必须要更易操作。

处理速度快和操作简单必定成为大数据分析的主流趋势。

Apache Pig，Apache Hive和SQL是当今主流的大数据工具。

它们各有优势，下面我们就先来简单介绍Apache Pig、Apache Hive和SQL。

SQL结构化查询语言(SQL)是程序员的最佳伴侣，主要用于处理和提取数据。

大数据改变了数据处理和可视化的方式。

但是SQL严格的关系数据库模式和声明特性依然是数据分析的标杆。

尽管SQL市场广阔，但是大数据也对SQL的功能和性能提出了挑战。

PigApache Pig适合有SQL背景的程序员学习，其有以下两个特点：1.放宽了对数据存储的要求2.可以操作大型数据集Apache Pig是雅虎在2006年开发，除了上述特点，它还有很好的可扩展性和性能优化。

Apache Pig允许开发人员跟踪多个查询方法，从而降低了数据的重复检索。

它支持复合数据类型(Map、Tuple、Bag)，支持常见的数据操作，例如筛选、排序和Join。

Apache Pig的这些特性得到了世界各地用户的认可，就连雅虎和推特也采用了Apache Pig。

大数据培训完一般可以做哪些工作_光环大数据培训

大数据培训完一般可以做哪些工作_光环大数据培训大数据培训完一般可以做哪些工作? 大数据也迅速成为行业和市场的热点，更多的企业无论是对人才的招聘还是在培训都成了刚需，这也促使大数据人才的薪资在同岗位中是最高的，掌握大数据技术，工资提升40%左右是很常见的。

大数据培训完一般可以做哪些工作？大数据的就业领域是很宽广的，不管是科技领域，还是食品产业，零售业等等，都是需要大数据人才进行大数据的处理，以提供更好的用户体验，以及优化库存，降低成本，预测需求。

大数据培训后大家在各个领域可以从事的工作岗位。

1、Hadoop开发工程师Hadoop是一个分布式文件系统（Hadoop Distributed File System），简称HDFS。

Hadoop 是一个能够对大量数据进行分布式处理的软件框架，以一种可靠、高效、可伸缩的方式进行数据处理。

所以说Hadoop解决了大数据如何存储的问题，因而在大数据培训机构中是必须学习的课程。

2、数据分析师数据分析师是数据师的一种，指的是不同行业中，专门从事行业数据搜集、整理、分析，并依据数据做出行业研究、评估和预测的专业人员。

在工作中通过运用工具，提取、分析、呈现数据，实现数据的商业意义。

作为一名数据分析师、至少需要熟练SPSS、STATISTIC、Eviews、SAS、大数据魔镜等数据分析软件中的一门，至少能用Acess等进行数据库开发，至少掌握一门数学软件如matalab、mathmatics进行新模型的构建，至少掌握一门编程语言。

总之，一个优秀的数据分析师，应该业务、管理、分析、工具、设计都不落下。

3、数据挖掘工程师做数据挖掘要从海量数据中发现规律，这就需要一定的数学知识，最基本的比如线性代数、高等代数、凸优化、概率论等。

经常会用到的语言包括Python、Java、C或者C++，我自己用Python或者Java比较多。

有时用MapReduce写程序，再用Hadoop或者Hyp来处理数据，如果用Python的话会和Spark 相结合。

光环大数据的人工智能培训_光环大数据人工智能培训课程有哪些内容

光环大数据的人工智能培训_光环大数据人工智能培训课程有哪些内容光环大数据人工智能培训课程有哪些内容？随着人工智能技术在个人财务管理、公共记录、客户体验以及学习新事物等平台的发展，这种行业转移将变得更加普遍。

人工智能工程师和开发人员将致力于打造由算法驱动的人工智能，人工智能的发展会越来越好，因此参加人工智能培训课程进而转行人工智能行业是非常好的时机。

光环大数据人工智能培训课程有哪些内容？课程一阶段PythonWeb学习内容：PythonWeb内容实战学习目标：掌握HTML与CSS基础与核心、JavaScript原生开发，jQuery框架、XML与AJAX 技术完成项目：大型网站设计项目、京东电商网站项目、JS原生特效编写实战。

课程二阶段PythonLinux学习内容：PythonLinux实战开发学习目标：熟练Linux安装与管理、熟练使用Shell核心编程，掌握服务器配置与管理。

完成项目：ERP员工管理系统开发、图书管理系统开发、数据库系统调优。

课程三阶段文件与数据库学习内容：文件与数据库实战开发学习目标：熟练掌握Python各类操作，熟练掌握数据库语法与函数编程，及大数据库解决方案完成项目：权限系统数据库设计、日志系统数据库设计、综合系统数据库设计。

课程四阶段Python基础学习内容：Python基础实战开发学习目标：熟练掌握Python基础开发，掌握函数与控制、Python数据库开发。

完成项目：设计高级石头剪刀布游戏、计算器程序设计开发。

课程五阶段Python进阶开发学习内容：Python进阶实战开发学习目标：熟练使用经典开发与爬虫设计，熟练掌握买面向对性开发及并发原理。

完成项目：智能电子购物车项目、异步即时聊天室项目、Python超级爬虫编写。

课程六阶段Django编程开发学习内容：Django编程实战开发学习目标：熟练掌握Django框架设计、了解Django工作机制、熟练应用Django框架。

大数据学习教程_光环大数据培训

大数据学习教程_光环大数据培训大数据学习教程，大数据技术包含的内容概述？非结构化数据收集架构，数据分布式存储集群，数据清洗筛选架构，数据并行分析模拟架构，高级统计预测算法，数据可视化工具。

大数据技术的具体内容？分布式存储计算架构（强烈推荐：Hadoop）分布式程序设计（包含：Apache Pig或者Hive）分布式文件系统（比如：Google GFS）多种存储模型，主要包含文档，图，键值，时间序列这几种存储模型（比如：BigTable，Apollo，DynamoDB等）数据收集架构（比如：Kinesis，Kafla）集成开发环境（比如：R-Studio）程序开发辅助工具（比如：大量的第三方开发辅助工具）调度协调架构工具（比如：Apache Aurora）机器学习（常用的有Apache Mahout 或H2O）托管管理（比如：Apache Hadoop Benchmarking）安全管理（常用的有Gateway）大数据系统部署（可以看下Apache Ambari）搜索引擎架构（学习或者企业都建议使用Lucene搜索引擎）多种数据库的演变（MySQL/Memcached）商业智能（大力推荐：Jaspersoft ）数据可视化（这个工具就很多了，可以根据实际需要来选择）大数据处理算法（10大经典算法）大数据中常用的分析技术？A/B测试、关联规则挖掘、数据聚类、数据融合和集成、遗传算法、自然语言处理、神经网络、神经分析、优化、模式识别、预测模型、回归、情绪分析、信号处理、空间分析、统计、模拟、时间序列分析大数据未来的应用趋势预测？每个人健康和生活都需要的个性化建议；企业管理中的选择和开拓新市场的可靠信息来源；社会治理中大众利益的发现与政策满足。

下面举出光环大数据的大数据可视化教程的课纲供大家参考下：第一阶段本阶段为大数据可视化分析的基础技术，主要讲解了UI设计、HTML5、CSS、JavaScript、jQuery框架、bootstrap框架，此阶段课程虽然是基础课程，但是需要熟练掌握，学好CSS 是网页外观的重要一点，CSS可以帮助把网页外观做得更加美观。

大数据所侧重的是混杂性_光环大数据推出AI智客计划送2000助学金

大数据所侧重的是混杂性_光环大数据推出AI智客计划送2000助学金执迷于准确性是信息缺乏期间和模仿期间的产品。

只有5%的数据是有框架且能实用于传统数据库的。

要是不担当稠浊，剩下95%的非框架数据都无法被利用，只有担当禁绝确性，我们才气打开一扇从未涉足的天下的窗户。

在越来越多的环境下，利用全部可获取的数据变得更为大概，但为此也要支付肯定的代价。

数据量的大幅增长会造结果果的不正确，与此同时，一些错误的数据也会混进数据库。

对“小数据”而言，最根本、最紧张的要求便是淘汰错误，包管质量。

由于网络的信息量比力少，以是我们必须确保记载下来的数据只管即便准确。

由于网络信息的有限意味着渺小的错误会被放大，乃至有大概影响整个效果的正确性。

然而，在不停涌现的新环境里，容许禁绝确的出现已经成为一个新的亮点，而非缺点。

由于放松了容错的尺度，人们掌握的数据也多了起来，还可以利用这些数据做更多新的事变。

如许就不是大量数据优于少量数据那么简朴了，而是大量数据创造了更好的效果。

假设你要丈量一个葡萄园的温度，但是整个葡萄园只有一个温度丈量仪，那你就必须确保这个测试仪是准确的并且可以大概不停事情。

反过来，要是每100棵葡萄树就有一个丈量仪，有些测试的数据大概会是错误的，也大概会越发杂乱，但浩繁的读数合起来就可以提供一个越发正确的效果。

由于这内里包罗了更多的数据，而它提供的代价不但能抵消散错误数据造成的影响，还能提供更多的分外代价。

如今想想增长读数频率的这个事变。

要是每隔一分钟就丈量一下温度，我们至少还可以大概包管丈量效果是根据时间有序分列的。

要是酿成每分钟丈量十次乃至百次的话，不但读数大概堕落，连时间先后都大概搞混失。

试想，要是信息在网络中活动，那么一条记载很大概在传输历程中被耽误，在其到达的时间已经没故意义了，乃至爽性在奔涌的信息大水中彻底迷失。

固然我们得到的信息不再那么正确，但网络到的数目巨大的信息让我们放弃严酷准确的选择变得更为划算。

光环大数据培训_光环国际数据分析培训怎么样

光环大数据培训_光环国际数据分析培训怎么样光环国际数据分析培训怎么样？大数据时代，大数据发展的如火如荼，随着越来越多数据的产生，数据分析的作用就尤为重要了，在企业中数据分析对企业决策起着非常大的作用，参加数据分析培训是成功快速转行高薪岗位的捷径。

光环国际数据分析培训怎么样？光环大数据是专注大数据、人工智能垂直领域高薪就业培训机构，多年来专注大数据人才培养，携17年IT培训经验,与中关村软件园共同建立国家大数据人才培养基地,并与全球知名大厂商cloudera战略合作培养中国大数据高级人才，专注为大学生及在职人员提供专业师资平台及培训服务，助力他们高薪名企就业。

光环大数据讲师均为实战专家，具备10年以上软件开发培训经验，五年以上大数据实战经验，行业口碑好。

比如，杨老师，是前全球十大咨询公司ESG亚太区分析师，对云计算、大数据有深入研究，曾为IBM、DELL、HP、EMC等厂商提供产品测评报告，并为国内企业华为、联想、浪潮、曙光等企业的业务现状和发展方向提供战略咨询服务。

光环大数据只聘请精英讲师，确保教学的整体质量与教学水准，讲师团及时掌握时代潮流技术，将前沿技能融入教学中，确保学生所学知识顺应时代所需，通过深入浅出、通俗易懂的教学方式，指导学生更快的掌握技能知识，成就上万个高薪就业学子。

光环大数据，理论+实战相结合的教学方式，学员边学习边参加实战项目，既能展望2018年，大数据的技术发展与物联网、云计算、人工智能等新技术领域的联系将更加紧密，物联网的发展将极大提高数据的获取能力，云计算与人工智能将深刻地融入数据分析体系，融合创新将会不断地涌现和持续深入。

大数据时代，数据分析培训，就选光环大数据！为什么大家选择光环大数据！大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训，就选光环大数据！光环大数据，聘请专业的大数据领域知名讲师，确保教学的整体质量与教学水准。

机器学习测试题_北京光环大数据培训

机器学习测试题_北京光环大数据培训人工智能一直助力着科技发展，新兴的机器学习正推动着各领域的进步。

如今，机器学习的方法已经无处不在—从手机上的语音助手到商业网站的推荐系统，机器学习正以不容忽视的速度闯入我们的生活。

以下测试题可以粗略的检测你对机器学习的了解和掌握程度。

有对机器学习有兴趣的小伙伴可自行测试。

1.以下哪一种方法最适合在n（n>1）维空间中做异常点检测。

A 正态分布图B 盒图C 马氏距离D 散点图答案：C马氏距离是是一种有效的计算两个未知样本集的相似度的多元计量方法，以卡方分布为基础，表示数据的协方差距离。

与欧氏距离不同的是它考虑到各种特性之间的联系(例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是关联的)。

因此马氏距离常用于多元异常值检测。

2. 逻辑回归与多元回归分析有哪些不同？A. 逻辑回归预测某事件发生的概率B. 逻辑回归有较高的拟合效果C. 逻辑回归回归系数的评估D. 以上全选答案：D逻辑回归是用于分类问题，我们能计算出一个事件/样本的概率；一般来说，逻辑回归对测试数据有着较好的拟合效果；建立逻辑回归模型后，我们可以观察回归系数类标签(正类和负类)与独立变量的的关系。

3 bootstrap 数据的含义是：A. 有放回的从整体M中抽样m个特征B. 无放回的从整体M中抽样m个特征C. 有放回的从整体N中抽样n个样本D. 无放回的从整体N中抽样n个样本答案：C如果我们没有足够的数据来训练我们的算法，我们应该通过重复随机采样增加训练集合的大小4.”过拟合是有监督学习的挑战，而不是无监督学习”以上说法是否正确：A. 正确B. 错误答案：B我们可以评估无监督学习方法通过无监督学习的指标，如：我们可以评估聚类模型通过调整兰德系数5.下列表述中，在k-fold交叉验证中关于选择K说法正确的是：A. 较大的K并不总是好的，选择较大的K可能需要较长的时间来评估你的结果B. 相对于期望误差来说，选择较大的K会导致低偏差（因为训练folds会变得与整个数据集相似）C. 在交叉验证中通过最小化方差法来选择K值D. 以上都正确答案：D较大的K意味着更小的偏差（因为训练folds的大小接近整个dataset）和更多的运行时间（极限情况是：留一交叉验证）。

开放数据的定义、标准、现状与问题_光环大数据数据分析培训

开放数据的定义、标准、现状与问题_光环大数据数据分析培训在大数据时代，政府率先将自己保有的数据开放给社会进行增值开发和创新应用，将引领大数据发展，推动经济增长和社会进步，创造巨大的公共价值随着政府信息化水平的不断提升，政府部门在履行职责过程中生成、获取和保存了大量数据，成为国家最主要的数据保有者。

政府数据与公众生产生活息息相关，是大数据不可或缺的重要组成部分。

在大数据时代，政府率先将自己保有的数据开放给社会进行增值开发和创新应用，将引领大数据发展，推动经济增长和社会进步，创造巨大的公共价值。

因此，可以说大数据建立在开放数据的基础上。

开放数据的定义与标准根据世界银行的定义，开放数据（opendata）是指数据可以被任何人自由免费地访问、获取、利用和分享。

《开放数据宪章》将开放数据定义为具备必要的技术和法律特性，从而能被任何人、在任何时间和任何地点进行自由利用、再利用和分发的电子数据。

以上定义都突出强调了开放数据供社会进行充分利用和再利用，意在释放数据能量，创造社会经济价值。

对于开放数据的标准，“开放政府工作组”提出，数据在满足以下八项条件时可称为“开放”：•完整，除非涉及国家安全、商业机密、个人隐私或其他特别限制，所有的政府数据都应开放，开放是原则，不开放是例外；•一手，开放从源头采集到的一手数据，而不是被修改或加工过的数据；•及时，在第一时间开放和更新数据；•可获取，数据可被获取，并尽可能地扩大用户范围和利用种类；•可机读，数据可被计算机自动抓取和处理；•非歧视性，数据对所有人都平等开放，不需要特别登记；•非私有，任何实体都不得排除他人使用数据的权利；•免于授权，数据不受版权、专利、商标或贸易保密规则的约束或已得到授权使用（除非涉及国家安全、商业机密、个人隐私或特别限制）。

这八大标准意在确保开放数据对社会能真正有用和易用，已被国内外开放数据实践和研究领域普遍采纳，作为评估开放数据水平的标准。

《开放数据宪章》也提出了开放数据的六大原则，分别为：默认开放、及时和全面、可获取可利用、可比较和关联、为改善治理与公众参与、为实现包容性发展与创新。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

开源大数据查询分析底层技术三大基石引擎现状_光环大数据培训大数据查询分析是云计算中核心问题之一，自从Google在2006年之前的几篇论文奠定云计算领域基础，尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。

GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。

Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库领域，撼动了RDBMS在商用数据库和数据仓库方面几十年的统治性地位。

FaceBook的Hive项目是建立在Hadoop上的数据仓库基础构架，提供了一系列用于存储、查询和分析大规模数据的工具。

当我们还浸淫在GFS、Map-Reduce、 Bigtable 等Google技术中，并进行理解、掌握、模仿时，Google在2009年之后，连续推出多项新技术，包括：Dremel、 Pregel、Percolator、Spanner和F1。

其中，Dremel促使了实时计算系统的兴起，Pregel开辟了图数据计算这个新方向，Percolator使分布式增量索引更新成为文本检索领域的新标准，Spanner和F1向我们展现了跨数据中心数据库的可能。

在Google的第二波技术浪潮中，基于Hive和Dremel，新兴的大数据公司Cloudera开源了大数据查询分析引擎Impala，Hortonworks开源了 Stinger，Fackbook开源了Presto。

类似Pregel，UC Berkeley AMPLAB实验室开发了Spark图计算框架，并以Spark为核心开源了大数据查询分析引擎Shark。

由于某电信运营商项目中大数据查询引擎选型需求，本文将会对Hive、Impala、Shark、Stinger和Presto这五类主流的开源大数据查询分析引擎进行简要介绍以及性能比较，最后进行总结与展望。

Hive、Impala、Shark、Stinger和Presto的进化图谱。

2图1. Impala、Shark、Stinger和Presto的进化图谱当前主流引擎简介基于Map-Reduce模式的Hadoop擅长数据批处理，不是特别符合即时查询的场景。

实时查询一般使用MPP (Massively Parallel Processing)的架构，因此用户需要在Hadoop和MPP两种技术中选择。

在Google的第二波技术浪潮中，一些基于Hadoop架构的快速 SQL访问技术逐步获得人们关注。

现在有一种新的趋势是MPP和Hadoop相结合提供快速SQL访问框架。

最近有四个很热门的开源工具出来：Impala、Shark、Stinger和Presto。

这也显示了大数据领域对于Hadoop 生态系统中支持实时查询的期望。

总体来说，Impala、Shark、Stinger和Presto 四个系统都是类SQL实时大数据查询分析引擎，但是它们的技术侧重点完全不同。

而且它们也不是为了替换Hive而生，Hive在做数据仓库时是非常有价值的。

这四个系统与Hive都是构建在Hadoop之上的数据查询工具，各有不同的侧重适应面，但从客户端使用来看它们与Hive有很多的共同之处，如数据表元数据、Thrift接口、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。

Hive与Impala、Shark、Stinger、Presto在Hadoop中的关系如图2所示。

Hive 适用于长时间的批处理查询分析，而Impala、Shark、Stinger和Presto适用于实时交互式SQL查询，它们给数据分析人员提供了快速实验、验证想法的大数据分析工具。

可以先使用Hive进行数据转换处理，之后使用这四个系统中的一个在Hive处理后的结果数据集上进行快速的数据分析。

下面，从问题域出发简单介绍 Hive、Impala、Shark、Stinger和Presto：3图2. Hive与Impala、Shark、Stinger、Presto在Hadoop中的关系当前主流引擎架构HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为 Map-Reduce 任务进行运行，十分适合数据仓库的统计分析。

其架构如图3所示，Hadoop和Map-Reduce是Hive架构的根基。

Hive 架构包括如下组件：CLI（Command Line Interface）、JDBC/ODBC、Thrift Server、Meta Store和Driver(Complier、Optimizer和Executor)。

1) Hive，披着SQL外衣的Map-Reduce。

Hive是为方便用户使用Map-Reduce 而在外面封装了一层SQL，由于Hive采用了SQL，它的问题域比Map-Reduce更窄，因为很多问题，SQL表达不出来，比如一些数据挖掘算法，推荐算法、图像识别算法等，这些仍只能通过编写Map-Reduce完成。

2) Impala：Google Dremel的开源实现（Apache Drill类似），因为交互式实时计算需求，Cloudera推出了Impala系统，该系统适用于交互式实时处理场景，要求最后产生的数据量一定要少。

3) Shark/Spark：为了提高Map-Reduce的计算效率，Berkeley的AMPLab 实验室开发了Spark，Spark可看做基于内存的Map-Reduce实现，此外，伯克利还在Spark基础上封装了一层SQL，产生了一个新的类似Hive的系统Shark。

4) Stinger Initiative（Tez optimized Hive）：Hortonworks开源了一个DAG计算框架Tez，Tez可以理解为Google Pregel的开源实现，该框架可以像Map-Reduce一样，可以用来设计DAG应用程序，但需要注意的是，Tez只能运行在YARN上。

Tez的一个重要应用是优化Hive和PIG这种典型的DAG应用场景，它通过减少数据读写IO，优化DAG流程使得Hive速度提供了很多倍。

5) Presto：FaceBook于2013年11月份开源了Presto，一个分布式SQL查询引擎，它被设计为用来专门进行高速、实时的数据分析。

它支持标准的ANSISQL，包括复杂查询、聚合（aggregation）、连接（join）和窗口函数（window functions)。

Presto设计了一个简单的数据存储的抽象层，来满足在不同数据存储系统（包括HBase、HDFS、Scribe等）之上都可以使用SQL进行查询。

4图3. Hive架构Impala架构Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，它可以看成是Google Dremel架构和MPP (Massively Parallel Processing)结构的结合体。

Impala没有再使用缓慢的Hive&Map-Reduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟，其架构如图4所示，Impala主要由Impalad，State Store和CLI组成。

Impalad 与DataNode运行在同一节点上，由Impalad进程表示，它接收客户端的查询请求（接收查询请求的 Impalad为Coordinator，Coordinator通过JNI调用java 前端解释SQL查询语句，生成查询计划树，再通过调度器把执行计划分发给具有相应数据的其它Impalad进行执行），读写数据，并行执行查询，并把结果通过网络流式的传送回给Coordinator，由 Coordinator返回给客户端。

同时Impalad也与State Store保持连接，用于确定哪个Impalad是健康和可以接受新的工作。

Impala State Store跟踪集群中的Impalad的健康状态及位置信息，由state-stored进程表示，它通过创建多个线程来处理Impalad的注册订阅和与各Impalad保持心跳连接，各Impalad都会缓存一份State Store中的信息，当State Store离线后，因为Impalad有State Store的缓存仍然可以工作，但会因为有些Impalad失效了，而已缓存数据无法更新，导致把执行计划分配给了失效的Impalad，导致查询失败。

CLI提供给用户查询使用的命令行工具，同时Impala还提供了Hue，JDBC，ODBC，Thrift使用接口。

5图4. Impala架构Shark架构Shark是UC Berkeley AMPLAB开源的一款数据仓库产品，它完全兼容Hive 的HQL语法，但与Hive不同的是，Hive的计算框架采用Map-Reduce，而 Shark 采用Spark。

所以，Hive是SQL on Map-Reduce，而Shark是Hive on Spark。

其架构如图4所示，为了最大程度的保持和Hive的兼容性，Shark复用了Hive 的大部分组件，如下所示：1) SQL Parser&Plan generation: Shark完全兼容Hive的HQL语法，而且Shark使用了Hive的API来实现query Parsing和 query Plan generation，仅仅最后的Physical Plan execution阶段用Spark代替Hadoop Map-Reduce；2) metastore：Shark采用和Hive一样的meta信息，Hive里创建的表用Shark可无缝访问；3) SerDe: Shark的序列化机制以及数据类型与Hive完全一致；4) UDF: Shark可重用Hive里的所有UDF。

通过配置Shark参数，Shark可以自动在内存中缓存特定的RDD（Resilient Distributed Dataset），实现数据重用，进而加快特定数据集的检索。

同时，Shark通过UDF用户自定义函数实现特定的数据分析学习算法，使得SQL数据查询和运算分析能结合在一起，最大化RDD的重复使用；5) Driver：Shark在Hive的CliDriver基础上进行了一个封装，生成一个SharkCliDriver，这是shark命令的入口；6) ThriftServer：Shark在Hive的ThriftServer（支持JDBC/ODBC）基础上，做了一个封装，生成了一个SharkServer，也提供JDBC/ODBC服务。