2015 Bossie评选:最佳开源大数据工具
免费可源可商用的BI工具对比(支持Doris 数据库)

目前市面上有很多开源的BI 工具可供选择,以下是几个免费、开源且可以商用的BI 工具,并且支持和Doris 数据库结合使用:Superset:由Airbnb 发起的开源BI 工具,带有可视化和交互式仪表盘功能。
Superset 支持多种数据源,其中包括Doris 数据库。
Metabase:一个简单易用的BI 工具,支持数据可视化和SQL 查询。
Metabase 支持多种数据库,包括Doris 数据库。
Redash:一个开源的数据查询和可视化工具,支持多种数据源,包括Doris 数据库。
这些工具都支持多种数据源,包括Doris 数据库,并提供了直观的查询和可视化界面,可以帮助分析师更好地理解和分析数据。
下面是Datart 和上述三种开源BI 工具的优缺点对比:DatartDatart 是一个功能强大、易于使用的商业智能工具,可以满足复杂的数据分析需求。
Datart 支持多种数据源,包括Doris 数据库,并提供了数据清洗、数据可视化、数据建模等多种功能,可以帮助分析师更好的理解和分析数据。
然而,由于Datart 是商业软件,其使用和技术支持可能需要一定的成本投入。
SupersetSuperset 是一个由Airbnb 发起的开源BI 工具,带有可视化和交互式仪表盘功能。
Superset 使用简便,具有良好的报表和图表设计能力,并支持多种数据源,包括Doris 数据库。
但是相对于Datart,Superset 的数据建模和数据处理能力相对较弱。
Metabase:Metabase 是一个简单易用的开源BI 工具,具有良好的可视化和查询功能,并支持多种数据源,包括Doris 数据库。
然而与Datart 相比,Metabase 的数据处理和数据建模能力相对较弱。
RedashRedash 是一个开源的数据查询和可视化工具,支持多种数据源,包括Doris 数据库。
Redash 方便易用,具有良好的查询和可视化功能,但是相对于Datart,其扩展性和定制化能力相对较弱。
大数据相关开源系统简介汇总

大数据相关开源系统简介汇总本片博客介绍大数据相关的开源系统以及他们对应的一句话简介, 对于各位想大概了解大数据都有哪些开源系统的同学有帮助。
各种相关开源系统简介:如下是Apache基金支持的开源软件hdfs跟GFS类似, 一个分布式文件系统。
mapreduce跟Google的MapReduce类似, 一个典型的简单的分布式计算框架。
yarn资源管理系统, 跟Mesos类比。
Avro跟PB类似, 用于将数据结构序列化成字节码, 在不同的语言之间切换。
官方举例是将C转换给Pig。
BigTop一个给Hadoop打包和测试的软件。
其本来是cloudera公司自己给自己写的一个方便OP部署和搭建环境的工具, 不过因为写得不错, 已经成为了Apache顶级项目。
目前支持系列Hadoop生态链中的软件: Zookeeper, Flume, HBase, Pig, Hive, Sqoop, Oozie, Whirr, Mahout, SolrCloud, Crunch, DataFu and HueChukwa收集各种实时监控数据(比如日志)并固化到HDFS上的事情。
DrillGoogle的Dremel的开源版本。
PB以上数据实时秒级查询。
Flume用来做数据迁移的工具。
支持数据包括Avro, files, 系统日志, 落地的系统包括HDFS, HBase。
HBaseGoogle的BigTable的开源版本。
宽列存储, 底层基于HDFS。
HCatalog为HDFS做的一个管理metadata的系统。
基于Hive, 提供服务给MapReduce, Pig, 将来会支持HBase。
Hive支持HSQL, 将SQL转换成MapReduce任务。
Mahout一个数据挖掘, 机器分析的算法库。
Oozie用来管理Hadoop中的多轮任务的工具, 类似DAG管理工具。
Tez也是多个任务的DAG管理工具, 但是其做得更底层,直接替代了MR的调度程序,多个任务之间的数据传递不用再落地到hdfs上了。
商业数据分析考试试题及答案

商业数据分析考试试题及答案一、选择题(每题5分,共40分)1. 商业数据分析的主要目标是什么?A. 预测未来趋势B. 优化业务决策C. 揭示市场机会D. 提高数据收集效率答案:B2. 下列哪种数据分析方法适用于描述性分析?A. 回归分析B. 聚类分析C. 决策树分析D. 描述统计分析答案:D3. 商业数据分析所使用的工具包括哪些?A. ExcelB. PythonC. TableauD. SPSSE. R语言答案:A、B、C、D、E4. 在数据可视化中,以下哪种图表适用于展示数据的趋势变化?A. 散点图B. 柱状图C. 折线图D. 饼图答案:C5. 数据清洗的主要目标是什么?A. 去除缺失值B. 去除异常值C. 去除重复值D. 数据转换和规范化答案:D6. 在假设检验中,p值小于显著性水平时,我们应该采取什么行动?A. 接受原假设B. 拒绝原假设C. 赋予数据更高的权重D. 进行修正答案:B7. 在数据挖掘过程中,哪个环节是用来筛选数据特征的?A. 数据源选择B. 数据采集C. 数据预处理D. 模型建立答案:C8. 下列哪项不是商业数据分析的应用领域?A. 市场营销B. 金融风险管理C. 医疗诊断D. 智能制造答案:C二、填空题(每题5分,共30分)1. 在商业数据分析中,数据可视化主要用于___________数据。
答案:展现2. 将连续变量离散化的常用方法之一是___________。
答案:分箱3. 数据采集过程中,通过问卷调查收集到的数据属于___________数据类型。
答案:定性4. 非商业领域中常用的开源数据分析工具是___________。
答案:R语言5. 假设检验中的错误接受原假设的错误称为___________错误。
答案:第二类6. 在数据挖掘中,用于发现规律和模式的算法统称为___________。
答案:关联规则三、案例题(共30分)某电商平台通过了解用户购物行为来进行商品推荐。
2015企业信息管理_期末考试答案(全)

(ABC) A.数据的安全 B.计算机和网络的安全
C.灾难性故障发生后系统的恢复
19. 计算机网络的特点有(ABCD)。 A.共享性 B.可
靠性 C.分散性 D.可扩充性
20. 结构化系统开发方法,具有以下特点(ABDE)C.以
42. Q 企业计算机信息系统的建立过程是(B.系统战略
单选 2 / 12
规划—系统分析—系统设计—系统实施—系统验
收)。
43. Q 企业竞争情报的核心内容是(C. 研究分析竞争
者)
44. Q 企业内部某些部门开始使……………企业信息化
进入了什么阶段?(B.单点数字化阶段)
45. Q 企业信息管理者个体能力包括基础能力和专门能
D.总体保障
60. X 下面哪个层次不属于企业的管理层次?(C)
C.部门管理层
61. X 下面哪个是最高级的信息系统?(B)B.DSS
62. X 相比较而言,在新系统交付使用的几种方式中,
以下哪种需投入的人力物力和工作量最大?(B.并
行方式)
63. X 相对而言,以下哪类信息可按实际拥有的信息,
自定分类特征,按分类规则进行分类。(C.事实型
51. Q 企 业 业 务 流 程 再 造 的 程 度 、 企 业 基 于
INterNet/EXtrANet 的管理信息化,此两项可反映
(C.企业管理系统使用水平)。
52. Q 企业知识交流与共享的策略有个人化策略和(A.
编码化策略)
53. Q 企业中信息化委员会的工作通常由(C)负责。
C.CIO
54. S(
33. Z 在企业信息管理活动中,企业信息管理者注意品
质的作用主要表现为(C. 对管理行为的指向控
西交15春《管理信息系统》在线作业答案

西交15春《管理信息系统》在线作业答案西交《管理信息系统》在线作业1.结构化生命周期法的主要缺点之一是A.系统开发周期长B.缺乏标准、规范C.用户参与程度低D.主要工作集中在实施阶段正确答案:A2.管理信息具有等级性,下面属于策略级的信息是()A.库存管理信息B.产品投产C.工资单D.每天统计的产量数据正确答案:B3.数据库系统的核心是()A.数据库B.操作系统C.数据库管理系统D.数据库系统正确答案:C4.文件系统中最小的数据存取单位是( )A.数据项B.记录C.文件D.数据库正确答案:A5.比较常见的电子商务模式B2C(或称B to C)是指()A.消费者之间的直接电子商务B.企业与间接小我消费者间的电子商务C.企业与企业之间的电子商务D.以上都不对正确答案:B6.A.B.C.D.VFP言语属于第( )代计算机言语。
一二三四?正确答案:D7.A.B.C.D.系统设计时()按用户要求划分子系统按领导要求划分子系统按逻辑功能划分子系统按机构划分子系统?正确答案:C8.A.B.C.D.用于支持领导层决策的信息体系是(专家体系经理信息体系战略信息体系电子数据交换?精确答案:B9.A.B.C.D.)U/C矩阵的精确性检验没有包含的一种是:()完整性检验准确性检验一致性检验无冗余性检验?精确答案:B10.结构化分析与设计是信息系统开发时常用的方法,按其生命周期特征,它应属于()。
A.螺旋模型B.喷泉模型C.混合模型D.瀑布模型?精确答案:D11.一般情况下,可将管理分为三个层次,即高层、中层和基层,其中高层管理属于()。
A.战术级管理B.战略级管理C.控制层管理D.作业层管理?正确答案:B12.某企业建立了生产、销售、人事等从基层到高层的MIS,这种MIS的结构为()A.职能结构B.横向综合结构C.总的综合结构D.纵向综合结构?正确答案:C13. MRPII是广泛应用于哪种类型企业的一种管理思想和模式。
最全最经典的管理学工具、方法理论大全

SWOT模型的局限性
与很多其他的战略模型一样,SWOT模型已由麦肯锡提出很久了,带有时代的局限性。以前的企业可能比较关注成本、质量,现在的企业可能更强调组织流程。例如以前的电动打字机被印表机取代,该怎么转型?是应该做印表机还是其他与机电有关的产品?从SWOT分析来看,电动打字机厂商优势在机电,但是发展印表机又显得比较有机会。结果有的朝印表机发展,死得很惨;有的朝剃须刀生产发展很成功。这就要看,你要的是以机会为主的成长策略,还是要以能力为主的成长策略。SWOT没有考虑到企业改变现状的主动性,企业是可以通过寻找新的资源来创造企业所需要的优势,从而达到过去无法达成的战略目标。
当两个企业处在同一市场或者说它们都有能力向同一顾客群体提供产品和服务时,如果其中一个企业有更高的赢利率或赢利潜力,那么,我们就认为这个企业比另外一个企业更具有竞争优势。换句话说,所谓竞争优势是指一个企业超越其竞争对手的能力,这种能力有助于实现企业的主要目标——赢利。但值得注意的是:竞争优势并不一定完全体现在较高的赢利率上,因为有时企业更希望增加市场份额,或者多奖励管理人员或雇员。
采购
寻找供应商/物料收取
获得、接收、检验、拒收与发送物料
大数据工具应用知到章节答案智慧树2023年广东金融学院

大数据工具应用知到章节测试答案智慧树2023年最新广东金融学院第一章测试1.2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和()能力的数据集。
参考答案:分析2.用4V来概括大数据的特点的话,一般是指:Value、Velocity、Volume和()。
参考答案:Variety3.大数据分析四个方面的工作主要是:数据分类、()、关联规则挖掘和时间序列预测。
参考答案:数据聚类4.新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。
错5.目前的大数据处理技术只能处理结构化数据。
参考答案:错第二章测试1.我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是()。
参考答案:mdb2.大多数日志文件的后缀名是()。
参考答案:log3.本课程重点介绍的weka软件的专有文件格式是()。
ARFF4.数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和()。
参考答案:一致性5.八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个()来作为采集的目标。
参考答案:网页地址6.八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是()。
参考答案:otd7.Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。
对8.Excel不能导入txt或csv格式的文件。
参考答案:错9.八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。
参考答案:错10.八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。
参考答案:对第三章测试1.使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2, minPoints参数设置为5,忽略class属性,那么将形成()个簇。
22.使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略play属性,从结果中可知,下列选项中,()是错误的。
开源ITIL管理工具OTRS

部署开源ITIL管理工具OTRSOTRS的名字是由Open-source Ticket Request System首字母縮略字而来,是一个开源的缺陷跟踪管理系统软件。
OTRS将电话,邮件等各种渠道提交进来的服务请求归类为不同的队列,服务级别,服务人员通过OTRS系统来跟踪和回复客户,相对传统的处理流程来而言,OTRS 提供了一个部门或团队的协调环境,以更有效率的方式处理,查询和跟踪。
OTRS是Lisog德国开源非盈利性发展协会创始成中之一。
在2010 年被评选为infoworld年度十佳开源网络软件[1]1简介ITIL上世纪80年代起源于英国,英国政府商务部(Office of Government Commerce)出版的规范描述了创建相关规范所需考虑的事项、计划和措施。
ITIL提供了覆盖“端到端”服务管理所有方面的全面的“最佳实践”指南,并且覆盖了人、过程、产品和合作伙伴的全部范畴。
目前最新版本是ITIL v3。
图1是ITIL的核心结构图。
图1ITIL的核心结构图2OTRS简介OTRS的ITSM第一个符合ITIL的IT服务管理解决方案,是建立在开放源代码的基础上。
这是一个兼容的开源ITIL的IT服务管理(ITSM)解决方案。
OTRS包括以下几个特点:(1)能支持平台非常广。
操作系统有Linux、Unix还有Windows;数据库有MySQL,PostgreSQL,Oracle和SQL Server。
(2)安装和配置是相当的简单。
我使用过Centos Linux和Windows7,整个安装配置过程只需要10分钟。
(3)支持多语言,目前能支持的语言有10几种,包括简繁体中文。
(4)纯Web操作界面,Web界面可以定制;很好的邮件系统集成。
有问题单生成接口,能够将第三方网络系统监控的故障告警变成问题单,再自动分配到相关的维护组。
从它的名字可以看出,他是一个“开放式问题系统”或者说是“帮助台”“Help Desk”“工单跟踪系统”。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2015 Bossie评选:最佳开源大数据工具大数据分布式计算数据存储数据分析开源摘要:Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象。
本次InfoWorld评选出了22款最佳的开源大数据工具,像Spark、Storm都名列榜单之上。
InfoWorld在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具。
1. Spark在Apache的大数据项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者的深入参与,使得Spark的发展和进步速度飞快。
与Spark产生最甜蜜的火花点仍然是在机器学习领域。
去年以来DataFrames API取代SchemaRDD API,类似于R和Pandas的发现,使数据访问比原始RDD接口更简单。
Spark的新发展中也有新的为建立可重复的机器学习的工作流程,可扩展和可优化的支持各种存储格式,更简单的接口来访问机器学习算法,改进的集群资源的监控和任务跟踪。
在Spark1.5的默认情况下,TungSten内存管理器通过微调在内存中的数据结构布局提供了更快速的处理能力。
最后,新的网站上有超过100个第三方贡献的链接库扩展,增加了许多有用的功能。
2. StormStorm是Apache项目中的一个分布式计算框架项目,主要应用于流式数据实时处理领域。
他基于低延时交互模式理念,以应对复杂的事件处理需求。
和Spark不同,Storm可以进行单点随机处理,而不仅仅是微批量任务,并且对内存的需求更低。
在我的经验中,他对于流式数据处理更有优势,特别是当两个数据源之间的数据快速传输过程中,需要对数据进行快速处理的场景。
Spark掩盖了很多Storm的光芒,但其实Spark在很多流失数据处理的应用场景中并不适合。
Storm经常和Apache Kafka一起配合使用。
3. H2OH2O是一种分布式的内存处理引擎用于机器学习,它拥有一个令人印象深刻的数组的算法。
早期版本仅仅支持R语言,3.0版本开始支持Python和Java语言,同时它也可以作为Spark 在后端的执行引擎。
使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,H2O来处理大量的数据工作。
几个有用的R扩展包,如ddply已经被打包,允许你在处理大规模数据集时,打破本地机器上内存容量的限制。
你可以在EC2上运行H2O,或者Hadoop集群/YARN集群,或者Docker容器。
用苏打水(Spark+ H2O)你可以访问在集群上并行的访问Spark RDDS,在数据帧被Spark处理后。
再传递给一个H2O的机器学习算法。
4. ApexApex是一个企业级的大数据动态处理平台,即能够支持即时的流式数据处理,也可以支持批量数据处理。
它可以是一个YARN的原生程序,能够支持大规模、可扩展、支持容错方法的流式数据处理引擎。
它原生的支持一般事件处理并保证数据一致性(精确一次处理、最少一次、最多一次)以前DataTorrent公司开发的基于Apex的商业处理软件,其代码、文档及架构设计显示,Apex在支持DevOps方面能够把应用开发清楚的分离,用户代码通常不需要知道他在一个流媒体处理集群中运行。
Malhar是一个相关项目,提供超过300种常用的实现共同的业务逻辑的应用程序模板。
Malhar的链接库可以显著的减少开发Apex应用程序的时间,并且提供了连接各种存储、文件系统、消息系统、数据库的连接器和驱动程序。
并且可以进行扩展或定制,以满足个人业务的要求。
所有的malhar组件都是Apache许可下使用。
5. DruidDruid在今年二月转为了商业友好的Apache许可证,是一个基于“事件流的混合引擎,能够满足OLAP解决方案。
最初他主要应用于广告市场的在线数据处理领域,德鲁伊可以让用户基于时间序列数据做任意和互动的分析。
一些关键的功能包括低延迟事件处理,快速聚合,近似和精确的计算。
Druid的核心是一个使用专门的节点来处理每个部分的问题自定义的数据存储。
实时分析基于实时管理(JVM)节点来处理,最终数据会存储在历史节点中负责老的数据。
代理节点直接查询实时和历史节点,给用户一个完整的事件信息。
测试表明50万事件数据能够在一秒内处理完成,并且每秒处理能力可以达到100万的峰值,Druid作为在线广告处理、网络流量和其他的活动流的理想实时处理平台。
6. FlinkFlink的核心是一个事件流数据流引擎。
虽然表面上类似Spark,实际上Flink是采用不同的内存中处理方法的。
首先,Flink从设计开始就作为一个流处理器。
批处理只是一个具有开始和结束状态的流式处理的特殊情况,Flink提供了API来应对不同的应用场景,无论是API (批处理)和数据流API。
MapReduce的世界的开发者们在面对DataSet处理API时应该有宾至如归的感觉,并且将应用程序移植到Flink非常容易。
在许多方面,Flink和Spark 一样,其的简洁性和一致性使他广受欢迎。
像Spark一样,Flink是用Scala写的。
7. Elasticsearch8Elasticsearch是基于Apache Lucene搜索分布式文件服务器。
它的核心,Elasticsearch基于JSON格式的近乎实时的构建了数据索引,能够实现快速全文检索功能。
结合开源Kibana BI显示工具,您可以创建令人印象深刻的数据可视化界面。
Elasticsearch易于设置和扩展,他能够自动根据需要使用新的硬件来进行分片。
他的查询语法和SQL不太一样,但它也是大家很熟悉的JSON。
大多数用户不会在那个级别进行数据交互。
开发人员可以使用原生JSON-over-HTTP接口或常用的几个开发语言进行交互,包括Ruby,Python,PHP,Perl,Java,JavaScript等。
8. SlamData如果你正在寻找一个用户友好的工具,能理解最新流行的NoSQL数据的可视化工具,那么你应该看一看SlamData。
SlamData允许您用熟悉的SQL语法来进行JSON数据的嵌套查询,不需要转换或语法改造。
该技术的主要特点之一是它的连接器。
从MongoDB,HBase,Cassandra和Apache的Spark,SlamData同大多数业界标准的外部数据源可以方便的进行整合,并进行数据转换和分析数据。
你可能会问:“我不会有更好的数据池或数据仓库工具吗?请认清这是在NoSQL领域。
9. DrillDrill是一种用于大型数据集的交互分析的分布式系统,由谷歌的Dremel催生。
Drill专为嵌套数据的低延迟分析设计,它有一个明确的设计目标,灵活的扩展到10000台服务器来处理查询记录数据,并支持兆级别的数据记录。
嵌套的数据可以从各种数据源获得的(如HDFS,HBase,Amazon S3,和Blobs)和多种格式(包括JSON,Avro,和buffers),你不需要在读取时指定一个模式(“读时模式”)。
Drill使用ANSI 2003 SQL的查询语言为基础,所以数据工程师是没有学习压力的,它允许你连接查询数据并跨多个数据源(例如,连接HBase表和在HDFS中的日志)。
最后,Drill 提供了基于ODBC和JDBC接口以和你所喜欢的BI工具对接。
10. HBASEHBase在今年的里程碑达到1.X版本并持续改善。
像其他的非关系型的分布式数据存储一样,HBase的查询结果反馈非常迅速,因此擅长的是经常用于后台搜索引擎,如易趣网,博科和雅虎等网站。
作为一个稳定的、成熟的软件产品,HBase新鲜的功能并不是经常出现,但这种稳定性往往是企业最关心的。
最近的改进包括增加区域服务器改进高可用性,滚动升级支持,和YARN的兼容性提升。
在他的特性更新方面包括扫描器更新,保证提高性能,使用HBase作为流媒体应用像Storm 和Spark持久存储的能力。
HBase也可以通过Phoenix项目来支持SQL查询,其SQL兼容性在稳步提高。
Phoenix最近增加了一个Spark连接器,添加了自定义函数的功能。
11. Hive随着Hive过去多年的发展,逐步成熟,今年发布了1.0正式版本,它用于基于SQL的数据仓库领域。
目前基金会主要集中在提升性能、可扩展性和SQL兼容性。
最新的1.2版本显著的提升了ACID语意兼容性、跨数据中心复制,以及以成本为基础的优化器。
Hive1.2也带来了改进的SQL的兼容性,使组织利用它更容易的把从现有的数据仓库通过ETL工具进行转移。
在规划中讲主要改进:以内存缓存为核心的速度改进LLAP,Spark的机器学习库的集成,提高SQL的前嵌套子查询、中间类型支持等。
12. KylinKylin是eBay开发的用于处理非常大量数据的OLAP分析系统,他使用标准的SQL语法,和很多数据分析产品很像。
Kylin使用Hive和MR来构建立方体,Hive用作预链接,MR用作预聚合,HDFS用来储存构建立方体时的中间文件,HBase用来存储立方体,HBase的coprocessor(协处理器)用来响应查询。
像大多数其他的分析应用一样,Kylin支持多种访问方法,包括JDBC,ODBC API进行编程访问以及REST API接口。
13. CDAPCDAP(Cask Data Access Platform)是一个在Hadoop之上运行的框架,抽象了建造和运行大数据应用的复杂性。
CDAP围绕两个核心概念:数据和应用程序。
CDAP数据集是数据的逻辑展现,无论底层存储层是什么样的;CDAP提供实时数据流处理能力。
应用程序使用CDAP服务来处理诸如分布式事务和服务发现等应用场景,避免程序开发者淹没在Hadoop的底层细节中。
CDAP自带的数据摄取框架和一些预置的应用和一些通用的“包”,例如ETL和网站分析,支持测试,调试和安全等。
和大多数原商业(闭源)项目开源一样,CDAP具有良好的文档,教程,和例子。
14. Ranger安全一直是Hadoop的一个痛处。
它不是说(像是经常报道)Hadoop是“不安全”或“不安全”。
事实是,Hadoop有很多的安全功能,虽然这些安全功能都不太强大。
我的意思是,每一个组件都有它自己的身份验证和授权实施,这与其他的平台没有集成。
2015年5月,Hortonworks收购XA /安全,随后经过了改名后,我们有了Ranger。
Ranger 使得许多Hadoop的关键部件处在一个保护伞下,它允许你设置一个“策略”,把你的Hadoop 安全绑定到到您现有的ACL基于活动目录的身份验证和授权体系下。