Linkoop领象大数据平台白皮书

合集下载

云原生发展白皮书(2020年)

云原生发展白皮书(2020年)
从技术特征方面来看,云原生技术架构具备以下典型特征:极致 的弹性能力,不同于虚拟机分钟级的弹性响应,以容器技术为基础的 云原生技术架构可实现秒级甚至毫秒级的弹性响应;服务自治故障自 愈能力,基于云原生技术栈构建的平台具有高度自动化的分发调度调
2
谐机制,可实现应用故障的自动摘除与重构,具有极强的自愈能力及 随意处置性;大规模可复制能力,可实现跨区域、跨平台甚至跨服务 商的规模化复制部署能力。
1
一、 新机遇下的云原生
(一) 重新认识云原生
云原生成为近几年云计算领域炙手可热的话题,但业界普遍存在 对云原生概念理解不清晰、内涵认知不统一的问题,为了更好的推广 云原生理念,信通院针对云原生概念进行重新梳理,重点从产业效用、 技术特征和应用价值三个方面进行深入剖析,以帮助不同领域的受众 群体更好的理解云原生,进一步推进国内的云原生产业发展和落地实 践。
云原生发展白皮书
(2020 年)
云原生产业联盟 Cloud Native Industry Alliance,CNIA
2020 年 7 月
版权声明
本白皮书版权属于云原生产业联盟,并受法律保护。转载、摘编
或利用其它方式使用本白皮书文字或者观点的,应注明“来源:云原
生产业联盟”。违反上述声明者,本院将追究其相关法律责任。
0
5452..30 5.2
75.1 7.6 87.4
11.6 148.7
2015
2016
2017
145.2 21.8 270.4
2018
194.8 41.9
452.6
SaaS市场规模 PaaS市场规模 IaaS市场规模
2019
数据来源:中国信息通信研究院,2020 年 5 月

数据中心基础设施智能运维白皮书

数据中心基础设施智能运维白皮书
任务执行检查(Ch检任务总览
模板及任务优化(Action):
优化巡检模板或者调整巡检任务,如根据实际情况动态调整巡检频次,或对 UPS 巡检增加检查项等。
6
数据中心基础设施智能运维白皮书
自动风险闭环管理
在传统模式下,风险主要来自人工输入,数字运维风险识别除了通过监控系统发现、专家组织识别外,在运维活动中会自 动识别风险,自动触发风险管理,如电子巡检中发现的不遵从项,可以直接产生一项风险(规则在巡检模板中定义),这 样可以给运维团队带来最大的好处:运维安全依赖 DCIM 系统,而不像传统模式下完全取决于运维团队的技能和责任心。
图 5 风险总览
图 6 风险闭环流程
7
数据中心基础设施智能运维白皮书
故障预测性维护
AI 在基础设施运维活动中有广阔的应用前景,特别是在设备故障预测方面,有效的样本数据结合人工经验能够快速训练出 较高准确度的故障预测模型,通过对设备故障的预测,可以把例行的巡检、保养变成更有针对性的运维活动,随着预测准 确率的不断提升,最终可以取消日常的人工运维。
APP 巡检(Do):
巡检 APP 支持问题快速记录、支持现场拍照、支持一键上传巡检报告。 • 按时发起巡检任务,包括每天定时巡检及每周定时巡检; • 发送短信或邮件进行提醒; • 巡检人用自己的账号登陆手机 App; • 获取当前巡检设备类型信息; • 根据设备类型信息,通过 DCIM 自动获取设备关键指标实时信息,跟设备面板显示示数做确认即可,对于一些重要 设备状态或运行参数进行拍照,设备的巡检结果实时上传后台,后台会利 AI 技术自动比对分析,确认巡检结果是 否合格。
运 维 流 程
传统运维
智能运维
运维演进 图1
智能化程度

大数据白皮书2024(二)

大数据白皮书2024(二)

大数据白皮书2024(二)引言概述:随着科技的不断发展,大数据已经成为了企业和组织中的不可或缺的一部分。

2024年,大数据的发展将进一步加速,并为各行各业带来更多的机遇和挑战。

本文将以大数据白皮书2024(二)为切入点,从五个大点出发,分别阐述大数据在社会、经济、科技、教育和医疗领域的应用和影响。

正文内容:1. 大数据在社会领域的应用a) 大数据助力城市管理和规划:- 实现智慧城市的建设和发展- 提升城市交通、环境和安全管理的效率b) 大数据在社会治理中的作用:- 改善政府决策和公共服务- 实现社会风险防控和公共安全的提升c) 大数据驱动社交媒体和网络平台:- 改善广告和营销策略- 推动个性化服务和用户体验的提升d) 大数据助力社会创新和公益事业:- 促进科研和创新的进步- 加强社会组织和非营利机构的运营和服务能力e) 大数据在法律和法律制度中的应用:- 改善司法判决和执法效率- 加强数据隐私和信息安全的保护2. 大数据在经济领域的应用a) 大数据驱动商业智能和决策:- 提升企业竞争力和市场份额- 优化供应链和产品设计b) 大数据在金融行业中的应用:- 改进风险管理和决策制定- 推动普惠金融和金融科技的发展c) 大数据促进新兴产业的崛起:- 加速人工智能、物联网和云计算等行业的发展 - 为创业者和创新企业提供更多机会和支持d) 大数据在市场营销和销售中的应用:- 实现个性化营销和广告定制- 提高销售效率和客户满意度e) 大数据推动数字经济的发展:- 促进互联网经济和在线消费的增长- 增强数字技术和数据治理的能力和规范3. 大数据在科技领域的应用a) 大数据支持科学研究和创新发展:- 推动基础科学和应用科学的进步- 加速技术创新和产业升级b) 大数据在人工智能领域的应用:- 提供数据驱动的智能决策和预测- 促进机器学习和深度学习技术的发展c) 大数据助力智能制造和工业互联网:- 提高生产效率和质量- 推动智能制造和工业数字化转型d) 大数据在物联网中的应用:- 实现设备和物品之间的互联互通- 改善供应链和物流管理的效率e) 大数据推动区块链和密码学的发展:- 加强数据安全和隐私保护的能力- 提升数字资产和交易的可信度和可追溯性4. 大数据在教育领域的应用a) 大数据改善教学和学习环境:- 个性化教育和学习资源定制- 提升教育质量和学生表现b) 大数据支持教育决策和政策制定:- 提供教学评估和效果分析的依据- 优化教育资源配置和学校管理c) 大数据推动在线教育和远程学习的发展: - 扩大教育覆盖范围和机会均等性- 提高学习效率和灵活性d) 大数据助力教育研究和教师培训:- 支持教育科研和教育改革的进展- 提升教师专业发展和能力提升e) 大数据促进教育与产业融合:- 提供人才需求和供给的匹配度- 支持教育培训和职业发展的衔接5. 大数据在医疗领域的应用a) 大数据在医疗诊断和治疗中的作用:- 提供个性化用药和疾病管理方案- 改善医疗效率和患者体验b) 大数据支持医疗决策和临床研究:- 提供医学数据分析和模型预测- 促进疾病预防和医学进展c) 大数据助力医疗资源配置和优化:- 提高医疗服务的均等性和可及性- 优化医疗机构的运营和管理d) 大数据推动医疗健康产业的发展:- 加速生物科技和医药研发的进展- 推进数字医疗和远程医疗的应用e) 大数据在公共卫生和健康管理中的应用:- 实现疫情分析和预警系统- 改善健康干预和健康数据管理总结:到2024年,大数据将在更多领域发挥重要作用,如社会、经济、科技、教育和医疗等。

大数据应用白皮书

大数据应用白皮书

大数据应用白皮书摘要本白皮书旨在探讨大数据在不同领域的应用,并提供相关解决方案和技术支持。

通过深入研究和分析,我们认为大数据应用具有巨大的潜力,可以为企业和社会带来重要的改变和增长。

本文将从大数据的定义、应用场景、技术挑战和解决方案等方面进行阐述,旨在为决策者和技术人员提供有关大数据应用的全面指南。

1. 引言在当今数字化时代,大数据已成为企业和政府的重要资源。

大数据是指规模庞大、类型多样且难以处理的数据集合。

它可以来自各种来源,包括传感器、社交媒体、移动设备和互联网等。

大数据的应用潜力在于能够从数据中提取有价值的信息和洞察,并基于此做出更明智的决策。

2. 大数据的应用场景大数据应用广泛涉及各个行业和领域。

以下是一些常见的大数据应用场景:2.1 零售业大数据可以帮助零售商了解消费者的购买习惯、偏好和需求,从而进行更精确的市场定位和产品推广。

通过分析大量的销售数据和顾客行为数据,零售商可以提供个性化的购物体验,并实时调整产品和价格策略。

2.2 金融业金融机构可以利用大数据分析客户的信用风险、欺诈行为和市场趋势,以提高风险管理和决策的准确性。

此外,大数据还可以用于预测市场走势、优化投资组合和改进客户服务。

2.3 医疗保健大数据在医疗保健领域的应用可以改善疾病预防、诊断和治疗。

通过分析患者的健康数据、基因组学和生物信息学等,医疗机构可以提供个性化的医疗方案,并改善医疗资源的分配和利用。

2.4 物流与供应链管理大数据可以提供实时的物流和供应链信息,帮助企业优化物流路径、降低成本和提高效率。

通过分析供应链数据和交通数据,企业可以更好地预测需求、调整库存和优化配送。

3. 大数据应用的技术挑战尽管大数据应用具有巨大的潜力,但也面临一些技术挑战。

以下是一些常见的挑战:3.1 数据质量大数据的质量对于应用的准确性和可靠性至关重要。

由于大数据集合的多样性和复杂性,数据质量问题可能包括数据缺失、数据错误和数据不一致等。

大数据白皮书2024(一)2024

大数据白皮书2024(一)2024

大数据白皮书2024(一)引言概述:大数据已经成为现代社会中的一项重要技术和战略资源。

在不断发展的数字经济时代,大数据的应用对于创新、效率和竞争力都有巨大的潜力。

本文将重点探讨2024年大数据领域的趋势和发展方向,包括数据收集与存储、数据分析与挖掘、数据隐私与安全、数据伦理与法规、以及大数据应用的社会影响。

正文:1. 数据收集与存储a. 传感器技术的发展与应用b. 云计算在大数据存储中的作用c. 数据中心的规模与效率提升d. 数据归档和备份的策略和技术e. 数据格式和标准的统一与交互性提升2. 数据分析与挖掘a. 人工智能在数据分析中的应用b. 机器学习算法的发展与应用c. 可视化分析技术的发展与应用d. 实时数据分析与流式计算e. 非结构化数据的分析与挖掘技术3. 数据隐私与安全a. 隐私保护的技术与措施b. 数据加密与身份验证技术c. 安全审计与数据防泄漏技术d. 隐私与数据安全的合规与监管e. 数据共享与隐私权利的平衡4. 数据伦理与法规a. 数据采集与搜集的道德与法律问题b. 数据使用与共享的伦理与法规约束c. 数据治理与数据伦理的实践与研究d. 数据隐私与个人权益的保护e. 数据伦理与法规的国际合作与标准制定5. 大数据应用的社会影响a. 大数据在城市管理和智慧城市中的应用b. 大数据在医疗保健和生命科学领域的应用c. 大数据在工业制造与供应链管理中的应用d. 大数据在金融和风险管理中的应用e. 大数据在教育和人才培养中的应用总结:展望2024年,大数据的发展将继续加速,数据收集与存储、数据分析与挖掘、数据隐私与安全、数据伦理与法规、以及大数据应用的社会影响将是大数据研究和实践的重要方向。

在驾驭大数据的过程中,我们必须关注隐私保护、伦理约束和法规合规,共同推动大数据的发展繁荣,并使之为人类社会的进步和福祉做出更大的贡献。

USE2.0白皮书

USE2.0白皮书
3. 产品架构...................................................................................................................................7 3.1. 逻辑架构......................................................................................7 3.2. 物理架构.......................................................................................................................8
企业统一调度平台
Unified Scheduling for Enterprise (USE)
2.0 版
白皮书
2014 年 6 月
/
USE2.0 白皮书
北京宇信易诚科技有限公司
目录
1. 概述...........................................................................................................................................3 1.1. 编写目的.......................................................................................................................3 1.2. 背景...............................................................................................................................3 1.3. 术语、缩略词说明.......................................................................................................4

大数据标准化白皮书

大数据标准化白皮书
3.大数据发展现状和趋势................................................................................................................ 89 3.1 国外大数据发展 ..........................................................................................................................89 3.1.1 政府出台计划.....................................................................................................................910 3.1.2 工业界大数据研究..........................................................................................................1213 3.2 国内的大数据现状 ..................................................................................................................1415 3.2.1 国内大数据关注焦点.......................................................................................................1415 3.2.2 地方政府探索大数据应用...............................................................................................1617 3.3 大数据产品的发展趋势 ..........................................................................................................2021 3.3.1 大数据由网络数据处理走向企业级应用 ......................................................................2021 3.3.2 移动终端数据应用将成为下一轮创新的中心 ..............................................................2122 3.3.3 “数据租售”成为最直接的盈利模式 ..........................................................................2122

中国数字经济发展白皮书

中国数字经济发展白皮书

中国数字经济发展白皮书前言纵观世界文明史,人类先后经历了农业革命、工业革命、信息革命。

每一次产业技术革命,都给人类生产生活带来巨大而深刻的影响,不断提高人类认识世界、改造世界的能力。

数字技术日新月异,应用潜能全面迸发,数字经济正在经历高速增长、快速创新,并广泛渗透到其他经济领域,深刻改变世界经济的发展动力、发展方式,重塑社会治理格局。

当前,我国数字经济正在进入快速发展新阶段。

2016 年,中国数字经济规模达到22.6 万亿,同比增长18.9%,占GDP 比重达到30.3%,数字经济基础设施实现跨越式发展数字经济基础部分增势稳定,结构优化,新业态新模式蓬勃发展,传统产业数字化转型不断加快,融合部分成为增长主要引擎,面向数字经济的社会治理模式在摸索中不断创新。

数字经济在各行业中的发展出现较大差异,数字经济占本行业增加值比重呈现出三产高于二产、二产高于一产的典型特征。

2016 年,服务业中数字经济占行业比重平均值为 29.6%,工业中数字经济占行业比重平均值为17.0%,农业中数字经济占行业比重平均值为 6.2%。

报告编制了中国数字经济指数(Digital EconomyIndex,简称 DEI 指数)。

DEI 指数表明,数字经济增速显著高于我国宏观经济景气指数,成为拉动经济增长的重要引擎。

DEI 预警指数显示,我国数字经济发展“冷热适中”,处于正常运行区间。

预计未来我国数字经济发展将在“正常”区间上部和“趋热”区间下部波动调整。

但同时也应该看到,我国发展数字经济还面临很多问题与瓶颈,主要是新型生产力发展尚处于初级阶段,数据资源开发利用水平低,核心技术和设备受制于人,人才和投融资体制还无法适应数字经济发展需要,经济主要领域数字化转型仍存在较多障碍,国际化拓展刚刚起步,数字经济市场体系尚不健全,经济治理面临全新挑战,全球竞争和话语权争夺日益激烈。

未来几十年,是数字化改造提升旧动能、培育壮大新动能的发展关键期,是全面繁荣数字经济的战略机遇期。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Linkoop 领象大数据平台白皮书V3.0Linkoop领象大数据平台为企业级大数据应用提供了数据全生命周期的解决方案,包含了数据集成、数据管理、数据安全、数据查询以及数据分析的整套分布式大数据平台和计算平台,帮助企业对海量数据进行采集、存储、治理、分析和挖掘,发现数据价值。

Linkoop领象大数据平台技术特点➢业界领先的大数据计算能力不论是数据导入、清洗、查询、分析还是复杂的机器学习任务,Linkoop都将这些任务转化为Hadoop上的分布式计算任务,充分利用整个大数据集群的计算能力。

Linkoop对计算任务中的关键操作进行了定制化开发和优化,如数据加载、多维关联等常用操作,在降低使用难度的同时提高了计算效率,优化后的处理性能可达Hive-tez的10倍以上,Spark的2-10倍。

Linkoop在电信领域广泛应用,每天处理的新增数据量超过600TB,充分验证了平台数据处理的性能和稳定性。

➢全图形化的数据处理流程设计Linkoop创新性地提供了数据处理流程的图形化开发界面,使得在大数据平台上的数据处理不需要编写Hadoop代码,只需要通过鼠标拖拽添加功能组件,设定功能组件的运行参数和功能组件之间的依赖关系,就能够完成大数据处理流程的定义。

对于定义完成的数据处理流程,能直接生成计算任务,提交平台执行和监控。

全图形化的使用界面大大降低了对大数据应用开发、实施和运维人员的技术门槛,减少了项目实施的周期和成本。

➢插件式功能扩展Linkoop提供的功能组件既包括数据采集和ETL任务相关的数据抽取、清洗、脱敏、校验、转换等功能,也包括了数据分析所需要的多维关联、聚集、统计以及机器学习算法等功能。

在Linkoop的架构中,这些功能组件都是以插件的方式进行添加的,因此对于不同行业和领域的特殊需要,只需要增加相应的功能组件即可满足特定的计算需求,提高了对不同领域需求的快速响应能力和灵活的系统扩展能力。

➢流数据处理与批处理一致的操作界面在Linkoop的图形化开发界面中开发数据处理流程时,流数据处理流程的设计界面和批处理是一致的,除了部分功能组件(如部分机器学习算法)不支持流数据处理流程之外,大部分的功能组件是同时支持流数据处理和批处理的。

因此在开发面向流数据的大数据实时应用时,开发人员并不需要学习专门的流数据计算框架,只需要使用与批处理一样的操作逻辑,即可完成流数据处理的流程设计。

➢无限水平扩展Linkoop基于Hadoop开源系统开发,完全继承了Hadoop线性水平扩展的特性。

通过向集群增加机器,无需停机即可线性扩充存储容量或提高处理性能。

水平扩展的能力有效地解决了企业由于数据增长和业务增长导致的处理性能不足和频繁数据迁移的问题。

Linkoop完全依托于开源社区,支持在Cloudera CDH、Hortonworks HDP以及华为FusionInsight等开源Hadoop发行版之上部署。

Linkoop领象大数据平台体系架构图一、Linkoop大数据平台体系架构Linkoop领象大数据平台由Hadoop、分布式计算框架(Africa)、大数据支撑平台(Grassland)、数据分析产品(Rhinos)、数据管理产品(Zebra)、数据查询产品(Gazelle)、数据集成产品(Cheetah)、安全管理产品(Griffin)和运维管理产品(Hippo)构成。

Linkoop分布式计算框架(Africa)在开源Hadoop的基础上,Linkoop对开源大数据软件生态进行了大量的整合和优化工作,建立了覆盖实时流数据处理、离线批处理和SQL查询三个最常用的大数据应用场景的分布式计算框架Africa。

Linkoop分布式计算框架中包含流计算框架Flink+、离线计算框架Spark+和SQL引擎Presto+,通过在开源软件(Flink、Spark和Presto)的基础上进行功能扩展和性能优化,支持稳定高效的企业级大数据应用。

Linkoop大数据支撑平台(Grassland)在Linkoop分布式计算框架的基础上,通过对底层的计算框架和存储方案进行包装,Linkoop 能够以多个引擎对上层应用提供大数据计算和存储支持。

Grassland中的引擎包括:➢流计算引擎通过将实时流数据上的数据处理任务翻译成优化后的Flink任务,然后提交到执行队列。

流计算引擎还负责轮询任务状态供用户查询和监控。

➢离线计算引擎通过将离线数据分析任务或者数据集成任务(即批处理任务)翻译成优化后的Spark任务,然后提交到执行队列。

离线计算引擎还负责轮询任务状态供用户查询和监控。

➢数据查询引擎针对不同查询对象和查询条件,将查询派发到不同的查询引擎(HBase或Presto),能够查询存储在HDFS、Hive、HBase、Cassandra或Elastic Search中存储的数据。

➢数据存储引擎为多种数据存储方案(HDFS、Hive、HBase、Cassandra、ElasticSearch、消息队列和远程数据库)提供统一视图。

Grassland还提供了任务加速器Booster和算法库。

Booster为普通用户不可见的功能模块,基于用户定义的数据处理流程和收集的数据的统计信息,Booster将计算任务转化为高效执行的分布式计算框架上的程序,使得用户不需要关注于计算任务的实现和优化,从而能够更多地关注计算任务的业务含义。

Booster对计算任务的优化方法不仅采用了启发式规则,而且对同一计算任务的不同执行计划的代价进行了估计,从而得到最优的执行计划。

算法库中提供了大量优化的数据处理方法的分布式计算版本,算法涵盖了数据集成、数据分析以及机器学习任务中所需的大多数常用方法,例如数据访问方法、数据转换方法、数据校验方法、数据过滤方法、数据聚集方法、数据合并方法、数据统计方法、图计算方法以及机器学习中的关联、聚类、分类和回归等常用算法。

数据分析产品(Rhinos)图二、Linkoop数据分析产品Rhinos分析流程设计界面不会写程序,也能分析大数据!Linkoop 数据分析产品Rhinos致力于为数据分析人员提供简便易用的图形化数据分析流程设计工具。

在Rhinos中,数据分析人员根据业务需要,把不同的数据处理单元(Step)拖拽并组合成有向无环图(DAG),形成数据分析流程。

数据处理单元是对Grassland中算法库的包装,主要包括数据访问、SQL操作、分支判断、数据校验、转换、统计以及机器学习算法等,这些数据处理单元的组合能够涵盖大多数数据分析场景。

对于暂时未能覆盖的分析功能,用户可以通过自定义UDF或者扩展数据处理单元等方式,增加数据分析流程的能力。

图三、Linkoop数据分析产品Rhinos分析流程执行监控界面在Rhinos中,流数据分析流程(Stream Flow)与批处理分析流程(Data Flow)的设计界面是一致的。

设计完成的分析流程能够直接定义为计算任务和任务的调度计划。

Rhinos中提供了任务状态监控的能力,用户能够查看每一个提交执行的任务的状态、日志以及所有输出的数据集列表。

另外,通过设计工作流(Workflow),用户可以灵活组合流数据分析流程Stream Flow、批处理分析流程Data Flow以及用户已有的处理流程,如Shell脚本、SQL脚本、MapReduce程序和Spark程序等,形成更复杂、更完整的数据分析流程。

数据管理产品(Zebra)图三、Linkoop数据管理产品Zebra数据质量分析规则管理界面Linkoop数据管理产品Zebra为大数据平台的数据管理人员提供了图形化的数据资源和数据质量的管理工具。

在Zebra中,数据管理人员能够方便地注册和管理数据源、数据资源目录。

更重要的是,Zebra提供了完善的数据质量管理工具,使得数据管理人员不仅能够用数据标准和自定义的数据质量规则校验已有的数据资源,还能够对正在执行的数据采集任务和数据分析任务进行拦截式检查。

对于数据质量检测不通过的任务,直接将其状态设置为失败,以保证错误的数据不会流入下游应用。

图四、Linkoop数据管理产品Zebra数据质量分析报告Zebra能够从取值范围、分布、缺失值等多个维度对数据集进行质量评估,对数据质量的合格率进行评级和展示,对长期的数据质量的波动进行监控和分析,并定期生成可以导出的数据质量报告。

数据查询产品(Gazelle)图四、Linkoop数据查询产品Gazelle交互式查询界面Linkoop数据查询产品Gazelle提供了数据浏览和查询界面。

用户可以通过Gazelle查询存储在大数据平台中不同存储区域的数据,包括Hive、HBase、Elastic Search、Cassandra以及Redis等。

除了标准的Web查询展现界面,Gazelle还提供了命令行查询界面(CLI)、标准的JDBC接口和Restful查询接口。

在这些访问接口的基础上,Gazelle既可以与Zeppelin、Tableau和Cognos等常用查询和BI工具集成,也可以支持基于大数据查询的应用开发。

数据集成产品(Cheetah)图五、Linkoop数据集成产品Cheetah数据导入任务配置界面Linkoop数据集成产品Cheetah是为大数据平台定制的图形化的数据集成工具包。

在Cheetah中可以方便地注册和管理数据源和数据资源目录。

为了方便对大数据平台之外的数据源进行采集,除了直接连接各种数据库(包括但不限于Oracle、MySQL、SQL Server、Teradata、PostgreSQL以及Greenplum)之外,Cheetah还支持在数据源处的前置机上部署采集器程序,通过对采集器进行采集任务下发、脱敏、数据同步等操作获取数据。

除了通过与Rhinos类似的数据处理流程的设计方式来设计ETL流程,Cheetah还提供了模板化的数据采集任务定义界面(见图五)。

用户按照界面的指示,通过对数据来源、导入目标、字段映射、脱敏规则、任务设置等步骤逐一设置,就可轻松完成数据采集任务的设计工作,对于生成大量简单而重复的数据采集任务更为高效。

Cheetah与传统的ETL工具最大的不同在于数据采集任务可以充分利用大数据平台的计算能力,采用分布式的方式并行执行采集任务,数据采集过程中的数据加载和数据转换操作更加高效,保证了大数据量和高速数据流环境下的数据导入效率。

图六、Linkoop安全管理产品Griffin用户配置界面图六、Linkoop安全管理产品Griffin角色配置界面Linkoop安全管理产品Griffin提供大数据平台上的5A安全体系所需的功能,包括账户(Account)、授权(Authorization)、鉴权(Authentication)、访问控制(Access Control)和审计(Audit)。

相关文档
最新文档