企业级一站式大数据综合平台白皮书

合集下载

H3C大数据产品技术白皮书【范本模板】

H3C大数据产品技术白皮书【范本模板】

H3C大数据产品技术白皮书杭州华三通信技术有限公司8:07 AM目录1H3C大数据产品介绍 (1)1.1产品简介 (1)1.2产品架构 (1)1。

2.1 数据处理 (2)1。

2。

2 数据分层 (3)1。

3产品技术特点 (4)先进的混合计算架构 (4)高性价比的分布式集群 (4)云化ETL (4)数据分层和分级存储 (5)数据分析挖掘 (5)数据服务接口 (5)可视化运维管理 (5)1。

4产品功能简介 (6)管理平面功能: (7)业务平面功能: (8)2DataEngine HDP核心技术 (9)3DataEngine MPP Cluster核心技术 (9)3.1MPP + Shared Nothing架构 (9)3。

2核心组件 (10)3.3高可用 (11)3。

4高性能扩展能力 (11)3.5高性能数据加载 (12)3。

6OLAP函数 (13)3.7行列混合存储 (13)1H3C大数据产品介绍1.1产品简介H3C大数据平台采用开源社区Apache Hadoop2.0和MPP分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。

H3C大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统帮助用户构建海量数据处理系统,发现数据的内在价值。

1.2产品架构H3C大数据平台包含4个部分:第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管理、服务管理、监控告警和安全管理等。

第二部分是数据ETL,即获取、转换、加载,包括:关系数据库连接Sqoop、日志采集Flume、ETL工具 Kettle。

第三部分是数据计算.MPP采用分析型分布式数据库,存储高价值密度的结构化数据;Hadoop存储非结构化/半结构化数据和低价值密度结构化数据.计算结果都存到数据仓库,数据仓库中的数据可直接用于分析和展示。

FusionInsight HD技术白皮书

FusionInsight HD技术白皮书

华为FusionInsight HD 技术白皮书目录1 简介 (1)1.1 FusionInsight概述 (1)1.2 FusionInsight HD组件介绍 (2)2 重点组件介绍 (4)2.1 集群管理Manager (4)2.2 分布式文件系统HDFS (6)2.3 统一资源管理和调度框架YARN (7)2.3.1 Yarn (7)2.3.2 Superior Scheduler (7)2.4 分布式批处理引擎MapReduce (12)2.5 分布式数据库HBase (13)2.6 数据仓库组件Hive (13)2.7 分布式内存计算引擎Spark (14)2.7.1 Spark (14)2.7.2 CarbonData (15)2.8 交互式SQL引擎Elk (16)2.9 全文检索组件Solr (19)2.10 全文检索组件Elasticsearch (21)2.11 批量数据集成Loader (22)2.12 实时数据采集Flume (25)2.13 流式事件处理(Storm) (26)2.13.1 Storm (26)2.13.2 StreamCQL (27)2.14 流处理引擎Flink (28)2.15 分布式高速缓存Redis (30)2.16 分布式消息队列Kafka (30)2.17 作业编排与调度Oozie (31)2.18 数据继承入口Hue (33)2.19 多租户 (34)2.20 安全增强 (36)2.21 可靠性增强 (37)2.22 滚动重启、滚动升级与滚动补丁 (39)1 简介1.1 FusionInsight概述FusionInsight是华为企业级大数据存储、查询、分析的统一平台,能够帮助企业快速构建海量数据信息处理系统,通过对巨量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。

FusionInsight解决方案由产品:FusionInsight HD、FusionInsight LibrA、FusionInsightAthena和操作运维系统FusionInsight Manager,数据使能服务:数据集成开发工具、实时决策平台,及私有云服务:HDS大数据服务、ADS数据库服务、RDS数据库服务构成。

大数据应用白皮书

大数据应用白皮书

大数据应用白皮书摘要本白皮书旨在探讨大数据在不同领域的应用,并提供相关解决方案和技术支持。

通过深入研究和分析,我们认为大数据应用具有巨大的潜力,可以为企业和社会带来重要的改变和增长。

本文将从大数据的定义、应用场景、技术挑战和解决方案等方面进行阐述,旨在为决策者和技术人员提供有关大数据应用的全面指南。

1. 引言在当今数字化时代,大数据已成为企业和政府的重要资源。

大数据是指规模庞大、类型多样且难以处理的数据集合。

它可以来自各种来源,包括传感器、社交媒体、移动设备和互联网等。

大数据的应用潜力在于能够从数据中提取有价值的信息和洞察,并基于此做出更明智的决策。

2. 大数据的应用场景大数据应用广泛涉及各个行业和领域。

以下是一些常见的大数据应用场景:2.1 零售业大数据可以帮助零售商了解消费者的购买习惯、偏好和需求,从而进行更精确的市场定位和产品推广。

通过分析大量的销售数据和顾客行为数据,零售商可以提供个性化的购物体验,并实时调整产品和价格策略。

2.2 金融业金融机构可以利用大数据分析客户的信用风险、欺诈行为和市场趋势,以提高风险管理和决策的准确性。

此外,大数据还可以用于预测市场走势、优化投资组合和改进客户服务。

2.3 医疗保健大数据在医疗保健领域的应用可以改善疾病预防、诊断和治疗。

通过分析患者的健康数据、基因组学和生物信息学等,医疗机构可以提供个性化的医疗方案,并改善医疗资源的分配和利用。

2.4 物流与供应链管理大数据可以提供实时的物流和供应链信息,帮助企业优化物流路径、降低成本和提高效率。

通过分析供应链数据和交通数据,企业可以更好地预测需求、调整库存和优化配送。

3. 大数据应用的技术挑战尽管大数据应用具有巨大的潜力,但也面临一些技术挑战。

以下是一些常见的挑战:3.1 数据质量大数据的质量对于应用的准确性和可靠性至关重要。

由于大数据集合的多样性和复杂性,数据质量问题可能包括数据缺失、数据错误和数据不一致等。

阿里巴巴大数据分析与应用白皮书

阿里巴巴大数据分析与应用白皮书

阿里巴巴大数据分析与应用白皮书随着互联网技术的发展和数据存储技术的提升,大数据的概念越来越突显重要。

在这个时代里,数据不仅仅是一种资源,更是推动经济的重要驱动力。

其中有一个典型的案例,那就是阿里巴巴公司。

在阿里巴巴公司,大数据不仅仅只是一种资产,它也是一种巨大的生产力。

作为中国最著名的电商企业,阿里巴巴公司已经覆盖了包括B2B、C2C、B2C 在线市场等在内的众多电商领域,拥有海量用户和海量数据。

在这些数据中,包含了消费者的行为、走向、兴趣、购买力以及其他有意义的信息。

因此,阿里巴巴公司可以对这些数据进行分析,从而使企业更加深入地了解消费者,优化商业模式和提高产品的质量。

阿里巴巴公司的大数据应用已经远远超出了电商领域。

通过使用阿里云,这家公司还将其大数据分析技术用于金融服务、医疗健康、智能制造等领域,并取得了显著的成果。

阿里巴巴已经成为一家集企业级服务、云计算、大数据解决方案和创新技术于一体的综合性互联网企业。

作为阿里巴巴公司大数据应用的代表之一,其企业级服务平台——“阿里云”是一项强大的技术资源,能够处理复杂数据分析、高级计算等高负荷任务。

通过抽取、清洗和ETL处理,其数据集成服务可以从不同的数据源中整合数据,帮助企业获取清晰、全面的视图。

同时,数据分析服务平台可以通过智能算法和大量数据,对企业数据进行分类、聚合和排序,从而呈现出相当生动、直观的开发用户视图、以及识别模式,从而为企业提供更高效的业务支持。

在阿里巴巴公司看来,大数据的使用是可以带来巨大价值的。

这家公司不仅要利用大数据来完善自身的电商生态系统,还要致力于将其大数据分析技术推向其他领域,帮助其他企业、政府和社会组织改进他们的运营和管理,从而促进社会的发展与进步。

总之,阿里巴巴公司的大数据分析技术已经成为其掌握市场竞争优势的必要手段。

通过对海量数据的处理和分析,该公司已经切实提高了商业运作效率和竞争力,同时也极大地促进了社会经济和信息化水平的发展。

Linkoop领象大数据平台白皮书

Linkoop领象大数据平台白皮书

Linkoop 领象大数据平台白皮书V3.0Linkoop领象大数据平台为企业级大数据应用提供了数据全生命周期的解决方案,包含了数据集成、数据管理、数据安全、数据查询以及数据分析的整套分布式大数据平台和计算平台,帮助企业对海量数据进行采集、存储、治理、分析和挖掘,发现数据价值。

Linkoop领象大数据平台技术特点➢业界领先的大数据计算能力不论是数据导入、清洗、查询、分析还是复杂的机器学习任务,Linkoop都将这些任务转化为Hadoop上的分布式计算任务,充分利用整个大数据集群的计算能力。

Linkoop对计算任务中的关键操作进行了定制化开发和优化,如数据加载、多维关联等常用操作,在降低使用难度的同时提高了计算效率,优化后的处理性能可达Hive-tez的10倍以上,Spark的2-10倍。

Linkoop在电信领域广泛应用,每天处理的新增数据量超过600TB,充分验证了平台数据处理的性能和稳定性。

➢全图形化的数据处理流程设计Linkoop创新性地提供了数据处理流程的图形化开发界面,使得在大数据平台上的数据处理不需要编写Hadoop代码,只需要通过鼠标拖拽添加功能组件,设定功能组件的运行参数和功能组件之间的依赖关系,就能够完成大数据处理流程的定义。

对于定义完成的数据处理流程,能直接生成计算任务,提交平台执行和监控。

全图形化的使用界面大大降低了对大数据应用开发、实施和运维人员的技术门槛,减少了项目实施的周期和成本。

➢插件式功能扩展Linkoop提供的功能组件既包括数据采集和ETL任务相关的数据抽取、清洗、脱敏、校验、转换等功能,也包括了数据分析所需要的多维关联、聚集、统计以及机器学习算法等功能。

在Linkoop的架构中,这些功能组件都是以插件的方式进行添加的,因此对于不同行业和领域的特殊需要,只需要增加相应的功能组件即可满足特定的计算需求,提高了对不同领域需求的快速响应能力和灵活的系统扩展能力。

➢流数据处理与批处理一致的操作界面在Linkoop的图形化开发界面中开发数据处理流程时,流数据处理流程的设计界面和批处理是一致的,除了部分功能组件(如部分机器学习算法)不支持流数据处理流程之外,大部分的功能组件是同时支持流数据处理和批处理的。

大数据白皮书2024(二)2024

大数据白皮书2024(二)2024

大数据白皮书2024(二)引言概述:随着科技的不断发展,大数据已经成为了企业和组织中的不可或缺的一部分。

2024年,大数据的发展将进一步加速,并为各行各业带来更多的机遇和挑战。

本文将以大数据白皮书2024(二)为切入点,从五个大点出发,分别阐述大数据在社会、经济、科技、教育和医疗领域的应用和影响。

正文内容:1. 大数据在社会领域的应用a) 大数据助力城市管理和规划:- 实现智慧城市的建设和发展- 提升城市交通、环境和安全管理的效率b) 大数据在社会治理中的作用:- 改善政府决策和公共服务- 实现社会风险防控和公共安全的提升c) 大数据驱动社交媒体和网络平台:- 改善广告和营销策略- 推动个性化服务和用户体验的提升d) 大数据助力社会创新和公益事业:- 促进科研和创新的进步- 加强社会组织和非营利机构的运营和服务能力e) 大数据在法律和法律制度中的应用:- 改善司法判决和执法效率- 加强数据隐私和信息安全的保护2. 大数据在经济领域的应用a) 大数据驱动商业智能和决策:- 提升企业竞争力和市场份额- 优化供应链和产品设计b) 大数据在金融行业中的应用:- 改进风险管理和决策制定- 推动普惠金融和金融科技的发展c) 大数据促进新兴产业的崛起:- 加速人工智能、物联网和云计算等行业的发展 - 为创业者和创新企业提供更多机会和支持d) 大数据在市场营销和销售中的应用:- 实现个性化营销和广告定制- 提高销售效率和客户满意度e) 大数据推动数字经济的发展:- 促进互联网经济和在线消费的增长- 增强数字技术和数据治理的能力和规范3. 大数据在科技领域的应用a) 大数据支持科学研究和创新发展:- 推动基础科学和应用科学的进步- 加速技术创新和产业升级b) 大数据在人工智能领域的应用:- 提供数据驱动的智能决策和预测- 促进机器学习和深度学习技术的发展c) 大数据助力智能制造和工业互联网:- 提高生产效率和质量- 推动智能制造和工业数字化转型d) 大数据在物联网中的应用:- 实现设备和物品之间的互联互通- 改善供应链和物流管理的效率e) 大数据推动区块链和密码学的发展:- 加强数据安全和隐私保护的能力- 提升数字资产和交易的可信度和可追溯性4. 大数据在教育领域的应用a) 大数据改善教学和学习环境:- 个性化教育和学习资源定制- 提升教育质量和学生表现b) 大数据支持教育决策和政策制定:- 提供教学评估和效果分析的依据- 优化教育资源配置和学校管理c) 大数据推动在线教育和远程学习的发展: - 扩大教育覆盖范围和机会均等性- 提高学习效率和灵活性d) 大数据助力教育研究和教师培训:- 支持教育科研和教育改革的进展- 提升教师专业发展和能力提升e) 大数据促进教育与产业融合:- 提供人才需求和供给的匹配度- 支持教育培训和职业发展的衔接5. 大数据在医疗领域的应用a) 大数据在医疗诊断和治疗中的作用:- 提供个性化用药和疾病管理方案- 改善医疗效率和患者体验b) 大数据支持医疗决策和临床研究:- 提供医学数据分析和模型预测- 促进疾病预防和医学进展c) 大数据助力医疗资源配置和优化:- 提高医疗服务的均等性和可及性- 优化医疗机构的运营和管理d) 大数据推动医疗健康产业的发展:- 加速生物科技和医药研发的进展- 推进数字医疗和远程医疗的应用e) 大数据在公共卫生和健康管理中的应用:- 实现疫情分析和预警系统- 改善健康干预和健康数据管理总结:到2024年,大数据将在更多领域发挥重要作用,如社会、经济、科技、教育和医疗等。

2023-大数据白皮书2020年-1

2023-大数据白皮书2020年-1

大数据白皮书2020年大数据白皮书是当前国内最具权威性的大数据行业报告之一,每年发布的新版都引起业内外的广泛关注。

而2020年新版的大数据白皮书,更是备受瞩目。

以下将从三个方面分步骤阐述其主要观点与特征。

一、新版本特征2020年大数据白皮书是一份面向全行业、关注最新发展趋势的大数据行业报告,其主要特征如下:1.立足新发展阶段:白皮书将“数据+智能”作为新时代大数据发展的主题,提出了“数据价值练就的产业链”、“数据能力为基础的经济体系”等新概念。

2.关注普惠:白皮书将大数据与社会民生结合,提出了网络扶贫、社区大数据平台等公益项目,助力普惠大数据应用。

3.全面覆盖:白皮书涵盖了大数据应用领域的各个方面,从互联网+、智慧城市、商业、金融等多个领域进行了深入剖析。

二、主要观点1.加强数据治理:白皮书认为,大数据时代需要加强对数据的治理,以规范数据流通、利用和保护。

同时,白皮书也提出了政府、行业和社会三方面建立数据治理机制,并用 AI、区块链等技术实现数据的“公正、透明、可信”。

2.智能驱动业务变革:白皮书认为,智能技术将是未来业务变革的主要驱动力之一。

其应用场景不断增加,能够提升企业效率和竞争力。

但同时,智能应用也面临数据隐私、AI不透明等问题,需要不断探索解决之道。

3.跨界合作共创价值:白皮书认为,大数据发展过程中需要各领域的跨界合作,共同探索新型媒体,以及金融、教育、医疗等领域数据开放整合,加强数字经济的战略合作。

三、存在的问题与未来展望1.界定数据边界:随着史上最大规模的数据泄露案件频繁发生,大数据白皮书2020也提出了数据隐私保护的问题。

未来将如何划定数据边界、建立安全保障机制,一直是业内关注的难题。

2.开放共享数据:白皮书2020认为数据是最基本的生产要素之一,其开放共享对于发展智能经济发挥着重要作用。

但数据的开放程度、共享方式、商业模式等还面临各种挑战,如何解决将是未来发展亟待解决的问题。

3.跨界合作机制建立:大数据的发展需要良好的生态环境和政策支持,跨界合作机制也是必需的。

大数据标准化白皮书

大数据标准化白皮书
3.大数据发展现状和趋势................................................................................................................ 89 3.1 国外大数据发展 ..........................................................................................................................89 3.1.1 政府出台计划.....................................................................................................................910 3.1.2 工业界大数据研究..........................................................................................................1213 3.2 国内的大数据现状 ..................................................................................................................1415 3.2.1 国内大数据关注焦点.......................................................................................................1415 3.2.2 地方政府探索大数据应用...............................................................................................1617 3.3 大数据产品的发展趋势 ..........................................................................................................2021 3.3.1 大数据由网络数据处理走向企业级应用 ......................................................................2021 3.3.2 移动终端数据应用将成为下一轮创新的中心 ..............................................................2122 3.3.3 “数据租售”成为最直接的盈利模式 ..........................................................................2122
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

星环信息科技(上海)有限公司Transwarp Data Hub (TDH) 企业级一站式大数据综合平台012015 TRANSWARP 星环科技大数据时代的来临为众多企业带来了更多全新的发展机遇。

星环科技基于Apache Hadoop 为企业开发了一站式大数据综合平台Transwarp Data Hub (简称TDH ), 通过提供从数据存储、分布式计算、数据分析挖掘以及数据可视化的整套支持,帮助企业建立一个统一的数据和计算平台。

企业用户可以在星环科技TDH 一站式大数据综合平台上采集、存储、分析、搜索、挖掘海量数据及其内在价值。

TDH 一站式大数据综合平台涵盖:TDH 一站式大数据综合平台是国内首个内嵌Apache Spark 计算框架的大数据平台软件, 也是国内外领先的高性能大数据分析平台。

TDH 包含四个组成部分: Transwarp Hadoop 基础版、TranswarpInceptor 分布式内存分析引擎、Transwarp Hyperbase 分布式实时数据库和Transwarp Stream 流处理引擎。

一站式数据存储平台: TDH 通过内存计算技术、高效索引、执行计划优化和高度容错的技术,使得一个平台能够处理从GB 到PB 的数据,并且在每个数量级上都能提供比现有技术更快的性能; 企业客户不再需要混合架构,不需要孤立的多个集群。

TDH 可以伴随企业客户的数据增长而动态不停机扩容,避免MPP 或传统架构数据迁移的棘手问题。

一站式资源管理平台: TDH 在统一存储上建立资源管理层,提供企业用户统一的计算资源管理、动态资源分配、多部门之间的资源配置和动态共享等功能,使多部门多应用可以灵活地在统一平台上平滑运行。

一站式数据分析平台: TDH 支持批处理统计分析、交互式SQL 分析、在线数据检索、R 语言数据挖掘、机器学习、实时流处理、全文搜索和图计算,为企业客户提供广泛的计算支持能力,客户无需切换平台或架构即可完成复杂的任务。

一站式管理平台: TDH 作为企业级解决方案,开发了用户友好的管理界面、提供了系统安装、集群配置、安全访问控制、监控及预警等多方面支持,在可管理性方面优势显著。

系统可线性扩充存储容量或提高处理性能,只需要简单地向集群中增加机器,无需停机。

有效解决企业由于数据增长导致的处理性能缓慢或频繁迁移数据的问题。

满足新一代数据管理需求的TDH 一站式大数据综合平台改进的YARN 资源管理框架,可在同一份数据集上运行多种计算框架,动态创建SQL 统计、数据挖掘、机器学习、流处理等计算集群,满足企业多部门数据和计算资源统一管理的需求。

Inceptor 交互式内存分析引擎,同时支持SQL 2003和R 语言,满足数据交互式分析和挖掘需求,加快企业决策速度。

内置改进后的Apache Spark ,SQL 执行性能比Apache Hadoop 快10倍左右。

Hyperbase 实时数据库支持结构化、半结构化 、 非结构化等多种类型数据的在线存储、OLTP 事务、OLAP 检 索、全文搜索 、图分析和批处理统计业务等全方位 需求。

Stream 分布式实时流处理引擎提供强大的流计算表达能力,可支持复杂的实时处理逻辑,满足企业实时告警、风险控制、在线统计和挖掘等应用需求。

采用普通商用服务器构建集群,最大程度降低成本;内置Erasure Code 先进编码技术,提供两倍存储效率和两倍容错能力;高效支持内存/闪存/硬盘混合存储,可提供最佳性价比存储配置。

无限水平扩展统一数据处理平台高速数据分析灵活数据处理实时流计算超高性价比2015 TRANSWARP 星环科技02图一:TDH 一站式大数据综合架构星环专有Apache 项目Transwarp Data Hub 体系架构Transwarp HadoopTranswarp Hadoop 提供基础的分布式文件系统作为存储引擎,YARN 作为资源管理框架,组合了一系列Apache 项目,为用户提供了数据的采集、存储、数据同步、批处理、工作流分析以及全文搜索功能,是TDH 不可或缺的基石。

星环科技改进了Apache YARN 资源管理框架,可以在同一个HDFS 数据集上动态创建Inceptor 交互式分析集群、Map/Reduce 批处理集群以及实时流处理集群,提供多部门间资源配额管理、动态资源调配、资源共享的能力,为企业建立一站式数据平台提供有力支持。

Transwarp InceptorTranswarp Inceptor 交互式分析引擎提供高速SQL 分析和R 语言数据挖掘能力,可帮助企业建立高速可扩展的数据仓库和/或数据集市,结合多种报表工具提供交互式数据分析、即时报表和可视化能力。

Inceptor 提供完整的ANSI SQL 支持以及PL/SQL 过程语言扩展,可以支持复杂的数据仓库类分析应用,也使得从原有数据库系统迁移到Hadoop 更为容易。

Transwarp HyperbaseTranswarp Hyperbase 实时数据库是建立在Apache HBase 基础之上,融合了多种索引技术、分布式事务处理、全文实时搜索、图形数据库在内的实时NoSQL 数据库。

Hyperbase 可以高效地支持企业的在线OLTP 应用、高并发OLAP 应用、批处理应用、全文搜索或高并发图形数据库检索应用,结合Inceptor 高速SQL 引擎,是企业创建可扩展在线运营数据库(Operational Database )或者实时分析型数据库(ODS - Operational Data Store )的最佳选择。

Transwarp StreamTranswarp Stream 实时流处理引擎提供了强大的流计算表达能力,支持复杂的应用逻辑,生产系统的消息通过实时消息队列进入计算集群,在集群内以流水线方式被依次处理,完成数据转换、特征提取、策略检查、分析告警等复杂服务计算,最终输出到Hyperbase 等存储集群,实时生成告警页面、实时展示页面等。

系统具备强扩展性、强容错、低延迟、高吞吐等特点,成熟应用于实时数据(如传感器数据)的实时告警、风险控制、在线统计和挖掘等业务。

03TDH 产品功能特性表描述先进的编码容错技术,相比传统HDFS 的3副本策略,Transwarp Hadoop 只需1.5副本,降低一倍存储量需求,可容忍4个数据块同时丢失,平均无故障时间提高了一倍。

新一代资源管理框架,允许多个应用集群同时高效地运行在一个物理集群上。

经改进后,成为真正的多应用程序平台,可服务于整个企业。

一个分布式批处理计算框架,将输入的数据集切分成块后并行处理、排序、再归集的整个过程,可处理PB 级别的数据。

Pig 数据处理语言将类SQL 的数据分析请求转换为Map/Reduce 任务。

Oozie 是一个工作流调度引擎,可按时间或数据变化触发运行。

Flume 是一个分布式、高可靠、高可用的海量日志聚合系统。

Sqoop (Sql to hadoop )可实现在Hadoop 和关系数据库间的数据传递。

功能/组件Transwarp HadoopErasure Code YARN Map/Reduce Pig Oozie Flume Sqoop Elastic Search分布式实时搜索与分析引擎,可实时对数据进行深度搜索。

强大的主流数据统计和绘图语言R 以及Web 图形化开发界面R Studio 。

通过调用Inceptor 内置并行算法库,支持对大数据集进行数据挖掘和统计。

支持主流可视化和BI /挖掘工具,包括Tableau 、IBM Cognos 、SAP BusinessObjects 、Oracle BI 、SAS 等。

支持Informatica 、Pentaho/Kettle 等ETL 工具。

R 语言/R Studio 丰富的工具支持Transwarp Inceptor基于内存的Map /Reduce 计算引擎,即将成为新一代主流计算框架。

处理大数据就像“光速”一样快,比Hadoop Map/Reduce 快10倍。

并行化的高性能统计算法库,用于对原始数据进行去噪、去缺省/异常值、归一化、统计分布等,是机器学习或数据挖掘的基础工具包。

并行化的高性能机器学习算法库,包含分类、聚类、预测、推荐等机器学习算法。

可用于构建高精度的推荐引擎或者预测引擎。

跨内存/闪存/磁盘等介质的分布式混合列式存储,常用于缓存数据供Spark 高速访问。

Holodesk 内建内存索引,可提供比开源Spark 更高的交互式统计性能;结合使用低成本的内存/闪存混合存储方案,可接近全内存存储的分析性能。

Apache SparkHolodeskSQL 引擎统计库机器学习库高度优化的高速SQL 引擎,可高速处理磁盘表或者缓存在内存或SSD 上的列式数据。

兼容HiveQL 和SQL2003语法,支持超过80%的PL/SQL 语法,可以运行TPC-DS 标准测试集中的全部99个测试项;适用于数据仓库批量统计应用,支持对数据仓库中二维表的增删查改;同时也适用于数据集市交互式分析类应用场景。

2015 TRANSWARP 星环科技2015 TRANSWARP 星环科技04高吞吐的流式计算引擎;提供强大的流计算表达能力,支持在流数据上进行包括实时事件检测和批处理、机器学习在内的复杂计算逻辑。

低延时高吞吐的分布式消息队列,支持发布/订阅模式,同时满足在线和离线处理海量消息数据派发的系统。

星环科技为Kafka 实现了一套访问控制管理策略,只有授权的用户才可以对Kafka 集群进行读写操作,避免发生数据泄露或者其他用户发生误写操作。

支持用户在实时计算过程进行统计学习和机器学习,如聚类算法,可以实时调整聚类中心;分类算法可以实时更新分类模型,并对流数据进行类比判断。

支持将实时数据流转成列式存储存放到Holodesk 上,可以利用Inceptor 使用SQL 对实时数据进行Ad-hoc 分析以及利用R 进行数据挖掘等。

Transwarp StreamTranswarp ManagerCRUD全文搜索SQL 支持索引图数据库分布式事务处理多数据类型支持流处理引擎交互式探索分析流式机器学习安装、部署监控、告警安全和访问控制支持通过SQL 高并发毫秒级数据插入/修改/查询/删除。

通过Inceptor 支持采用SQL 进行批处理和高并发查询,批处理比Map/Reduce 快10倍。

可从Hyperbase 的行存储转换成Holodesk 的列存储,同时支持在线查询和高速OLAP 分析。

支持全局、局部、高维索引和高级过滤器,可用于高并发低延时的OLAP 查询。

基于Lucene 的分布式全文索引,可结合Big Table 实时创建索引并进行搜索。

相关文档
最新文档