主流数据仓库产品

合集下载

国产数据库竞品分析报告

国产数据库竞品分析报告在当今数字化时代，数据库作为信息存储和管理的核心组件，其重要性不言而喻。

随着国内信息技术的迅速发展，国产数据库逐渐崭露头角，在市场上与传统的国际数据库产品展开竞争。

为了更好地了解国产数据库的竞争态势，本文将对几款主流的国产数据库进行详细的竞品分析。

一、竞品选择本次竞品分析选取了以下几款具有代表性的国产数据库：达梦数据库、人大金仓数据库、南大通用数据库。

二、产品概述（一）达梦数据库达梦数据库是一款具有自主知识产权的大型通用关系型数据库，提供了多种数据存储和管理功能，支持多种操作系统和硬件平台。

其特点包括高效的查询处理能力、强大的事务处理机制以及良好的安全性能。

（二）人大金仓数据库人大金仓数据库是一款面向事务处理的关系型数据库，具备高可靠、高性能、高安全等特性。

在数据一致性和稳定性方面表现出色，适用于企业级关键业务应用。

（三）南大通用数据库南大通用数据库是一款专注于数据分析和处理的数据库产品，提供了丰富的数据分析工具和算法，能够满足大规模数据处理和复杂分析的需求。

三、功能对比（一）数据存储和管理在数据存储方面，这几款数据库都支持常见的数据类型，如整数、浮点数、字符串等。

但在存储容量和扩展性上，达梦数据库和南大通用数据库相对更具优势，能够处理大规模的数据存储需求。

（二）查询性能达梦数据库在查询优化方面表现突出，能够快速处理复杂的查询语句。

人大金仓数据库在小数据量的查询中响应速度较快，而南大通用数据库在大数据分析场景下的查询性能较为出色。

（三）事务处理事务处理是数据库的关键功能之一。

达梦数据库和人大金仓数据库都提供了强大的事务隔离级别和并发控制机制，确保数据的一致性和完整性。

南大通用数据库在事务处理方面相对较弱，更侧重于数据分析功能。

（四）安全机制所有三款数据库都具备基本的用户认证和授权功能。

达梦数据库提供了更精细的访问控制策略和数据加密功能，保障数据的安全性。

人大金仓数据库在安全审计方面较为完善，能够对数据库操作进行详细的记录和监控。

数据仓库的源数据类型

数据仓库的源数据类型引言概述：数据仓库是企业中用于存储和管理各种类型数据的集中式数据库系统。

数据仓库的设计和构建是基于不同的源数据类型。

本文将详细介绍数据仓库中常见的源数据类型及其特点。

一、结构化数据1.1 关系型数据库- 关系型数据库是最常见的结构化数据源，采用表格形式存储数据。

- 关系型数据库具有严格的数据模型和数据完整性，支持事务处理和复杂的查询操作。

- 关系型数据库适用于存储和管理结构化数据，如用户信息、订单数据等。

1.2 数据表格- 数据表格是一种结构化数据源，类似于关系型数据库，但不同于关系型数据库的严格数据模型。

- 数据表格通常用于存储大量的结构化数据，如日志文件、电子表格数据等。

- 数据表格的数据可以进行简单的查询和分析，但不支持复杂的关系查询操作。

1.3 XML文件- XML（可扩展标记语言）是一种用于描述和存储数据的标记语言。

- XML文件可以存储结构化数据，并且具有良好的可读性和可扩展性。

- XML文件适用于存储和传输具有复杂结构的数据，如配置文件、文档数据等。

二、半结构化数据2.1 日志文件- 日志文件是一种半结构化数据源，记录了系统、应用程序或网络设备的操作和事件信息。

- 日志文件通常以文本文件的形式存储，具有一定的格式和规则。

- 日志文件可以用于故障排查、性能分析和安全审计等领域。

2.2 JSON文件- JSON（JavaScript对象表示法）是一种轻量级的数据交换格式。

- JSON文件以文本的形式存储，具有良好的可读性和易于解析的特点。

- JSON文件适用于存储和传输半结构化数据，如API响应、配置文件等。

2.3 NoSQL数据库- NoSQL数据库是一种非关系型数据库，适用于存储半结构化数据。

- NoSQL数据库具有灵活的数据模型和高度可扩展性，适用于大规模数据存储和分布式计算。

- NoSQL数据库适用于存储和处理半结构化数据，如社交媒体数据、日志数据等。

三、非结构化数据3.1 文本文件- 文本文件是一种非结构化数据源，存储了人类可读的文本信息。

目前主流数据库的现状和问题

目前主流数据库的现状和问题随着网络信息时代的到来，数据库已经成为先进信息技术的重要组成部分，是现代计算机信息系统和计算机应用系统的基础和核心。

数据库技术是计算机科学的重要分支，主要研究如何安全高效地管理大量、持久、共享的数据。

数据库的研究始于20世纪60年代中期，从诞生到现在，在不到半个世纪的时间里，形成了坚实的理论基础、成熟的商业产品和广泛的应用领域，目前数据库成为一个研究者众多且被广泛关注的研究领域。

随着信息管理内容的不断扩展和新技术的层出不穷，数据库技术面临着前所未有的挑战。

面对新的数据形式，人们提出了丰富多样的数据模型（层次模型、网状模型、关系模型、面向对象模型、半结构化模型等），同时也提出了众多新的数据库技术（XML数据管理、数据流管理、Web数据集成、数据挖掘等）。

在Web大背景下的各种数据管理问题成为人们关注的热点。

目前Internet是主要的驱动力。

现在，大部分企业感兴趣的是如何与供应商和客户进行更密切的交流，以便提供更好的客户支持。

在这方面的应用从根本上说是跨企业的，需要安全和信息集成的有力工具。

另一个重要应的用领域是自然科学，特别是物理科学、生物科学、保健科学和工程领域，这些领域产生了大量复杂的数据集，需要信息集成机制的支持。

除此之外，它们也需要对数据分析器产生的数据管道进行管理，需要对有序数据进行存储和查询（如时间序列、图像分析、网格计算和地理信息），需要世界范围内数据网格的集成。

此外，还有一个推动数据库研究发展的动力是相关技术的成熟。

数据库的发展趋势主要有以下几点：1．信息集成随着Internet的飞速发展，网络迅速成为一种重要的信息传播和交换的手段，尤其是在Web上，有着极其丰富的数据来源。

信息集成系统的方法可以分为：数据仓库方法和Wrapper/Mediator方法。

在数据仓库方法中，各数据源的数据按照需要的全局模式从各数据源抽取并转换，存储在数据仓库中。

用户的查询就是对数据仓库中的数据进行查询。

一份全面的企业数据产品选型对比(含数仓、报表、BI、中台、数据治理)

一份全面的企业数据产品选型对比（含数仓、报表、BI、中台、数据治理）编辑导语：在如今这个数据化时代，数据对于个人和企业来说，其重要性都不可小觑。

因此，有不少企业强化了数据工作，加强企业数据建设。

接下来，本文作者整理了一份超全面的企业数据产品的选型对比，希望对大家有所帮助。

前言：这个从上至下都在强调数字化转型的时代，越来越多公司重视数据，也越来越多的企业有数据建设的需求。

企业无论做任何数据工作，必然要有一定的信息化基础，也要有数据化建设的基础，少不了数据平台、数据应用工具，数据管理工具等。

关于企业数据建设这块，本人从事了近7年，从技术到项目管理，做过乙方也做过甲方，也有多年和各乙方厂商打交道的经验，遂来分享选型“内幕”。

涉及到的产品有：数仓、大数据平台、报表、BI、数据中台、数据治理等。

数据仓库算是一个解决方案，视企业需求有不同架构（传统数仓、数据集市、大数据平台等），架构下有很多分层和组件，比起工具更需要架构师能力，具体原理就不讲了。

关于数仓的选型主要涉及：数据存储方案、ETL、还有前端应用。

底层的数据仓库服务器通常是一个关系数据库系统，常用的方案有Oracle、db2、还有greenplum、teredata等数据仓库专业解决方案。

传统的关系型数据库有：oracle、mysql、DB2。

大规模并行处理数据库：Vertica、Teradata(商业)、Greenplum (开源)。

Teradata老江湖了，银行业使用较多，但成本也是真的贵，目前我们做项目较多的是用Greenplum，算是业界最快和最高性价比的高端数据仓库解决方案，Greenplum是基于PostgreSQL的，于2022年开源。

我知道的国内四大行有3家在用，5大物流公司有4家在用，不少公司在从Teradata迁移到GP。

大数据平台主流的是：Hadoop+Hive。

这套方案有多通用不用多说了，后面说到的大数据平台厂商也大多基于这个来设计平台产品。

主流主数据管理产品的主数据概念分析

童●赛芎捧、ｐ
■量等
卿宴、
摹‘ ． ■誓牛
论＞（９８中提出计算信息量的公式，用热力学的熵表示信息，１４）当 “ 不确定性 ”最高时，信息熵最大。 “ 息可视为不确定性信或选择的自由度的度量 ” ， “ 息是不确定性的减少 ”。信诺伯特・纳（ｏｂｒＷｉｎｒ维Ｎｒｅｔｅｅ），美国著名数学家、控制论的创始人，在＜制论：动物和机器中控制和通讯的问控题＞（９８）一书中指出： “ 息就是信息，既非物质，也非１４信能量。 ” ，揭示了信息与物质、能量是客观世界的三大构成要素。在《人有人的用处》（９０）中说道： “ 息是人在适应１５信外部世界，控制外部世界的过程中同外部世界交换的内容的名
ＳＹＳＰＲＡＣＴＣＥ系统实践ｌ
３３
主流主数据管理产品的主数据概念分析
张扬（中国海洋石油总公司北京
１０００６０）
摘要：信息是万物内在的特征属性的内涵本质，数据则是按照一定规则表示信息的外延载体。归纳主流ＭＤＭ厂商的主数据概念，主数据应是描述核心业务实体信息及相互关系的数据，可以建立多个定义或视图，改变缓慢，用于跨业务、跨系统和跨部门共享，以实现业务连贯性和数据的一致性、完整性和准确性。关键词：信息；数据；主数据；业务实体；主数据管理；元数据

知名厂商的数据库产品对比

数据仓库产品分析报告目录内容摘要 (2)关键字 (2)正文 (2)一、知名的数据仓库厂商介绍 (2)二、数据仓库产品对比 (2)2．1各数据产品家族对比 (2)2．2各厂商数据仓库产品列表 (3)2．3各产品优点对比 (6)2．4各产品应用提示 (8)三、DB2与Oracle的数据仓库技术对比 (9)3．1前言： (9)3．2技术对比： (10)四．结论： (12)五．参考文献： (12)内容摘要数据仓库的实施是一个相当复杂的过程（包括：数据仓库的设计建模、数据转换与集成、数据存储与管理、数据的分析和展现及数据仓库的维护和管理）。

并且每个行业都有自己的运行特点，都有自己特定的业务范围，都有自己特定的历史数据，所以企业在制定实施数据仓库解决方案时，不能盲目的选择产品供应商。

在建立数据仓库时，必须紧密结合本行业的特点和本企业的业务发展需求，参考产品提供商的技术特点和他们的成功案例，认真比较后再做出恰当的选择。

在这里主要给出了一些知名厂家的数据仓库产品。

通过对这些厂家的数据仓库产品的对比分析，找出适合我们应用的产品，对今后的学习和项目实践有着深刻的意义。

本文首先对大部分数据仓库产品进行套件和基本功能的介绍，然后根据数据仓库的任务、特点和应该具备的关键能力，重点对其中的两个产品Orcale和DB2的数据仓库技术在索引能力、数据分区、仓库管理器方面研究。

关键字数据仓库，Business Objects、Oracle、IBM、Sybase、Informix、NCR、Microsoft、SAS、CA，DB2，索引能力、数据分区、仓库管理器正文一、知名的数据仓库厂商介绍Business Objects, Oracle, IBM, Sybase, Informix, NCR, Microsoft, SAS, CA 二、数据仓库产品对比2．1各数据产品家族对比前言：数据仓库产品大体上可以分为三类：1．单点产品：所谓单点产品是指仅局限于数据仓库方案实施中的一部分或某一特定功能，主要是作为第三方产品或者和其它公司的产品结合起来进行使用。

海波龙Hyperion,Cognos TM1,SAP BPC的区别和发展历史

国外EPM产品，在数据仓库和计划预算应用领域都有很大的市场占有率，但都缺失中国企业用户最需要的预算执行控制功能，并且都没有工作流引擎，无法支持灵活的审批功能。更重要的是，由于其产品是通过多次并购获得，各产品间的功能和数据都不贯通，无法实现同一厂商产品间的功能和数据融合。
就像加密货币需要采用区块链技术，工业机器人需要掌握伺服控制技术一样，采用多维数据仓库技术开发计划预算等EPM软件是行业共识。中国的软件厂商由于普遍不掌握多维数据仓库的核心技术和应用技术，无法开发真正的计划预算软件，大部分都是在ERP架构上搞“过程管控”型的“管理会计模块”。这种没有Knowhow的土法炼钢，只会造成企业信息化建设的浪费。不过国内多维数据仓库领域的核心技术并非一片空白，由原HyperionSolutions研发团队归国创建的北京智达方通科技有限公司，是国内唯一拥有多维数据仓库核心技术和商用产品的软件公司，智达方通的产品包括多维数据仓库，全面预算，商业智能，执行控制，应用门户，公共服务，移动平台，Excel插件等整套EPM产品，也是全球唯一一家实现计划预算编制，分析，执行控制，工作流引擎业务贯通，数据融合一体的厂商，更好的本土化支持，和可与国外同行PK的技术，提供了更适合国内企业的数据仓库和全面预算管理产品和体验。
1992年，美国西部加利福尼亚州硅谷的软件公司ArborSoftware发布了第一版数据仓库软件产品-Essbase，这个产品在随后的多年里一直是多维数据仓库全球销量冠军。1998年，HyperionSoftware与Arbor合并，并改名为HyperionSolutions，总部设在Arbor硅谷总部。
海波龙Hyperion，CognosTM1，SAPBPC的区别和发展历史
海波龙Hyperion，Cognos TM1和SAP BPC都是国际主流的基于多维数据仓库的全面预算软件。在市场占有率上，海波龙和Cognos TM1最高，而SAP BPC由于技术积淀历史短，市场占有率相对较低。

数据湖与数据仓库的对比及数据湖主流开源框架

数据湖与数据仓库的对比及数据湖主流开
源框架
数据湖与数据仓库的区别在于数据仓库提供结构化的可报告数据模型，而数据湖存储非结构化的原始数据。

数据仓库需要进行处理，决定哪些数据存入其中，这被称为“写时模式”，而数据湖可以即时开始收集数据，并确定其将来的用途。

商业分析员和商业用户通常使用数据仓库，而数据湖则更多用于数据科学家和分析师。

数据湖和数据仓库使用的存储硬件通常也不相同，数据仓库的存储硬件较为昂贵，而数据湖的存储硬件相对便宜。

目前市面上流行的三大开源数据湖方案分别为Delta Lake、Apache Iceberg和Apache Hudi。

Delta Lake由Databricks推出，是一个开源的存储层，用以将ACID事务引入ApacheSpark和
大数据工作负载中。

DeltaLake拥有模式约束来防止低质量的
数据流入，并且在存储层上也具有良好的抽象性，允许同时存在多个不同的存储层。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

主流数据仓库产品
IBM InfoSphere Warehouse 9.7
IBM InfoSphere Warehouse是IBM的综合数据仓库平台, InfoSphere Warehouse 9.7的创新功能包括: 能够缩短数据仓库的实施时间,提升安全性、可用性以及可扩展性,并让实施业务分析(Business Analytics)变得更简单。

此外,这些创新功能还能帮助企业建立绿色的以及基于云计算的符合成本效
益和能源效益的平台。

InfoSphere Warehouse 9.7的新特性包括: 节约成本; 优化行业XML标准数据的使用; 深入的分析能力,其中包括数据挖掘导航、数据准备以及通过解决方案模版实现“信息即服务”、增强安全特性的多维分析能够直接分析DB2数据库中的数据; 更高的数据可用性,其中包括将数据迁移至新的
表格时不丧失可用性、提升了在线的可扩展性、更强的BI
特性、通过图形用户界面更简便地进行工作负荷管理。

此外,2009年7月28日,IBM还发布了智慧的分析系统,其中包括商业智能报表、分析、仪表盘、记分卡、数据挖掘、文本分析、数据仓库管理、存储和服务平台等。

智慧的分析系统可以在12天以内交付并提供基于行业的分析能力,帮助用户以比平时快3倍的速度进行决策,但同时只需要往常
50%的存储资源,从而节约了房屋面积和能源; 同时,还能揭示及洞察隐藏在海量数据中的关系―不仅仅是结构化的信息,还包括各种非结构化信息,如影片、邮件、网站、播客、博客、Wiki和归档的数据等。

Microsoft SQL Server Fast Track
作为一套新型数据仓库参考体系结构,SQL Server Fast Track能够帮助企业消除在创建数据仓库时经常遇到的各种障碍。

利用SQL Server Fast Track数据仓库,微软为客户提供了参考设置选项和技术指南,用于创建适用于用户独特需求与预算要求的企业级数据仓库解决方案。

微软独特的提交模式为用户提供了更大的灵活性和选择空间,允许用户选择适用于现有基础设施环境的行业标准硬件。

新配置利用对称多处理架构,在标准平台上创建企业数据仓库,还提供了更大的容量以及更低的价格,且产品性能相当于同类的“开箱即用”系统。

SQL Server Fast Track数据仓库旨在提高产品的性能与线性可升级性,同时将设置需求降至最低,从而帮助IT部门节约时间与资金。

通过均衡配置,新型参考体系结构对所有硬件部件进行优化,实现每中央处理单元核心每秒200 MB的处理性能。

对于微软的用户而言,SQL Server Fast Track数据仓库是
微软继企业商业智能与数据仓库之后,在技术发展历史上的另一块重要里程碑。

更新至SQL Server 2008新型参考体系结构后,SQL Server Fast Track数据仓库能够帮助客户实现至“Madison”项目的无缝跨越。

Madison项目拥有可升级性和商业智能功能,能够将SQL Server 2008与收购自DATAllegro 公司的大规模平行处理技术相集成,帮助企业将数据仓库设置为数百TB级。

Sybase IQ
Sybase IQ是基于列的分析服务器,其能够基于企业的全部信息,按照任意条件,面向所有用户,提供更快速和更准确的分析。

凭借基于列的核心架构和创新功能,Sybase IQ从多个层面提供了灵活性和可扩展性,能够为更大的数据集、更为复杂的分析任务以及快速增长的BI用户群,提供查询性能。

并且,它所需要的环境是企业能够负担的、环保的,在实现阶段和整个信息生命周期中都是可管理的。

Sybase IQ具有以下几大特性:
灵活性: 计算能力和存储容量独立扩展能力; 运行过程中修改模式,不会阻塞查询,无需停机; 无需物化视图; 对于预聚合,支持预计算的连接索引; 管理结构化和非结构化数据; 通过认证,能与可视化和数据集成工具协同工作。

速度: 多种类型的位图索引; 基于成本的查询优化器;
基于列的体系结构; 多列索引的使用; 增加了内存压缩查询处理; 增强的断词(Tokenization)技术,提供更快速的查询。

可用性: 增强的大表加载; 直接从客户端加载; 多节点加载; 专利的数据压缩技术; 高可用性/灾难恢复。

安全性: 口令认证/数据不落地的加密传输; 对静态数据(data-at-rest)进行数据库和列加密; 支持Unix上的FIPS; 支持Kerberos; 用户可设置密码支持IPv6。

可管理性: 索引向导工具指导选择最高性能的索引; 用于诊断的、基于XML和GUI的查询计划生成器; 用于数据库管理的、基于GUI的多功能管理控制台; 增强的资源和工具管理。

Teradata Active Enterprise Data Warehouse
Teradata动态企业级数据仓库平台(Active Enterprise Data Warehouse)采用Teradata海量并行处理技术,是一种经过优化、可同步执行多种流程的系统,其性能及可扩展性令企业能够对详细的运营数据进行更深入和透彻的分析。

动态数据仓库将传统数据仓库功能扩展到了动态企业智能这一更为成熟、覆盖面更广的数据环境。

动态企业智能侧重数据仓库在业务运营层面的应用,通过数据库平台在实时操作环境的支持下,实现快速战略决策。

Teradata动态数据仓库有两大特点。

一是动态访问,一线
用户可以动态、或者说实时地访问所需信息。

传统数据仓库用户只针对高端管理层,一个银行一般只有几十个到几百个用户可以访问,成千上万的客户经理和客户代表如果要实现同时访问,对传统数据仓库来讲是一个很大的压力,而动态数据仓库采取相同的技术架构和不同的技术手段实现了大规模的动态访问。

二是动态数据加载,传统数据仓库的数据加载与动态数据仓库的数据加载所需的技术设施几乎相同。

不同的是传统的数据加载不是实时和连续的,只能是以批量的形式加载,而动态数据仓库的数据加载则能连续加载并实现一分钟或者几秒钟间隔的近实时加载。

此外,Teradata动态企业级数据仓库具有创新的Teradata 虚拟存储(Virtual Storage)功能,这提高了数据加载到数据仓库的速度。

Teradata动态数据仓库增添了75种新的动态数据仓库功能,与上一代数据仓库相比,其性能全面提升30%。