关于数据仓库、数据湖、数据平台和数据中台的概念和区别
数据仓库与数据湖的区别与联系

数据仓库与数据湖的区别与联系随着数字化时代的到来,数据量急剧增长,对数据进行有效管理和处理变得越来越重要。
为了满足企业在数据管理和分析上的需求,数据仓库和数据湖成为了热门话题。
本文将讨论数据仓库和数据湖的区别与联系。
一、数据仓库1.1 概念数据仓库是指将数据从不同的业务系统中整合到一个集中式的数据存储库,并进行清洗、集成和转换,使其变成可供决策支持系统使用的数据的过程。
它是企业决策层面上的重要工具,包含历史的、事实的、统一的、一致的和可信的数据,从而对企业做出更准确、更快速的决策提供重要支持。
1.2 特点数据仓库的特点主要包括以下几点:(1)面向主题:数据仓库是针对特定业务领域的主题进行构建的,如销售、营销、客户和供应链等。
(2)综合性:数据仓库整合了多个不同关系型数据库的信息,形成一个统一的、综合的数据源,支持多维分析和数据挖掘。
(3)历史性:数据仓库记录着业务过程发生的历史记录,包括过去几年的数据,从而使企业具有更好的长期规划。
(4)只读性:数据仓库采用只读的方式提供数据,即使是企业的操作人员不能随意更改数据。
二、数据湖2.1概念数据湖是在存储和管理数据时使用建模技术,使得未经整理的数据流动更容易,从而使企业更快速地获取特定信息的一种架构。
与传统的数据仓库架构不同的是,数据湖并不要求数据经过ETL或其他处理而直接存放在湖中,从而保留了数据的原始状态,提供了更快速和更灵活的数据分析方法。
2.2 特点数据湖的特点主要包括以下几点:(1)存储原始数据:数据湖存储各种数据格式的原始数据,包括结构化数据、半结构化数据和非结构化数据。
(2)弹性:数据湖可以快速存储大量数据,可以根据需求自由调整存储容量,支持大数据处理和分析。
(3)自助服务性:数据湖不需要预先规划数据存储方式,而是要求用户首先获得存储权限,然后使用常见的数据管理和探索工具进行查询和筛选。
(4)灵活性:数据湖可以整合各种类型的工具和技术,包括Hadoop、Spark和NoSQL数据库等。
数据湖与数据仓库哪个更适合你的企业

数据湖与数据仓库哪个更适合你的企业随着大数据时代的到来,企业面临着海量数据的处理和管理问题。
为了更好地利用数据来支持业务决策和创新,企业需要建立适合自身需求的数据存储和分析系统。
在选择数据存储方案时,数据湖和数据仓库是两个常见的选择。
本文将从不同角度比较数据湖和数据仓库,帮助企业选择适合自身的方案。
一、概念和架构1. 数据湖数据湖是一种存储和管理各种结构化和非结构化数据的系统。
它采用扁平化的存储结构,将数据以原始形式存储在一个集中的存储库中,不需要预定义模式或数据模型。
数据湖的架构通常包括数据采集、数据存储和数据处理三个主要组件。
2. 数据仓库数据仓库是一种以主题为导向的、集成的、相对稳定的数据存储系统。
它通过抽取、转换和加载(ETL)过程将数据从不同的源系统中提取出来,并按照预定义的模式和模型进行转换和加载。
数据仓库的架构通常包括数据源、ETL过程、数据存储和数据分析四个主要组件。
二、适用场景1. 数据湖数据湖适用于以下场景:(1)数据多样性:企业需要处理和分析各种结构化和非结构化数据,如文本、图像、音频等。
(2)数据探索和发现:企业需要对数据进行探索和发现,以发现新的业务机会和洞察。
(3)实时数据处理:企业需要对实时数据进行快速处理和分析,以支持实时决策和业务操作。
2. 数据仓库数据仓库适用于以下场景:(1)数据一致性:企业需要将多个源系统的数据进行集成和整合,以保证数据的一致性和准确性。
(2)数据分析和报表:企业需要进行复杂的数据分析和生成各种报表,以支持业务决策和监控。
(3)历史数据查询:企业需要对历史数据进行查询和分析,以了解过去的业务情况和趋势。
三、优缺点比较1. 数据湖数据湖的优点包括:(1)灵活性:数据湖可以存储各种结构化和非结构化数据,不需要预定义模式或数据模型。
(2)成本效益:数据湖采用廉价的存储和计算资源,可以降低数据存储和处理的成本。
(3)实时性:数据湖可以支持实时数据处理和分析,满足企业对实时决策和业务操作的需求。
一文读懂BI、数据仓库、数据湖与数据中台(建议收藏)

数据中台最核心的是OneData体系。
这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控、数据资产管理工具等。
数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,出于分析性报告和决策支持目的而创建。
数据中台是一个数据集成平台,它不仅仅是为数据分析挖掘而建,它更重要的功能是作为各个业务的数据源,为业务系统提供数据和计算服务。
数据中台的本质就是“数据仓库+数据服务中间件”。
中台构建这种服务时是考虑到可复用性的,每个服务就像一块积木,可以随意组合,非常灵活,有些个性化的需求在前台解决,这样就避免了重复建设,既省时、省力,又省钱。
在二战时期,美军是以庞大的军队为单位作战;到了越战时,以营为单位作战;到了中东战斗的时候,以7人或者11人的极小班排去作战,这就是今天具备最强核心竞争力和打击能力的组织。
而美军之所以能灵活作战,敢放这么小的团队到前方,是因为有非常强的中台能力,这些能力包括战斗直升机、舰炮远程支援、战术导弹系统、战斗机支援体系等,这些能力能支持小团队快速做判断,并且引领整个炮火覆盖和定点清除。
而对比今天多变的市场竞争环境,企业也正在寻找像美军一样具备创新性、灵活性的中台能力。
今天我们就从以下几个方面来说说数据中台:1.数据中台产生的历史背景2.数据中台对企业有什么价值3.到底什么是数据中台4.数据中台与数据库、数据湖和BI有什么区别5.企业搭建数据中台需要注意什么6.企业如何使用数据中台一、数据中台产生的历史背景数据从软件诞生的那一天开始就存在,但是,数据并不是第一天就被存储和利用的。
在信息化时代,企业早期通过流程来进行生产和管理,流程是预先设计好的,然后在设计好的流程中产生了数据。
比如现在销售部门依赖于CRM(客户关系管理平台),售后部门主要看客服系统,市场营销部门关心微信平台,数据分析团队使用各类数据分析工具…在这个过程中,各个企业分别都在用不同的方式来尽可能的利用数据产生的价值。
17个知识点打通数仓学习的任督二脉

1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
1)数据仓库是用于支持决策、面向分析型数据处理;2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术。
分别是:数据仓库技术、Hadoop。
当数据为结构化数据,来自传统的数据源,则采用数据仓库技术来存储和处理这些数据,如下图:2、数据仓库和数据库的区别?从目标、用途、设计来说。
1)数据库是面向事务处理的,数据是由日常的业务产生的,并且是频繁更新的;数据仓库是面向主题的,数据来源多样化,经过一定的规则转换得到的,用于分析和决策;2)数据库一般用来存储当前事务性数据,如交易数据;数据仓库一般存储的是历史数据;3)数据库设计一般符合三范式,有最大的精确度和最小的冗余度,有利于数据的插入;数据仓库设计一般不符合三范式,有利于查询。
3、如何构建数据仓库?数据仓库模型的选择是灵活的,不局限与某种模型方法;数据仓库数据是灵活的,以实际需求场景为导向;数仓设计要兼顾灵活性、可扩展性、要考虑技术可靠性和实现成本。
1)调研:业务调研、需求调研、数据调研2)划分主题域:通过业务调研、需求调研、数据调研最终确定主题域3)构建总线矩阵、维度建模总线矩阵:把总线架构列表形成矩阵形式,行表示业务处理过程,即事实,列表示一致性的维度,在交叉点上打上标记表示该业务处理过程与该维度相关(交叉探查)4)设计数仓分层架构5)模型落地6)数据治理4、什么是数据中台?数据中台是通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。
数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。
这些服务和企业的业务有较强关联性,是企业所独有且能复用的,他是企业业务和数据的积淀,其不仅能降低重复建设,减少烟囱式协助的成本,也是差异化竞争的优势所在。
数据仓库与数据湖的概念与应用

数据仓库与数据湖的概念与应用数据仓库和数据湖是两种不同的数据存储和管理方法,被广泛应用于数据分析和决策支持系统中。
本文将从概念、特点、应用场景等方面详细介绍数据仓库和数据湖的相关知识。
一、数据仓库的概念与特点1.数据仓库的概念数据仓库(Data Warehouse)是指将企业或组织内部各个数据源中的数据进行统一整合、清洗和存储,以支持数据分析和决策制定。
数据仓库一般采用主题导向的数据模型,将各个业务领域的数据集中存储在一个集中的数据库中。
2.数据仓库的特点(1)主题导向:数据仓库将数据按照主题进行组织和存储,以支持用户对某个具体问题或主题进行深入分析。
(2)集成性:数据仓库将来自不同数据源的数据进行整合,消除数据冗余和不一致性,提供一致的数据视图。
(3)稳定性和持久性:数据仓库的数据一般是静态的,不经常更新,以确保数据的稳定性和持久性。
(4)面向分析:数据仓库主要面向决策支持和数据分析,提供丰富多样的分析工具和查询接口,满足用户对数据进行多维度、多角度的分析需求。
二、数据湖的概念与特点1.数据湖的概念数据湖(Data Lake)是指将各种数据源中的原始数据以其原始格式存储在一个或多个存储系统中,提供给用户进行数据分析和探索。
数据湖不需要提前进行数据整理和模式定义,可以容纳各种类型和结构的数据。
2.数据湖的特点(1)原始性:数据湖存储的数据是原始的,未经过清洗和整理,保留了数据源的完整性和灵活性。
(2)灵活性:数据湖可以容纳各种类型和结构的数据,不限制数据的组织方式和格式。
(3)可扩展性:数据湖可以方便地扩展存储容量,支持大数据规模的存储。
(4)即席查询:数据湖提供了即席查询和自助式数据分析的能力,用户可以根据需要直接访问和分析原始数据。
三、数据仓库与数据湖的应用场景1.数据仓库的应用场景(1)企业决策支持:数据仓库为企业决策者提供了可靠、一致、多角度的数据视图,支持企业决策制定和业务优化。
(2)业务分析与报表:数据仓库可以为企业提供各种精细化的业务分析和报表功能,帮助企业监测业务指标和趋势变化。
数据库、数据仓库、大数据平台、数据中台、数据湖对比分析

数据库、数据仓库、大数据平台、数据中台、数据湖对比分析一、概况层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰,有时候很难理清楚它们之间的区别与联系。
本文将以数据研发相关领域为例,对比分析我们工作中高频出现的几个名词,主要包括以下几个方面:•数据▪什么是大数据▪数据分析与数据挖掘的区别是什么•数据库▪什么是数据库▪数据库中的分布式事务理论•数据仓库▪什么是数据仓库▪什么是数据集市▪数据库与数据仓库的区别是什么•大数据平台▪什么是大数据平台▪什么是大数据开发平台•数据中台▪什么是数据中台▪数据仓库与数据中台的区别与联系•数据湖▪什么是数据湖▪数据仓库与数据湖有什么区别与联系希望本文对你有所帮助,烦请读者诸君分享、点赞、转发。
二、数据什么是大数据?麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
我们再往深处思考一下,为什么会有大数据(大数据技术)?其实大数据就是在这个数据爆炸增长的时代,业务需求增长促进技术迭代,技术满足需求后又形成闭环促进业务持续增长,从而形成一个闭环。
数据分析与数据挖掘的区别是什么?数据分析可以分为广义的数据分析和狭义的数据分析。
广义的数据分析就包括狭义的数据分析和数据挖掘。
我们在工作中经常常说的数据分析指的是狭义的数据分析。
三、数据库据库什么是数据库?数据库是按照数据结构来组织、存储和管理数据的仓库。
是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。
一般而言,我们所说的数据库指的是数据库管理系统,并不单指一个数据库实例。
根据数据存储的方式不同,可以将数据库分为三类:分别为行存储、列存储、行列混合存储,其中行存储的数据库代表产品有Oracle、MySQL、PostgresSQL等;列存储的数据代表产品有Greenplum、HBASE、Teradata等;行列混合存储的数据库代表产品有TiDB,ADB for Mysql等。
数据存储与管理18数据库数据仓库数据中台数据湖数据集市的区别

数据存储与管理18数据库数据仓库数据中台数据湖数据集市的区别数据仓库vs.数据集市数据集市和数据仓库经常会被混淆,但两者的用途明显不同。
数据集市通常是数据仓库的子集;它等数据通常来自数据仓库– 尽管还可以来自其他来源。
数据集市的数据专门针对特定的用户社区(例如销售团队),以便他们能够快速找到所需的数据。
通常,数据保存在那里用于特定用途,例如财务分析。
数据集市也比数据仓库小得多– 它们可以容纳数十千兆字节,相比之下,数据仓库可以存储数百千兆字节到PB级数据,并可用于数据处理。
数据集市可从现有数据仓库或其他数据源系统构建,你只需设计和构建数据库表,使用相关数据填充数据库表并决定谁可以访问数据集即可。
数据仓库vs.ODS操作数据存储(ODS)是一种数据库,用作所有原始数据的临时存储区域,这些数据即将进入数据仓库进行数据处理。
我们可以将其想象成仓库装卸码头,货物在此处交付、检查和验证。
在ODS中,数据在进入仓库前可以被清理、检查(因为冗余目的),也可检查是否符合业务规则。
在ODS中,我们可以对数据进行查询,但是数据是临时的,因此它仅提供简单信息查询,例如正在进行的客户订单状态。
ODS通常运行在关系数据库管理系统(RDBMS)或Hadoop平台。
关系型数据库vs.数据仓库和数据湖数据仓库、数据湖与关系数据库系统之间的主要区别在于:关系数据库用于存储和整理来自单个来源(例如事务系统)的结构化数据,而数据仓库则用于存储来自多个来源的结构化数据。
数据湖的不同之处在于它可存储非结构化、半结构化和结构化数据。
关系数据库创建起来相对简单,可用于存储和整理实时数据,例如交易数据等。
关系数据库的缺点是它们不支持非结构化数据库数据或现在不断生成的大量数据。
这使得我们只能在数据仓库与数据湖间做出选择。
尽管如此,很多企业仍然继续依赖关系数据库来完成运营数据分析或趋势分析等任务。
内部或云端可用的关系数据库包括Microsoft SQL Server、Oracle数据库、MySQL和IBM Db2、以及Amazon Relational Database Service、Google Cloud Spanner等。
全面解读数据中台、数据仓库和数据湖

全面解读数据中台、数据仓库和数据湖如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。
这些数据需要被存储起来并且能够被方便的分析和利用。
随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识。
1.1 数据库关系数据库本质上是一个二元关系,说的简单一些,就是一个二维表格,对普通人来说,最简单的理解就是一个Excel表格。
这种数据库类型,具有结构化程度高,独立性强,冗余度低等等优点,一下子就促进了计算机的发展。
1.2 操作型数据库和分析型数据库随着关系数据库理论的提出,诞生了一系列经典的RDBMS,如Oracle,MySQL,SQL Server等。
这些RDBMS被成功推向市场,并为社会信息化的发展做出的重大贡献。
然而随着数据库使用范围的不断扩大,它被逐步划分为两大基本类型:操作型数据库主要用于业务支撑。
一个公司往往会使用并维护若干个操作型数据库,这些数据库保存着公司的日常操作数据,比如商品购买、酒店预订、学生成绩录入等;分析型数据库主要用于历史数据分析。
这类数据库作为公司的单独数据存储,负责利用历史数据对公司各主题域进行统计分析;那么为什么要"分家"?在一起不合适吗?能不能构建一个同样适用于操作和分析的统一数据库?答案是NO。
一个显然的原因是它们会"打架"…如果操作型任务和分析型任务抢资源怎么办呢?再者,它们有太多不同,以致于早已"貌合神离"。
接下来看看它们到底有哪些不同吧。
1.3 操作型数据库 VS 分析型数据库因为主导功能的不同(面向操作/面向分析),两类数据库就产生了很多细节上的差异。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
企业数字化转型或者信息化建设过程中,不可避免的都会产生大量的数据,而继ERP、MES与PDM等企业信息化三驾马车建设完成之后,迎面而来的就是数据治理,关于数字化、信息化的区别见数据化、信息化、数字化和智能化之间联系和区别解析(建设收藏),而数据治理的载体无非是数据仓库、数据湖与数据中台等内容,前几天我们发布了一篇关于辨析BI、数据仓库、数据湖和数据中台内涵及差异点(建议收藏)的文章,今天我们来看下几个概念的区别与联系:
我们谈论数据中台之前,我们也听到过数据平台、数据仓库、数据湖的相关概念,它们都与数据有关系,但他们和数据中台有什么样的区别,下面我们将围绕数据平台、数据仓库、数据湖和数据中台的区别进行介绍。
数据仓库
数据仓库(Data Warehouse),也称为企业数据仓库,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。
数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。
数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。
数据仓库的作用主要体现在企业决策、分析、计划和响应以下几个方面:
数据仓库针对实时数据处理和非结构化数据处理能力较弱,以及在业务在预警预测等方面应用有一定的限制。
数据湖
数据湖(Data Lake)是Pentaho公司CTO James Dixon提出来一种数据存储理念—即在系统或存储库中以自然格式存储数据的方法。
数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。
在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。
下面的定义是维基百科所给出的“数据湖”定义。
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。
数据湖是以其自然格式存储的数据的系统或存储库,通常是对象Blob 或文件。
数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。
数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
以下是关于数据湖的示意图(图片来源于网络):
数据湖能够帮助企业实现数据的集中式管理等多种能力;数据湖融合了先进的数据科学、机器学习和人工智能技术,帮助企业构建更加优化的数据运营模型,为企业提供预测分析、推荐模型等能力,这些模型能够刺激企业能力的持续增长,不断赋能于企业增长。
数据湖能从以下方面帮助到企业:
实现数据治理;
通过应用机器学习与人工智能技术实现商业智能;
预测分析和模型推荐,例如:领域特定的推荐引擎;
信息追踪与一致性保障;
基于历史数据分析生成新的数据维度,挖掘数据深度价值;
提供集中式存储的企业数据中心,并提供基于数据传输优化的数据服务;
协助企业实现灵活的增长决策。
数据平台
数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集。
数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。
当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。
大数据时代,数据平台一般被称之为大数据平台。
狭义上的大数据平台和传统数据平台的功能一致,只是技术架构和数据容量方面的不同,但广义的大数据平台通常被赋予更多的使命,它不仅存储多样化的数据类型,还具有报表分析等数据仓库的功能,以及其他数据分析挖掘方面的高级功能。
数据中台
网易数据中台架构图:
阿里数据中台逻辑架构图:
数据中台通过对企业内外部多源异构的数据采集、治理、建模、分析和应用,使数据对内优化管理提高业务价值,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢。
数据中台建立后,会形成数据API服务,为企业和客户提供高效各种数据服务。
数据中台对一个企业的数字化转型和可持续发展起着至关重要的作用。
数据中台为解耦而
生,企业建设数据中台的最大意义就是应用与数据之间的解藕,这样企业就可以不受限制地按需构建满足业务需求的数据应用。
构建了开放、灵活、可扩展的企业级统一数据管理和分析平台,将企业内、外部数据随需关联,打破了数据的系统界限。
利用大数据智能分析、数据可视化等技术,实现了数据共享、日常报表自动生成、快速和智能分析,满足企业各级部门之间的数据分析应用需求。
深度挖掘数据价值,助力企业数字化转型落地。
实现了数据的目录、模型、标准、认责、安全、可视化、共享等管理,实现数据集中存储、处理、分类与管理,建立大数据分析工具库、算法服务库,实现报表生成自动化、数据分析敏捷化、数据挖掘可视化,实现数据质量评估、落地管理流程。
数据仓库VS 数据湖
相较而言,数据湖是较新的技术,拥有不断演变的架构。
数据湖存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据。
根据定义,数据湖不会接受数据治理,但专家们一致认为良好的数据管理对预防数据湖转变为数据沼泽不可或缺。
数据湖在数据读取期间创建模式。
与数据仓库相比,数据湖缺乏结构性,而且更灵活,并且提供了更高的敏捷性。
值得一提的是,数据湖非常适合使用机器学习和深度学习来执行各种任务,比如数据挖掘和数据分析,以及提取非结构化数据等。
数据仓库VS 数据平台
由于数据仓库具有历史性的特性,其中存储的数据大多是结构化数据;而数据平台的出现解决了数据仓库不能处理非结构化数据和报表开发周期长的问题。
通过以上的论述,我们发现数据平台和数据湖好像存在诸多相似性,这二者之间的区别,从个人角度理解上分析应该是数据加工的角度不同,数据湖更着重于对原始数据的存储,而数据平台则同数据仓库一样,需对原始数据进行清洗、转换等数据处理后按照统一的标准规范进行存储。
数据仓库VS 数据中台
数据仓库和传统的数据平台,其出发点为一个支撑性的技术系统,即一定要先考虑我具有什么数据,然后我才能干什么,因此特别强调数据质量和元数据管理;而数据中台的第一出发点不是数据而是业务,一开始不用看你系统里面有什么数据,而是去解决你的业务问题需要什么样的数据服务。
在具体的技术处理环节,二者也有明显不同,数据的预处理流程正在从传统的ETL结构向ELT结构转变。
传统的数据仓库集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。
而大数据背景下的架构体系是ELT结构,其根据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析。
总结
根据以上数据平台、数据仓库、数据湖和数据中台的概念论述和对比,我们进行如下总结:
数据中台、数据仓库和数据湖没有直接的关系;
数据中台、数据平台、数据仓库和数据湖在某个维度上为业务产生价值的形式有不同的侧重;数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,为业务提供服务的主要方式是数据API;
数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;
数据中台距离业务更近,能够更快速的响应业务和应用开发需求,从而为业务提供速度更快的服务;
数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。