数据架构杂谈

合集下载

数据中心架构

数据中心架构

数据中心架构在当今数字化的时代,数据中心已成为企业和组织运营的核心基础设施。

数据中心就像是一个巨大的信息仓库和处理工厂,负责存储、管理和处理海量的数据,以支持各种业务应用和服务。

它的架构设计直接影响着数据中心的性能、可靠性、可扩展性和成本效益。

接下来,让我们深入探讨一下数据中心架构的各个方面。

数据中心的架构可以大致分为几个主要的组成部分。

首先是服务器和存储系统。

服务器是数据处理的核心,它们承担着运行各种应用程序和服务的任务。

存储系统则用于保存数据,包括硬盘阵列、磁带库、固态硬盘等。

不同类型的存储设备具有不同的特点和性能,需要根据数据的访问频率、容量需求和成本等因素进行合理选择。

网络架构也是数据中心的关键部分。

它包括网络交换机、路由器、防火墙等设备,用于连接服务器、存储系统和外部网络。

一个高效的网络架构能够确保数据的快速传输和低延迟,提高数据中心的整体性能。

常见的网络拓扑结构有星型、树型和网状等,每种结构都有其适用的场景和优缺点。

接下来是电力和冷却系统。

数据中心中的服务器和设备运行会产生大量的热量,需要强大的冷却系统来保持适宜的温度。

同时,电力供应的稳定性和可靠性也至关重要,不间断电源(UPS)和备用发电机等设备能够在电力故障时确保数据中心的正常运行。

为了实现对数据中心的有效管理和监控,管理软件和自动化工具也是必不可少的。

这些工具可以帮助管理员实时监测设备状态、性能指标和资源使用情况,及时发现和解决问题,提高数据中心的运维效率。

在设计数据中心架构时,需要考虑多个因素。

首先是性能需求。

不同的应用程序和业务对数据处理和传输速度有不同的要求。

例如,在线交易处理系统需要高并发和低延迟,而数据备份和归档系统则对存储容量和成本更为关注。

可扩展性也是一个重要的考虑因素。

随着业务的增长,数据中心的规模和处理能力需要能够随之扩展。

这就要求在架构设计时预留足够的资源和接口,以便能够轻松地添加服务器、存储设备和网络带宽。

如何构建合理的数据架构

如何构建合理的数据架构

如何构建合理的数据架构在当今信息爆炸的时代,数据已经成为企业发展的重要资产。

构建合理的数据架构对于企业来说至关重要,它不仅可以提高数据的管理效率,还可以为企业决策提供有力支持。

本文将从数据架构的定义、重要性以及构建合理数据架构的方法等方面展开讨论,帮助读者更好地理解和应用数据架构。

### 一、数据架构的定义数据架构是指对数据进行组织和管理的结构化方式,它包括数据的存储、处理、传输和管理等方面。

一个合理的数据架构应该能够满足数据的安全性、完整性、可靠性和易用性等要求,同时还需要考虑数据的扩展性和灵活性,以适应不断变化的业务需求。

### 二、合理数据架构的重要性1. 提高数据管理效率:合理的数据架构可以帮助企业更好地组织和管理数据,提高数据的检索和分析效率,减少数据冗余和重复。

2. 支持业务决策:数据架构可以为企业提供清晰的数据结构和关系,帮助企业领导者更好地理解数据,从而做出更准确的决策。

3. 降低数据风险:合理的数据架构可以提高数据的安全性和完整性,减少数据泄露和损坏的风险,保护企业数据资产的安全。

4. 促进数据共享与协作:良好的数据架构可以促进不同部门之间的数据共享与协作,提高企业内部的信息流畅度和工作效率。

### 三、构建合理数据架构的方法1. 确定数据需求:首先需要明确企业的数据需求,包括数据类型、数据量、数据来源等,以及数据在业务中的作用和关系。

2. 设计数据模型:根据数据需求,设计合适的数据模型,包括实体关系模型、维度模型、概念模型等,以便更好地组织和管理数据。

3. 选择合适的数据库:根据数据的特点和业务需求,选择合适的数据库系统,如关系型数据库、NoSQL数据库等,以支持数据的存储和处理。

4. 建立数据仓库:建立数据仓库用于集中存储和管理企业的数据,实现数据的统一管理和分析,提高数据的可用性和可靠性。

5. 制定数据管理策略:制定数据管理策略,包括数据采集、清洗、存储、分析和共享等方面,确保数据的质量和安全。

架构设计之数据架构

架构设计之数据架构

架构设计之数据架构一、引言在当今信息化时代,数据架构的设计对于企业的业务运营和决策分析起着至关重要的作用。

一个合理的数据架构设计能够提高数据的可用性、可靠性、安全性和性能,为企业的发展提供有力的支持。

本文将围绕数据架构展开讨论,包括数据架构的定义、设计原则、常见的数据架构模式以及数据架构设计的步骤和方法。

二、数据架构的定义数据架构是指在一个系统中,对于数据的组织、存储、访问和管理的规划和设计。

它涉及到数据的结构、关系、属性、约束以及数据的流动和转换等方面。

一个好的数据架构能够确保数据的一致性、完整性和可靠性,提高数据的可用性和可维护性。

三、数据架构的设计原则1. 可用性和可靠性:数据架构应确保数据能够随时可用,并保证数据的准确性和一致性。

2. 扩展性和灵活性:数据架构应具备良好的扩展性,能够适应业务的增长和变化。

3. 安全性:数据架构应考虑数据的安全需求,包括数据的保密性、完整性和可控性。

4. 性能:数据架构应能够提供高效的数据访问和处理能力,以满足业务的实时性和响应性要求。

5. 可维护性:数据架构应易于维护和管理,包括数据的备份、恢复、迁移和清理等操作。

四、常见的数据架构模式1. 传统的三层架构模式:包括数据存储层、数据访问层和应用层。

数据存储层负责数据的存储和管理,数据访问层负责数据的查询和操作,应用层负责业务逻辑的处理。

2. 数据仓库架构模式:将企业的各种数据源进行集成,构建一个统一的数据仓库,以支持企业的决策分析和报表生成等需求。

3. 分布式架构模式:将数据存储和处理分布在多个节点上,以提高系统的可扩展性和性能。

4. 云架构模式:将数据存储和处理部署在云平台上,以实现资源的弹性调度和成本的优化。

五、数据架构设计的步骤和方法1. 需求分析:明确业务需求和数据需求,包括数据的类型、规模、频率、一致性要求等。

2. 数据建模:根据需求分析的结果,设计数据模型,包括实体、属性、关系、约束等。

3. 数据存储设计:选择合适的数据存储技术和架构,包括关系型数据库、非关系型数据库、分布式文件系统等。

大数据架构的介绍及分析

大数据架构的介绍及分析

大数据架构的介绍及分析1.数据采集与存储层:该层负责从不同的数据源(如传感器、日志、社交媒体等)采集数据,并将其存储在合适的数据存储系统中。

常用的数据存储系统包括关系型数据库、NoSQL数据库、分布式文件系统等。

2.数据处理与计算层:该层负责对采集到的数据进行处理和计算,以提取有价值的信息或进行复杂的分析。

其中包括批处理和实时处理两种模式。

批处理模式适用于大规模离线计算,如数据清洗、ETL(抽取、转换、加载)过程;而实时处理模式则适用于需要即时响应的实时计算和流式处理。

3.数据存储与管理层:该层负责管理和存储处理后的数据,以便后续的查询和分析。

常见的技术包括数据仓库、数据湖、数据流水线等。

数据存储与管理层需要根据业务需求选择合适的技术和存储结构,以满足数据的高效访问和查询要求。

4.数据可视化与应用层:该层负责将处理和分析后的数据以可视化的方式展现给最终用户,使其能够直观地理解和利用数据。

常见的技术包括仪表板、报表、数据可视化工具等。

此外,还可以根据具体业务需求进行应用开发,以实现更复杂的数据分析和决策支持功能。

总体来说,大数据架构的设计需要考虑以下几个关键因素:1.数据的规模和速度:大数据处理通常需要处理海量的数据,因此架构需要具备可扩展性,以支持数据的快速增长和高速处理。

2.数据的多样性和复杂性:大数据往往包含多种数据类型和格式,包括结构化数据、半结构化数据和非结构化数据。

架构需要能够灵活地处理和存储不同类型的数据。

3.数据的安全性和隐私性:大数据涉及到大量敏感信息,如个人隐私、企业机密等。

架构需要提供安全的数据访问和处理机制,以保护数据的安全和隐私。

4.数据的实时性和即时性:对于一些业务场景,如金融交易或物联网应用,需要对数据进行实时处理和响应。

架构需要提供实时处理和流式计算的能力,以满足这些业务需求。

综上所述,大数据架构是一个复杂而庞大的系统,需要综合考虑数据规模、速度、多样性、安全性等多个方面的因素。

大数据分析系统架构之探讨

大数据分析系统架构之探讨

一、Hadoop生态圈: (3)Hadoop (3)HBase (5)Hive (5)Apache Pig: (6)Impala: (6)Flume: (6)Sqoop: (7)Chukwa: (7)Mahout: (8)Hama: (8)Giraph: (8)Storm: (8)ZooKeeper: (8)Ambari: (8)Oozie: (8)Cloudera Hue: (9)二、Spark生态圈: (9)Spark: (9)Spark SQL: (10)Spark Streaming: (11)MLLib: (12)GraphX : (12)SparkR : (13)Tachyon: (14)Mesos: (15)Yarn: (15)BlinkDB : (16)三、结构化数据生态圈: (16)OLAP (17)HANA (17)Spark与Hadoop的对比 (18)Spark与Hadoop的结合 (18)Spark的适用场景 (18)案例: (19)大数据分析系统架构之探讨前言:对于大数据平台,本人也没实际实践过,所以,做为一个初学者的身份与大家探索这个问题,如有欠妥之处,请多多包涵!首先,先让我们来看看大数据平台架构的集装箱里可有哪些零件。

一、Hadoop生态圈:数据计算平台:HadoopHadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。

最核心的模块包括Hadoop Common、HDFS与MapReduce。

HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。

采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。

HDFS采用master/slave架构。

一个HDFS集群包含一个单独的NameNode和多个DataNode。

NameNode作为master服务,它负责管理文件系统的命名空间和客户端对文件的访问。

架构设计之数据架构

架构设计之数据架构

架构设计之数据架构数据架构是指在软件系统中对数据进行组织和管理的方式和规范。

它关注的是数据的存储、传输和处理,以及数据的安全性和可靠性。

在架构设计中,数据架构起着至关重要的作用,它决定了系统的性能、可扩展性和可维护性。

一、数据架构的概述数据架构是整个系统架构的重要组成部分,它负责定义和管理数据的结构、存储和访问方式。

数据架构需要考虑以下几个方面:1. 数据模型:选择合适的数据模型,如关系型、面向对象等,以满足系统的需求。

2. 数据库设计:设计数据库的表结构、字段、索引等,以支持系统的功能和性能需求。

3. 数据存储:选择合适的数据存储方式,如关系型数据库、NoSQL数据库、分布式文件系统等。

4. 数据传输:定义数据在系统内部和外部的传输方式,如API、消息队列等。

5. 数据安全:确保数据的机密性、完整性和可用性,采取合适的加密、备份和恢复策略。

二、数据架构的设计原则在设计数据架构时,需要遵循一些基本原则,以确保系统的高性能、可扩展性和可维护性:1. 数据一致性:确保数据在系统内部和外部的一致性,避免数据冗余和不一致。

2. 数据完整性:保证数据的完整性,防止数据丢失或损坏。

3. 数据可扩展性:设计可扩展的数据架构,以支持系统的增长和变化。

4. 数据安全性:采取合适的安全措施,保护数据的机密性和完整性。

5. 数据性能:优化数据的存储和访问方式,以提高系统的性能和响应速度。

三、数据架构的实施步骤在实施数据架构时,可以按照以下步骤进行:1. 需求分析:明确系统对数据的需求,包括数据的类型、结构、存储量和访问方式等。

2. 数据建模:根据需求分析结果,设计数据模型,包括实体关系图、类图等。

3. 数据库设计:根据数据模型,设计数据库的表结构、字段、索引等。

4. 数据存储:选择合适的数据存储方式,并进行数据的存储和管理。

5. 数据传输:定义数据在系统内部和外部的传输方式,确保数据的安全和可靠性。

6. 数据安全:采取合适的安全措施,保护数据的机密性和完整性。

数据架构参考范文

数据架构参考范文

数据架构参考范文数据架构是指用于描述和组织数据的结构和组织方式。

它是数据管理和数据存储的基础,并为数据的收集、存储、处理和分析提供支持。

一个好的数据架构可以提高数据的质量、可靠性和可用性,促进数据的共享和集成,以及支持企业的决策和业务目标。

以下是一些数据架构的参考要点:1.数据模型:数据模型是数据架构的基础。

它描述了数据的实体、属性、关系和约束。

常用的数据模型包括层次模型、网络模型、关系模型和对象模型。

关系模型是最为常用的一种数据模型,它采用表格、行和列来表示数据。

2.数据仓库:数据仓库是一个面向主题的、集成的、稳定的、一致的、可分析的数据集合。

它通常用于支持决策支持系统和数据分析。

数据仓库有多个层次,包括原始数据层、清洗和转换层、集成层和决策支持层。

3. 数据湖:数据湖是一个用于存储和分析大数据的中心存储库。

它可以接收来自多个数据源的原始数据,并以其原始格式保存。

数据湖通常采用分布式文件系统,如Hadoop或Amazon S3、它可以存储结构化数据、半结构化数据和非结构化数据。

4. 数据流程:数据流程描述了数据在不同系统和组件之间的流动和转换。

它包括数据的输入、处理、存储和输出。

数据流程可以通过图表、流程图或文档来表示。

常见的数据流程技术包括ETL(Extract, Transform, Load)和ELT(Extract, Load, Transform)。

5.数据安全:数据安全是数据架构的重要组成部分,它涉及到数据的保密性、完整性和可用性。

数据安全包括身份验证、授权、加密、审计和备份等措施。

数据架构应该考虑到各种威胁和风险,并采取相应的安全措施来保护数据。

6.数据治理:数据治理是一套规范和流程,用于管理和保护数据资源。

它涉及到数据的定义、分类、命名、标准化和文档化等方面。

数据治理还包括数据质量的监控和改进,以确保数据的准确性、一致性和可靠性。

7.数据集成:数据集成是将多个数据源的数据合并为一个一致的数据集合,以支持决策和分析。

大数据中心架构栈

大数据中心架构栈

大数据中心架构栈概述大数据中心架构栈是指用于构建和管理大数据中心的技术架构和组件的集合。

它包括硬件、软件和网络等方面的要素,旨在支持大规模数据处理和分析。

架构层次大数据中心架构通常包含以下几个层次:1. 基础设施层:该层包括服务器、存储设备和网络设备等基础设施组件。

这些设备提供数据中心的物理基础,负责数据的存储、传输和处理等功能。

基础设施层:该层包括服务器、存储设备和网络设备等基础设施组件。

这些设备提供数据中心的物理基础,负责数据的存储、传输和处理等功能。

2. 数据处理层:在数据中心中,大数据处理是一个关键的任务。

数据处理层包括数据处理引擎、分布式文件系统和数据处理工具等。

它们能够实现高效的数据处理和分析,支持实时和离线的数据处理应用。

数据处理层:在数据中心中,大数据处理是一个关键的任务。

数据处理层包括数据处理引擎、分布式文件系统和数据处理工具等。

它们能够实现高效的数据处理和分析,支持实时和离线的数据处理应用。

3. 数据存储层:大数据中心需要存储海量的数据。

数据存储层包括分布式数据库、分布式文件系统和分布式存储系统等。

这些系统能够提供高可靠性、高可扩展性和高性能的数据存储服务。

数据存储层:大数据中心需要存储海量的数据。

数据存储层包括分布式数据库、分布式文件系统和分布式存储系统等。

这些系统能够提供高可靠性、高可扩展性和高性能的数据存储服务。

4. 数据安全层:大数据中心中的数据安全是一个重要的问题。

数据安全层包括身份认证、权限管理、数据加密和安全审计等。

这些措施能够保护数据中心中的数据免受未授权访问和数据泄露的风险。

数据安全层:大数据中心中的数据安全是一个重要的问题。

数据安全层包括身份认证、权限管理、数据加密和安全审计等。

这些措施能够保护数据中心中的数据免受未授权访问和数据泄露的风险。

架构组件大数据中心架构栈涵盖了众多的技术组件,下面是一些常见的组件:1. Hadoop:Hadoop是一个开源的分布式计算框架,能够存储和处理大规模数据,并提供高可靠性和高性能。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据架构杂谈
(来源:毕马威大数据挖掘微信公众号,2017-09-30)
我们通常所说的“数据架构”与“应用架构”和“技术架构”并列,三者共同组成IT架构。

IT架构由业务架构驱动,从业务架构出发分析业务流程、定义数据架构,流程和数据结合定义应用架构,根据数据架构和应用架构设计技术架构。

值得注意的是:业务架构和应用架构均包含数据架构的内容,业务架构中数据架构即数据概念模型,分析重点是数据领域、主数据和核心业务对象。

业务运营的两条重要线索是流程和数据,业务流程离不开数据流转,业务运营状况通过数据反映,基于业务架构的端到端流程建模过程中会衍生出对应的业务数据对象,需要与数据架构的数据模型对接。

流程模型和数据模型对接后落实到应用(系统)层面,就形成了应用架构。

应用架构将业务对象转换为数据对象或具体的数据库表对象,数据模型进一步转换到具体应用(系统)的逻辑模型和
物理模型,在此基础上分析数据对象和应用(系统)功能之间的创建、引用、修改或删除CRUD关系,以明确功能边界划分,对应数据架构中最终的数据分布。

可以将数据架构简单分解为数据分布、数据模型、数据标准和数据治理。

数据架构为数据资产的管理和应用奠定基础,支撑数据的存储、访问、整合和分析,包含相对静态部分如元数据、业务对象数据模型、主数据、共享数据,也包含相对动态部分如数据流转、ETL、整合、访问应用和数据全生命周期管控治理。

数据是企业的关键业务资产,通过有效的组织、存储、分发和管理实现在不同业务条线之间的共享。

狭义的数据架构可以用来特指数据分布,包括数据业务分布与数据应用(系统)分布。

数据业务分布指数据在业务各环节的CRUD关系,数据应用(系统)分布指单一应用(系统)中数据架构与应用(系统)各功能模块间的引用关系,以及数据在多个应用(系统)间的引用关系,数据业务分布是数据应用(系统)分布的基础和驱动。

数据架构层面通过数据分类、分层部署等手段,从非功能性视角将数据合理布局。

通过整体架构管控和设计,支持业务操作类和管理分析类应用(系统),满足业务发展及IT转型对数据的需求,架构的扩展性和适应性能够提升数据分析应用的及时性、灵活性和准确性。

最简洁的分类方法可将数据分为基础数据和衍生数据,基础数据一般为业务操作过程中采集和加工的数据。

衍生数据将业务基础数据按照不同维度加工计算,形成统计指标供管理分析使用。

可以按照数据的生命周期、功能及其流转范围进一步把基础数据分为4类,并在此基础上进行分布设计:
参数数据:保证应用(系统)运行的控制信息,包括业务类控制信息如国家、行政区划、币种、利率等,也包括技术类
控制信息如时间阀值、流量阀值、页面配置等
•业务结果数据:记录业务活动最终结果的信息,是企事业实体关注的核心数据。

如客户、员工、渠道等数据,常需流转
到另外一个应用(系统)
•业务过程数据:某单个工作任务流为完成其功能所需要的中间过程信息,该信息不需要传输到另外一个工作任务处理,
即不需要跨任务处理的过程数据,常在单个应用(系统)内

•操作痕迹数据:记录操作人员对应用(系统)进行操作的信息。

包括业务操作痕迹数据如授权记录、业务操作记录等,
和技术痕迹数据如系统日志等。

该类数据在操作人员实际操
作过程中产生,常用于风险控制、内部审计和行为分析。

通常可以认为基础数据主要分布于操作型业务应用(系统)中,衍生数据/指标主要分布于数据仓库、数据集市和管理分析应用(系统)中。

现实业务场景中某些业务流程与管理相关,也需要基于大量的衍生数据/指标进行后续业务操作,典型的如客户关系管理系统CRM 基于客户粒度加工衍生数据再进行业务操作,由此可将其拆解为分析型ACRM和操作型OCRM,基于数据架构决策中计算与访问分离的优化思路,业界领先实践将分析加工计算部分剥离到数据集市,操作型应用(系统)读取访问已加工衍生数据进行后续业务操作。

对于拥有众多分支机构的大型企事业单位或者横跨多行业的大型企业集团,数据物理存放的集中和分散是数据分布设计中的重要内容。

从地域角度看,数据分布有数据集中存放和数据分布存放两种模式。

数据集中存放是指数据集中存放于总部数据中心,其分支机构或下属子公司不放置和维护数据,数据分布式存放是指数据分布存放于总部、分支机构或下属子公司,分支机构或下属子公司需要维护管理
自己的数据。

这两种数据分布模式各有其优缺点,需要综合考虑自身需求,确定具体数据分布策略。

一般的数据分布常采用操作型业务系统数据库DB+操作型数据存储库ODS(+数据仓库DW)+数据集市DM的方式。

业界领先实践考虑结合面向服务架构SOA、商业智能BI技术和数据虚拟化技术,利用数据整合平台将数据仓库中的数据转变为被其他应用(系统)所访问的数据服务,为那些需要满足BI需求、访问数据仓库数据的应用(系统)提供访问路径。

关于数据仓库,可参考我司资深专家结合数据分析挖掘的讨论《如何利用数据仓库优化数据分析?》和《一个数据仓库转型者眼中的数据挖掘》;关于数据集市,则可参考我司资深专家构建示例《如何从基础构建银行信用风险数据集市?》。

数据架构层面的管控包括数据架构原则、设计指南和数据规范,用以指导数据架构规划和数据模型设计,支撑数据架构决策。

具体应用(系统)设计时需遵守数据方面的要求和规范,以保障数据架构原则的落地实施。

基于数据分布的应用设计主要通过数据架构视图,从功能方面整体规划布局数据类应用及数据整合关系。

数据规范包括业务规范和技术规范,指导应用的设计开发和实施。

架构决策是在众多可行的方案中选择较优的方案,对实施中存在的问题进行决策。

数据模型包括概念模型、逻辑模型和物理模型。

数据模型设计要充分考虑性能、可用性和可维护性等,与业务流程模型对接,形成面向操作型应用的基础数据模型,与管理分析需求对接,形成面向分析型应用的统计数据模型。

定义良好的数据模型可以反映业务模式的本质,确保数据架构为业务需求提供全面、一致、完整的高质量数据,且为划分应用系统边界,明确数据引用关系,定义应用系统间的集成接口,提供分析依据。

良好的数据建模与数据标准的制定是实现数据共享,保证一致性、完整性与准确性,提高数据质量的基础。

关于数
据模型和数据质量,可参考我司资深专家文章《数据模型——数据仓库的灵魂》和《如何提高数据质量?》。

数据标准可作为数据在不同业务领域流转应遵循的标准,相关概念可参考我司高层专家的文章《聊聊有关数据的一些基本概念和常见误区(上)》和《聊聊有关数据的一些基本概念和常见误区(下)》。

数据治理指的是在数据全生命周期进行管控和治理,可划分两个层面的数据生命周期,一个是单业务对象数据生命周期,一般在应用(系统)内部,或与流程建模中的单个工作流相关;一个是跨多个业务对象的数据生命周期,可能跨越多个应用(系统),体现的是多个业务对象数据之间的转换和映射,往往是和端到端的业务流程相关。

数据治理顶层设计、管控流程机制以及措施和手段可参考我司高层专家的文章《从抗日武装的发展谈到数据治理》。

大数据时代,数据湖Data Lake的理念指出,数据可以无需加工整合,直接堆积在平台上,由最终使用者按照自己的需要进行数据处理。

而传统数据仓库建设强调的是整合、面向主题、分层次等思路。

数据湖建设思路对传统数据架构形成了重大挑战,同时也涉及应用模式等多方面的问题。

概念提出者James Dixon比喻“如果把数据集市看做一瓶饮用水,数据湖则是未经处理和包装的原生状态水库。

不同源头的水体源源不断流入数据湖,带来各种分析、探索的可能性。

”未知结构堆积数据再应用的方式为Schema On Read,即在数据访问时,由数据使用者来解析和确定数据的格式,按需进行数据探索和处理,原始数据写入者不关心其是否有一致、统一的数据格式,不预设表结构以接入数据(对应Schema On Write)。

这就对最终使用者的经验和能力提出了很高的要求。

数据湖理念的优势在于:
✎降低数据保存的成本,无需建模定义数据结构即可保存
✎降低数据产生和使用之间的延迟
✎给予最终用户最大的灵活度来处理数据,不同用户可能有不同理解
✎允许用户保存非结构化、半结构化的数据
✎对于现在不需要处理或者无法处理的数据,保留原始数据供未来使用
数据湖理念的劣势在于:
✎用户在使用时,不得不先花时间去解析数据的格式,不同用户多次解析数据造成计算资源浪费
✎有些数据如果不在写入的时候遵循一定的格式,在使用时不一定能够解析其格式,若解析错误,使用数据的结果将与其预期南辕北辙
数据湖理念契合机器学习和人工智能的发展趋势,具备广阔的应用前景。

数据架构规划需要应对数据湖理念带来的挑战。

参考文献:
张新宇《大数据时代的数据架构设计》,《中国金融电脑》2015.8 《数据架构是IT架构的核心》/ea/84980.html
人月神话《再谈数据架构》/s/blog_493a84550101gvrg.html Martin James 《战略数据规划方法学》,北京:清华大学出版社1994。

相关文档
最新文档