数据仓库

合集下载

数据仓库的介绍(数据仓库和数据库的区别)

数据仓库的介绍(数据仓库和数据库的区别)

数据仓库的介绍(数据仓库和数据库的区别)数据仓库的介绍⼀、数据仓库的基本概念数据仓库,英⽂名称为Data Warehouse,可简写为DW或DWH。

数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业务数据进⾏筛选与整合。

它为企业提供⼀定的BI(商业智能)能⼒,指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输⼊⽅是各种各样的数据源,最终的输出⽤于企业的数据分析、数据挖掘、数据报表等⽅向。

⼆、数据仓库的主要特征数据仓库是⾯向主题的(Subject-Oriented )、集成的(Integrated)、稳定的(Non-Volatile)和时变的(Time-Variant )数据集合,⽤以⽀持管理决策。

1.主题性不同于传统数据库对应于某⼀个或多个项⽬,数据仓库根据使⽤者实际需求,将不同数据源的数据在⼀个较⾼的抽象层次上做整合,所有数据都围绕某⼀主题来组织。

这⾥的主题怎么来理解呢?⽐如对于城市,“天⽓湿度分析”就是⼀个主题,对于淘宝,“⽤户点击⾏为分析”就是⼀个主题。

2.集成性数据仓库中存储的数据是来源于多个数据源的集成,原始数据来⾃不同的数据源,存储⽅式各不相同。

要整合成为最终的数据集合,需要从数据源经过⼀系列抽取、清洗、转换的过程。

3.稳定性数据仓库中保存的数据是⼀系列历史快照,不允许被修改。

⽤户只能通过分析⼯具进⾏查询和分析。

这⾥说明⼀点,数据仓库基本上是不许允许⽤户进⾏修改,删除操作的。

⼤多数的场景是⽤来查询分析数据。

4.时变性数据仓库会定期接收新的集成数据,反应出最新的数据变化。

这和稳定特点并不⽭盾。

三、数据仓库与数据库区别1、数据库数据库是⾯向交易的处理系统,它是针对具体业务在数据库联机的⽇常操作,通常对记录进⾏查询、修改。

⽤户较为关⼼操作的响应时间、数据的安全性、完整性和并发⽀持的⽤户数等问题。

传统的数据库系统作为数据管理的主要⼿段,主要⽤于操作型处理,也被称为联机事务处理 OLTP(On-Line Transaction Processing)。

数据仓库与数据湖的区别与联系

数据仓库与数据湖的区别与联系

数据仓库与数据湖的区别与联系随着数字化时代的到来,数据量急剧增长,对数据进行有效管理和处理变得越来越重要。

为了满足企业在数据管理和分析上的需求,数据仓库和数据湖成为了热门话题。

本文将讨论数据仓库和数据湖的区别与联系。

一、数据仓库1.1 概念数据仓库是指将数据从不同的业务系统中整合到一个集中式的数据存储库,并进行清洗、集成和转换,使其变成可供决策支持系统使用的数据的过程。

它是企业决策层面上的重要工具,包含历史的、事实的、统一的、一致的和可信的数据,从而对企业做出更准确、更快速的决策提供重要支持。

1.2 特点数据仓库的特点主要包括以下几点:(1)面向主题:数据仓库是针对特定业务领域的主题进行构建的,如销售、营销、客户和供应链等。

(2)综合性:数据仓库整合了多个不同关系型数据库的信息,形成一个统一的、综合的数据源,支持多维分析和数据挖掘。

(3)历史性:数据仓库记录着业务过程发生的历史记录,包括过去几年的数据,从而使企业具有更好的长期规划。

(4)只读性:数据仓库采用只读的方式提供数据,即使是企业的操作人员不能随意更改数据。

二、数据湖2.1概念数据湖是在存储和管理数据时使用建模技术,使得未经整理的数据流动更容易,从而使企业更快速地获取特定信息的一种架构。

与传统的数据仓库架构不同的是,数据湖并不要求数据经过ETL或其他处理而直接存放在湖中,从而保留了数据的原始状态,提供了更快速和更灵活的数据分析方法。

2.2 特点数据湖的特点主要包括以下几点:(1)存储原始数据:数据湖存储各种数据格式的原始数据,包括结构化数据、半结构化数据和非结构化数据。

(2)弹性:数据湖可以快速存储大量数据,可以根据需求自由调整存储容量,支持大数据处理和分析。

(3)自助服务性:数据湖不需要预先规划数据存储方式,而是要求用户首先获得存储权限,然后使用常见的数据管理和探索工具进行查询和筛选。

(4)灵活性:数据湖可以整合各种类型的工具和技术,包括Hadoop、Spark和NoSQL数据库等。

数据仓库与数据集市的区别与选择

数据仓库与数据集市的区别与选择

数据仓库与数据集市的区别与选择随着信息技术的发展和数据量的快速增长,企业对数据的需求也越来越高。

为了更好地利用和管理企业的数据资产,数据仓库和数据集市成为了常用的解决方案。

本文将探讨数据仓库与数据集市的区别,并给出在不同场景下的选择建议。

一、数据仓库的定义与特点数据仓库是指将企业各个业务系统产生的数据进行整合、清洗和转换,形成一个统一、集中、一致的数据存储空间。

数据仓库通常采取面向主题的建模方式,将业务数据按照主题进行组织,例如按照销售、客户、产品等主题进行存储。

数据仓库的特点包括:1. 面向主题:数据仓库关注企业的关键主题,将数据按照主题进行组织。

2. 集成的:数据仓库整合来自不同业务系统的数据,形成一张全面的数据模型。

3. 非易失的:数据仓库中的数据一般是只读的,不可修改,保证了数据的一致性和稳定性。

4. 历史的:数据仓库中保存了历史数据,可以进行时间序列分析和趋势预测。

二、数据集市的定义与特点数据集市是面向具体业务需求的数据存储和处理环境,它是数据仓库的一种延伸和扩展。

不同于数据仓库的集中式架构,数据集市通常采用分散式的架构,根据业务需求构建多个独立的数据集市。

数据集市的特点包括:1. 面向业务需求:数据集市根据不同的业务需求构建,可以为不同的部门和角色提供定制化的数据视图。

2. 高度灵活:数据集市采用分散式架构,每个集市可以独立定义数据模型和数据存储方式,实现灵活性和快速响应业务变化的能力。

3. 实时性需求:某些业务场景下,对于数据的实时性要求较高,数据集市可以针对这些需求提供实时数据。

4. 可扩展性:数据集市可以根据业务扩展的需要,灵活添加或删除数据集市,以适应业务的发展和变化。

三、数据仓库与数据集市的区别1. 架构设计:数据仓库采用集中式的架构,将各个业务系统的数据整合到一个统一的存储空间中;而数据集市采用分散式的架构,根据业务需求构建多个独立的数据集市。

2. 数据模型:数据仓库通常采用面向主题的数据建模方式,按照主题进行数据整合和存储;而数据集市根据具体的业务需求,可以采用不同的数据模型,如关系型模型、多维模型等。

数据仓库知识点总结

数据仓库知识点总结

数据仓库知识点总结一、数据仓库概念数据仓库是一个用来集成、清洗、存储和管理企业数据的系统,以支持企业决策制定、分析和商业智能服务。

它是一个面向主题的、集成的、时间性的、非易失的数据集合,用于支持企业决策。

数据仓库是企业数据管理的重要组成部分,它与操作型数据处理系统相辅相成。

数据仓库以不同的视角和角度组织数据,帮助企业管理者对企业整体情况进行全面分析和评估。

二、数据仓库的特点1. 面向主题:数据仓库与传统数据库相比,更加侧重对业务应用的支持,主要面向业务应用的主题而不是基本事务数据,以方便企业管理者进行更好的分析和决策。

2. 集成性:数据仓库集成了来自不同数据源的数据,将数据统一管理,并且进行了数据清洗和转换,确保数据的一致性和准确性。

3. 时态性:数据仓库中的数据具有时间性,可以保存历史数据,能够支持分析历史数据的趋势和变化。

4. 非易失性:数据仓库中的数据不会丢失,可以持久保存,并且根据需要定期备份,确保数据的安全和可靠。

5. 大数据量和复杂性:数据仓库通常包含大量的数据,并且数据之间的关系复杂,需要采用专门的数据模型和处理方法来管理和分析。

6. 以支持决策为目标:数据仓库的目标是为企业管理者提供数据支持,帮助他们更好地了解企业的经营状况和趋势,以支持企业决策。

三、数据仓库架构数据仓库架构包括了多个重要组成部分,主要包括数据提取、数据清洗、数据转换、数据加载、元数据管理和数据查询分析等。

1. 数据提取:数据提取是指从各个数据源中将需要的数据提取出来,数据源可以包括企业内部的数据库、文件系统、应用系统等,也可以包括外部数据源,如公共数据等。

2. 数据清洗:数据清洗是指对提取的数据进行清洗和规范,包括去重、校验、纠错、转换等处理,以确保数据的准确性和一致性。

3. 数据转换:数据转换是指对清洗后的数据进行格式转换、相关联和整合,以便于数据仓库的统一管理和分析。

4. 数据加载:数据加载是将转换后的数据载入数据仓库中,通常包括全量加载和增量加载两种方式,以确保数据的及时性和准确性。

数据库与数据仓库的区别与联系

数据库与数据仓库的区别与联系

数据库与数据仓库的区别与联系在信息时代的背景下,数据处理已经成为各行各业的核心工作。

数据库和数据仓库作为两个常见的数据管理工具,在实践中有着不同的应用场景和特点。

本文将对数据库和数据仓库的区别与联系进行探讨,以帮助读者更好地理解它们的不同之处和相互关系。

一、数据库的概念和特点数据库是指为了满足用户需求而设计、构建和维护的一系列数据集合。

数据库通过数据结构与数据管理系统,实现对数据的存储、查询、更新和删除等基本操作。

其特点主要包括以下几个方面:1. 数据持久化:数据库中的数据可以长期保留,并在需要时进行读取和修改。

2. 数据共享:数据库可以实现多个用户对数据进行共享和协作,提高数据利用效率。

3. 数据一致性:数据库通过事务机制保证数据的一致性和完整性,避免数据冗余和不一致的问题。

4. 高效查询:数据库通过索引等技术快速定位和获取用户需要的数据,提高查询效率。

二、数据仓库的概念和特点数据仓库是指按照时间顺序、面向主题和集成的方式,将多个异构的数据源进行统一整合和管理的大型数据存储库。

它主要用于支持决策分析和业务智能,具有以下特点:1. 面向主题:数据仓库基于企业的业务需求,以主题为中心组织和存储数据,方便用户进行专题分析和决策支持。

2. 集成统一:数据仓库通过数据抽取、转换和加载等技术整合来自不同来源的数据,保证数据的一致性和可信度。

3. 历史存储:数据仓库会长期保留历史数据,以支持用户对过去事务和趋势的分析和判断。

4. 复杂分析:数据仓库提供了复杂的分析功能,如数据切片、切块、钻取等,为决策提供更全面和深入的支持。

三、数据库与数据仓库的区别1. 定义和目的:数据库是为了满足用户的日常业务操作需求而设计的,而数据仓库则是为了支持决策分析和业务智能而构建的。

2. 数据类型和时效性:数据库主要存储操作性数据,如订单、库存等,具有实时性要求;数据仓库存储分析型数据,如销售趋势、市场调研等,具有较长的历史时效性。

数据仓库方案

数据仓库方案

数据仓库方案•数据仓库概述•数据仓库的架构•数据仓库的设计•数据仓库的建立•数据仓库的使用和维护•数据仓库的发展趋势和未来展望01CATALOGUE数据仓库概述数据仓库是一个大型、集中式存储系统,用于存储和管理企业或组织的数据。

它是一个面向主题的、集成的、非易失的数据集合,支持管理决策制定。

集成性数据仓库中的数据来源于多个源系统,经过清洗、转换和整合后集成在一起。

决策支持性数据仓库为决策制定提供支持,通过数据分析、报表和可视化工具来帮助决策者做出决策。

非易失性数据仓库中的数据是历史的、稳定的,不会因为操作频繁而发生变动。

面向主题性数据仓库中的数据组织是按照主题进行分类的,例如销售、库存、财务等。

操作型数据仓库(Operational Data Warehouse, ODW):用于支持企业日常业务操作和流程。

分析型数据仓库(Analytical Data Warehouse, ADW):用于支持高级数据分析、报表和可视化。

混合型数据仓库(Hybrid Data Warehouse, HDW):同时包含操作型和分析型数据仓库的特点,既支持日常操作也支持高级分析。

02CATALOGUE数据仓库的架构包括企业内部的业务系统、CRM系统、ERP系统等,这些系统是企业数据的主要来源。

内部数据源从数据源中抽取需要的数据,进行清洗和转换。

E(Extract)对抽取的数据进行清洗、整合、转换和加载等操作,使其满足数据仓库的需求。

T(Transform)将转换后的数据加载到数据仓库中,供后续分析和查询使用。

L(Load)星型模型以事实表为中心,周围关联多个维度表,形成星型结构。

星座模型将多个星型模型关联起来,形成一个更大型的模型。

雪花模型将维度表进一步拆分,形成更复杂的结构。

存储层OLAP层多维分析对数据仓库中的数据进行多维度的分析和查询,如时间维度、地理维度、产品维度等。

切片和切块对数据仓库中的数据进行切片和切块操作,提取需要的数据进行分析。

数据仓库 的名词解释

数据仓库 的名词解释

数据仓库的名词解释数据仓库的名词解释数据仓库(Data Warehouse)是指一个用于存储、整合和管理企业各个部门产生的大规模数据的集中式数据库系统。

它主要用于支持企业决策制定、战略规划以及业务分析。

数据仓库的设计和构建需要考虑数据的采集、转换、加载以及存储等多个方面,以确保数据的准确性和可用性。

一、数据仓库的基本概念数据仓库是一个面向主题的、集成的、时间一致的、非易失的数据集合,用于支持企业决策制定和业务分析。

它将来自不同数据源的数据进行抽取、转换和加载,形成一个统一的、易于查询和分析的数据源。

数据仓库的特点:1. 面向主题:数据仓库以主题为中心,将数据按照主题进行组织和存储,以满足不同部门和用户的信息需求。

2. 集成:数据仓库将来自不同数据源的数据进行整合,消除了数据冗余和不一致性。

3. 时间一致性:数据仓库中的数据是按照一致的时间标准进行存储和管理的,以支持历史数据分析和趋势预测。

4. 非易失性:数据仓库中的数据一旦存储,不会轻易被删除或修改,以确保数据的可追溯性和可靠性。

二、数据仓库的架构和组成部分数据仓库的架构通常包括数据采集、数据转换、数据加载、数据存储和数据查询等几个关键组成部分。

1. 数据采集:数据仓库的数据采集涉及到从各个数据源中提取和抽取数据的过程。

这些数据源可以是企业内部的关系型数据库、操作型数据源,也可以是外部的数据源,如Web数据、日志数据等。

数据采集可以通过ETL(Extract、Transform、Load)工具进行,在此过程中可以对数据进行清洗、转换和加工。

2. 数据转换:数据采集后,需要进行数据转换的操作,将采集到的数据进行整合和规范化。

这包括数据清洗、数据集成、数据变换等一系列处理,以确保数据的一致性和质量。

3. 数据加载:数据加载是将经过转换的数据加载到数据仓库中的过程。

数据加载可以是全量加载,也可以是增量加载。

在加载过程中,还可以对数据进行校验和验证,以确保数据的准确性和完整性。

数据仓库名词解释

数据仓库名词解释

数据仓库名词解释数据仓库是一个面向主题的、集成的、稳定的、直接面向最终用户的数据集合,用于支持企业决策制定、分析和决策支持系统。

数据仓库是一个独立的数据存储和管理系统,其目标是针对企业中各个部门的数据进行整合、清洗、加工和建模,从而提供一套一致、可信、易于访问和理解的数据,帮助用户进行数据分析和企业决策。

以下是一些与数据仓库相关的重要概念和名词的解释:1. 数据集成:将来自不同数据源的数据整合到数据仓库中,包括内部和外部数据源。

2. 数据清洗:数据清洗是指通过一系列的操作,消除数据中的错误、重复、缺失和不一致的部分,提高数据的质量。

3. 数据加工:对数据进行转换、聚合、计算和抽取,以满足用户的特定需求和分析目的。

4. 主题:数据仓库的主题是指根据企业的业务需求而组织起来的数据类别或领域,例如销售、人力资源、供应链等。

5. 元数据:元数据是描述数据的数据,包括数据的源头、结构、定义、关系等。

元数据对于数据仓库的管理和使用非常重要。

6. 维度:维度是数据仓库中描述主题的属性,如时间、地理位置、产品、客户等,用于分析和查询。

7. 度量:度量是数据仓库中可以计量和比较的数据,如销售额、利润、客户数量等。

8. 星型模式:星型模式是一种常见的数据仓库建模技术,其中一个中心表(事实表)围绕着多个维度表进行关联。

9. 粒度:粒度是指数据仓库中所记录的事实的详细程度,如日销售额、月销售额、年销售额等。

10. OLAP(联机分析处理):OLAP是一种针对多维数据进行快速查询和分析的技术,通过透视表、图表和报表等方式展现数据。

11. ETL(抽取、转换和加载):ETL是数据仓库中的核心过程,用于从源系统中抽取数据,通过转换和加工后加载到数据仓库中。

12. 决策支持系统:决策支持系统是通过利用数据仓库中的数据和分析工具,辅助管理层做出决策的信息系统。

数据仓库在企业中扮演着重要的角色,它能够提供一致、准确的数据,帮助企业决策者进行数据分析和制定决策。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

TF24 192 64
...
TF48 384 128
...
TF120 960 320
24 8
压缩 (TB)
32
64
128
256
512
1280
容量 压缩
= 用户数据空间 = 有效用户数据空间
议程
• Why Netezza • Netezza优势 -- 高性能 -- 简单性 -- 扩展性 -- 稳定性 -- 深压缩 -- 成熟性 • Netezza应用案例
Data Warehouse High Performance Analytics 1 TB to 1.5 PB
Queryable Archiving
100 TB to 10 PB
Netezza 1000系列 扩展性
1
10
...
TF3
Snippet 处 理器 容量 (TB)
TF6 48 16
TF12 96 32
演讲主题:智慧数据仓储 助力经营创新(Netezza)
演讲人:付杰 演讲人职务:资深信息工程师
议程
• Why Netezza • Netezza优势 • Netezza应用案例
传统数据仓库的缺点 — 花费巨额进行配置调优,但效果并不理想
高性能数据仓库一体机 (Appliance) -- 让一切变得简单
Uncompres s
Project
Restrict, Visibility
Complex ∑ Joins, Aggs, etc.
每个 “Snippet处理器” (FPGA+CPU) 以高于 115MB/秒的速度处理数据库的数据; 高压缩率 = 性能的提高
select DISTRICT, PRODUCTGRP, sum(NRX) and and
数据在进入到内存之前,已经 经过流式的数据处理
Confidential
1 真正的非共享的大规模并行处理架构
FPGA
CPU
内存
高级分 析 BI应用
主机
FPGA
CPU
内存
Hosts
ETL
FPGA
CPU
内存
数据加 载
网络结构
磁盘阵列柜
应用
S-Blades™
Netezza 一体机
1 最小的物理处理单元 -- 数据流处理程序
全省本地数据集市 平台:
某电信公司
客户背景
• 现有1000多万用户,向其客户提供固定电话、 移动电话、互联网接入及应用、数据灾备、视 讯服务、国际及港澳台通信等多种综合信息服 务
客户痛点
• 电信本地网的数据应用需求迫切 • 2006年建设的全省集中经分系统投资巨大, 但对经营分析和数据需求支撑有限
高可用性&稳定性
磁盘阵列柜
RAID1镜像+热备盘SM源自主机主备模式,操作系统级HA
Snippet Blades™ (S-Blades™)
负载均衡,动态接管
Confidential Page 20
-- 数据镜像(Disk Mirroring)和故障保护(Failover)
主空间 镜像空间 临时空间
解决方案
• 经过客户实际评估和验证,IBM Netezza一体 机提供的资料仓储解决方案将能发挥最佳效能, 最符合HTC企业现阶段的需求,并且能够线性 扩展满足企业未来的数据增长和海量数据分析 任务。
全球500+成功客户案例分布广泛
数字传媒
金融服务
政府
健康与生命科学
零售业
电信业
其他
31
谢 谢
select DISTRICT, PRODUCTGRP, sum(NRX) from MTHLY_RX_TERR_DATA where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO'
FPGA Core
CPU Core
Slice of table MTHLY_RX_TERR_DATA (compressed)
成熟的未来发展路线图
25
成熟的未来发展路线图
• October 2006 – NPS 3.1 系统软件 在 3代硬件上 – 比大多数竞争性数据库快100x倍 • August 2007 – NPS 4.0 系统软件 在3代硬件上 – 比NPS 3.1 SW获得100%的性能提升. 没有HW变化. • May 2008 NPS 4.5 系统软件 在 3代硬件上 – 比NPS 4.0 SW获得100%的性能提升. 没有HW变化. • August 2009 Netezza TwinFin 4代一体机 NPS 5.0 SW – 比NPS 4.5 SW和3代HW 获得2x到10x倍的性能提升. • October 2010 NPS 6.0 系统软件 – 比NPS 5.0 SW获得100%的性能提升. 没有HW变化. • 对于我们发布的每一代一体机,在同等硬件条件下仅通过软件更新,我们就证明 了2x 到10x倍的性能提升! • 没有其他RDBMS厂商显示出这种让同样的一组硬件在速度上不断提升的先例, 我们独一无二的做到了. • 我们的性能提升按这种步伐持续下去…
自适应的流式压缩技术,自动管理,对用户透明
采样结果
• 系统范围的数据压 缩 • 零调优,零管理 • 只需软件升级 • 专利算法 –纵向, 列压缩 –线速解压 –行级存储 • 增强的压缩计划 –基于数据的多压 缩策略 –所有数据类型 -平均4x倍压缩比 ,最大32x倍压 缩比
议程
• Why Netezza • Netezza优势 -- 高性能 -- 简单性 -- 扩展性 -- 稳定性 -- 深压缩 -- 成熟性 • Netezza应用案例
查询请求 服务器 关系型数据库软件 数据首先被搬运到 内存,然后由 SQL 进行处理 存储
Confidential
高性能
Netezza数据仓库专用设备的出现:带来性能的革命性突破
Netezza数据仓库设备
CPU: 仅为现有 系统的2% 查询结果 网络流量: 仅为现有 系统的1%
查询请求 SMP主机 (2-4 CPU) MPP “智能存储”: 数据处理单元与存储相结合
CREATE DATABASE my_db;
简单性 – 减轻运维人员的管理成本
简单性 – 灵活的工作负载管理
工作负载管理 (WLM) 提供可选的功能来管理资源,在不同的多用户环境下设 定资源使用的优先级,来满足混合用户工作负载下的需求 • 保障资源分配(GRA) – 在多用户环境下在多组用户中分配 NPS资源的机制 • 分优先级查询执行 (PQE) – 更细粒度的控制资源分配,从计划到执行层面进一步扩充查询优先级的控 制 • 短查询倾向(SQB) – 在系统工作负载量很大的情况下,保证执行短查询的用户获得更快速的高 优先级的查询响应时间 • 工作负载限制(GRA) – 可以利用group定义的JOB MAXIMUM属性来控制被本组提交的活动的运 行任务的数量
高可用性&稳定性

所有用户数据和临时空间镜像保护 磁盘故障对查询和交易透明


故障磁盘驱动的数据自动重生成
坏数据区自动重写以及自动迁移至新安全区
议程
• Why Netezza • Netezza优势 -- 高性能 -- 简单性 -- 扩展性 -- 稳定性 -- 深压缩 -- 成熟性 • Netezza应用案例
议程
• Why Netezza • Netezza优势 -- 高性能 -- 简单性 -- 扩展性 -- 稳定性 -- 深压缩 -- 成熟性 • Netezza应用案例
Netezza家族扩展性
Skimmer
TwinFin
Cruiser
Development & Test System 1 TB to 10 TB
1. table and indexes DataBase 2. tablespace 3. datafile 4. file Netezza: 极少 (或无需) 涉及 CREATE DATABASE my_db; 5. file system File System 6. striped logical volume 7. mirror/plex 8. sub-disk OS 9. raw device Network 10. Brocade SAN switch 11. EMC Symmetrix volume 12. EMC Symmetrix striped meta-volume Storage 13. EMC Symmetrix hyper-volume 14. EMC Symmetrix remote volume (replication)
50 亿条记录
12,000 个产品代码 40 亿次计算 (ETL) 12 至 20 个测试周期/年
生产周期为 9 天 (CMV)
议程
• Why Netezza • Netezza优势 -- 高性能 -- 简单性 -- 扩展性 -- 稳定性 -- 深压缩 -- 成熟性 • Netezza应用案例
简单性 -- 减轻设计开发人员的工作量
where MONTH = '20091201' MARKET = 509123 SPECIALTY = 'GASTRO'
sum(NRX) FPGA 的实际处 理吞吐量: 460MB/s*
给客户带来的利益 – 美国银行使用Netezza前后给业务带来的变化
使用 Netezza 前 2 个应用程序 使用 Netezza 后 7 个应用程序(且在不断增长) 850 亿条记录 20,100 个产品代码 18 亿次计算 (ETL) 2010 年有 120 个测试周期 生产周期为 24 个小时
相关文档
最新文档