T01-03 EMC Greenplum Features and Strengths

合集下载

数据库系统Greenplum 研究

数据库系统Greenplum 研究

数据库系统Greenplum研究目录1. Greenplum简介 (1)2. Greenplum技术特点 (1)2.1 无共享架构 (2)2.2 基础架构MPP (3)2.3 Greenplum应用实例 (5)3. Greenplum同其他数据仓库的对比研究 (6)4. 总结 (7)摘要Teradata 作为渤海商业银行使用的的数据库仓库系统,为银行查询统计功能提供了稳定和高可用性的服务。

作为2014 年重点项目,目前我司的Teradata 版本已经升级到13.1,有效存放数据的容量到到18TB。

本文对时下新兴的数据库系统Greenplum 进行探索和研究,并将Greenplum 同其他主流数据库进行技术分析和对比。

1. Greenplum 简介Greenplum 成立于2003 年6 月,总部位于美国的加利福尼亚州,最初由Sun 公司资助,由Teradata 的几位资深工程师合作创建的为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)解决方案和咨询服务的公司。

2010 年7 月,EMC公司将Greenplum 收购,使得其研发和资本实力大大增强,成为数据仓库的一名新锐。

目前已经在纽约证券交易所、eBay、中信银行、淘宝、支付宝等具有较大型数据业务的公司中使用。

渤海商业银行数据仓库组对Greenplum 在数据仓库中的应用进行了可行性分析,并对该公司的运行情况进行了解和访问,鉴于Greenplum 公司与EMC 公司的整合需要一定时间的磨合,以及Greenplum 中国公司的重组,我们认为该企业的成熟度和对中国用户的服务速度还不是十分明确,但Greenplum 作为后起之秀有其值得研究和学习的方面。

2. Greenplum 技术特点Greenplum 成立的时间较晚,因此将主要精力放到了较为新颖的技术:新一代数据仓库和大规模分析处理数据库。

Greenplum 采用了基于相关标准的方法,可以帮助客户创建数据仓库,充分利用低成本的商用服务器、存储和联网设备,通过经济的方式升级到千万亿字节的系统。

免费版EMC Greenplum数据引擎

免费版EMC Greenplum数据引擎

免费版EMC Greenplum数据引擎
佚名
【期刊名称】《《个人电脑》》
【年(卷),期】2011(017)003
【摘要】2011年2月14日,在日前举行的Strata 2011大会上.全球信息基础架构解决方案的领导者EMC公司(纽约证券交易所代码:EMC)推出了EMC Greenplum数据库的社区免费版。

这一业界领先的高性能大规模并行处理(MPP)数据库产品还包含了免费的分析算法和数据挖掘工具。

这一消息是2011年2月1—3日期间在加州圣克拉拉举行的20110’Reilly Strata大会上发布的。

EMC
计算产品部副总裁Scott Yara在会上发表了讲话。

【总页数】1页(P73-73)
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.EMC为什么银行需要EMC:EMC在金融领域捷报频传 [J],
2.EMC收购Greenplum这事儿 [J], 冯大辉
3.基于Greenplum的金融数据仓库模型设计与实现 [J], 杨锐;张荣荣
4.数据引擎Greenplum正式宣布在中国独立运营 [J],
5.数据引擎领先者Greenplum登陆北京 [J],
因版权原因,仅展示原文概要,查看原文内容请购买。

Greenplum环境安装配置步骤

Greenplum环境安装配置步骤

Greenplum环境安装配置步骤分类:Greenplum 2021-03-10 10:23 1145人阅读评论(0) 收藏举报hadoop数据库emcgreenplumdatabase1、环境准备服务器分配192.168.100.101--mdw 192.168.100.11--smdw 192.168.100.12--sdw1192.168.100.13--sdw2ms1与ms2之间的心跳ip配置 10.10.10.1--mdw 10.10.10.2--smdw2、修改hosts文件(所有主机hosts文件必须全部修改)vi /etc/hosts192.168.100.101 mdw 192.168.100.11 smdw 192.168.100.12 sdw1 192.168.100.13 sdw23、关闭iptables和selinux[root@mdw ~]# serviceiptables stop [root@mdw ~]# [root@mdw ~]# [root@mdw ~]# [root@mdw ~]#[root@mdw ~]# chkconfigiptables --listiptables 0:��抽�� 1:��抽�� 2:��抽��3:��抽�� [root@mdw ~]# export LANG=zh_CN [root@mdw ~]# chkconfigiptables --listiptables 0:关闭 1:关闭 2:关闭 3:关闭 4:关闭 5:关闭 6:关闭[root@mdw ~]# cat /etc/selinux/config# This file controls the state of SELinux on the system. # SELINUX= can take one of these three values:4:��抽��5:��抽�� 6:��抽�� # enforcing - SELinux security policy is enforced.# permissive - SELinux prints warnings instead of enforcing. # disabled - No SELinux policy is loaded. SELINUX=disabled# SELINUXTYPE= can take one of these two values: # targeted - Targeted processes are protected, # mls - Multi Level Security protection. SELINUXTYPE=targeted[root@mdw ~]# setenforce 04、修改系统参数 1)vi /etc/sysctl.conf [root@mdw ~]# sysctl -pnet.ipv4.ip_forward = 0net.ipv4.conf.default.rp_filter = 1net.ipv4.conf.default.accept_source_route = 0 kernel.sysrq = 1kernel.core_uses_pid = 1 net.ipv4.tcp_syncookies = 1error: \error: \error: \kernel.msgmnb = 65536 kernel.msgmax = 65536 kernel.shmmax = 68719476736 kernel.shmall = 4294967296error: \vm.overcommit_memory = 2error: \net.ipv4.tcp_max_syn_backlog = 4096 net.ipv4.conf.all.arp_filter = 1error: \dev_max_backlog = 10000 error: \kernel.shmmni = 4096kernel.sem = 250 512000 100 2048 net.ipv4.tcp_tw_recycle = 1net.ipv4.conf.default.arp_filter = 1kernel.msgmni = 20482) vi /etc/security/limits.conf* softnofile 65536 * hardnofile 65536 * softnproc 131072 * hardnproc 131072在RHEL6.x版本需要修改文件 /etc/security/limits.d/90-nproc.conf,增加如下内容: * softnproc 131072 * hardnproc 1310724、修改完系统参数后重启服务器5、创建gpadmin用户 useraddgpadmin6、安装GP1) 上传安装文件解压缩 2)执行安装文件[root@mdw GPDB]# ./greenplum-db-4.2.6.3-build-2-RHEL5-x86_64.binI HAVE READ AND AGREE TO THE TERMS OF THE ABOVE EMC SOFTWARE LICENSE AGREEMENT.****************************************************************************** ** Do you accept the EMC Database license agreement? [yes|no]****************************************************************************** ** yes****************************************************************************** ** Provide the installation path for Greenplum Database or press ENTER to accept the default installation path: /usr/local/greenplum-db-4.2.6.3****************************************************************************** **/home/gpadmin/GPDB/install****************************************************************************** ** Install Greenplum Database into ? [yes|no]****************************************************************************** ** yes****************************************************************************** ** [Optional] Provide the path to a previous installation of Greenplum Database, or press ENTER to skip this step. e.g. /usr/local/greenplum-db-4.1.1.3This installation step will migrate any Greenplum Database extensions from the provided path to the version currently being installed. This step is optional and can be run later with:gppkg --migrate /home/gpadmin/GPDB/install****************************************************************************** **Extracting product to /home/gpadmin/GPDB/installSkipping migration of Greenplum Database extensions...******************************************************************************** Installation complete.Greenplum Database is installed in /home/gpadmin/GPDB/installGreenplum Database documentation is available for download at.****************************************************************************** ** [root@mdw GPDB]#[root@mdw install]# source greenplum_path.sh [root@mdw install]#3)准备allnotes文件 [root@mdw install]# pwd /home/gpadmin/GPDB/install [root@mdw install]# [root@mdw install]# [root@mdw install]# [root@mdwinstall]# lsallnotes bin demo docs etc ext GPDB-LICENSE.txt greenplum_path.sh include lib LICENSE.thirdparty sbin share[root@mdw install]# catallnotes sdw1 sdw2 smdw4)建立多机互信[root@mdw install]# gpssh-exkeys -f allnotes[STEP 1 of 5] create local ID and authorize on local host .../root/.ssh/id_rsa file exists ... key generation skipped[STEP 2 of 5] keyscan all hosts and update known_hosts file[STEP 3 of 5] authorize current user on remote hosts ... send tosdw1 ... send to sdw2 ****** Enter password for sdw2: ... send to smdw[STEP 4 of 5] determine common authentication file content[STEP 5 of 5] copy authentication files to all remote hosts ... finished key exchange with sdw1[ERROR] unable to copy authentication files to sdw2 lost connection[ERROR] unable to copy authentication files to smdw lost connection上述报错解决办法:删除mdw /root/.ssh/目录下的内容重新执行gpssh-exkeys -f allnotes5)创建存放数据的目录[root@mdw GPDB]# mkdir data [root@mdw GPDB]# mkdir data/master[root@mdw GPDB]# chowngpadmin:gpadmin data -R [root@mdw GPDB]#感谢您的阅读,祝您生活愉快。

greenplum实施方案

greenplum实施方案

greenplum实施方案Greenplum实施方案在当今大数据时代,企业面临着海量数据的存储、管理和分析挑战。

为了更好地应对这些挑战,越来越多的企业开始采用Greenplum作为他们的大数据解决方案。

本文将介绍Greenplum实施方案,帮助企业更好地理解和应用Greenplum。

首先,要实施Greenplum,企业需要进行需求分析和规划。

在这一阶段,企业需要明确自己的数据存储和分析需求,以及未来的发展方向。

同时,还需要评估现有的IT基础设施和人员技术水平,以确定是否具备实施Greenplum的条件。

其次,企业需要进行Greenplum的部署和配置。

在部署阶段,企业需要选择合适的硬件设备,并进行相应的网络和安全设置。

在配置阶段,企业需要根据自身需求对Greenplum进行参数设置和优化,以确保系统的稳定性和性能。

接下来,企业需要进行数据迁移和导入。

在这一阶段,企业需要将现有的数据迁移到Greenplum中,并进行相应的数据清洗和转换工作。

同时,企业还需要建立数据导入的定时任务,确保数据的及时更新和同步。

然后,企业需要进行应用开发和优化。

在这一阶段,企业需要根据自身业务需求开发相应的数据分析应用,并对应用进行性能优化和调整,以提高数据分析的效率和准确性。

最后,企业需要进行监控和维护。

在这一阶段,企业需要建立完善的监控系统,对Greenplum的运行状态和性能进行实时监控,并及时进行故障排除和性能调优。

总的来说,Greenplum的实施方案涉及到需求分析、部署配置、数据迁移导入、应用开发优化以及监控维护等多个方面。

企业在实施Greenplum时,需要充分考虑自身的实际情况,合理规划和安排每个阶段的工作,以确保整个实施过程顺利进行,并达到预期的效果。

通过本文的介绍,相信读者对Greenplum的实施方案有了更深入的了解。

希望企业可以根据自身需求和实际情况,合理选择和应用Greenplum,从而更好地应对大数据挑战,提升企业的竞争力和发展潜力。

Greenplum最佳实践

Greenplum最佳实践

Greenplum最佳实践⼀、最佳实践数据库参数部分GP数据库参数配置以下配置存于⽂件–postgresql.conf中,仅列出⼀些最常⽤的参数。

shared_buffers:刚开始可以设置⼀个较⼩的值,⽐如总内存的15%,然后逐渐增加,过程中监控性能提升和swap的情况。

effective_cache_size : 这个参数告诉PostgreSQL的优化器有多少内存可以被⽤来缓存数据,以及帮助决定是否应该使⽤索引。

这个数值越⼤,优化器使⽤索引的可能性也越⼤。

因此这个数值应该设置成shared_buffers加上可⽤操作系统缓存两者的总量。

通常这个数值会超过系统内存总量的50%。

work_mem: 当PostgreSQL对⼤表进⾏排序时,数据库会按照此参数指定⼤⼩进⾏分⽚排序,将中间结果存放在临时⽂件中,这些中间结果的临时⽂件最终会再次合并排序,所以增加此参数可以减少临时⽂件个数进⽽提升排序效率。

当然如果设置过⼤,会导致swap的发⽣,所以设置此参数时仍需谨慎,刚开始可设定为总内存的5%。

temp_buffers: 即临时缓冲区,拥有数据库访问临时数据,GP中默认值为1M,在访问⽐较到⼤的临时表时,对性能提升有很⼤帮助。

gp_fts_probe_threadcount: 设置ftsprobe线程数,此参数建议⼤于等于每台服务器segments的数⽬。

gp_hashjoin_tuples_per_bucket: 此参数越⼩,hash_tables越⼤,可提升join性能。

gp_interconnect_setup_timeout: 此参数在负载较⼤的集群中,应该设置较⼤的值。

gp_vmem_protect_limit:控制了每个段数据库为所有运⾏的查询分配的内存总量。

如果查询需要的内存超过此值,则会失败。

使⽤下⾯公式确定合适的值:(swap + (RAM * vm.overcommit_ratio)) * .9 / number_of_Segments_per_server1例如,具有下⾯配置的段服务器:8GB 交换空间128GB 内存vm.overcommit_ratio = 508 个段数据库1234(8 + (128 * .5)) * .9 / 8 = 8 GB,则设置gp_vmem_protect_limit为 8GB:gp_statement_mem:服务器配置参数 gp_statement_mem 控制段数据库上单个查询可以使⽤的内存总量。

GreenPlum使用手册

GreenPlum使用手册

GreenPlum数据库集群安装说明及使用手册开心十二月总结****年**月**日目录1体系结构介绍 (4)2安装 (10)2.1安装 (10)2.1.1安装准备 (10)2.1.2安装gp-db (11)2.1.3配置通讯 (13)2.1.4建立数据存储池 (17)2.1.5同步系统时间 (17)2.1.6验证安装是否成功 (17)2.1.7初始化 (17)2.1.8数据库的启停 (18)2.2Master双机热备 (19)2.3Segment节点互备 (20)3GP数据库的使用 (22)3.1pgAdminIII工具 (22)3.1.1安装和第一次使用pgAdminIII (22)3.1.2主窗体 (23)3.1.3导航菜单 (23)3.1.4工具栏介绍 (24)3.1.5数据库与表的创建 (25)3.1.6使用pgAdminIII备份数据库 (25)3.2JDBC配置 (26)3.3GP数据库两个重要概念 (27)3.3.1什么是Schema (27)3.3.2数据分布存储 (28)3.4GP的SQL语法 (28)3.4.1数据加载 (28)3.4.2SQL并行查询 (32)3.4.3聚合函数 (32)3.4.4索引 (32)3.4.5分区 (34)3.4.6函数 (35)4维护数据库 (39)4.1数据库启动gpstart (39)4.2数据库停止gpstop (41)4.3查看实例配置和状态 (41)4.4查看数据库运行状态gpstate (42)4.5查看用户会话和提交的查询等信息 (43)4.6查看数据库、表占用空间 (43)4.7查看数据分布情况 (44)4.8实例恢复gprecoverseg (44)4.9查看锁信息 (44)4.10数据库的备份与恢复 (44)5调优、排错 (44)6附件 (44)6.1DBA常用命令 (44)7Q&A (45)7.1不支持触发器 (45)7.2更新操作中的若干问题 (45)1体系结构介绍Greenplum数据库产品——下一代数据仓库引擎和分析方法Greenplum公司是企业数据云计算解决方案的创始人,为客户提供灵活的数据商业智能和分析方法。

Greenplum中SQL特征


系统表/视图
• gp_configuration • pg_tables • pg_partition • pg_partitions • pg_proc • pg_indexes • pg_class • pg_stat_activity • pg_locks • …
对象授权
•Tables, Views, Sequences
没有触发器 不能指定表空间 不能在function中建立新的事务保存点 不推荐使用外键和索引(特殊情况除外)
Data Type/Command
Data Type / Command ORACLE Numeric NUMBER (p, s) POSTGRES SMALLINT (2 bytes) INTEGER (4 bytes) BIGINT (8 bytes) DECIMAL (p, s) (11 + p/2 bytes) NUMERIC (p, s) (11 + p/2 bytes) REAL (4 bytes) DOUBLE (8 bytes) SERIAL (4 bytes) BIGSERIAL (8 bytes) CHAR VARCHAR DATE or TIMESTAMP without Time Zone TIMESTAMP INTERVAL/TIME DATE_TRUNC (‘day’, <date>) current_date current_timestamp or now() current_timestamp + ’36 hours’::interval Large Objects (up to 2 GB) BYTEA TEXT
Greenplum特性
• DK分布
HASH分布 随机分布 避免数据倾斜 不能建立唯一索引

pivotal greenplum的发展历史

pivotal greenplum的发展历史Pivotal Greenplum是一款用于大数据分析和数据仓库的开源数据库管理系统。

下面是Pivotal Greenplum的发展历史:- 2003年,Greenplum公司成立,最初专注于开发用于大规模数据处理的数据库解决方案。

- 2005年,Greenplum推出了Greenplum Database,这是一款基于PostgreSQL的并行化数据库管理系统,旨在提供高性能和可扩展性。

- 2010年,Greenplum推出了Greenplum HD,这是一款基于Apache Hadoop的分布式数据处理平台。

它将Greenplum Database和Hadoop的分布式计算能力相结合,使得用户能够进行高效的大数据分析。

- 2012年,EMC Corporation收购了Greenplum公司,并将其作为旗下业务部门进行运营。

- 2013年,EMC Corporation收购了Pivotal Labs,并创建了Pivotal Software公司,推动Greenplum的进一步发展。

- 2015年,Pivotal Software推出了Pivotal Greenplum,作为其数据和云平台解决方案的一部分。

Pivotal Greenplum在高性能和大规模数据处理方面做出了一系列创新,包括并行查询处理和高速数据加载。

- 2017年,Pivotal Software与Google、VMware和Microsoft等公司合作,推出了Kubernetes-based Pivotal Container Service (PKS),旨在提供一种简化和自动化的方式来部署和管理容器化应用程序。

- 至今,Pivotal Greenplum继续作为一款领先的数据仓库解决方案被广泛应用于各种行业和组织中,帮助用户处理和分析大规模数据。

同时,Pivotal Software也不断推动Greenplum的创新和发展,将其整合到更多的云平台和数据工具中。

Greenplum优化总结

Greenplum优化总结Greenplum优化总结GP优化需要了解清理缓存、性能监控、执⾏计划分析等知识。

优化主要包含以下四⽅⾯: 表、字段,SQL,GP配置、服务器配置,硬件及节点资源。

⼀、清理缓存:#!/usr/bin/sudo bashgpstop -r #快速停⽌GP数据库sync #清空⾼速缓存前尝试将数据刷新⾄磁盘#释放linux内存echo1 > /proc/sys/vm/drop_cachesecho2 > /proc/sys/vm/drop_cachesecho3 > /proc/sys/vm/drop_cachesgpstart #启动GP数据库⼆、性能监控Performance Monitor Greenplum监控管理平台Pivotal Greenplum Command Center (GPCC)和Pivotal Greenplum (GPDB)。

实际使⽤过程中发现对于6-8秒的查询(单表亿级数据),GPCC反应⽐较慢,CPU、IO等信息为0,可以采⽤其他⽅式实时监控CPU、内存、IO、⽹络等信息。

三、执⾏计划分析 EXPLAIN 会为查询显⽰其查询计划和估算的代价,但是不执⾏该查询。

EXPLAIN ANALYZE除了显⽰查询的查询计划之外,还会执⾏该查询。

EXPLAIN ANALYZE会丢掉任何来⾃SELECT语句的输出,但是该语句中的其他操作会被执⾏(例如INSERT、UPDATE或者DELETE)。

slice、motion GPDB 有⼀个特有的算⼦:移动( motion )。

移动操作涉及到查询处理期间在 Segment 之间移动数据。

motion 分为⼴播( broadcast )、重分布( redistribute motion )、Gather motion。

正是 motion 算⼦将查询计划分割为⼀个个 slice ,上⼀层 slice 对应的进程会读取下⼀层各个 slice 进程⼴播或重分布的数据,然后进⾏计算。

greeplumn介绍

Greenplum是一个基于开源PostgreSQL的分布式数据库,采用shared-nothing架构,即主机、操作系统、内存、存储都是每台服务器独立自我控制,不存在共享。

Greenplum本质上是一个关系型数据库集群,实际上是由多个独立的数据库服务组合而成的一个逻辑数据库。

与Oracle的RAC不同,这种数据库集群采取的是MPP(Massively Parallel Processing)架构。

Greenplum最大的特点就是基于低成本的开放平台基础上提供强大的并行数据计算性能和海量数据管理能力。

这个能力主要指的是并行计算能力,是对大任务、复杂任务的快速高效计算。

Greenplum内部使用udp网络,但是Greenplum会对数据包进行校验,因此可靠性等同于TCP。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2005 2005 2005 2005 2005 2005 2005 2005 2005 2005 2005 2005
12 11 42 64 32 12 34 21 15 10 82 55
• • •
数据均匀分布在每一块磁盘上面 发挥每一块磁盘性能,根本上解决I/O瓶颈 支持数据Distribution分布和Partition分区
外部存储 数据库存储
© Copyright 2010 EMC Corporation. All rights reserved.
6
Master and Segment Node
Master Node
• • • • •
建立与客户端的连接和管理 SQL的解析并形成执行计划 执行计划向Segment的分发 收集Segment的执行结果 Master不存储应用业务数据,只 存储数据字典
Segment Segment Segment Master Master

Segment
Segment Node
• •
业务数据的存储和存取 用户查询SQL的执行
© Copyright 2010 EMC Corporation. All rights reserved.
7
数据均匀分布
并行处理的关键
0101 0000 0101 0000 0101 0000 0101 0000 0101 0000 0000 0000 0000 0101 0000 0101 0000 0101 0000 0101 0101 0000 0101 0000 0101 0000 0101 0000 0101 0000 0000 0000 0000 0101 0000 0101 0000 0101 0000 0101 0101 0000 0101 0000 0101 0000 0101 0000 0101 0000 0000 0000 0000 0101 0000 0101 0000 0101 0000 0101
© Copyright 2010 EMC Corporation. All rights reserved.
22
行列组合存储优势
Row 1 Row 2 Row 3


组合存储 • 按照应用类型,随需定
行存储 • 大多数字段频繁查询 • 随机行访问较多
列存储 • 少数字段查询,大幅节
省I/O操作 大数据量频繁访问,性 能提升30%以上

加载速度随着节点线性 增加,加载速度随着 ETL Server线性增加
© Copyright 2010 EMC Corporation. All rights reserved.
11
负载管理技术
资源随需定制
Connection-Level • 连接池 • 连接数
Session-Level • 资源队列 • CPU资源优先级 • 磁盘页访问控制
© Copyright 2010 EMC Corporation. All rights reserved.
10
并行加载和导出
MPP Scatter/Gather
业界最快加载速度
• •
业界最快的加载速度 >10TB/Hr 基于MPP Scatter/Gather流技术 的高性能并行加载和导 出功能
MySQL
……
Postgres
EMC Hitachi Cisco
数据文件
支持各种 数据源
支持各种 ETL工具
支持符合X86架构硬件平 台 支持ODBC/JDBC等多种 接口
JavaEE .Net SAP BO Actuate Oracle BIEE Cognos …… 支持SQL直接并行访问 外部数据文件 支持外部编程直接使用 SQL并行访问数据库
Query-Level • SQL查询优先级
© Copyright 2010 EMC Corporation. All rights reserved.
12
列存储技术
大幅提高I/O性能
什么是列存储? 什么是列存储? • 传统数据库将所有记录中的每一行数据
A 1 2 3 4 5 6 A1 A2 A3 A4 A5 A6 B B1 B2 B3 B4 B5 B6 C C1 C2 C3 C4 C5 C6
• • • • • • •
© Copyright 2010 EMC Corporation. All rights reserved.
17
Agenda
Greenplum架构 产品功能 产品优势
© Copyright 2010 EMC Corporation. All rights reserved.

Partition定义多维压缩方式和压缩比
© Copyright 2010 EMC Corporation. All rights reserved.
14
动态在线扩容技术
Master
interconnect
seg1
seg2
seg3
seg4
seg5
seg6
系统永不停机
• •
容量和性能在扩展后线性增长 数据自动在所有节点上重新分布
32
1
Agenda
Greenplum架构 产品功能 产品优势
© Copyright 2010 EMC Corporation. All rights reserved.
2
Greenplum 架构
MPP (Massively Parallel Processing) Shared-Nothing Architecture
© Copyright 2010 EMC Corporation. All rights reserved.
15
实时运行性能监控器
Performance Monitor
• • • • •
互动的基于Web 的性能监控工具 支持实时和历史视 图,问题回溯 实时资源利用情况 实时SQL执行情况 问题和查询内部细 节
Master Severs
生成查询计划分配派发 汇总执行结果
SQL MapReduce
...
...
Network Interconnect Segment Severs
执行查询计划 数据存储管理
...
...
External Sources
并行装载或导出
© Copyright 2010 EMC Corporation. All rights reserved.
© Copyright 2010 EMC Corporation. All rights reserved.
16
支持各种工具和接口
Oracle
抽取、转换、加载 (ETL)
分析型应用
SQL Server
IBM DB2
Informatica DataStage
SUN HP IBM ORACLE DB2
5
并行数据流引擎
MPP核心技术
MapReduce代码 (Python、Perl等)
ODBC JDBC etc
Query Planner 及优化器(SQL)
并行数据流引擎
交易管理器 及日志文件
• • • •
利用原生MapReduce模型实现 ,比传统快数十倍 全部SQL逻辑都可以并行执行 并行技术加载和导出数据 并行数据备份和恢复
EMC Greenplum Training For ATC
Greenplum 功能和优势
EMC咨询服务部 Tracy.Li 易安信电脑系统(中国)有限公司 2010年11月
© Copyright 2010 EMC Corporation.All rights reserved. © Copyright 2010 EMC Corporation. All rights reserved.
Greenplum特点 特点
大规模并行处理无共享架构,支持1000个以上节点 支持主流虚拟化技术 多级容错机制,高可靠Mirror技术 支持各种工具、开发框架和接口 增加节点,性能和存储容量线性扩展 多维负载管理技术,资源随需定制 采用X86架构PC Server,更低TCO
© Copyright 2010 EMC Corporation. All rights reserved.

© Copyright 2010 EMC Corporation. All rights rese多维压缩方式
数据压缩的好处 • 显著地减少占用的磁盘空间,降低存储成本 • 磁盘I/O速度与CPU和内存有很大差距,利用CPU和内存的
闲置资源还原数据,大幅提高磁盘I/O性能
Order
Customer ID Order Order Date
43 64 45 46 77 48 50 56 63 44 53 55
Oct Oct Oct Oct Oct Oct Oct Oct Oct Oct Oct Oct
20 20 20 20 20 20 20 20 20 20 20 20
3
Agenda
Greenplum架构 产品功能 产品优势
© Copyright 2010 EMC Corporation. All rights reserved.
4
私有云计算平台
Private Computing Cloud
云计算特点
超大规模 虚拟化 高可靠性 通用性 高可扩展性 按需服务 低总体成本
© Copyright 2010 EMC Corporation. All rights reserved.
9
Segment Node 高可用性
Mirror Technology
Segment 1 (primary)
相关文档
最新文档