达梦数据交换平台集群功能介绍
达梦数据介绍

达梦如何冲击核心业务系统——国产数据库的产品发展之道韩朱忠达梦数据库一家国产数据库厂商愿景——坚持原始创新、实现产业报国提供丰富的数据处理产品和解决方案:•数据交换•数据管理•数据分析达梦坚持以关系数据库(DM7)为基础说到“国产数据库”——起步中国数据库国产化的努力工作,始于上世纪80年代达梦公司的前身——大学的一个课题组,同期起步重大行业核心的生产、控制和管理系统行业外围系统或中小企业信息管理系统关于“国产数据库”——缓慢前行三十年来,国产厂商大部分的努力,都是在低端市场搏杀金融、电信核心交易系统毋容置疑,从市场来看国产数据库发展的太慢低技术含量、低利润、低知名度、低品牌形象高端市场难以突破2008电力调度,生产库——核心系统三家厂商拼了近3年,首单落地——选型PK、定制开发、性能调优、驻场维保Now:90+%份额Get但仅这样,还远远不够!2012中国航信-航空电子客票2013国家工商管理总局-国家企业信用信息公示值得激动的新机遇重大行业核心的生产、控制和管理系统行业外围系统或中小企业信息管理系统金融、电信核心交易系统市场利益&社会责任民航电子客票中国民航市场2016年规模达到900余万次航班4.9亿人次出行经过三年的服务和支持达梦先后在首都航空、西藏航空、国航、东航成功投产,后续将进一步全面替代稳定&可靠——满足365*24的不间断运行性能——从容应对节假日、重大活动等出行高峰期的机票查询、预定请求快速移植——支持开发商在3个月内,完成涉及到约10万行数据库相关源码(对象定义、SQL、过程、触发器)从Oracle向DM的移植国家企业信用信息公示将服务于大量投资者、媒体、监管机构及社会公众全国上亿企业、个体从业者的登记、变更、及查询等服务向相关机构提供全国企业经营数据分析结果截至目前,已部署达梦集群实例三十余套,日检索业务1650万笔性能——满足复杂分析和并发事务处理请求运维——满足数据中心的所有DB实例集中管理要求挑战简要汇总如下稳定&可靠快速移植性能运维01020304更高的产品质量Oracle 兼容高可用方案SQL 优化能力大规模部署监控维护并发性能产品技术的应对——质量365*24运行,意味着产品必须有良好的代码质量常见的稳定性问题内存泄露问题内存初始化问题非法输入问题环境异常问题资源占用问题复杂负载问题……对测试水准提出更高要求执行:自动化的版本编译、执行、问题报告系统•每日冒烟测试•生成用例/场景上万个•纯文本测试脚本达到6GB•覆盖主流软硬件平台•向研发自动提交测试发现的严重问题测试覆盖面:不断扩展测试方法和内容•测试用例自动生成•静态代码分析•动态内存泄露检测•自动故障注入•系统性能剖析•仿真系统测试•……用户量以50%速度增加,而漏出缺陷在下降挑战简要汇总如下稳定&可靠快速移植性能运维01020304更高的产品质量Oracle 兼容高可用方案SQL 优化能力大规模部署监控维护并发性能传统意义上的高可用•实时数据复制•自动故障切换•两地三中心多活•……达梦面临高可用的第二重含义——异构双活•达梦到其他数据库•实时数据复制•故障切换高可用方案的双重含义针对部分初次接触达梦的用户——高可用方案的双重含义购买一套国产数据库把应用移过去上线应用移植完成,经过了调试优化、仿真测试,是否就可以上线?疑问:•仿真测试环境与真实生产环境等效?•万一有潜藏的功能性能问题爆发,导致业务停滞怎么办?•只能选择上线或不上线,没有第三种选择?•是否上线谁能说了算,凭什么说了算?部署方式:达梦数据库其他数据库应用系统实时数据同步DMHS效果实时同步,同时支持国外主流系统和国产系统在线数据对比,不停止在线生产系统情况下,确保两边数据完全一致其他产品为主达梦为备达梦为主其他为备达梦在线数据对比试运行/风险评估期缓解疑虑建立信任中国铁建神华集团用友政务工商管理总局国家电网海南社保中新网湖北知识产权局南方电网国家海洋局中船**河北财政厅中国航信重庆经济信息中心**审计厅……挑战简要汇总如下稳定&可靠快速移植性能运维01020304更高的产品质量Oracle 兼容高可用方案SQL 优化能力大规模部署监控维护并发性能与开源数据库相比商业数据库在产品技术上,核心优势在哪里?达梦在服务于行业用户、核心业务系统时,认识到了一项关键区别——复杂SQL的处理能力来看一条我们曾经经历过的SQL 的例子with“COL1" as(select"I".“XCOL1"+1 "PzPeriod" ,'0.0' "OrderNum" ,null "PzDay" ,'' "VchrNum" ,'' "DFKM" ,1 "SortOrder" ,0 "ItemOrder" ,0x00000000000000000000000000000000 "RECID",'' "Digest" ,'' "CurrencyName" ,1 "POSTFLAG" ,1 "ORIENT" ,'' "DEFAULNAME" ,sum(case when "I"."BF" is nullthen 0.0 else "I"."BF" end*case when“X"."ORIENT"=0x00000000000000000000000000000001 then 1 else -1 end) "BF",……from“Y_T" "S")"S"放进word里,达到359页;共1 3 .9千行)"N"17个inner join、557个子查询、831个or筛选、1000+个查询字段、2451个like筛选条件、2731个case when表达式达梦的SQL引擎需要有处理此类查询的能力!达梦SQL 引擎分析器Parser优化器Optimizer执行器Executor总体来说,达梦拥有一个典型的、基于代价的关系数据库SQL 引擎SELECT A,C FROM T1 WHERE B LIKE ’DM’;统计信息数据字典数据执行结果语法分析语义分析关系代数变换代价优化语法树SFW 结构关系树优化了的关系树SQL 脚本物理计划生成执行计划SQL 引擎的具体处理流程重点打磨对象为提供更强大的SQL 处理能力DM7六年来对SQL 引擎进行持续改进用集合操作取代迭代操作•外层表下压消除相关•内外层半连接(SEMIJOIN)充分考虑多种连接方案代价•计算N个最大表的连接代价•确定候选连接顺序(Catalan数)•过滤条件下放代价计算•变换Or到最外层,便于索引利用•变换Or为IN,利用子查询,成为集合操作针对大量表的Join(如:6表以上)减少Join参与表的数量,改进计划代价生成速度•满足特定条件的表,下推到子查询内•下推:筛选条件下推视图,增强过滤条件•上拉:部分情况下,直接将视图分解到上层查询•前后通配符优化为Position操作•前通配符优化为可利用REVERSE函数索引Such asOr运算符变换相关子查询变换下推探测表视图优化Like优化生成连接次序More and more✓多级分区加列✓truncate ✓删列✓删除多级分区表✓拆分split ✓新增分区✓优化后,很多操作与O 性能相当或快10-100倍✓like 表达式存在可计算函数的优化✓优化分析阶段获取表行数操作的优化,避免了每次从磁盘获取行数信息✓Top n 查询改写为rowid/pk in 子查询,减少字段解析消耗; ✓Union 分支的连接公因子提取优化;✓布尔表达式范围合并的加强;✓增加统计操作符实际返回行数的功能;✓位图连接索引的使用增强;✓in value list 在mpp 、lpq 下的motion 计划优化✓.......分区表优化器改进✓hash 表memset 优化✓分区表hash 连接的裁剪;✓水平分区表分区列的排序、分组优化✓多层嵌套的分组合并✓通过增加排序操作实现归并连接;✓嵌套循环半连接增加key 的缓存处理执行器分区表执行器优化器其他✓内存管理模式优化✓Tpcc 性能提升明显其他改进回过头来看这条SQL20分钟+1分钟以内放进word里,达到359页;共1 3 .9千行17个inner join、557个子查询、831个or筛选、1000+个查询字段、2451个like筛选条件、2731个case when表达式挑战简要汇总如下稳定&可靠快速移植性能运维01020304更高的产品质量Oracle 兼容高可用方案SQL 优化能力大规模部署监控维护并发性能民航客票系统,机票信息的源头接入各航空公司的官网订票系统、机票代理商、互联网出行平台……国家企业信用信息公示,开放的互联网服务平台面向社会公众,日均查询访问1650万次数据库并发性能是用户的核心关注高并发能力系统架构内核设计底层技术•多线程架构•读写分离、共享存储等集群架构•行级封锁•多版本并发控制•并行日志•事务可见性判断•Buffer&Cache 设计•异步检查点机制•……•线程同步机制•原子操作实现•异步IO 模型•用户态线程•……数据库并发设计优化是系统性的工作多版本并发控制•很多数据库实现了MVCC:Oracle、MySQL/InnoDB、PostgreSQL •PostgreSQL:未引入回滚段•各版本数据都存在数据文件,数据膨胀问题•导致大量更新后的扫描性下降•Oracle:基于块的MVCC•DM7:基于行的MVCC•更多并发更新、查询集中在一个Page的情况下•提供更好的并发能力封锁机制•Mysql/Innodb•使用一个hash表总体管理行锁•每个page的行锁使用一个bitmap表示•更新page越多,维护锁的内存开销越大•锁越多,需要进临界区的次序就越多物理实现的锁代价是高昂的•Oracle每个记录的LockBit指向Block的ITL,描述了锁信息•实现锁的消耗要小得多DM7更进一步,彻底消除行锁Mysql/Innodb行锁示结构意图•修改过的行标识对应事务的编号(唯一递增,TID)•读-写:根据本事务ID与记录TID大小判断可见性•写-写:基于页面闩+TID可见性,实现锁定效果•减少资源消耗•没有锁升级问题DM7行级锁示意图TPC-C单机压力极限测试Intel Xeon E5-2697V4*2 384GB DDR4PCI-E SSD 2TB 稳定在:1,330,000 tpmc约相当于:70万QPS (90%为增删改)TPC-C单机并发测试10Warehouse50 Session100Warehouse500 Session1000Warehouse5000Session达梦179802.75tpmc220590.48tpmc134995.45tpmc友商A162375.36tpmc208364.16tpmc46959.04tpmc友商B134974.85tpmc209131.97tpmc69196.5tpmc注:采用benchmarksql4.1.1作为测试工具Intel Xeon E5-2620v3 *296GB DDR3SAS 10K RPM 600GB*2 RAID1设备不变,并发量X100,数据量X100,DM性能损耗最小近期某项目POC测试挑战简要汇总如下稳定&可靠快速移植性能运维01020304更高的产品质量Oracle 兼容高可用方案SQL 优化能力大规模部署监控维护并发性能核心业务系统是国外产品的天下达梦是后来者兼容策略是成本最低的开发人员培育、项目替代方案提供达梦数据迁移工具完成数据迁移,支持数据快速装载包含几乎所有Oracle 的数据库对象,且创建语法及使用方式与Oracle 保持一致高度兼容的数据类型、PL/SQL 、动态视图等特性采用单库、单实例的架构,与Oracle 保持一致文件组织结构、并发控制特性的概念与机制接近逻辑概念相近,快速理解数据库结构Oracle 原生接口级兼容从底层到上层,完整的兼容体系•业务系统几乎没有对数据库相关代码进行修改•保证如期完成系统移植•用户的注意力得以聚焦在系统稳定性和性能•兼容Oracle 的OCCI 接口;•兼容Oracle 的DBLINK 定义和使用;•兼容Oracle 的包PACKAGE 定义和使用;•兼容Oracle 的作业JOB 的定义和实现;•兼容Oracle 的系统包(UTF_FILE 、DBMS_SQL 、DBMS_OUTPUT 、DBMS_JOB 、DBMS_LOB 等);•兼容Oracle 的DMP 文件导入和导出的逻辑备份方式;•兼容Oracle 的DUAL 伪表、ROWNUM 伪列等•兼容Oracle 语法风格的Pro C 接口•……针对民航客票系统的兼容改进•延续了开发商对Oracle 深层技术的使用习惯•实现了原oracle 50万行存储过程的平滑移植•保证了与oracle 一致的用户体验•兼容Oracle 的VPD 虚拟数据库模块;•兼容Oracle 的merge into 语法;•兼容Oracle 的正则表达语法;•兼容Oracle 的系统包、系统视图(DBMS_RANDOM 、DBMS_STATS 、DBA_OBJECTS 、DBA_JOBS 、USER_TYPES 、USER_SEGMENTS 等);•兼容Oracle 的last_value 、to_clob 、decode 等函数;•兼容Oracle 的分区表结构修改语法;•兼容Oracle 的CASE WHEN 动态拼接语法;•兼容Oracle 的序列取值范围;•……南网财务的兼容特性清单Case:VPD 兼容Case:正则语法兼容挑战简要汇总如下稳定&可靠快速移植性能运维01020304更高的产品质量Oracle 兼容高可用方案SQL 优化能力大规模部署监控维护并发性能核心业务系统在部署维护方面与相对外围的、中小规模的系统相比有很大的不同规模化集中化自动化远程化•基于WEB•对象管理•集群部署•状态监控与告警等功能支撑了用户约三十余套达梦集群实例的统一部署、监控和管理产品技术的应对——小结拿下核心系统,是由于对以下需求进行了积极响应提供建立信任的渠道(提供异构同步机制)系统稳定性有保证(充分测试,保证代码质量)性能足够良好(良好的SQL引擎与并发优化)能以较低成本、较快速度与现有应用适配(Oracle兼容)提供较好的管理运维方案(Web化运维管理平台)新进展&新计划共享存储集群•ASM 、VIP、负载均衡、TAF 等特性•已小规模上线试运行易用性•进一步完善DEM 运维管理平台•兼容性持续改进生态•得到ArcGIS 原生支持的唯一国产品牌•更多重量级ISV的合作云•公有云——阿里云市场上架•私有云——H3C 、华为、浪潮云解决方案集成服务•达梦技术支持互联网门户•“管家式、深层次”数据库服务我们梦想做最好的数据库脚踏实地、聚焦技术面对用户永远谦逊扫码微信关注达梦动态扫码加入达梦技术QQ群。
达梦数据中心产品介绍

高性能表现
达梦数据中心产品采用先进的分布式架构和高效算法,确保在处理海量数据时保持出色的性能表现。
稳定性保障
产品具备高可用性,通过自动容错、负载均衡等机制,确保长时间稳定运行,满足企业关键业务需求 。
技术创新与研发实力
前沿技术应用
达梦数据中心产品紧跟技术趋势,采用容器化、微服务、人工智能等前沿技术,提升产品竞争力。
企业级应用
企业级数据整合
01
达梦数据中心可整合企业内部各个业务系统的数据,提供统一
的数据管理和分析平台。
数据仓库与数据挖掘
02
产品支持构建企业级数据仓库,实现数据的深入挖掘和分析,
为企业决策提供数据支持。
个性化定制
03
针对企业的特殊需求,达梦数据中心支持个性化定制,满足企
业在数据管理、分析和应用方面的特定场景。
。
智能化分析
达梦数据中心内置智能化算法和模 型,可以对数据进行深度挖掘和预 测分析,为企业决策提供有力支持 。
多维度分析
它支持多维度的数据分析,用户可 以从不同角度对数据进行切片、钻 取和透视,发现数据中的潜在价值 和关联关系。
数据服务与集成
数据服务
达梦数据中心提供灵活的数据服 务方式,可以将数据以API、
03
应用场景与案例
互联网行业应用
高并发处理
达梦数据中心在互联网行业能够应对高并发的数据处理需求,确 保系统稳定运行,提供准确的实时数据分析。
海量数据存储
针对互联网行业的海量数据,达梦数据中心采用高效存储技术,实 现数据的快速存取和可靠保管。
分布式架构
支持分布式部署,满足互联网业务对于可扩展性和高可用性的要求 。
达梦数据交换平台产品白皮书

达梦数据交换平台产品白皮书【达梦数据交换平台产品白皮书】一、引言数据交换是现代信息化建设中的重要环节,数据的高效、安全、准确地交换对于企业的运营和决策具有重要意义。
为了满足企业在数据交换方面的需求,我们开发了达梦数据交换平台产品。
二、产品概述达梦数据交换平台是一款面向企业的数据交换解决方案,旨在帮助企业实现数据的高效、安全、准确的交换。
该平台具备以下核心功能:1. 数据集成:支持多种数据源的集成,包括关系型数据库、非关系型数据库、文件系统等,实现数据的统一管理和集中控制。
2. 数据转换:提供强大的数据转换引擎,支持多种数据格式的转换,包括XML、JSON、CSV等,实现不同数据源之间的数据格式转换。
3. 数据传输:支持多种数据传输方式,包括FTP、HTTP、TCP/IP等,确保数据在不同系统之间的安全传输。
4. 数据同步:支持数据的实时同步和定时同步,确保数据在不同系统之间的一致性。
5. 数据质量管理:提供数据质量管理功能,包括数据清洗、数据校验等,确保数据的准确性和完整性。
三、产品特点1. 灵活可扩展:达梦数据交换平台采用模块化设计,可以根据企业的需求进行定制开发,满足不同企业的特定需求。
2. 高性能:通过优化的算法和高效的数据处理引擎,达梦数据交换平台能够实现高速的数据处理和传输,提高数据交换的效率。
3. 安全可靠:达梦数据交换平台具备严格的权限管理和数据加密机制,确保数据在传输和存储过程中的安全性。
4. 易于使用:达梦数据交换平台提供友好的用户界面和操作流程,使用户能够快速上手并轻松完成数据交换任务。
5. 多平台支持:达梦数据交换平台支持多种操作系统和数据库平台,包括Windows、Linux、Oracle、SQL Server等,适用于不同的企业环境。
四、应用场景达梦数据交换平台适用于各种企业的数据交换需求,包括但不限于以下场景:1. 企业内部数据集成:通过达梦数据交换平台,企业可以将各个部门的数据进行集成,实现数据的共享和统一管理。
达梦数据库管理系统技术白皮书

达梦数据库管理系统技术白皮书达梦数据库管理系统技术白皮书达梦数据库有限公司2013年4月目录1概述 02通用性 (1)2.1硬件平台支持 (1)2.2操作系统支持 (1)2.3应用开发支持 (2)2.4标准接口支持 (2)2.5网络协议支持 (2)2.6字符集支持 (2)2.7国际化支持 (2)3高可用性 (3)3.1快速的自动故障恢复 (3)3.2基于REDO日志的主备系统——数据守护 (3)3.3可靠的备份与恢复 (4)3.4逻辑日志 (4)3.5高级复制 (4)3.6基于共享存储的集群技术 (5)4高性能 (5)4.1查询优化 (5)4.2面向栈的虚拟机执行器 (5)4.3批量数据处理 (6)4.4查询计划重用 (6)4.5查询结果的缓存 (7)4.6多版本的并发控制 (7)4.7改进的异步检查点 (7)4.8DDL高并发技术 (7)4.9可配置的工作线程模式 (8)4.10查询内并行处理 (8)4.11系统缓冲区改进 (9)4.12分段式数据压缩 (9)5高安全性 (9)5.1安全等级 (9)5.2安全结构体系 (9)5.3双因子结合的身份鉴别 (9)5.4审计分析与实时侵害检测 (10)5.5自主访问控制 (10)5.6所有主客体的强制访问控制 (11)5.7基于SSL协议的通讯加密 (11)5.8存储加密 (11)5.9资源限制 (12)5.10加密引擎 (12)5.11客体重用 (13)6易用性 (13)6.1丰富的管理工具 (13)6.2PL/SQL调试工具 (13)6.3快速数据迁移 (13)6.4动态管理视图 (14)6.5C语法的PL/SQL (14)7兼容性 (15)7.1支持分析函数 (15)7.2支持层次查询 (15)7.3支持伪列 (15)7.4支持方差集函数 (15)7.5支持常用系统函数库 (15)7.6支持控制语句结构 (15)7.7数据类型兼容性 (16)7.8复合数据类型兼容性 (16)7.9支持外连接(+)语法 (16)7.10多列IN实现以及相关的优化 (16)7.11支持按名调用存储过程 (16)7.12支持COMMENT注释 (16)7.13支持静态数据字典视图 (16)7.14支持系统包 (16)7.15支持数组与引用游标 (17)8技术指标 (18)达梦数据库管理系统技术白皮书1概述达梦数据库有限公司是中国最早从事数据库管理系统研发、生产、销售和服务的专业公司。
达梦数据库介绍(一)2024

达梦数据库介绍(一)引言概述:达梦数据库是中国的一种数据库管理系统,由达梦软件有限公司开发。
它是一款高性能、高可用性的数据库系统,被广泛应用于金融、电信、政府机构等行业。
本文将介绍达梦数据库的基本信息、特点以及其在各个领域的应用。
正文内容:1. 达梦数据库的基本信息- 发展历史:达梦数据库起源于上世纪90年代,经过多年的发展和成熟,已成为中国重要的数据库厂商之一。
- 数据模型:达梦数据库采用关系模型,支持SQL语言。
- 数据结构:以表格形式存储数据,具有完整的数据类型和约束支持。
- 支持平台:达梦数据库在多个操作系统平台上都有支持,包括Windows、Linux和Unix。
2. 达梦数据库的特点- 高性能:达梦数据库采用了先进的查询优化技术,可以快速处理大量的数据请求。
- 高可用性:达梦数据库具有故障切换和自动恢复功能,可以在系统故障时迅速切换到备份服务器。
- 安全性:达梦数据库提供了完善的安全机制,包括用户认证、权限管理等,以保护数据的机密性和完整性。
- 扩展性:达梦数据库支持分布式存储和水平扩展,可以满足不断增长的数据需求。
- 数据备份和恢复:达梦数据库提供了完备的备份和恢复机制,保障数据的安全性和可靠性。
3. 达梦数据库在金融行业的应用- 金融交易处理:达梦数据库可以快速处理金融交易数据,保证交易的实时性和准确性。
- 风险管理:达梦数据库提供了丰富的统计和分析功能,可以帮助金融机构进行风险管理和预测。
- 客户管理:达梦数据库可以存储和管理大量客户数据,帮助金融机构提供更好的客户服务。
- 合规性:达梦数据库具有强大的数据安全功能,可以满足金融行业的合规要求。
4. 达梦数据库在电信行业的应用- 用户管理:达梦数据库可以存储和管理海量用户数据,处理用户的认证、授权等操作。
- 信令处理:达梦数据库的高性能和可扩展性,可以处理电信网络中的大量信令数据。
- 在线账单生成:达梦数据库可以生成电信用户的在线账单,提供便捷的账务管理功能。
达梦集群实施手册

达梦集群实施手册目录:1. 概述1.1 达梦集群简介1.2 达梦集群优势1.3 适用范围和安装要求2. 集群环境准备2.1 选择合适的服务器硬件2.2 安装操作系统和软件环境2.3 安装达梦数据库软件3. 集群配置与管理3.1 集群拓扑结构规划3.2 配置集群节点3.3 管理集群数据存储3.4 配置网络连接4. 数据库备份与恢复4.1 备份策略与计划4.2 集群环境下的备份与恢复方法4.3 常见备份与恢复问题及解决方案5. 安全与权限管理5.1 用户账户和权限设置5.2 加密和安全认证机制5.3 安全审计和日志管理6. 故障排除与维护6.1 常见故障及解决方法6.2 集群性能优化与调整6.3 定期维护和检查7. 案例分析与实践7.1 案例一:集群环境下的数据迁移7.2 案例二:集群环境下的数据备份与恢复实践7.3 实践经验分享与建议8. 附录8.1 相关文档和资源链接8.2 常见问题和解答8.3 达梦集群社区联系方式在开始之前,请确保您已经阅读并理解了《达梦集群安装指南》和《达梦数据库管理手册》等相关文档。
在实施过程中,请遵循最佳实践,并确保所有操作符合法律法规和安全标准。
本手册旨在提供达梦集群实施的基本步骤和指导,具体实施细节可能因环境和需求而有所不同。
在实施过程中,请参考官方文档、社区论坛和其他相关资源,以获得更详细的信息和建议。
概述----达梦集群是一种分布式数据库系统,它允许多个节点协同工作,提供高可用性、可扩展性和高性能的数据存储和处理能力。
通过集群实施,企业可以获得更强大的数据处理能力和更高的可靠性,同时降低单点故障的风险。
本手册将指导您完成达梦集群的安装、配置、管理、备份与恢复、安全与权限管理以及故障排除和维护等工作。
集群环境准备------在开始实施前,请确保以下几点准备就绪:合适的服务器硬件、操作系统和软件环境,以及达梦数据库软件。
请根据您的需求选择合适的服务器硬件,并确保操作系统和软件环境符合达梦数据库的要求。
达梦DMETL_Develop操作手册
达梦数据交换平台开发手册达梦数据库有限公司2013年3月目录第1章开发流程插件 (1)1.1 概述 (1)1.2 导入依赖的插件工程 (1)1.3 开发作业插件 (5)1.3.1 概述 (5)1.3.2 步骤 (5)1.4 开发转换插件 (14)1.4.1 概述 (14)1.4.2 步骤 (14)1.5开发规则插件 (24)1.5.1 概述 (24)1.5.2 步骤 (24)第2章使用API编程 (36)2.1 概述 (36)2.2 编程示例 (38)2.2.1编程示例之一 (38)2.2.3 编程示例之二 (42)2.2.4 编程示例之三 (44)2.2.5 编程示例之四 (46)2.2.5 总结 (47)2.3 示例程序及其实现的功能列表 (47)2.4 常见问题 (49)2.4.1 Spring 包冲突问题 (49)第3章集成DMETL服务 (50)第1章开发流程插件1.1 概述DMETL采用基于OSGI架构,系统的各个模块如流程节点、转换规则、数据质量检查规则都支持插件机制,可以根据具体业务需求动态扩展。
本章将通过各种例子说明DMETL的插件的开发方法。
本章中的各种例子都采用JDK6+Eclipse3.6开发,用户界面都采用SWT / JFace 库开发,学习本章前最好先了解Eclipse插件开发的基本概念和方法。
1.2 导入依赖的插件工程开发DMETL插件之前需要先导入已有的DMETL 插件到workspace中,导入DMETL插件的方法如下:首先在eclipse中选择File->Import,如下图所示:选择Plug-ins and Fragments, 单击Next,出现下面的对话框再选择Directory路径选择DMETL的安装目录,图中的C:\dmetl\client表示DMETL安装在C盘的根目录下,选择client端的包时,目录选择C:\dmetl\client,选择server端的包时,目录选择C:\dmetl\server,选择Common包时,目录选择C:\dmetl\common,再点击Next,出现如下对话框:选择要所需要依赖的包,然后点击Add-->Finish就可以将包作为插件工程导入到workspace 中。
达梦数据共享集群DSC技术白皮书-Itpub
达梦数据共享集群DSC 技术白皮书达梦数据库有限公司2016年5月目录1 引言 (1)2 概述 (1)2.1数据共享集群架构 (1)2.2硬件架构 (2)2.3文件系统和卷管理 (3)2.4配置连接服务名 (4)3 高可用性 (4)3.1可靠性 (4)3.2可恢复性 (4)3.3错误检测 (5)3.4持续操作 (5)4 可扩展性 (5)5 负载管理 (6)5.1服务 (6)5.2连接负载均衡 (6)6 结论 (7)达梦真正应用集群技术白皮书1引言达梦数据共享集群(DSC)允许达梦数据库实现在一组集群服务器上运行任何程序包,而客户应用不必作任何更改。
这种体系提供了最高级别的可用性和最灵活的可伸缩性。
如果出现集群其中一个服务器失败,达梦会继续运行在集群中其它服务器上。
如果您需要更多的处理能力,您可以很方便地在线增加另外的服务器而不必使用户脱机。
为了保持低成本,可以将高端的系统构建在标准化的、低成本的产品上。
达梦数据共享集群是达梦企业网格计算体系的基础。
达梦DSC 技术可为低成本硬件平台提供支持,使其提供优质的服务,并达到或超出昂贵的大型 SMP 计算机所能提供的可用性和可伸缩性等级。
通过显著降低管理成本和提供出色的管理灵活性,达梦为企业网格环境提供了强有力的支持。
本白皮书作为达梦数据共享集群技术概述,强调达梦DSC能给企业应用提供最高可用性和可伸缩性的特性和功能。
2概述达梦数据共享集群是在达梦7版本中作为服务器组件首次推出,可提供横向扩展,实现超越单一服务器能力。
这使得客户可以利用低成本的普通硬件设施来降低总体成本,并且能够在可扩展计算环境中来分散应用的负载。
OLTP测试中,展现了一个面向交易的处理系统运行在集群环境下可以达到在单一SMP服务器上相同的性能,并且在集群环境下还可以提供单一SMP服务器不具备的高可用性。
2.1 数据共享集群架构一个DSC数据库就是一个集群数据库。
集群就是一组相互独立的服务器相互协作形成一个整体的,单一的系统。
达梦数据库使用手册
达梦数据库使用手册达梦数据库(DmDB)是由达梦软件发布的高性能关系型数据库管理系统,也是我国自主研发的国产数据库产品,结合了关系数据库和对象数据库的特点,使用简便、开发效率高、运行性能优越,是一款非常好的数据库产品。
达梦数据库拥有强大的多核处理技术,高性能查询和索引机制,多层安全保护,高容错性等特点,支持多种语言编程,具有极高的处理能力。
1. 安装操作达梦数据库的安装可在多种操作系统上进行,操作系统要求遵循最新的“Server + OS + Database”的最佳实践。
在安装之前,首先利用安装前准备工具对软件进行校验,以确保正确安装达梦数据库。
需要特别指出的是,达梦数据库的安装需要用到“DmNet”网络服务器软件,该软件是达梦数据库的核心服务软件,用于实现达梦数据库的系统参数管理、客户端连接管理等操作。
2. 数据库建立达梦数据库的建立是依靠已安装的DmNet管理工具或SQL脚本进行的,可以从操作系统界面使用DmNet管理工具创建新的数据库,或者使用SQL脚本来创建数据库。
3. 表的创建达梦数据库支持使用lsql工具,脚本文件或图形界面创建数据表。
可以选择编写SQL 语句,然后使用脚本来批量创建数据表,也可以在DmNet工具中使用图形界面来创建数据表。
4. 数据表的理解数据库理解是指对存储在数据库表中信息的分析和掌握,以便能够准确地获取信息。
在理解查询、以及关系型数据库设计与编程中,数据库理解的重要性不言而喻。
理解准确的数据表结构,对开发数据库应用系统、优化系统性能都有重要的作用。
5. 编程语言达梦数据库提供多种编程语言,如SQL、PL/SQL、PHP、Java等,可以依据自身的需求,选择不同的语言来开发应用程序。
6. 查询技术达梦数据库提供了丰富的查询手段,可以根据查询条件执行Select、Join、Group By、Having、Order By、Inner Join等查询操作。
同时,达梦数据库还支持SQL语句嵌套查询,使查询操作更丰富,更精准。
达梦数据交换平台(DMETL)执行过程改进
华中科技大学硕士学位论文摘要数据抽取转换装载(ETL)是数据仓库的核心组成部分,负责从异构的数据源中抽取数据,对这些数据进行清洗、转化,并最终加载到数据仓库当中去。
ETL平台开发和设计的好坏直接影响了数据仓库的构建乃至整个商业智能系统的应用。
因此,对达梦数据交换平台(DMETL)进行改进以提高产品的指标具有重要意义。
在深入研究和分析了达梦数据交换平台的工作原理和机制以及该平台在设计和实现中所涉及的关键技术的基础上,找出了现有达梦数据交换平台存在的不足和缺陷,提出了两种改进方法。
其一:考虑到原有DMETL的串行工作方式不利于发挥系统的功效,将流水线技术引入到达梦数据交换平台之中。
流水线的工作方式实质上是利用多线程和缓存技术,使得ETL数据的抽取,转换和加载三个环节的执行可以抽象成流水线一样运行在不同的线程实例中,从而减少了中间环节的等待时间。
通过流水线工作方式充分的利用了计算机资源,提高了系统的吞吐率,提升了ETL 的工作效率。
第二,针对原有DMETL增量抽取方式对客户系统进行未授权操作所带来的弊端,同时考虑到实际项目中ORACLE作为数据源的应用较多,设计和实现了针对ORACLE数据源的基于日志分析的增量数据抽取方式。
利用ORACLE数据库自身的日志分析工具LOG MINER,对数据库日志文件进行解析,获取用户对数据库的变更操作。
通过分析数据库的变更操作来对数据库中的增量数据进行捕获。
该方法可以有效降低DMETL对客户系统的影响。
通过实验表明,流水线技术的引入是可以在一定程度上提高达梦数据交换平台的工作效率的,并且基于日志分析的增量捕获方式也是可以避免对客户业务系统的侵入。
此外,这项工作对达梦数据库开发并提供其数据库日志分析工具也有参考价值。
关键词:数据仓库,数据抽取转换加载,流水线,增量数据抽取,日志分析华中科技大学硕士学位论文AbstractETL is the core component of Data Warehouse, extracting data from heterogeneous sources, cleaning and transforming the data, finally loading them into Data Warehouse. The good or bad work of ETL development and design directly influences the construction of Data Warehouse and the application of the whole Business Intelligence system. Therefore, it is of great significance that we make a further improvement on the indicators of Dameng Interchange Platform.Based on in-depth study and analysis on the principle and mechanism of Dameng Data Interchange Platform, and also the key technologies involved, we found out some shortcomings and deficiencies existing in current platform. So, two improved methods were put forward. One, considering the serial working way of current platform against efficacy, so we introduced the pipeline technology into the platform.In fact, pipeline technology is essentially implemented by multi-threading and caching techniques, which can control data extraction, data transformation and data loading run synchronously in three different thread instances, working as abstract as pipeline in order to reduce the latency time for the intermediate links. Through this technology, we can make a full use of CPU resources to improve the system throughput rate, and to promote the ETL work efficiency.The other one, given the common problem all the extraction ways of current platform must confront to: the unauthorized access to the customer system. Moreover, taking into account that many Oracle data source were frequently used in the actual project.Therefore, we designed and implemented one extraction way based on analyzing log file to obtain the incremental data. We analyze the log file of database obtained by LOG MINER, one product of log file analysis provided by Oracle Database, to capture the changes to database, which were recorded in log file. Analyzing the change operations to the database, we can capture the incremental data. In this way, the influence of DMETL on client system can be effectively reduced.Finally, experiments we conduct show that the introduction of pipelining can improve to some extent Dameng Data Interchange Platform more efficient; and the way based on log analysis to capture the incremental data can also avoid the intrusion to business systems.华中科技大学硕士学位论文In addition, our work on the research above may play an important role to promoting the development of log analysis kits supplied by the database products.Key words:Data Warehouse, ETL, pipeline, incremental data extraction, log analysis独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
达梦数据交换平台
——高效全面的数据集成应用的支撑平台
集 群 功 能 介 绍
达梦数据库有限公司 2013 年 3 月
达梦数据交换平台产品白皮书
本文档含有达梦数据库公司的保密的技术和商业信息未经达梦数据库公司的书面同意, 不得进行拷贝、复印或者以其它任何形式向第三方散发。
我们尽力保证本文档中信息的准确和完整,但是仍然可能出现技术或者文字描述的错误, 如果因使用本文档造成的损失,达梦概不负责。
器的利用效率,为用户节约投资。
达梦数据交换平台产品白皮书
由于不同的业务数据源数据同步的周期和频率各不相同,如果为每个业务使 用独立 ETL 服务器,则由于元数据不能共享,每个 ETL 服务只能运行自己元 数据库中存储的流程,从而导致在非调度时间内服务器空闲资源浪费。 通过使用集群,使得流程能够在集群的各个服务器上动态调度迁移,充分利 用空闲的服务器资源,从而减少实际需要部署的 ETL 服务器数量,提升服务
1) 提升数据同步的可靠性
DMETL 支持各种增量抽取方式,能够通过定期调度执行增量数据抽取流程
达梦数据交换平台产品白皮书
实现数据源和目的之间的数据同步。 数据同步类应用通常对实时性和可靠性要求较高。DMETL 集群通过自动故
障转移功能,避免单节点故障导致的数据不同步现象。假设在一个 2 节点的集群 中运行 4 张表的数据同步流程,正常情况下,每个集群节点执行两张表的同步, 如下图所示:
达梦数据交换平台产品白皮书
DMETL Studio 数据交换设计器
DMETL Web Console 数据交换监控系统
第三方应用
DMETL API
DMETL 集群
Server3 从
Server2 数据存储
DMETL 集群的优势
DMETL 集群适用于对于数据处理性能和可用性要求高的场景。DMETL 集群与 单机相比主要有以下几方面的优势。
体系结构
DMETL 集群采用主从结构,主从节点的功能差异主要体现在管理、监控等非 数据处理功能上,而在数据处理和流程执行功能上,集群中的各个节点是对等的, 从而保证集群数据处理能力,能够获得接近线性的提升。
主从节点的关系如下: 1) 一个集群中有且只有一个主节点。 2) 一个集群中的所有节点共享一份元数据。 3) 从节点只作为流程执行器,接收来自主节点的流程执行请求。 4) 主节点除了执行流程以外,还负责进行作业调度、事件分发、告警通知等功
4) 提高服务器可管理性和利用率
当数据集成应用中整合的数据源较多需要部署了多台 ETL 服务器时,可以 使用一个 N 节点的 ETL 集群来代替单独部署 N 台独立的 ETL 服务器,这样做 可以带来以下好处:
集群中的 N 台 ETL 服务器共享一个元数据库,登录任何一台 ETL 服务器即可 对所有的业务流程进行设计、管理、维护操作,也可以在一个统一的视图中 了解每台服务器的状态,可以大大提升工作效率。
DMETL 4节点集群
服务器1 (正常) 表1同步流程
服务器2(正常) 表2同步流程
服务器3(正常) 表3同步流程
服务器4(正常) 表4同步流程
此时每个服务器上只运行一个同步流程,单服务器上的负载减轻,因此可以 缩短整体的数据同步时间。
3) 提升数据清洗转换的性能
DMETL 集群支持将单个数据清洗转换流程分发到集群中多个服务器上并 行运行,从而避免或者减少单机 CPU 处理能力瓶颈对于性能的影响。该功能可 以应用于需要对海量数据进行复杂清洗和转换的场景。在此类应用中,DMETL 集群可以将数据清洗转换处理分发到所有集群中的服务器上并行处理,并且对用 户透明,假设有如下图所示的流程:
能的执行,但这些这些功能对服务器的资源消耗较少,对主节点的性能影响 小且不会随着节点数的增长而明显增长,因此主节点一般不会系统的瓶颈。 5) 主节点故障时,从节点可以自动执行从到主的切换成为临时主节点,主节点 恢复之后,临时主节点执行主到从的切换,成为从节点。 6) DMETL 客户端或者第三方应用可以连接集群任何一个节点进管理、配置工 作或者执行流程。
本文档中包含的信息可能会随时更改,恕不另行通知。 本文档发布于 2013 年 11 月
达梦数据交换平台产品白皮书
产品介绍
达梦数据交换集群(以下简称为“DMETL 集群”)功能允许将多台独立的达 梦数据集成服务器(DMETL Server)虚拟成一台 DMETL 服务器,从而满足用户对 于数据处理能力线性扩展的需求,同时也能防止由于单节点故障导致整个系统不 可用,从而提升系统的可用性。
DMETL 2节点集群
服务器1(正常) 表1同步流程
服务器2(故障)
表2同步流程 表3同步流程 表4同步流程
当服务器 2 恢复之后,表 3 和表 4 的同步会自动重新回到服务器 2 上执行。
2) 提升数据同步的实时性
达梦数据交换平台产品白皮书
DMETL 集群支持自动负载均衡,如果应用中需要同步的表数量比较大, DMETL 集群可以自动将流程分配到不同的集群节点上并发执行,从而缩短整个 数据的同步时间,提高数据同步的实时性。例如,将上述两节点集群通过动态增 加 2 个从节点(无需重启已有的节点),扩展为 4 节点集群后,流程的运行情况 如下图所示:
DMETL 2节点集群
服务器1 (正常)
服务器2(正常)
表1同步流程 表2同步流程
表3同步流程 表4同步流程
在该集群中如果服务器 2 出现故障,在服务器 2 上运行的表 3 和表 4 同步 流程会自动迁移到服务器 1 上运行,从保证表 3 和表 4 不会因为服务器 2 的故障 而无法同步数据,如下下图所示:
源
转换1
转换2
目的
该流程在一个两节点的集群上运行时的结构如下:
DMETL 2节点集群
服务器1 (正常) 源
转换1
转换2
目的
达梦数据交换平台产品白皮书
服务器2(正常) 转换1 转换2 目的
数据源组件通常不存在性能瓶颈,只需要在一个节点上执行,数据读取出 来后,转换组件和目的组件可以同时在两台服务器上并行运行,每台服务器分别 处理一部分数据,因此可以提高数据转换和装载的性能。