ETL技术白皮书
H3C大数据产品技术白皮书【范本模板】

H3C大数据产品技术白皮书杭州华三通信技术有限公司8:07 AM目录1H3C大数据产品介绍 (1)1.1产品简介 (1)1.2产品架构 (1)1。
2.1 数据处理 (2)1。
2。
2 数据分层 (3)1。
3产品技术特点 (4)先进的混合计算架构 (4)高性价比的分布式集群 (4)云化ETL (4)数据分层和分级存储 (5)数据分析挖掘 (5)数据服务接口 (5)可视化运维管理 (5)1。
4产品功能简介 (6)管理平面功能: (7)业务平面功能: (8)2DataEngine HDP核心技术 (9)3DataEngine MPP Cluster核心技术 (9)3.1MPP + Shared Nothing架构 (9)3。
2核心组件 (10)3.3高可用 (11)3。
4高性能扩展能力 (11)3.5高性能数据加载 (12)3。
6OLAP函数 (13)3.7行列混合存储 (13)1H3C大数据产品介绍1.1产品简介H3C大数据平台采用开源社区Apache Hadoop2.0和MPP分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。
H3C大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统帮助用户构建海量数据处理系统,发现数据的内在价值。
1.2产品架构H3C大数据平台包含4个部分:第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管理、服务管理、监控告警和安全管理等。
第二部分是数据ETL,即获取、转换、加载,包括:关系数据库连接Sqoop、日志采集Flume、ETL工具 Kettle。
第三部分是数据计算.MPP采用分析型分布式数据库,存储高价值密度的结构化数据;Hadoop存储非结构化/半结构化数据和低价值密度结构化数据.计算结果都存到数据仓库,数据仓库中的数据可直接用于分析和展示。
数据资产管理实践白皮书(4.0版):数据管理框架指引

数据资产管理实践⽩⽪书(4.0版):数据管理框架指引2019年6⽉4-5⽇,由中国信息通信研究院、中国通信标准化协会主办,⼤数据技术标准推进委员会承办的 2019 ⼤数据产业峰会在北京国际会议中⼼召开。
在6⽉4⽇下午的⼤会上,《数据资产管理实践⽩⽪书(4.0 版)》发布。
笔者仔细研读了⼀下,虽然⾃⼰从事数据管理⼯作很多年,但还是能从中获得很多启⽰,要感谢中国信息通信研究院⼤数据技术标准推进委员会的杰出⼯作。
那么,从这本《⽩⽪书》我们到底能学到什么?这⾥就从背景、框架和概念三个⽅⾯谈谈我的理解。
注:以下⿊⾊斜体内容直接引⽤《数据资产管理实践⽩⽪书4.0》的原话,具体以《数据资产管理实践⽩⽪书4.0》原版说法为准。
⼀、背景说明相对于《DAMA》的数据管理,《⽩⽪书》强调的是数据资产管理,后者增加了资产,更强调数据的资产属性,要求基于数据资产的价值、成本、收益开展全⽣命周期的管理,同时增加了数据标准管理、数据价值管理等职能,可以视作数据管理的升级版。
笔者觉得《⽩⽪书》对于数据资产管理的重要性诠释的特别好,提到了五个痛点,是业界实践经验的总结:1、缺乏统⼀数据视图企业的数据资源散落在多个业务系统中,企业主和业务⼈员⽆法及时感知到数据的分布与更新情况,⽆法快速找到符合⾃⼰需求的数据,也⽆法发现和识别有价值的数据并纳⼊数据资产。
数据资源散落各地是⽼问题,但让业务⼈员感知并找到更是新的问题,⽐如在完成⼤数据平台的数据归集后,建⽴统⼀的⾼体验的可视化平台,建议⼀套数据的公开发布、宣贯、培训流程都是对于运营的巨⼤挑战。
浙江移动花了多年时间去搞DataMaster敏捷数据发布平台,花了巨⼤代价去打通流程让数据直达⼀线,都是为了这个⽬的。
2、数据孤岛普遍存在据统计, 98% 的企业都存在数据孤岛问题。
⽽造成数据孤岛的原因既包括技术上的,也包括标准和管理制度上的,这阻碍了业务系统之间顺畅的数据共享,降低了资源利⽤率和数据的可得性。
ODI技术白皮书

Oracle Data Integrator技术白皮书1 介绍 ------------------------------------------------------------------------------------------------------------ 22 E-LT 体系结构---------------------------------------------------------------------------------------------- 32.1 传统的ETL -------------------------------------------------------------------------------------- 32.2 E-LT------------------------------------------------------------------------------------------------ 43 声明设计(DECLARATIVE DESIGN)-------------------------------------------------------------- 63.1 传统的ETL设计 ------------------------------------------------------------------------------- 63.2 声明设计(Declarative Design) ----------------------------------------------------------- 64 知识模块(KNOWLEDGE MODULES)------------------------------------------------------------ 94.1 知识模块的类型 -------------------------------------------------------------------------------- 94.2 设计阶段和运行阶段的知识模块 ---------------------------------------------------------- 94.3 灵活性和可扩展性 ---------------------------------------------------------------------------- 105 面向事件的集成-------------------------------------------------------------------------------------------- 115.1 面向消息的集成 ------------------------------------------------------------------------------- 115.2 变化数据捕获 ---------------------------------------------------------------------------------- 115.3 发布和订阅模型 ------------------------------------------------------------------------------- 125.4 处理变化数据集的一致性------------------------------------------------------------------- 126 支持SOA框架 --------------------------------------------------------------------------------------------- 146.1 数据和转换服务 ------------------------------------------------------------------------------- 146.2 Web Services 访问 ---------------------------------------------------------------------------- 157 数据完整性-------------------------------------------------------------------------------------------------- 167.1 为数据完整性声明规则---------------------------------------------------------------------- 167.2 在集成过程中的数据完整性防火墙 ------------------------------------------------------ 177.3 强制规则 ---------------------------------------------------------------------------------------- 177.4 使用第三方姓名及地址清洗工具 --------------------------------------------------------- 188 体系结构 ----------------------------------------------------------------------------------------------------- 198.1 用户界面 ---------------------------------------------------------------------------------------- 198.2 代理----------------------------------------------------------------------------------------------- 208.3 存储库-------------------------------------------------------------------------------------------- 208.4 元数据导航器/轻量级设计器--------------------------------------------------------------- 219 方案(SCENARIOS)------------------------------------------------------------------------------------ 229.1 数据仓库和商业智能------------------------------------------------------------------------- 229.2 面向服务的集成 ------------------------------------------------------------------------------- 239.3 主数据管理 ------------------------------------------------------------------------------------- 2410 结论 ----------------------------------------------------------------------------------------------------- 251 介绍整合整个企业的数据和应用,并将它们在一个统一的视图中进行展现是一个复杂的任务。
大数据白皮书2024(一)2024

大数据白皮书2024(一)引言概述:大数据已经成为现代社会中的一项重要技术和战略资源。
在不断发展的数字经济时代,大数据的应用对于创新、效率和竞争力都有巨大的潜力。
本文将重点探讨2024年大数据领域的趋势和发展方向,包括数据收集与存储、数据分析与挖掘、数据隐私与安全、数据伦理与法规、以及大数据应用的社会影响。
正文:1. 数据收集与存储a. 传感器技术的发展与应用b. 云计算在大数据存储中的作用c. 数据中心的规模与效率提升d. 数据归档和备份的策略和技术e. 数据格式和标准的统一与交互性提升2. 数据分析与挖掘a. 人工智能在数据分析中的应用b. 机器学习算法的发展与应用c. 可视化分析技术的发展与应用d. 实时数据分析与流式计算e. 非结构化数据的分析与挖掘技术3. 数据隐私与安全a. 隐私保护的技术与措施b. 数据加密与身份验证技术c. 安全审计与数据防泄漏技术d. 隐私与数据安全的合规与监管e. 数据共享与隐私权利的平衡4. 数据伦理与法规a. 数据采集与搜集的道德与法律问题b. 数据使用与共享的伦理与法规约束c. 数据治理与数据伦理的实践与研究d. 数据隐私与个人权益的保护e. 数据伦理与法规的国际合作与标准制定5. 大数据应用的社会影响a. 大数据在城市管理和智慧城市中的应用b. 大数据在医疗保健和生命科学领域的应用c. 大数据在工业制造与供应链管理中的应用d. 大数据在金融和风险管理中的应用e. 大数据在教育和人才培养中的应用总结:展望2024年,大数据的发展将继续加速,数据收集与存储、数据分析与挖掘、数据隐私与安全、数据伦理与法规、以及大数据应用的社会影响将是大数据研究和实践的重要方向。
在驾驭大数据的过程中,我们必须关注隐私保护、伦理约束和法规合规,共同推动大数据的发展繁荣,并使之为人类社会的进步和福祉做出更大的贡献。
TongIntegratorETL技术白皮书

TI-ETL 通过转换流程、任务流程这两种流程配合,可以完成不同系统间的 复杂的数据整合工作。
转换流程
5
TongIntegrator ETL 技术白皮书
转换流程负责完成数据集成过程中的数据抽取、转换、加载工作,转换流程 由多个转换组件编排而成。转换组件是转换流程的最小处理单元,每个转换组件 完成一个特殊的数据处理任务,多个转换组件组成一个转换流程。正是因为 TI-ETL 有丰富的转换组件,使得 TI-ETL 具备高水准的数据加工处理能力。
ETL 引擎 TI-ETL 服务器包含两个执行引擎:任务引擎和转换引擎,分别实现对任务 调度管理的任务流程和完成对实际数据抽取、加工处理、加载的转换流程的执行。 在 TI-ETL 服务器启动时,可以检查部署在该节点上的数据集成流程,并执 行配置为“自动重启动”的流程,其他非自动重启动的流程需要手工启动。 在 TI-ETL 数据流程中,数据是以行为单位进行处理,如下图所示,TI-ETL 通过两个对象描述一个数据行:数据对象和元信息对象。数据对象实际的行数据, 由一个或多个数据列(字段)组成;元信息对象用于描述数据对象,包括数据对 象中每个列(字段)的类型、长度、格式等。
TongIntegrator ETL 技术白皮书
前言
主要应用优势
当前信息化的时代,数据成为了最重要的资源,如何能消化信息孤岛,更好
复杂数据结构的(Variety)、 地完成同一组织内部、同一组织上下级、不同组织间的数据汇总、统计、分析等
大批量的(Volume)、高效的 问题就凸显出来;只有很好的完成了数据的整合,才能更进一步地支撑起上层数
队资源共享及运行时引用; 3. 开发调试完成的流程 id 信息(流程引用信息),部署到 TI-ETL 服务器
东方通ETL工具软件TI-ETLv2产品白皮书全解

T ongT ech®TI-ETL v2产品白皮书北京东方通科技公司2015年目录1 前言 (1)2 为什么要用ETL (1)2.1 业务需求 (1)2.2 IT需求 (2)2.3 IT与业务一致性要求 (2)3 TI-ETL v2简介 (3)3.1 产品组成结构 (3)3.1.1 集成开发工具 (4)3.1.2 服务器 (5)3.1.3 资源库 (5)3.1.4 统一管理平台 (6)3.2 产品结构关系 (7)3.3 转换流程和任务流程 (8)3.3.1 转换流程 (8)3.3.2 任务流程 (9)4 主要功能和特点 (10)4.1 大数据适配 (10)4.2 强健的ETL引擎 (10)4.3 丰富的系统适配 (11)4.4 资源统一存储 (11)4.5 丰富的处理组件 (11)4.6 多种数据抽取模式 (11)4.7 图形化操作/调试/预览能力 (11)4.8 高效数据处理 (12)4.9 异常恢复和数据一致性 (12)4.10 强大的监控管理功能 (12)4.11 插件式组件管理和可扩展性 (12)4.12 国产环境支持 (13)5 成功案例 (13)1前言随着IT应用建设的发展,数据成为了最重要的资源,无论是接地气的业务系统、应用软件、数据中心或是高大上的云/物/移/大/智,均是以数据资源为核心,依托发挥数据价值而存在和发展。
目前,虽然各行业IT发展成熟度不一致,但基本已经度过了大批量业务系统建设阶段,业务系统也经过了几年的运转,积累了不同量级的数据资源。
但因早起IT业务系统的很少跨部门、跨单位、跨层级的统一规划和建设,导致业务系统处于分散、独立的状况,业务间数据资源不仅处于烟囱状态,数据资源的一致性和互用性较差,数据资源的价值无法充分发挥。
此外,各行业自身业务也在逐渐多元化和复杂化,业务产生和所需使用的数据也就具有不确定和频繁变动性,导致一旦应用发生变化、新增系统或物理数据变动,一旦无法借助某些手段适应变化,整个应用和数据体系均有较大可能不得不随之修改。
数据资产管理技术白皮书
数据资产管理技术白皮书前言党的十九大报告提出要“推动互联网、大数据、人工智能和实体经济深度融合”,进一步突出了大数据作为国家基础性战略性资源的重要地位,掌握丰富的高价值数据资源日益成为抢占未来发展主动权的前提和保障。
数据是资产的概念已经成为行业共识。
然而现实中,对数据资产的管理和应用往往还处于摸索阶段,数据资产管理面临诸多挑战。
首先,大部分企业和政府部门的数据基础还很薄弱,存在数据标准混乱、数据质量层次不齐、各条块之间数据孤岛化严重等现象,阻碍了数据的共享应用。
其次,受限于数据规模和数据源种类的丰富程度,多数企业的数据应用刚刚起步,主要集中在精准营销,舆情感知和风险控制等有限场景,应用深度不够,应用空间亟待开拓。
再次,由于数据的价值很难评估,企业难以对数据的成本以及其对业务的贡献进行评估,从而难以像运营有形资产一样管理数据资产。
国际上,1990 年以来,以国际数据管理协会(DAMA,Data Management Association International)、能力成熟度模型集成(CMMI,Capability Maturity Model Integration)为代表的组织机构长期从事数据管理的研究,形成了一定的理论成果。
在这些理论的指导下,我国金融、电信、能源、互联网等信息化较为先进的行业,已经积累了丰富的数据资产管理经验。
这些经验的总结对于补充完善数据管理理论体系、推进数据资产管理在各个行业的普及和发展有着重要意义。
为了促进数据资产管理的研究,我们组织编写了《数据资产管理实践白皮书》。
本白皮书分为四大部分:第一部分介绍了数据资产管理的概述及变革中的数据资产管理呈现出来的特征趋势;第二部分从实践角度出发阐述了数据资产管理的主要内容;第三部分重点介绍了数据资产管理的实施步骤、实践模式、技术工具和成功要素;最后结合实践经验,介绍了电信、金融、政务、医疗和工业等相关领域的数据资产管理案例。
ETL技术白皮书
2.1.3 多种数据源支持
DMETL 支持多种常用数据源,如关系数据库、JMS 消息、XML 文件、TXT 文件等。 DMETL 的数据抽取和装载采用主流标准接口,如 JDBC、JMS、JAXP 等,与具体数据源无 关。系统的数据源接口采用适配器方式实现,新的数据源能够很方便的加入进来。
2.1.1 兼容多种硬件体系
DMETL 兼容多种硬件体系,可运行于 X86、X64、SPARC、POWER 等硬件体系之上。各 种平台上的数据处理方式完全一致。与此同时,各平台的消息通信结构也完全保持一致,使 得 DMETL 的各种组件均可以跨不同的软、硬件平台与 DMETL 服务器进行交互。
2.1.2 多种操作系统支持
达梦数据交换平台
技术白皮书
达梦数据库有限公司
目录
概 述 ................................................................................................................................................4 1 体系结构 ......................................................................................................................................4 2 技术特性 ......................................................................................................................................5
B2_GBase ETL技术白皮书1.1
GBase ETL工具技术白皮书版本号V1.12010年11月GBase ETL工具技术白皮书GBase版权所有©2004-2010,保留所有权利。
版权声明本文档所涉及的软件著作权、版权和知识产权已依法进行了相关注册、登记,由南大通用数据技术有限公司合法拥有,受《中华人民共和国著作权法》、《计算机软件保护条例》、《知识产权保护条例》和相关国际版权条约、法律、法规以及其它知识产权法律和条约的保护。
未经授权许可,不得非法使用。
免责声明本文档包含的南大通用公司的版权信息由南大通用公司合法拥有,受法律的保护,南大通用公司对本文档可能涉及到的非南大通用公司的信息不承担任何责任。
在法律允许的范围内,您可以查阅,并仅能够在《中华人民共和国著作权法》规定的合法范围内复制和打印本文档。
任何单位和个人未经南大通用公司书面授权许可,不得使用、修改、再发布本文档的任何部分和内容,否则将视为侵权,南大通用公司具有依法追究其责任的权利。
本文档中包含的信息如有更新,恕不另行通知。
您对本文档的任何问题,可直接向南大通用数据技术有限公司告知或查询。
未经本公司明确授予的任何权利均予保留。
通讯方式南大通用数据技术有限公司天津华苑产业区海泰发展六道6号海泰绿色产业基地J座(300384)电话:400-817-9696 邮箱:info@商标声明标,注册商标专用权由南大通用公司合法拥有,受法律保护。
未经南大通用公司书面许可,任何单位及个人不得以任何方式或理由对该商标的任何部分进行使用、复制、修改、传播、抄录或与其它产品捆绑使用销售。
凡侵犯南大通用公司商标权的,南大通用公司将依法追究其法律责任。
GBase ETL 工具技术白皮书南大通用数据技术有限公司 I 目 录1. GBase ETL 概述 (1)1.1. GBase ETL 简介 (1)1.2. GBase ETL 产品架构 (1)1.2.1. 应用架构 (1)1.2.2. 逻辑架构 (2)1.2.3. 组件架构 (4)1.3. GBase ETL 功能特性 (5)1.4. GBase ETL 技术特性 (6)1.5. GBase ETL 应用特性 (7)1.5.1. 灵活部署、极易使用 (7)1.5.2. 应用范围广 (7)1.5.3. 轻量级执行 (7)2. GBase ETL 功能介绍 (8)2.1. 数据抽取 (8)2.1.1. 多数据源管理器 (8)2.1.2. SQL 编辑器 (8)2.1.3. 支持数据文件 (8)2.2. 数据转换 (8)2.2.1. 数据转换 (8)2.2.2. 数据清洗 (9)2.3. 数据加载 (9)2.3.1. 数据加载 (9)GBase ETL 工具技术白皮书II 南大通用数据技术有限公司2.3.2. 批量加载 (9)2.4. 流程管理容器 (9)2.4.1. 集群服务 (9)2.4.2. 分区服务 (10)2.4.3. 远程服务 (10)2.5. 计划任务调度 (10)2.6. 实时监控 (10)2.7. 设计与执行环境 (11)2.7.1. 图形化界面 (11)2.7.2. 命令行工具 (11)3. GBase ETL 产品优势 (12)3.1. 与GBase 的无缝连接 (12)3.2. 实现对Oracle 数据库的高速抽取 (13)3.3. 支持定制开发 (13)3.4. 提供灵活的部署方式 (13)4. GBase ETL 典型应用场景 (13)4.1. 数据仓库领域 (13)4.2. 在线同步分析 (14)4.3. 异构数据源之间同步迁移 (15)5. GBase ETL 部署与运行环境 (16)5.1. 部署环境 (16)5.2. 运行环境 (17)5.2.1. 硬件环境 (17)5.2.2. 软件环境 (18)GBase ETL 工具技术白皮书 南大通用数据技术有限公司 第1页1. GBase ETL 概述1.1. GBase ETL 简介GBase ETL 是南大通用数据库技术有限公司开发的一款技术先进、功能强大的ETL 工具,它可以帮助用户实现数据的抽取、转换和加载的需要,GBase ETL 可以整合各种异构的数据源并最终将数据以一种指定的格式流出。
产品技术白皮书
产品技术白皮书1、数据服务平台概述大数据作为重要的战略资源已在全球范围内得到广泛认同。
数据作为一种资产已经达到共识,将数据当作核心资源的时代,数据呈现出战略化、资产化、社会化等特征。
企业和政府部门经历了IT系统的建设都存在了海量的数据,更多的企业已经完成或者开始准备着数据中心、数据集市等一系列的系统建设,已初步形成企业级的数据资源目录。
但各个企业的数据接口在管理上存在规范不统一、数据源多样、维护成本高、集成难度大,在技术上存在SQL注入、Dos攻击、安全性差、架构不能灵活扩展等风险。
数据共享服务的需求正变得愈发迫切数据服务平台用于对企业的数据服务资源进行统一管理的B/S应用平台,是数据使用和价值变现的基础平台,在数据消费者和数据提供者之间建立了有效的通道,并可管理不同类型格式的接口。
数据服务平台提供API服务创建功能,提供了多种方式生产API,创建方式非常灵活,能够支持服务代理、数据库查询、数据脱敏、参数转码等多种功能。
提供Restful风格的数据调用方式。
通过web界面即可完成数据服务接口的服务发布、审核、共享,无需编程人员开发代码。
基于微服务架构,提升服务开发效率,使服务注册,服务调用等工作变得简单,操作简洁易用;服务接入规范、简单,可灵活扩展,新的服务可以快速接入。
2、数据服务平台定位数据中心整体的功能架构及结合数据服务平台所具备的能力:数据服务平台主要包含数据服务开发、数据服务提供、数据服务管理功能。
数据服务开发:针对数据服务的开发者,系统提供多种方式生产API,包含服务代理、数据库插叙、数据脱敏、参数转码等。
通过流程化的操作步骤即可完成API的在线一体化的开发、发布、审核。
数据服务提供:基于服务目录的方式,数据服务提供者将服务发布到服务目录。
数据服务使用者即可对提供的服务进行在线申请。
数据服务管理:数据服务管理包含服务的申请、调用、授权、熔断、灰度加载、监控等。
3、数据服务平台特点与优势一键数据共享数据服务平台完美对接数据治理成果,借助治理后的数据资产目录可快捷实现数据一键开放。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.2 可靠性 ...............................................................................................................................7 2.2.1 消息的自动确认....................................................................................................7 2.2.2 日志记录 ..............................................................................................................7 2.2.3 警报 ......................................................................................................................7 2.2.4 元数据的导入和导出............................................................................................8
2.1.1 兼容多种硬件体系
DMETL 兼容多种硬件体系,可运行于 X86、X64、SPARC、POWER 等硬件体系之上。各 种平台上的数据处理方式完全一致。与此同时,各平台的消息通信结构也完全保持一致,使 得 DMETL 的各种组件均可以跨不同的软、硬件平台与 DMETL 服务器进行交互。
2.1.2 多种操作系达梦数据库有限公司
目录
概 述 ................................................................................................................................................4 1 体系结构 ......................................................................................................................................4 2 技术特性 ......................................................................................................................................5
2.3 高性能 ...............................................................................................................................8 2.3.1 可配置的工作线程和缓存....................................................................................8 2.3.2 批量抽取和装载...................................................................................................8
2 技术特性
DMETL 具有如下一些技术特性:通用性、可靠性、高性能、扩展性、易用性。下面分 别进行介绍。
2.1 通用性
DMETL 是通用型的 ETL 软件,其通用性表现以下几个方面: 兼容多种硬件体系
第 5 页 共 10 页
多种操作系统支持 多种数据源支持 多种数据转换方式 国际化支持
2.4 扩展性 ...............................................................................................................................8 2.4.1 多种元数据存储方式............................................................................................8 2.4.2 应用集成 ..............................................................................................................8 2.4.3 二次开发 ..............................................................................................................9
2.1.4 多种变化数据捕获方式
DMETL 支持全量抽取和增量抽取两种抽取方式。在增量抽取中,支持触发器、MD5 和时间戳三种变化数据的捕获方式。(1)触发器:是在要抽取的表上建立需要的触发器,一 般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将 变化的数据写入一个临时表,抽取线程从临时表中抽取数据。(2)MD5:即全表对比,DMETL 事先为要抽取的表建立一个结构类似的 MD5 临时表,该临时表记录源表主键以及根据所有 字段的数据计算出来的 MD5 校验码。每次进行数据抽取时,对源表和 MD5 临时表进行 MD5 校验码的比对,从而决定源表中的数据是新增、修改还是删除,同时更新 MD5 校验码。(3) 时间戳:它是一种基于快照比较的变化数据捕获方式,在源表上增加一个时间戳字段,系统
DMETL 是提供数据交换和数据集成的平台软件,产品具备 ETL 的各项基本功能,稳定 可靠,性能良好。DMETL 源自于对中国信息化进程的深度了解,构架之初又充分研究了国 内外先进产品的产业发展趋势,系统具有高度的可靠性、扩展性和易用性,使得产品符合主 流技术趋势,能最大限度的保护用户的投资。
1 体系结构
DMETL 采用 Java 语言编写,与操作系统平台无关,支持主流的 Windows 2000/XP/2003 系列、Linux、Solaris、AIX、Kylin、红旗等操作系统。
2.1.3 多种数据源支持
DMETL 支持多种常用数据源,如关系数据库、JMS 消息、XML 文件、TXT 文件等。 DMETL 的数据抽取和装载采用主流标准接口,如 JDBC、JMS、JAXP 等,与具体数据源无 关。系统的数据源接口采用适配器方式实现,新的数据源能够很方便的加入进来。
DMETL 实现了传统的 ETL 所需的基本功能,并在此基础上有所扩展。DMETL 体系结 构如图 1 所示。
第 4 页 共 10 页
客户端管理工具 流程设计器
服务器 控制器
rmi / http
服务监听和管理
元数据管理
ETL引擎
作业调度
作业执行
作业监控
脚本解释
数据抽取
(DM、Oracle、SQLServer、JMS、TXT)
第 3 页 共 10 页
概述
信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。随着企业信息化 建设的发展,企业内部积累了大量的业务数据。而企业的业务数据源通常分布在相互独立的 各个子系统和节点中,且随着系统的增加,冗余的数据也越来越多。企业如何通过各种技术 手段,并把数据转换为信息、知识,已经成为提高其核心竞争力的主要瓶颈。而 ETL 则是 主要的一个技术手段。ETL 负责将分布的、异构的数据源如关系数据库、平面文件中的数 据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,为基于 数据仓库的决策分析应用提供高质量的数据。
2.1 通用性 ...............................................................................................................................5 2.1.1 兼容多种硬件体系................................................................................................6 2.1.2 多种操作系统支持................................................................................................6 2.1.3 多种数据源支持....................................................................................................6 2.1.4 多种变化数据捕获方式........................................................................................6 2.1.5 多种数据转换方式................................................................................................7 2.1.5 国际化支持 ...........................................................................................................7