ETL数据抽取方案简介1

合集下载

ETL数据抽取方法

ETL数据抽取方法

ETL数据抽取方法概述:ETL(Extract, Transform, Load)是一种常用的数据处理方法,用于从源系统中抽取数据,经过转换后加载到目标系统中。

本文将详细介绍ETL数据抽取方法,包括数据抽取的目的、常用的数据抽取方式、数据抽取的步骤和注意事项。

1. 数据抽取的目的:数据抽取是将源系统中的数据提取出来的过程,主要用于以下几个目的:1.1 数据集成:将来自多个源系统的数据整合到一个目标系统中,以实现数据的一致性和集中管理。

1.2 数据仓库建设:将源系统中的数据抽取到数据仓库中,用于分析和决策支持。

1.3 数据迁移:将数据从一个系统迁移到另一个系统,例如从旧的系统迁移到新的系统。

2. 常用的数据抽取方式:2.1 增量抽取:只抽取源系统中发生变化的数据,可以通过记录数据的时间戳或增量标志来实现。

2.2 全量抽取:抽取源系统中的所有数据,适用于首次抽取或全量更新的场景。

2.3 增量+全量抽取:结合增量抽取和全量抽取的方式,先进行全量抽取,然后再进行增量抽取。

3. 数据抽取的步骤:3.1 确定数据源:确定需要抽取数据的源系统,包括数据库、文件、API等。

3.2 配置连接信息:配置连接源系统的信息,包括地址、端口、用户名、密码等。

3.3 确定抽取范围:确定需要抽取的数据范围,可以根据时间、条件等进行筛选。

3.4 选择抽取方式:根据需求选择适合的数据抽取方式,如增量抽取、全量抽取或增量+全量抽取。

3.5 执行数据抽取:根据配置的连接信息和抽取方式,执行数据抽取的过程。

3.6 监控和处理异常:监控数据抽取的过程,及时处理异常情况,确保数据抽取的稳定性和可靠性。

4. 注意事项:4.1 数据一致性:在进行数据抽取过程中,需要保证数据的一致性,避免数据丢失或重复抽取。

4.2 抽取性能:考虑数据量和抽取频率,合理设计数据抽取的方案,以保证抽取性能和效率。

4.3 异常处理:及时监控数据抽取的过程,对于异常情况进行处理,如网络中断、数据源变更等。

ETL数据抽取方法

ETL数据抽取方法

ETL数据抽取方法概述:ETL(Extract, Transform, Load)是一种常用的数据处理方法,用于从源系统中提取数据,进行转换和清洗,最后加载到目标系统中。

本文将详细介绍ETL数据抽取的方法。

一、数据抽取方法1. 定期全量抽取:定期全量抽取是指从源系统中一次性提取所有数据,并加载到目标系统中。

这种方法适合于数据量较小且更新频率较低的情况。

抽取频率可以根据实际需求进行设置,例如每天、每周或者每月。

2. 增量抽取:增量抽取是指仅提取源系统中发生变化的数据,然后将其加载到目标系统中。

这种方法可以减少数据传输量和处理时间,适合于数据量较大且更新频率较高的情况。

增量抽取通常通过以下几种方式实现:a. 时间戳(Timestamp)方式:源系统中每条数据都包含一个时间戳字段,记录数据的最后更新时间。

ETL过程中,通过比较目标系统中已存在的数据的时间戳和源系统中的时间戳,确定需要抽取的数据。

b. 日志文件(Log-based)方式:源系统中的日志文件记录了数据的变更情况。

ETL过程中,通过解析日志文件,识别新增、更新或者删除的数据,并将其抽取到目标系统中。

c. 惟一标识(Unique Identifier)方式:源系统中的每条数据都有一个惟一标识,例如主键或者业务键。

ETL过程中,通过比较目标系统中已存在的数据的惟一标识和源系统中的惟一标识,确定需要抽取的数据。

3. 增量抽取策略:在实际应用中,往往结合多种增量抽取方式,制定增量抽取策略。

以下是一些常见的增量抽取策略:a. 基于时间窗口的增量抽取:将数据按照时间窗口进行划分,例如每小时、每天或者每周。

在每一个时间窗口内,使用时间戳方式进行增量抽取。

b. 基于日志的增量抽取:对于支持日志记录的源系统,使用日志文件方式进行增量抽取。

可以设置定时任务,定期解析日志文件,并将变更数据抽取到目标系统中。

c. 基于惟一标识的增量抽取:对于没有时间戳或者日志记录的源系统,使用惟一标识方式进行增量抽取。

ETL数据抽取方法

ETL数据抽取方法

ETL数据抽取方法1. 概述ETL(Extract, Transform, Load)是一种常用的数据处理方法,用于将数据从源系统中抽取出来、进行转换和清洗,然后加载到目标系统中。

本文将详细介绍ETL数据抽取的方法。

2. 数据抽取的目的数据抽取是ETL过程中的第一步,其目的是从源系统中提取需要的数据,为后续的数据转换和加载做准备。

数据抽取的主要目标是获取准确、完整、一致的数据,并保证数据的及时性。

3. 数据抽取方法3.1 批量抽取批量抽取是一种常用的数据抽取方法,适合于数据量较小且不需要实时同步的场景。

该方法通过定时任务或者手动触发的方式,将源系统中的数据按照一定的规则进行批量抽取。

3.2 增量抽取增量抽取是一种逐步更新的数据抽取方法,适合于数据量较大且需要实时同步的场景。

该方法通过记录上一次抽取的时偶尔位置,只抽取源系统中发生变化的数据,从而减少抽取的数据量和时间。

3.3 实时抽取实时抽取是一种即时同步的数据抽取方法,适合于对数据实时性要求较高的场景。

该方法通过使用触发器、消息队列等机制,实时监控源系统的数据变化,并立即将变化的数据抽取到目标系统中。

4. 抽取方法的选择选择合适的数据抽取方法需要考虑多个因素,包括数据量、数据更新频率、数据质量要求等。

对于数据量较小、更新频率较低的场景,可以选择批量抽取;对于数据量较大、更新频率较高的场景,可以选择增量抽取或者实时抽取。

5. 数据抽取的工具数据抽取的方法可以通过编写自定义脚本实现,也可以使用专业的ETL工具来完成。

常见的ETL工具包括Informatica PowerCenter、IBM InfoSphere DataStage、Microsoft SQL Server Integration Services等。

6. 数据抽取的流程数据抽取的流程通常包括以下步骤:6.1 连接源系统:通过配置连接信息,建立与源系统的连接。

6.2 设置抽取规则:根据需求设置数据抽取的规则,包括抽取的数据范围、抽取的字段等。

ETL数据抽取方法

ETL数据抽取方法

ETL数据抽取方法概述:ETL(Extract, Transform, Load)是一种用于将数据从源系统抽取、转换和加载到目标系统的过程。

数据抽取是ETL过程中的第一步,它涉及从源系统中提取数据并将其挪移到ETL流程的中间存储区域,以便进行进一步的转换和加载。

本文将介绍常用的ETL数据抽取方法,包括增量抽取、全量抽取和增量全量混合抽取。

一、增量抽取:增量抽取是指仅从源系统中提取发生变化的数据,而不是所有数据。

这种方法适合于数据量较大且变化频率较高的情况,可以减少ETL过程的时间和资源消耗。

以下是一种常见的增量抽取方法:1. 时间戳增量抽取:通过在源数据中添加时间戳字段,记录数据的最后更新时间。

在每次抽取时,ETL作业会检查源数据中的时间戳字段,并只提取时间戳大于上次抽取时间的数据。

这种方法需要确保源数据的时间戳字段是准确且可靠的。

2. 日志增量抽取:某些系统会记录数据的变更操作,并生成相应的日志文件。

通过解析这些日志文件,可以识别出新增、更新和删除的数据,并将其抽取到目标系统中。

这种方法适合于支持事务日志的系统,如数据库系统。

二、全量抽取:全量抽取是指每次从源系统中提取所有数据,无论数据是否发生变化。

这种方法适合于数据量较小或者变化频率较低的情况,可以确保目标系统中的数据与源系统彻底一致。

以下是一种常见的全量抽取方法:1. 批量全量抽取:通过一次性从源系统中提取所有数据,并将其加载到目标系统中。

这种方法适合于数据量较小或者数据更新频率较低的情况。

由于全量抽取可能会对源系统和网络造成较大负载,因此需要在合适的时间段进行抽取,以避免对业务造成影响。

三、增量全量混合抽取:增量全量混合抽取是指结合增量抽取和全量抽取的方法,根据数据的变化情况选择增量抽取或者全量抽取。

以下是一种常见的增量全量混合抽取方法:1. 基于时间窗口的抽取:将抽取过程分为增量抽取和全量抽取两个阶段。

在增量抽取阶段,根据时间窗口内的数据变化情况,选择增量抽取或者全量抽取。

ETL数据抽取方法

ETL数据抽取方法

ETL数据抽取方法一、概述ETL(Extract, Transform, Load)是一种常用的数据处理方法,用于从源系统中抽取数据、进行必要的转换和清洗,最后加载到目标系统中。

数据抽取是整个ETL过程的第一步,它的目标是从源系统中选择和提取需要的数据。

二、数据抽取方法1. 增量抽取增量抽取是指每次从源系统中抽取新增、修改或删除的数据,以实现数据的实时或定时更新。

常见的增量抽取方法包括:- 基于时间戳:通过记录每个数据的时间戳信息,只抽取时间戳大于上次抽取时间的数据。

- 基于日志:通过监控源系统的日志文件,抽取其中发生变化的数据。

- 基于标志位:在源系统中设置标志位,表示数据是否已被抽取,只抽取标志位为未抽取的数据。

2. 全量抽取全量抽取是指将源系统中的全部数据一次性抽取到目标系统中。

常见的全量抽取方法包括:- SQL抽取:通过执行SQL语句从源数据库中抽取数据。

- 文件抽取:从源系统的文件中读取数据,如CSV、Excel等格式。

- API抽取:调用源系统提供的API接口,获取数据。

3. 增量-全量混合抽取增量-全量混合抽取是指结合增量抽取和全量抽取的方法,以满足不同场景下的数据需求。

例如,可以先进行全量抽取,然后使用增量抽取方法定期更新数据。

4. 并行抽取并行抽取是指同时从多个源系统中抽取数据,并行处理提高抽取效率。

可以通过以下方式实现并行抽取:- 多线程抽取:使用多线程技术,同时从多个源系统中抽取数据。

- 分布式抽取:将抽取任务分布到多台机器上进行并行处理。

5. 压缩和加密在数据抽取过程中,为了减少数据传输的网络带宽和存储空间,可以对抽取的数据进行压缩。

同时,为了保证数据的安全性,可以对抽取的数据进行加密。

三、数据抽取工具1. 商业工具- Informatica PowerCenter:提供了强大的ETL功能,支持多种数据抽取方法和数据源。

- IBM InfoSphere DataStage:具有高性能和可扩展性,适用于大规模数据抽取和处理。

ETL数据抽取方法

ETL数据抽取方法

ETL数据抽取方法概述:ETL(Extract, Transform, Load)是一种常见的数据处理方法,用于从源系统中抽取数据,经过转换处理后加载到目标系统中。

本文将详细介绍ETL数据抽取的方法,包括增量抽取和全量抽取两种方式。

一、增量抽取方法:增量抽取是指从源系统中只抽取发生变化的数据,以减少数据抽取的时间和资源消耗。

以下是一种常见的增量抽取方法:1. 标记字段增量抽取:在源系统中,为每一个数据记录增加一个标记字段,用于标识数据的变化情况。

可以使用时间戳、版本号或者状态字段作为标记字段。

在执行增量抽取时,根据标记字段的变化情况,只抽取标记字段值发生变化的数据记录。

2. 日志文件增量抽取:某些系统会记录数据变更的日志文件,可以通过解析日志文件来实现增量抽取。

解析日志文件可以使用正则表达式或者特定的解析工具,根据日志中的数据变更记录,将发生变化的数据抽取出来。

3. 位图增量抽取:位图增量抽取是指为每一个数据记录创建一个位图,用于标记数据的变化情况。

位图中的每一位对应一条数据记录,如果该位为1,则表示该记录发生了变化。

在执行增量抽取时,根据位图的变化情况,只抽取位图中对应位为1的数据记录。

二、全量抽取方法:全量抽取是指从源系统中抽取所有数据,无论数据是否发生变化。

以下是一种常见的全量抽取方法:1. 批量抽取:批量抽取是最常见的全量抽取方法,通过一次性抽取源系统中的所有数据。

可以使用SQL语句、API接口或者文件传输等方式,将源系统中的数据导出到目标系统中。

2. 数据快照抽取:数据快照抽取是指在特定时间点抽取源系统中的数据,不考虑数据是否发生变化。

可以通过定时任务或者手动触发的方式,将源系统中的数据快照导出到目标系统中。

3. 数据库复制抽取:某些数据库系统提供了数据库复制功能,可以将源数据库的数据复制到目标数据库中。

数据库复制可以实现实时或者定期的数据同步,从而实现全量抽取。

三、其他注意事项:1. 数据抽取过程中,需要考虑数据的一致性和完整性。

ETL数据抽取方法

ETL数据抽取方法

ETL数据抽取方法一、引言ETL(Extract, Transform, Load)是指从源系统中抽取数据,经过转换处理,最终加载到目标系统中的过程。

在数据仓库和商业智能领域,ETL是非常重要的一环。

本文将详细介绍ETL数据抽取的方法,包括增量抽取、全量抽取和增量全量混合抽取。

二、增量抽取增量抽取是指从源系统中仅抽取发生变化的数据。

它适用于数据量较大且只有部分数据发生变化的场景。

以下是一种常用的增量抽取方法:1. 标记字段法:在源系统中添加一个标记字段,用于记录数据的更新时间。

在每次抽取数据时,比较标记字段的值与上次抽取的时间戳,只抽取更新时间大于上次抽取时间的数据。

2. 日志文件法:许多应用系统会记录数据的变更操作到日志文件中。

通过解析日志文件,可以得到发生变化的数据,并进行抽取。

3. 事件触发法:源系统中的数据变更操作可以通过事件触发器来捕获。

当数据发生变化时,触发器会将变更信息发送给ETL系统,从而实现增量抽取。

三、全量抽取全量抽取是指从源系统中抽取全部数据。

它适用于数据量较小或者需要每次都重新加载全部数据的场景。

以下是一种常用的全量抽取方法:1. 批量导出法:源系统提供了批量导出数据的接口,ETL系统可以通过调用接口来获取全部数据。

2. 数据库查询法:ETL系统直接连接源系统的数据库,执行查询语句来获取全部数据。

3. 文件导入法:源系统将数据导出为文件,ETL系统通过读取文件来获取全部数据。

四、增量全量混合抽取增量全量混合抽取是指在每次抽取数据时,既抽取增量数据,又抽取全量数据。

它适用于数据量较大且需要保证数据的一致性的场景。

以下是一种常用的增量全量混合抽取方法:1. 增量抽取+全量抽取:首先进行增量抽取,然后将增量数据与全量数据进行合并,得到最终的数据集。

2. 双向同步法:在源系统和目标系统之间建立双向同步机制,源系统的数据变更会被同步到目标系统,同时目标系统的数据变更也会被同步到源系统。

ETL数据抽取方法

ETL数据抽取方法

ETL数据抽取方法概述:ETL(Extract, Transform, Load)是一种常用的数据集成和处理方法,用于从源系统中抽取数据,经过转换和清洗后加载到目标系统中。

本文将详细介绍ETL数据抽取的方法,包括全量抽取和增量抽取两种方式。

一、全量抽取方法:全量抽取是指将源系统中的所有数据一次性抽取到目标系统中。

以下是一种常用的全量抽取方法:1. 确定源系统和目标系统:首先,需要明确源系统和目标系统的类型和结构,包括数据库类型、表结构等。

2. 创建目标表:在目标系统中创建与源系统相对应的表结构,确保目标表的字段与源表一致。

3. 连接源系统:使用合适的连接方式,如ODBC、JDBC等,连接到源系统的数据库。

4. 编写抽取SQL语句:根据源系统的表结构和数据需求,编写SQL语句来抽取数据。

可以使用SELECT语句来获取源表中的所有数据。

5. 执行抽取任务:将编写好的抽取SQL语句在目标系统中执行,将数据从源系统抽取到目标系统中。

6. 验证抽取结果:检查目标系统中的数据是否与源系统中的数据一致,确保抽取过程没有浮现错误。

二、增量抽取方法:增量抽取是指每次只抽取源系统中发生变化的数据,以减少抽取的数据量和提高效率。

以下是一种常用的增量抽取方法:1. 确定增量字段:在源系统的表结构中选择一个或者多个字段作为增量字段,用于判断数据是否发生变化。

通常选择时间戳字段或者自增主键字段作为增量字段。

2. 记录上次抽取时间:在目标系统中创建一个用于记录上次抽取时间的表或者变量,用于存储上次抽取的时间点。

3. 连接源系统:同全量抽取方法中的步骤3。

4. 编写抽取SQL语句:根据增量字段和上次抽取时间,编写SQL语句来抽取发生变化的数据。

可以使用WHERE子句来筛选出大于上次抽取时间的数据。

5. 更新上次抽取时间:在每次抽取完成后,将当前时间更新到记录上次抽取时间的表或者变量中,以便下次增量抽取时使用。

6. 执行抽取任务:同全量抽取方法中的步骤5。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据源 文件 其他
抽取 临时数据
转换 加载
目标 数据库
图1
ETL抽取方案
ETL 过程中的主要环节就是数据抽取、数据转换和加工、数 据装载。为了实现这些功能,ETL 工具会进行一些功能上的扩 充,例如工作流、调度引擎、规则引擎、脚本支持、统计信息 等。
数据抽取
数据抽取是从数据源中抽取数据的过程。实际应用中,数据源 较多采用的是关系数据库。
并存储到变化表中,发布者与订阅都位于同一数据库中;异步模 式则是基于Oracle 的流复制技术。
优点:提供了易于使用的API 来设置CDC 环境,缩短ETL 的 时间。不需要修改业务系统表结构,可以实现数据的递增加载。
缺点:业务系统数据库版本与产品不统一,难以统一实现, 实现过程相对复杂,并且需深入研究方能实现。或者通过第三方 工具实现,价格昂贵。
d) 全表比对方式
全表比对的方式是ETL 工具事先为要抽取的表建立一个结构 类似的临时表,该临时表记录源表主键以及根据所有字段的数据 计算出来,每次进行数据抽取时,对源表和临时表进行的比对, 如有不同,进行Update 操作,如目标表没有存在该主键值,表 示该记录还没有,即进行Insert 操作。
优点:对已有系统表结构不产生影响,不需要修改业务操作
ETL简介
数据集成是把不同来源、格式和特点的数据在逻辑上或物理上 有机地集中,从而提供全面的数据共享,是企业商务智能、数据 仓库系统的重要组成部分。ETL 是企业数据集成的主要解决方 案。
ETL 中三个字母分别代表的是Extract、Transform、Load,即 抽取、转换、加载。
(1)数据抽取:从源数据源系统抽取目的数据源系统需要的 数据;
(2)数据转换:将从源数据源获取的数据按照业务需求,转 换成目的数据源要求的形式,并对错误、不一致的数据进行清洗 和加工;
(3)数据加载:将转换后的数据装载到目的数据源。 ETL 作为构建数据仓库的一个环节,负责将分布的、异构数 据源中的数据如关系数据、平面数据文件等抽取到临时中间层后 进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成 为联机分析处理、数据挖掘的基础。现在越来越多地将ETL 应用 于一般信息系统数据的迁移、交换和同步。一个简单ETL流程如 图1所示。
c) 全表删除插入方式
每次ETL 操作均删除目标表数据,由ETL 全新加载数据。 优点:ETL 加载规则简单,速度快。 缺点:对于维表加外键不适应,当业务系统产生删除数据操 作时,综合数据库将不会记录到所删除的历史数据,不可以实现 数据的递增加载;同时对于目标表所建立的关联关系,需要重新 进行创建。
从数据库中抽取数据一般有以下几种方式:
1) 全量抽取
全量抽取类似于数据迁移或数据复制,它将数据源中的表或视 图的数据原封不动的从数
据库中抽取出来,并转换成自己的ETL 工具可以识别的格 式。全量抽取比较简单。
2) 增量抽取
增量抽取只抽取自上次抽取以来数据库中要程中,增量抽取较全量抽取应用更 广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有 两点要求:准确性,能够将业务系统中的变化数据按一定的频率 准确地捕获到;性能,不能对业务系统造成太大的压力,影响现 有业务。目前增量数据抽取中常用的捕获变化数据的方法有:
在业务系统中添加系统日志表,当业务数据发生变化时,更新 维护日志表内容,当作ETL 加载时,通过读日志表数据决定加载 那些数据及如何加载。
优点:不需要修改业务系统表结构,源数据抽取清楚,速度 较快。可以实现数据的递增加载。
缺点:日志表维护需要由业务系统完成,需要对业务系统业 务操作程序作修改,记录日志信息。日志表维护较为麻烦,对原 有系统有较大影响。工作量较大,改动较大,有一定风险。
数据转换和加工
从数据源中抽取的数据不一定完全满足目的库的要求,例如数 据格式的不一致、数据输入错误、数据不完整等等,因此有必要 对抽取出的数据进行数据转换和加工。
数据的转换和加工可以在 ETL 引擎中进行,也可以在数据抽 取过程中利用关系数据库的特性同时进行。
a) ETL引擎中的数据转换和加工
ETL 引擎中一般以组件化的方式实现数据转换。常用的数据 转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计 算、数据验证、数据加解密、数据合并、数据拆分等。这些组件 如同一条流水线上的一道道工序,它们是可插拔的,且可以任意 组装,各组件之间通过数据总线共享数据。同时ETL 工具还提供 了脚本支持,使得用户可以以一种编程的方式定制数据的转换和 加工行为。
ETL 引擎处理。
数据装载
将转换和加工后的数据装载到目的库中通常是ETL 过程的最 后步骤。装载数据的最佳方法取决于所执行操作的类型以及需要 装入多少数据。当目的库是关系数据库时,一般来说有两种装载 方式:
(1) 直接 SQL 语句进行insert、update、delete 操作。 (2) 采用批量装载方法,sqlldr等。 大多数情况下使用第一种方法,因为它们进行了日志记录并且 是可恢复的。但是,批量装载操作易于使用,并且在装入大量数 据时效率较高。使用哪种数据装载方法取决于业务系统的需要。
优点:同触发器方式一样,时间戳方式的性能也比较好,ETL 系统设计清晰,源数据抽取相对清楚简单,可以实现数据的递增 加载。
缺点:时间戳维护需要由业务系统完成,对业务系统也有很 大的倾入性(加入额外的时间戳字段),特别是对不支持时间戳 的自动更新的数据库,还要求业务系统进行额外的更新时间戳操 作;另外,无法捕获对时间戳以前数据的delete和update 操作, 在数据准确性上受到了一定的限制。
相比在数据库中加工,性能较高,但不容易进行修改和清晰辨 认。
b) 在数据库中进行数据加工
关系数据库本身已经提供了强大的SQL、函数来支持数据的加 工,如在SQL 查询语句中添加where 条件进行过滤,查询中重命 名字段名与目的表进行映射,substr 函数,case条件判断等等。
相比在 ETL 引擎中进行数据转换和加工,直接在SQL 语句中 进行转换和加工更加简单清晰;但依赖SQL语句,有些数据加工 通过SQL语句可能无法实现,对于SQL 语句无法处理的可以交由
a) 触发器方式(又称快照式)
在要抽取的表上建立需要的触发器,一般要建立插入、修改、 删除三个触发器,每当源表中的数据发生变化,就被相应的触发 器将变化的数据写入一个临时表,抽取线程从临时表中抽取数 据,临时表中抽取过的数据被标记或删除。
优点:数据抽取的性能高,ETL 加载规则简单,速度快,不 需要修改业务系统表结构,可以实现数据的递增加载。
f) Oracle 变化数据捕捉(CDC 方式)
通过分析数据库自身的日志来判断变化的数据。Oracle 的改 变数据捕获(CDC,Changed Data Capture)技术是这方面的 代表。CDC 特性是在Oracle9i 数据库中引入的。CDC 能够帮助 你识别从上次抽取之后发生变化的数据。利用CDC,在对源表进 行insert、update 或 delete 等操作的同时就可以提取数据,并且 变化的数据被保存在数据库的变化表中。这样就可以捕获发生变 化的数据,然后利用数据库视图以一种可控的方式提供给目标系 统。CDC 体系结构基于发布/订阅模型。发布者捕捉变化数据并 提供给订阅者。订阅者使用从发布者那里获得的变化数据。通 常,CDC 系统拥有一个发布者和多个订阅者。发布者首先需要 识别捕获变化数据所需的源表。然后,它捕捉变化的数据并将其 保存在特别创建的变化表中。它还使订阅者能够控制对变化数据 的访问。订阅者需要清楚自己感兴趣的是哪些变化数据。一个订 阅者可能不会对发布者发布的所有数据都感兴趣。订阅者需要创 建一个订阅者视图来访问经发布者授权可以访问的变化数据。 CDC 分为同步模式和异步模式,同步模式实时的捕获变化数据
缺点:要求业务表建立触发器,对业务系统有一定的影响, 容易对源数据库构成威胁。
b) 时间戳方式
它是一种基于快照比较的变化数据捕获方式,在源表上增加一 个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳 字段的值。当进行数据抽取时,通过比较上次抽取时间与时间戳 字段的值来决定抽取哪些数据。有的数据库的时间戳支持自动更 新,即表的其它字段的数据发生改变时,自动更新时间戳字段的 值。有的数据库不支持时间戳的自动更新,这就要求业务系统在 更新业务数据时,手工更新时间戳字段。
程序,所有抽取规则由ETL完成,管理维护统一,可以实现数据 的递增加载,没有风险。。
缺点:ETL 比对较复杂,设计较为复杂,速度较慢。与触发 器和时间戳方式中的主动通知不同,全表比对方式是被动的进行 全表数据的比对,性能较差。当表中没有主键或唯一列且含有重 复记录时,全表比对方式的准确性较差。
e) 日志表方式
相关文档
最新文档