关于XX业务系统数据同步方案简介

合集下载

解决方案之数据同步

解决方案之数据同步

解决方案之数据同步数据同步是指将数据从一个地方复制到另一个地方,以保持两个或多个数据源之间的一致性。

在现代的信息化社会中,数据同步变得越来越重要,因为它可以确保数据的实时性、准确性和完整性。

下面是一些解决方案,可以实现数据的高效同步。

1.集中式数据同步在一个集中式数据同步系统中,所有的数据源都将数据发送到一个中央存储库中,然后从中央存储库中同步数据到其他数据的目标地点。

这种方式可以确保数据的一致性和准确性,因为所有的数据都经过中央存储库的处理和验证。

中央存储库可以使用分布式数据库或者数据仓库来实现,可以根据实际需求选择适当的技术。

2.基于消息队列的数据同步消分经队列是一种用于在分布式系统中传递消息的机制。

在基于消息队列的数据同步方案中,数据源将数据发送到消息队列中,然后目标地点从消息队列中获取数据进行处理。

这种方式可以实现实时性的数据同步,因为数据源和目标地点可以异步地进行数据传输和处理。

另外,消息队列还可以提供数据的可靠性和可伸缩性,因为它们可以处理高并发的数据传输和处理请求。

3.增量式数据同步增量式数据同步是指只同步已经发生变化的数据,而不同步全部数据。

这种方式可以大大减少数据的传输量和处理时间,提高数据同步的效率。

增量式数据同步可以使用日志文件、时间戳或者变更记录来实现,可以根据实际需求选择合适的技术。

4.缓存和异步处理在数据同步过程中,如果目标地点的处理能力无法满足实时数据传输的需求,可以使用缓存和异步处理的方式来优化数据同步。

数据源将数据发送到缓存中,然后目标地点从缓存中获取数据进行处理。

这种方式可以提高数据的处理效率和可靠性,因为数据源和目标地点可以异步地进行数据传输和处理。

5.分布式数据存储和同步在分布式系统中,数据存储和同步是一个非常重要的问题。

分布式数据存储可以将数据分散存储在不同的节点上,并提供高可靠性和可伸缩性的数据访问。

在分布式数据存储系统中,数据同步是确保数据的一致性和完整性的关键问题。

数据同步方案

数据同步方案

数据同步方案数据同步是指将不同设备或不同系统的数据进行互相更新和同步,保持数据的一致性和完整性。

在当今信息化的环境下,数据同步是实现信息的互通和共享的基础,也是保证数据安全和数据管理的重要手段。

数据同步方案主要包括数据同步方式和数据同步策略两个方面。

1. 数据同步方式数据同步方式是指实现数据同步的具体技术手段。

常见的数据同步方式包括:批量同步、增量同步和实时同步。

批量同步:将数据按照一定规则进行拆分和打包,以批量方式进行传输和同步,适合数据量大、同步频率低的场景。

增量同步:根据数据的变化情况,只传输和同步新增、修改和删除的数据,以降低数据传输和同步的开销,适合数据量较大、同步频率较高的场景。

实时同步:数据的变化会立即传输和同步,以保持数据的实时性,适合数据变化频繁、对实时性要求较高的场景。

实时同步一般通过消息队列、触发器等方式实现。

2. 数据同步策略数据同步策略是指根据具体的业务需求和数据特性,制定数据同步的具体方案和规则。

常见的数据同步策略包括:全量同步、增量同步和定向同步。

全量同步:将源数据全部复制到目标数据,适用于全量数据的同步和备份。

全量同步可以通过数据快照、数据导出和导入等方式实现。

增量同步:只同步源数据的变化部分到目标数据,适用于数据更新频率较高的场景。

增量同步一般通过数据日志、版本控制和差异比较等方式实现。

定向同步:根据业务需求和数据特性,选择特定的数据进行同步,适用于根据具体要求进行数据筛选和同步的场景。

定向同步可以通过数据筛选、数据分割和数据集成等方式实现。

综上所述,数据同步方案需要根据具体的需求和情况进行选择和制定。

数据同步方式和数据同步策略是数据同步方案的两个重要组成部分,需要兼顾数据的准确性、实时性和效率性,保证数据同步的顺畅和安全。

同时,数据同步方案还需要考虑数据的一致性、完整性和故障恢复能力,以保证数据同步的可靠性和可用性。

管理系统的移动端数据同步方案

管理系统的移动端数据同步方案

管理系统的移动端数据同步方案随着移动互联网的快速发展,越来越多的企业和组织开始重视移动端应用的开发和管理。

作为管理系统的重要组成部分,数据同步方案对于保证移动端应用与后台系统数据的一致性和实时更新至关重要。

本文将探讨管理系统的移动端数据同步方案。

一、数据同步原理数据同步是指将服务器端的数据同步到移动端,或者将移动端的数据同步到服务器端,保证数据的统一性和完整性。

在数据同步过程中,需要考虑数据冲突处理、数据安全性和实时性等因素,确保数据的准确性和及时性。

二、数据同步技术1. 基于RESTful API的数据同步RESTful API是目前最流行的Web服务架构风格,通过HTTP协议实现了客户端和服务器端之间的通信。

在移动端数据同步方案中,可以通过RESTful API实现数据的增删改查操作,确保数据在移动端和服务器端的同步。

2. 数据库同步技术利用数据库同步技术,可以将服务器端的数据库数据同步到移动端的本地数据库,实现数据的实时更新和同步。

常见的数据库同步技术包括基于触发器、定时任务和增量同步等方式。

3. WebSocket实时通信WebSocket是一种在单个TCP连接上进行全双工通信的协议,可以实现服务器端和客户端之间的实时通信。

通过WebSocket技术,可以实时传输数据更新到移动端,保持数据的实时性和同步性。

三、数据同步方案设计1. 增量同步采用增量同步的方式,只同步发生变化的数据,减少数据传输量和网络带宽的消耗,提高数据同步的效率。

通过记录数据的更新时间戳或版本号,可以实现增量同步的功能。

2. 数据冲突处理在数据同步过程中,可能出现数据冲突的情况,即同一数据在不同终端上发生了修改。

为了避免数据冲突,可以采用乐观锁或悲观锁等机制进行数据同步的冲突处理,确保数据的一致性和完整性。

3. 安全性保障在数据同步过程中,需要考虑数据的安全性和隐私保护。

可以通过SSL加密、权限控制和数据加密等手段,保障数据在传输和存储过程中的安全性,防止数据泄露和篡改。

数据同步解决方案

数据同步解决方案

数据同步解决方案数据同步解决方案概述在当今信息爆炸的时代,数据的同步和共享成为了企业管理和决策的重要基础。

然而,不同系统之间的数据格式、结构以及更新频率等差异增加了数据同步的复杂性。

因此,为了解决这一问题,开发了多种数据同步解决方案。

本文将介绍几种常用的数据同步解决方案,并对比它们的优缺点。

1. 手动导出导入手动导出导入是一种简单直接的数据同步方法。

它的操作步骤相对简单,只需要从源系统中导出数据,然后手动导入到目标系统中。

这种方法适用于数据量小、更新频率低的情况。

然而,当数据量较大或更新频率较高时,手动导出导入的效率低下,容易出错,并且不适合实时应用场景。

2. 定时全量同步定时全量同步是一种常见的数据同步方式。

它的原理是定期从源系统中获取全量数据,然后将数据导入到目标系统中。

这种方法适用于数据量较大的场景,但是它存在一些问题。

首先,定时全量同步需要占用较长时间来进行数据备份,因此可能导致源系统的性能下降。

其次,当数据变更频繁时,全量同步无法实时反映变化,信息的时效性较低。

3. 增量同步增量同步是一种比较高效的数据同步方式。

它的原理是在定时时间间隔内,只将源系统中发生变化的数据进行同步。

这种方式可以节省大量的网络带宽和系统资源,提高同步效率。

增量同步适用于数据变更频繁的场景,也可以实现较高的数据实时性。

但是,增量同步需要额外的开发工作来判断数据是否发生变化以及如何同步变化数据。

4. 实时同步实时同步是一种最为高效的数据同步方式。

它的原理是源系统中的数据发生变化时,立即将变化数据传输到目标系统中。

这种方式可以实现极高的数据实时性,适用于对数据同步的实时性要求较高的场景。

然而,实时同步需要满足较高的数据传输速度和网络可靠性,因此需要投入更多的资源。

选择适当的数据同步解决方案在选择适当的数据同步解决方案时,需要考虑以下几个因素:•数据量:如果数据量较小,手动导出导入可能是一种简单有效的解决方案。

如果数据量较大,增量同步或实时同步可能更适合。

网络数据同步管理技术简介(Ⅲ)

网络数据同步管理技术简介(Ⅲ)

网络数据同步管理技术简介随着互联网的飞速发展,网络数据同步管理技术在信息化时代变得越来越重要。

它可以将数据从一个地方同步到另一个地方,确保数据的一致性和完整性。

本文将从数据同步管理的基本概念开始,介绍其技术原理和应用场景,并探讨其未来发展趋势。

一、基本概念数据同步管理是指将数据从一个位置复制到另一个位置的过程,以确保数据在不同地点的一致性。

在网络环境下,数据同步管理通常涉及多个数据源和目标,需要通过网络传输数据,并进行冲突检测和解决。

数据同步管理技术包括数据传输、数据转换、数据加载等步骤,涉及到数据的增量更新和全量更新。

二、技术原理数据同步管理技术的实现依赖于数据同步工具和数据同步算法。

数据同步工具通常包括数据同步引擎、数据同步服务端和客户端等组件,用于实现数据的传输、转换和加载。

数据同步算法则包括增量同步算法、全量同步算法和冲突解决算法等,用于确保数据的一致性和完整性。

常见的数据同步管理技术包括ETL(Extract, Transform, Load)、CDC (Change Data Capture)、Replication等。

ETL技术通过抽取、转换和加载数据,实现不同数据库之间的数据同步;CDC技术通过捕获数据库的变化,实现增量数据同步;Replication技术通过复制数据库的所有数据,实现全量数据同步。

这些技术可以根据不同的需求和场景进行组合和选择,以满足数据同步管理的各种需求。

三、应用场景数据同步管理技术在各种应用场景中都有广泛的应用。

在企业信息化中,数据同步管理技术可以用于不同业务系统之间的数据同步,以确保数据的一致性和及时性。

在移动互联网应用中,数据同步管理技术可以用于移动设备和云端数据的同步,以实现数据的随时随地访问。

在物联网领域,数据同步管理技术可以用于各种物联网设备之间的数据同步,以实现设备之间的协同工作。

数据同步管理技术还可以应用于数据备份、数据迁移、数据集成等场景。

在数据备份中,数据同步管理技术可以确保备份数据的完整性和及时性;在数据迁移中,数据同步管理技术可以实现不同系统之间的数据迁移;在数据集成中,数据同步管理技术可以实现不同数据源之间的数据集成。

数据实时同步解决方案

数据实时同步解决方案

数据实时同步解决方案
《数据实时同步解决方案》
在当今数字化的社会中,企业面临着巨大的数据量和跨平台数据同步的挑战。

数据的实时同步是企业信息化过程中非常重要的一环,它能够确保不同系统、不同平台上的数据实时同步,从而让企业能够在第一时间内获取最新的数据和信息。

为了解决数据实时同步的问题,许多企业都在寻找适合自己的解决方案。

实时同步解决方案的核心是能够保证各种数据的实时传输和同步,例如数据库同步、文件同步、应用程序数据同步等。

在这方面,有一些技术和工具已经成熟,可以帮助企业实现数据实时同步的目标。

首先,数据实时同步解决方案需要具备高性能和高稳定性。

只有具备了足够的性能和稳定性,才能确保数据在传输和同步过程中不会丢失和损坏。

其次,解决方案还需要具备跨平台的能力,能够应对不同操作系统和不同数据库之间的数据同步需求。

此外,解决方案还需要提供灵活的配置和管理功能,以满足不同企业在数据实时同步方面的个性化需求。

目前,市面上已经出现了一些成熟的数据实时同步解决方案,这些解决方案通常包括了数据传输引擎、管理工具和监控系统。

企业可以根据自己的情况选择适合自己的解决方案,并通过部署和配置来实现数据的实时同步。

例如,企业可以使用类似于Kafka、Flume等开源工具来实现大规模数据实时同步,也可
以选择一些成熟的商业解决方案来帮助实现数据实时同步的目
标。

总之,数据实时同步解决方案在当今信息化的企业中发挥着越来越重要的作用。

通过选择合适的解决方案,并进行正确的配置和管理,企业可以确保自己的数据在不同系统和平台上能够进行实时同步,从而为企业的发展和决策提供更加准确和及时的数据支持。

数据库同步方案

数据库同步方案
-对捕获的变更数据执行转换处理。
-将转换后的数据实时或批量写入目标数据库。
3.3同步流程
3.3.1数据抽取
-对于全量同步,采用数据导出工具进行全量数据抽取。
-对于增量同步,利用数据库日志、时间戳等技术实现数据变化的捕获。
3.3.2数据转换
-数据清洗:去除无效数据,纠正错误数据,消除数据冗余。
-数据映射:根据目标数据库结构,映射源数据字段。
3.2同步模式
3.2.1全量同步
全量同步适用于数据初始化或全量数据更新场景,其过程包括:
-中间件连接数据源,读取全部数据。
-数据经过清洗、转换等处理,满足目标数据库的数据规范。
-将处理后的数据批量写入目标数据库。
3.2.2增量同步
增量同步针对数据变化频繁的场景,以提高同步效率,其步骤包括:
-中间件通过日志、触发器等技术手段捕获数据源的变化。
3.数据备份:定期对数据源和目标数据库进行备份,防止数据丢失;
4.安全防护:遵循国家相关法律法规,加强网络安全防护,确保数据安全。
4.方案实施与验收
4.1实施步骤
1.梳理业务需求,明确同步范围和同步策略;
2.搭建同步环境,包括数据源、中间件和目标数据库;
3.编写同步脚本,实现数据抽取、转换和加载;
4.部署同步任务,进行测试和调优;
5.正式上线,进行生产环境同步;
6.定期对同步效果进行评估和优化。
4.2验收标准
1.数据同步任务执行成功;
2.目标数据库中的数据与数据源一致;
3.数据同步过程中,未出现数据丢失、重复等问题;
4.遵守国家相关法律法规,确保数据安全。
5.总结
本方案从总体架构、同步策略、数据同步流程和保障措施等方面,详细阐述了数据库同步的解决方案。通过实施本方案,可有效提高企业各业务系统之间的数据一致性,降低数据同步风险,为企业的数字化转型提供有力支持。同时,本方案遵循国家相关法律法规,确保数据同步的合法合规性。

数据同步解决方案

数据同步解决方案

数据同步解决方案1. 引言数据同步是在不同数据源之间传输和更新数据的过程。

在现代技术环境下,数据同步变得越来越重要,因为组织和企业需要在不同系统之间实现数据共享和一致性。

本文将介绍数据同步的概念和重要性,并提供一些常见的数据同步解决方案。

2. 数据同步的重要性数据同步在现代企业中具有重要的作用,它可以解决以下问题:•数据一致性:不同的系统可能拥有不同的数据源,数据同步可以确保数据在这些系统之间保持一致,避免数据误差和冲突。

•数据共享:数据同步允许不同的系统之间共享数据,使得不同部门或团队可以共享和访问实时的数据,提高工作效率和决策的准确性。

•数据备份:通过数据同步,可以将数据从一个系统备份到另一个系统,以防止数据丢失和灾难恢复。

•系统集成:数据同步是实现系统集成和业务流程自动化的关键步骤,不同系统之间的数据同步可以实现信息的无缝传递和协调。

3. 数据同步解决方案以下是一些常见的数据同步解决方案:3.1 手动数据同步手动数据同步是最基本的数据同步方式,通过人工介入将数据从一个系统复制到另一个系统。

这种方式适用于数据量较小、同步频率较低的情况,但容易出现人为错误和延迟。

例如,将数据从电子表格中复制到数据库中,或将数据从一个电子邮件系统中复制到另一个电子邮件系统中。

3.2 批量数据同步批量数据同步是将数据从一个系统抽取并以批量的方式加载到另一个系统。

这种方式适用于数据量较大、同步频率较低的情况。

常见的批量数据同步工具有Sqoop、DataStage 等。

批量数据同步的优点是可以处理大规模数据、支持并行处理,但同步延迟较高,不适用于需要实时数据同步的场景。

3.3 实时数据同步实时数据同步是在数据产生之后立即将其传输到另一个系统。

这种方式适用于需要实时数据同步的场景,比如电子商务、金融交易等。

实时数据同步的关键在于减少同步延迟。

常见的实时数据同步解决方案有Change Data Capture (CDC) 技术,它可以捕获数据源的变更并即时传输到目标系统。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关于XX业务系统数据同步方案简介
修订记录
目录
1.概述 (4)
2.数据分析现状 (5)
3.数据同步方案 (6)
3.1.理论分析 (7)
3.1.1.理论值分析 (7)
3.1.2.必要条件 (9)
3.1.3.差集计算 (9)
3.2.数据处理方案 (11)
3.2.1.历史数据处理 (11)
3.2.2.过渡性数据处理 (12)
3.2.3.常规数据处理 (12)
3.3.数据时效性 (12)
4.未知性说明 (14)
1.概述
XX业务系统技术支持人员大部分时间均在进行数据统计分析,且基本是在正式环境中进行数据分析处理,而此举在实际操作中除会给生产系统带来诸多压力之外,还可能因为操作人员新建大量临时表时操作失误而出现删表或者删数据的情况。

针对上述情况并结合可视化分析系统的现有使用情况,做本建设性思考方案,旨在针对实际问题提出理论上的建设性方案。

2. 数据分析现状
XX 业务系统数据分析一直因为数据时效性而无法很好的使用Spark 集群,且目前已建设的可视化分析环境因为历史数据存在被修改的可能性而导致用之甚少。

且当前XX 业务系统集群可视化分析环境采用按月(月中)更新、人工拷贝而后转由集群导入的方式,如下图1所示。

备份库
集群库
正式库人工拷贝系统同步
图1 – XX 业务系统数据同步示意图
该方式在实际操作中非常消耗人力、物力,且集群数据利用率极低(XX 业务系统版集群可视化环境几乎没人使用)。

3.数据同步方案
近期,在处理HBase数据同步至HDFS方案时,构思如下数据更新方案,如图2所示:
近期数据
差集
全量数据
Override
Append
图2 – HBase数据迁移理论方案示意图
同理,将HBase替换成XX业务系统生产数据库,则会得到下图3所示方案示意图:
近期数据
差集
全量数据
Override
Append
Oracle
图3– XX业务系统数据迁移理论方案示意图
该方案是采用蚂蚁搬家的思路,若在此方案思路使用至XX业务系统数据同步中将会使数据从一个月的更新周期调整为一天,从而使集群数据更接近实时数据,从而为XX业务系统日常统计使用Spark集群提供了可能性。

3.1.理论分析
前期在XX业务系统数据同步过程中,一直困扰的问题是XX业务系统数据存在被修改的可能性,且修改的数据可能是近期也可能是N年前的历史数据。

鉴于此实际情况,前期思路一直停留在如何才能以更快速的方式加载生产数据库中的全量数据。

且之前提出的伪增量方案由于局限性也不能很好的解决XX业务系统数据面临的实际问题。

现在我们换个思路,如果不能一次性获取那么大批量的数据信息,为何不能采用大量数据按时间段切分成很多小块数据的思路来处理?
借用Spark Streaming将数据按时间切片的思路,将XX业务系统数据进行切片,将数据切分成一个个较小的数据块。

如下图4所示,可以通过切片将月度数据集切分成多个日度数据集。

图4 – XX业务系统数据切片示意图
3.1.1.理论值分析
假设XX业务系统数据月度更新(包含新增、修改)量平均值为S,且每月天数按照30日计算,则在对数据切片之后,每天需要处理的数据量将为S1 = S。

若S数量级的数据同步(Oracle至HDFS,不考虑人工数据迁移)耗30
时为T ,则S 1数量级的数据同步耗时则为T 1 = (T 30, T
3
)(注:此区间范围是通
过既往集群数据处理总结所得)。

目前海南医保智能审核数据均来自XX 业务系统系统,所以使用海南智能审核数据处理耗时来对XX 业务系统数据处理耗时进行理论分析存在一定的参考价值。

图5 – 智能审核月度数据处理耗时
如上图5所示,为智能审核系统2018年12月度住院医嘱明细1721W 数据从数据库通过JDBC 方式抽取到HDFS 的耗时日志信息。

在此我们假定S =1721W ,T =1891秒,则理论上将上述数据按日切分后,每日需要处理的数据量S 1=57.36W ,处理耗时T 1将在(63秒,630秒)的区间范围内
注:此处处理耗时区间跨度较大是因为Spark 采用JDBC 方式从数据源抽取数据的耗时,受被抽取数据表的数据量、网络传输速度以及数据源物理磁盘空间等因素所影响,在不同参数环境下,同等数据量的处理耗时不尽相同。

对于住院医嘱明细这类数据量大的数据表,其日度数据处理耗时在63~630秒的区间内,且智能审核采取省级数据单表存储而非按地区分表存储模式,所以其理论数据处理耗时会大于分表存储模式。

3.1.2.必要条件
在该数据同步方案中(图3所示),必须确保数据源能够满足提取近期数据这一必要条件。

而这里的近期数据则是近期新增或者修改的数据合集。

如何确定哪些数据是最近新增或者修改的呢?据前期了解,XX业务系统数据中大部分业务数据表存在该条数据记录的更新时间字段。

且大部分数据的删除为逻辑删除,而非物理删除。

如此一来,在确保没有人工手动修改数据的前提下,就可以通过各表中的更新时间字段来获取到最近更新的数据信息。

注意,这里所取的近期数据均取自数据库相关业务表,若业务表数据量较大则通过更新时间字段进行数据筛选提取时,可能会对数据表的性能指标造成一定的影响。

3.1.3.差集计算
如前所述,在该数据同步方案中,需要对Oracle提取的最新数据集DS new 和HDFS中的全量数据集DS all进行差集运算,这里的差集如何定义?
图6 – 数据集示例
如上图6所示,上面部分为全集数据DS all下面部分为最新数据DS new,我们可以很清晰的知道code为001、002的两个数据对应的name信息被修改。

那么此时如果要将更新后的数据替换掉DS all中的原有的数据,则需先将DS all中code为001和002的记录去掉得到DS mid,并将DS mid写入HDFS 而后再将DS new追加写入,这样就可以得到最新的全集数据了。

在这个过程中DS mid则被称之为差集。

将DS mid与DS new共同写入HDFS,则被称之为数据合并。

注:为更好的确保差集计算的准确性,此处必须确保被计算的数据集存在主键字段,否则差集计算可能存在问题。

附:Spark差集计算函数
3.2.数据处理方案
由于XX业务系统生产数据库存放在电信机房,而Spark集群部署在公司内网,两者在网络环境上存在一定隔阂且XX业务系统生产数据库太大不可能通过网络传输方式将数据一次性传输至集群服务器,所以本方案将数据处理分为三个步骤,即历史数据处理、过渡性数据处理及常规数据处理。

3.2.1.历史数据处理
即XX业务系统过往历史数据,此类数据特征为体量大、集群服务器上不存在该部分数据(此处假设集群服务器不存放任何XX业务系统相关数据)。

在对历史数据做处理时,需要将该部分数据通过现有人工拷贝处理方式备份至公司内网Oracle服务器,而后再由Spark通过JDBC方式进行全量数据抽取处理。

3.2.2.过渡性数据处理
由于XX业务系统生产数据体量大,所以在历史数据处理时,将会出现耗时相对较久的情况。

而此段时间内,XX业务系统生产库将会源源不断的产生新的数据信息,此时在历史数据同步至HDFS,需对此段过渡期的数据进行批量处理,即使用该同步方案思路将近N天的数据同步至HDFS,以此来确保HDFS与XX业务系统生产数据库的数据一致性问题。

3.2.3.常规数据处理
在过渡性数据处理完成后,后续处理即为常规处理,即按日从XX业务系统正式库抽取最新数据,而后同步至HDFS,从而得到最新的数据信息。

3.3.数据时效性
如前所述该方案采用按日同步的方式,理论而言HDFS上的数据与XX 业务系统正式数据库时差为1天。

然而此处的1天在不同语境及处理方式下不尽相同。

由于Spark集群对数据分析采用的是基于数据模型的分析方式,即用户在进行数据分析前需对原始数据进行加工处理。

如此一来,数据处理的耗时将为数据导入和模型生成的耗时总和。

根据最近一次(2019年1月3日)XX业务系统数据模型生成情况来看,当前数据量下XX业务系统所有模型生成耗时为2.4小时,而且后续会随着业务量的增加而耗时更久,所以此处假设模型生成耗时为3小时。

为确保工作人员能够在上午8点开始正常使用Spark集群进行数据相关统计分析,则在除去模型生成的3小时耗时外,若从0点计时则会有5小时的时长用以进行数据的同步处理。

然而,据前期对接XX业务系统所了解的情况,在0点之后XX业务系统系统将有大量批量任务需要执行,数据库压力很大,若在此时段进行数据抽取处理,则会对XX业务系统正式数据库的正常运行造成不必要的影响。

综上所述,该方案建议XX业务系统近期数据的抽取工作安排在下午至午夜某时段,尽可能的在对正式库不造成太大影响情况下完成有关处理。

如此一来,相关人员在使用Spark集群对XX业务系统进行数据分析时其时差并非理论上的一天。

4.未知性说明
该方案中数据差集计算及合并写入部分未就千万级别数据进行有效测试,其耗时存在未知性。

此外,该方案为基于历史经验的理论性假设方案,就实际操作而言需进行相关数据测试、验证之后方知是否可行。

相关文档
最新文档