广发核心系统项目_数据清理方案
数据清理实施方案

数据清理实施方案一、背景介绍随着企业数据的不断积累和增长,数据清理变得越来越重要。
数据清理是指对数据进行筛选、校验、修复和转换,以确保数据的准确性、一致性和完整性。
本文将介绍一种数据清理实施方案,旨在匡助企业高效地进行数据清理工作。
二、目标和目的数据清理实施方案的目标是优化数据质量,提高数据的可靠性和可用性。
具体目的包括:1. 发现和纠正数据中的错误、重复和不一致性。
2. 清除无效、过时或者冗余的数据。
3. 标准化数据格式和命名规范。
4. 确保数据的完整性和一致性。
5. 提高数据的可查询性和分析性。
三、实施步骤和流程1. 数据审查和评估- 采集和整理待清理的数据,包括数据源、数据类型和数据量。
- 分析数据质量问题,如错误、缺失、重复等。
- 评估数据清理的优先级和紧急程度。
2. 数据清理计划制定- 设定清理目标和指标,如数据准确性、一致性、完整性等。
- 制定清理策略和方法,如数据规则、算法和工具的选择。
- 确定清理时间表和资源分配。
3. 数据清理执行- 数据去重:识别和删除重复数据,保留最新、最完整的数据。
- 数据修复:根据规则和算法修复错误、缺失或者不一致的数据。
- 数据转换:将数据转换为统一的格式和命名规范。
- 数据验证:通过校验规则和算法验证数据的准确性和一致性。
4. 数据清理监控和评估- 监控清理过程中的发展和效果,及时调整清理策略。
- 评估清理结果,验证数据的质量和可用性。
- 提供清理报告和建议,为后续数据管理和分析提供参考。
四、数据清理工具和技术1. 数据清理工具- 数据质量管理工具:用于检测、诊断和修复数据质量问题。
- 数据清洗工具:用于去重、修复和转换数据。
- 数据验证工具:用于校验和验证数据的准确性和一致性。
2. 数据清理技术- 数据挖掘和机器学习:利用算法和模型自动发现和修复数据问题。
- 规则引擎:定义和执行数据清理规则,自动识别和修复数据错误。
- 数据转换和整合技术:将数据转换为统一的格式和命名规范。
数据清理实施方案

数据清理实施方案一、背景介绍随着信息技术的快速发展和数据的广泛应用,各个组织和企业都面临着大量数据的积累和管理问题。
数据清理是指对数据进行识别、筛选、清除错误、不一致或者不完整的操作,以确保数据的准确性、一致性和完整性。
本文将介绍数据清理的实施方案,包括数据清理的目的、流程、方法和工具。
二、目的数据清理的目的是提高数据的质量和可靠性,减少数据错误对决策和业务运营的影响。
通过数据清理,可以确保数据的准确性、一致性和完整性,提高数据的可用性和价值。
三、流程1. 数据采集:采集需要清理的数据,包括数据库、文件、日志等。
2. 数据评估:对采集到的数据进行评估,包括数据质量评估、数据完整性评估、数据一致性评估等。
3. 数据清洗:根据评估结果,对数据进行清洗操作,包括去重、纠错、填充缺失值等。
4. 数据整合:将清洗后的数据整合到目标系统或者数据库中,确保数据的一致性和完整性。
5. 数据验证:对整合后的数据进行验证,确保数据的准确性和可靠性。
6. 数据存储:将验证通过的数据存储到目标系统或者数据库中,以备后续使用。
四、方法1. 数据质量分析:通过统计方法和数据挖掘技术,对数据进行质量分析,发现数据中的错误、不一致和缺失。
2. 数据清洗:根据数据质量分析的结果,采用合适的方法和工具对数据进行清洗,包括去重、纠错、填充缺失值等。
3. 数据整合:将清洗后的数据整合到目标系统或者数据库中,确保数据的一致性和完整性。
4. 数据验证:对整合后的数据进行验证,包括数据的准确性、一致性和完整性的验证,确保数据的可靠性。
5. 数据存储:将验证通过的数据存储到目标系统或者数据库中,以备后续使用。
五、工具1. 数据清洗工具:如OpenRefine、Trifacta Wrangler等,用于数据清洗和转换。
2. 数据质量分析工具:如DataQualityTools、Talend Data Quality等,用于数据质量分析和评估。
3. 数据整合工具:如ETL工具(Extract, Transform, Load)、数据集成平台等,用于数据整合和转换。
数据清洗 实施方案

数据清洗实施方案数据清洗是数据预处理的重要环节,它主要包括数据采集、数据清洗、数据转换和数据加载等步骤。
在数据分析和挖掘过程中,数据质量的好坏直接影响到最终分析结果的准确性和可信度。
因此,数据清洗的实施方案显得尤为重要。
本文将从数据清洗的目的、方法和步骤等方面进行详细介绍。
1. 数据清洗的目的数据清洗的主要目的是发现和纠正数据中的错误、不完整、不一致和不准确的部分,以提高数据的质量。
数据清洗的目标包括但不限于以下几个方面:- 发现并处理缺失值:在实际数据中,经常会出现数据缺失的情况,这会影响到数据的完整性和准确性。
因此,需要对缺失值进行处理,可以通过填充、删除或者插值等方式进行处理。
- 发现并处理异常值:异常值会对数据分析结果产生较大的干扰,因此需要对异常值进行识别和处理,可以通过统计学方法或者专业领域知识进行识别。
- 发现并处理重复值:重复值会影响到数据的分析结果,因此需要对重复值进行识别和处理,可以通过数据去重的方式进行处理。
2. 数据清洗的方法数据清洗的方法主要包括数据审查、数据验证、数据校准和数据纠错等步骤。
具体方法如下:- 数据审查:对数据进行全面审查,发现数据中的错误和异常值。
- 数据验证:对数据进行验证,确保数据的准确性和一致性。
- 数据校准:对数据进行校准,使数据符合规定的标准和格式。
- 数据纠错:对数据中的错误进行纠正,以提高数据的质量。
3. 数据清洗的步骤数据清洗的步骤主要包括数据导入、数据预处理、数据清洗和数据导出等步骤。
具体步骤如下:- 数据导入:将原始数据导入到数据清洗的工具或者系统中,准备进行数据清洗的操作。
- 数据预处理:对数据进行预处理,包括数据的格式转换、数据的标准化等操作。
- 数据清洗:对数据进行清洗,包括对缺失值、异常值和重复值进行处理。
- 数据导出:将清洗后的数据导出,以备后续的数据分析和挖掘使用。
综上所述,数据清洗是数据预处理的重要环节,它对数据分析和挖掘的结果具有重要影响。
数据清洗工作实施方案

数据清洗工作实施方案一、背景介绍。
随着大数据时代的到来,数据的规模和复杂度不断增加,而数据质量的问题也日益突出。
数据清洗作为数据预处理的重要环节,对于保证数据的准确性和完整性具有至关重要的作用。
因此,制定一套科学合理的数据清洗工作实施方案,对于提高数据质量、保证数据分析结果的可靠性具有重要意义。
二、数据清洗工作实施方案。
1. 制定数据清洗标准。
在进行数据清洗工作之前,首先需要明确数据清洗的标准和要求。
包括数据的准确性、完整性、一致性、唯一性等方面的标准,以及数据清洗的具体流程和方法。
2. 数据质量分析。
对原始数据进行全面的质量分析,包括数据的缺失值、异常值、重复值等情况进行全面的分析和评估,为后续的数据清洗工作提供依据。
3. 数据清洗方法选择。
根据数据质量分析的结果,选择合适的数据清洗方法。
包括删除异常值、填补缺失值、去重复等具体的数据清洗方法,确保数据的准确性和完整性。
4. 数据清洗工具选择。
选择合适的数据清洗工具进行数据清洗工作。
包括数据清洗软件、数据清洗算法等工具的选择,以提高数据清洗的效率和准确性。
5. 数据清洗流程设计。
设计数据清洗的具体流程,包括数据清洗的先后顺序、数据清洗的具体步骤、数据清洗的质量控制等方面的内容,确保数据清洗工作有条不紊地进行。
6. 数据清洗效果评估。
对数据清洗后的数据进行效果评估,包括数据的准确性、完整性、一致性等方面的评估,确保数据清洗工作达到预期的效果。
7. 数据清洗工作记录和文档编制。
对数据清洗工作进行全面的记录和文档编制,包括数据清洗的具体过程、数据清洗的结果、数据清洗的问题和解决方案等方面的内容,以备后续的数据分析和数据挖掘工作。
三、总结。
数据清洗工作是数据预处理的重要环节,对于保证数据的准确性和完整性具有重要意义。
制定一套科学合理的数据清洗工作实施方案,对于提高数据质量、保证数据分析结果的可靠性具有重要意义。
希望本实施方案能够对数据清洗工作有所帮助,提高数据的质量和可靠性。
数据清理实施方案

数据清理实施方案一、背景介绍在大数据时代,企业和组织面临着海量数据的管理和分析问题。
数据清理是数据管理的重要环节,它涉及到对数据进行验证、清洗、整理和转换,以确保数据的准确性、一致性和完整性。
本文将提出一个数据清理实施方案,以匡助企业和组织有效地处理数据清理工作。
二、目标和目的1. 目标:确保数据的准确性、一致性和完整性,提高数据质量。
2. 目的:清洗和整理数据,使其符合预定的标准和格式,便于后续的数据分析和应用。
三、实施步骤1. 数据采集:采集需要清理的数据,并明确数据的来源和格式。
2. 数据验证:对采集到的数据进行验证,包括数据的完整性、一致性和准确性。
- 完整性验证:检查数据是否存在缺失值或者空值,如有必要,补充或者删除相应的数据。
- 一致性验证:检查数据之间的逻辑关系是否一致,如有冲突,进行相应的调整和处理。
- 准确性验证:比对数据与实际情况,确保数据的准确性,如有错误,进行修正。
3. 数据清洗:对验证通过的数据进行清洗,包括数据的去重、去噪和规范化。
- 去重:检查数据中是否存在重复记录,如有重复,保留一条并删除其他重复记录。
- 去噪:检查数据中是否存在异常值或者错误值,如有异常,进行修正或者删除。
- 规范化:统一数据的格式和单位,使其符合预定的标准。
4. 数据整理:对清洗后的数据进行整理,包括数据的排序、分类和归档。
- 排序:按照指定的字段对数据进行排序,便于后续的数据分析和应用。
- 分类:将数据按照一定的规则进行分类,便于数据的管理和检索。
- 归档:将数据按照时偶尔其他规则进行归档,便于长期保存和备份。
5. 数据转换:将整理后的数据转换为目标格式,以满足后续的数据分析和应用需求。
- 数据格式转换:将数据转换为所需的格式,如文本、表格、数据库等。
- 数据类型转换:将数据转换为所需的数据类型,如数值型、日期型等。
- 数据结构转换:将数据按照预定的结构进行转换,以适应后续的数据分析和应用。
数据清理实施方案

数据清理实施方案一、背景介绍随着企业数据规模的不断增长,数据清理变得越来越重要。
数据清理是指对数据进行检查、修复、删除和更新的过程,以保证数据的准确性、完整性和一致性。
本文将提出一种数据清理实施方案,以帮助企业有效地清理和维护其数据。
二、目标和目的数据清理的目标是确保数据的质量和可靠性,以提高决策的准确性和效率。
具体目的包括:1. 检查和纠正数据中的错误、缺失和不一致性。
2. 删除重复、无效或过时的数据。
3. 更新数据以反映最新的业务需求和变化。
4. 提高数据的可读性和可理解性。
三、步骤和方法1. 数据识别和分类首先,需要对企业的数据进行识别和分类。
根据数据的类型和用途,将数据分为不同的类别,如客户数据、销售数据、供应链数据等。
这有助于更好地理解数据的特点和需求。
2. 数据清理规则的制定根据数据的特点和需求,制定相应的数据清理规则。
例如,对于客户数据,可以设定规则检查和修复电话号码、地址等信息的格式和准确性。
对于销售数据,可以设定规则删除重复的订单记录。
确保规则的制定符合业务需求和数据质量标准。
3. 数据清理工具的选择根据企业的需求和资源情况,选择适合的数据清理工具。
常用的数据清理工具包括Excel、SQL、Python等。
确保选择的工具能够满足数据清理的需求,并提供足够的功能和灵活性。
4. 数据清理的实施根据制定的数据清理规则和选择的工具,开始进行数据清理的实施。
按照设定的规则逐步清理数据,修复错误、删除重复和无效数据,并更新需要更新的数据。
在此过程中,需要注意备份原始数据,以防止意外损失。
5. 数据清理结果的评估和验证数据清理完成后,需要对清理结果进行评估和验证。
通过对清理后的数据进行抽样和比对,检查数据的准确性、完整性和一致性。
确保数据清理的效果符合预期,并满足业务需求。
四、数据清理的监控和维护数据清理是一个持续的过程,需要进行监控和维护。
建立数据清理的监控机制,定期检查和修复数据的错误和问题。
系统数据清理方案

系统数据清理方案目标本方案的目标是通过系统化的方法对数据进行清理,确保数据的准确性、一致性和完整性,提高数据的可用性和可信度。
具体目标包括: 1. 去除重复数据,确保每条数据的唯一性; 2. 清理无效数据,包括缺失值、异常值等; 3. 标准化数据,统一数据格式和单位,方便后续数据分析和应用; 4. 建立数据清理流程和规范,确保数据清理工作的可持续性和可复制性。
实施步骤本方案的实施步骤如下:1. 确定数据清理的范围和目标首先需要明确需要清理的数据的范围和清理的目标,例如清理数据库中的特定表格或者清理某个文件夹中的数据文件。
2. 数据备份在进行数据清理之前,务必对原始数据进行备份,以防止意外操作导致数据丢失或不可恢复。
3. 数据质量评估对原始数据进行质量评估,包括以下方面: - 缺失值检测:检查每个字段是否存在缺失值,记录缺失值的数量和位置; - 异常值检测:通过统计描述性统计量、绘制箱线图等方法,识别数据中的异常值; - 一致性检测:检查数据中是否存在不一致的命名、格式或单位等问题。
4. 数据清洗根据数据质量评估的结果,对数据进行清洗,包括以下方面: - 处理缺失值:根据具体情况,可以选择删除包含缺失值的数据行、使用均值或中位数填充缺失值,或者使用插值方法进行填充; - 处理异常值:根据异常值的具体情况,可以选择删除异常值、使用均值或中位数替代异常值,或者使用插值方法进行替代; - 标准化数据:对数据进行标准化处理,例如统一日期格式、单位转换等,以确保数据的一致性; - 去除重复数据:根据数据的唯一标识,去除重复的数据行。
5. 数据验证对清洗后的数据进行验证,确保数据清洗的效果符合预期。
可以使用统计分析、数据可视化等方法对清洗后的数据进行分析和验证。
6. 数据清理文档和流程规范根据数据清理的过程和结果,编写数据清理文档,记录数据清理的步骤、方法和结果。
同时,建立数据清理的流程规范,明确数据清理的责任人和时间节点,确保数据清理工作的可持续性和可复制性。
数据清理实施方案 (2)

数据清理实施方案一、背景介绍在日常的数据处理过程中,我们经常会遇到数据质量不高、数据重复、数据格式不一致等问题,这些问题会影响到数据分析和决策的准确性和可靠性。
为了解决这些问题,我们需要制定一套数据清理实施方案,以确保数据的准确性和一致性。
二、目标和目的1. 目标:通过数据清理,提高数据质量,减少数据错误和重复,提高数据分析和决策的准确性。
2. 目的:制定一套规范的数据清理流程,明确数据清理的方法和步骤,确保数据的一致性和准确性。
三、数据清理流程1. 数据收集:收集需要清理的数据,包括数据源、数据类型、数据量等信息。
2. 数据评估:对收集到的数据进行评估,包括数据质量评估、数据完整性评估、数据一致性评估等。
3. 数据清洗:根据评估结果,对数据进行清洗,包括去除重复数据、修复错误数据、填充缺失数据等。
4. 数据转换:将清洗后的数据转换成统一的格式和结构,方便后续的数据分析和决策。
5. 数据验证:对转换后的数据进行验证,确保数据的准确性和一致性。
6. 数据存储:将验证通过的数据存储到数据库或其他存储介质中,以备后续使用。
四、数据清理方法和步骤1. 去除重复数据:通过比较数据的唯一标识符或关键字段,去除重复的数据记录。
2. 修复错误数据:根据数据的规则和逻辑,修复数据中的错误,比如修正错误的日期格式、纠正错误的数值等。
3. 填充缺失数据:对于缺失的数据,根据规则和逻辑进行填充,比如使用均值、中位数等方法填充数值型数据,使用众数填充分类型数据。
4. 格式统一化:对于不同格式的数据,进行格式统一,比如统一日期格式、统一单位等。
5. 数据类型转换:将数据转换成适合分析和决策的数据类型,比如将文本型数据转换成数值型数据。
6. 数据一致性验证:对转换后的数据进行一致性验证,确保数据的逻辑关系和约束条件的正确性。
五、数据清理工具和技术1. 数据清洗工具:可以使用Excel、Python、R等工具进行数据清洗,根据具体的需求选择合适的工具。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
广发核心系统项目概要设计书(数据清理)V1.02013年11月目录1概述 (3)1.1 理论背景 (3)1.2 需求背景 (3)1.3 功能清单.............................................. 错误!未定义书签。
1.4 关键策略 (4)1.5 限制/假设............................................. 错误!未定义书签。
2术语定义.................................................错误!未定义书签。
2.1 清理编号 (5)2.2 清理类型 (5)2.3 清理时间 (5)2.4 保留期限 (6)2.5 清理状态 (7)3数据结构 (8)3.1 数据结构描述 (8)3.1.1 数据清理参数表 (8)4功能描述 (9)4.1 数据清理参数表维护 (9)4.2 技术平台数据下载和清理................................ 错误!未定义书签。
4.3 应用系统数据下载和清理 (9)4.3.1 应用系统数据下载和清理........................... 错误!未定义书签。
4.3.2 计算清理日组件 (9)4.3.3 计算保留日组件 (10)4.3.4 数据清理控制组件 (10)5附录 (10)1概述1.1理论背景完整的数据生命周期是:应用系统的数据在生产应用系统中的在线阶段,归档阶段,销毁阶段的单一流向过程。
完整的核心银行系统数据管理流程涉及主机和开放平台,其流程包括:1、主机数据下载:定期将符合条件的应用数据生成文件,下载至开放平台。
2、主机数据清理:定期将符合条件的应用数据删除。
3、主机数据归档:装载下载的数据文件至开放平台的档案管理系统。
4、归档数据销毁: 定期销毁开放平台档案管理系统中的应用数据。
本文档描述的是主机数据清理的总体方案。
1.2需求背景历史数据是指各种档案中带有日期项的数据,这些日期项可能是键值之一(如交易历史表),也可能不是键值(例如账户主档中的销户日期),根据这些日期和记录某些状态,就能够确定那些数据已经过期,无需在主机中继续保留而可以被清除。
历史数据清理是保护资源,提高系统性能的重要措施之一,因此数据清理的标准在需求分析阶段就要确定下来,但清理的时间和数据保留的期限却会随着数据量的增长和业务的发展而不断变化。
比如票据业务的需求是“对于已结清的票据记录,如果结清期限超过1年的,允许在年末统一作物理删除”。
在这个需求中,数据清理的时间(年末)和数据保留的期限(1年),可能会随着业务的大幅增长而发生改变(例如改为每月末清理,保留半年内数据),但清理的条件“已结清的票据记录”却是固定不变的。
为了降低需求变更所带来的程序修改,我们将“数据清理时间”和“数据保留期限”单独抽取出来,变成可以定义维护的参数,而清理的条件和具体要清理那些数据库表的记录则留给应用程序来完成。
1.3关键策略数据清理动作统一由应用发起。
应用清理程序每天都启动执行,根据处理对象(清理编号)调用数据清理日期查询组件检查当天是否需要进行数据清理;如果需要数据清理,清理日期查询组件则返回记录的最小保留日期(详见接口说明文档),应用根据最小保留日期进行如下处理。
1、档案无需支持24小时。
应用程序扫描需要清理的档案,将符合条件的记录作删除。
需要考虑所有必要的条件,包括:记录最后修改日小于最小保留日期;记录属于业务无效的状态;有关联的表的主从记录需要同步删除。
2、档案需要支持24小时(针对双主档)。
第一步:应用程序扫描批量档案,确定需要删除那些档案的那些记录(日期小于最小保留日期的记录),将这些记录的KEY值登记下来生成BSP档案(注意:这些KEY值不一定带有日期数据,例如已销户超过一定期限的活期存款的KEY 值其实是存款账号)。
第二步:根据BSP档案发动BSP处理,通过KEY值真正删除联机档案中的相关记录。
这时应用的BSP程序可能还需要再次检查记录的状态和日期,以免发生意外错误(例如已销户的活期存款被销户重开了)。
1.4性能因素1、采用程序的方式删除记录,系统会登记DB2 LOG,对于一次清理大量的数据会引起系统性能下降。
因此在需求分析时,对于涉及大数据量的清理,尽量通过增加清理次数的方式来分散每次清理的数据量。
2、数据清理后一般要对数据库表进行REORG,也可以参照日常系统运行的REORG执行日期,来安排数据清理的运行实施。
2术语定义数据清理模块的核心数据结构是数据清理参数表,其包含如下要素。
2.1清理编号清理编号是8位的字符串,它代表了一类数据清理的规则,由应用技术人员维护。
为了方便记忆,可以定义为数据库表的名称。
2.2清理类型对同一个清理编号之下清理规则的再次划分,是20位字符串的自由格式,由应用自己定义和使用。
比如对交易历史的清理,在同一清理编号下,不同的模块账号,或者不同的产品可能有不同的清理规则。
2.3清理时间表示数据清理的时间要求,即在什么时间点来做数据清理,在IBS CORE中,数据清理时间由清理频率和清理周期组成:清理的启动需要按批量的假期表进行计算,当出现假期跨一个清理周期的时候,仍然以当天的批量处理时间为准。
例如定义每天清理一次,每次保留5天以内的数据,且假设国庆节7天都为假期不跑批量,那么在9月30日执行清理的时候,只是清理9月26日前的数据,10月8日上班的第一天仍然可以查询到9月26~30日的数据,而不仅仅是10月3~7日的数据。
但在10月8日执行数据清理时,会删除10月4日前的所有数据。
如果遇到清理日是假期而没有运行批量时,系统需要在下一个批量日执行数据清理。
2.4 保留期限代表数据保留的时间长短要求,在IBS CORE 中,数据保留时间由保留频率和保留周期组成:数据保留期限是相对于清理时间而言的,为了不要在月末等特殊日期执行数据清理,清理的时间可能会改在其它日期执行,为避免因此而造成的将一个业务周期的数据拆分成两段的情况,系统提供一个“是否允许按月拆分”的选项,当该选项为“不允许”时,表示数据必须按月为周期进行保留。
例如每个月的3日启动数据清理,要求保留一个月的数据,那么在5月3日清理时,如果是“不允许”按月拆分,系统会保留4月1日~5月3日的数据,如果是“允许”按月拆分,系统就只保留4月4日~5月3日的数据。
系统控制按日保留时,“是否允许按月拆分”选项是不可选的,且必须为“允许”。
清理时间和保留期限之间的参数配置可能会出现不作清理的情况,需要在详细设计时考虑。
例如选择按日清理,又要保留一个完整月的数据,那么每月2日以后的清理动作将会是多余的。
2.5清理状态为了简化和方便参数维护,为每条记录建立清理状态:Y或N。
Y-表示清理记录有效;N-表示清理记录无效。
系统不提供参数的删除交易,而是由参数维护人员通过修改删除状态为“N”来实现,这样当希望暂时不作数据清理时,只需要修改清理状态即可。
3数据结构3.1数据结构描述3.1.1数据清理参数表●描述:用于定义数据清理时间、保留期限及其他相关要素。
●表COLUMN描述:●KEY,INDEX描述:4功能描述4.1参数表维护●功能:对数据清理参数表记录做增加、修改、查询、浏览。
系统限定增加、修改交易只能由总行柜员执行,查询和浏览交易则不作限定。
●输入:参数表中定义的各数据项。
●输出:交易成功画面●处理:➢只允许总行级柜员使用;➢增加、修改时更新参数档案(使用统一的参数表);➢增加、修改时登记历史档案,并作改前改后的明细登记;4.2模块组件4.2.1清理操作查询组件●功能:根据会计日期、清理编号等输入,计算当天是否清理日,以及清理的保留日期;与输入数据相匹配,参数表中指示当日需要进行清理的参数记录可能有多笔,对应输出描述中的数组;绝大多数应用程序调用此组件即可。
●输入:●输出:4.2.2计算清理日期组件●功能:判断当天是否需要进行数据的清理。
●输入:●输出:4.2.3计算保留日期组件●功能:返回最小的保留日期。
●输入:●输出:5应用规则1、并发规则:根据被清理应用表的分PART情况和数据量,确定清理作业是并发方式或非并发方式。
如果是对分PART的数据量较大的表,宜采用分PART 方式。
2、关联规则:相关联的应用表的数据清理,在性能允许的情况下,可考虑在相同批量程序作清理,以保证应用数据的一致性,如在同个程序,可以对账户表的待清理记录以及账户在协议表的关联记录穿行进行删除动作。
3、分步规则:判断逻辑简单(如只需判断清理参数的相关字段)的表,用单个程序执行删除动作即可。
对判断逻辑复杂,或出于性能因素等原因,可以采用多步骤多程序的方式作清理。
如分成如下两步:依照检查逻辑将符合条件的清理记录键值生成文件,根据文件作清理动作。
4、参数规则:根据预估的数据量,结合业务需求,规划应用表的保留期限和清理周期。
5、运行规则:清理作业安排在日终批量完成后运行,清理作业完成后对数据库表进行重组。
6附录IBS-CORE平台详细设计书(数据清。