数据质量体系结构介绍

合集下载

数据质量体系结构介绍

数据质量体系结构介绍

数据质量体系结构介绍数据质量体系结构介绍1.概述1.1 目的本文档旨在介绍数据质量体系结构,帮助组织建立并维护可靠的数据质量管理框架,确保数据的准确性、完整性、可用性和一致性。

1.2 背景随着数据在企业中的重要性不断增加,对数据质量的要求也日益提高。

数据质量管理变得至关重要,以确保数据的可信度和可用性,为组织的决策和业务运营提供可靠的基础。

1.3 目标受众本文档适用于任何有意建立数据质量体系的组织,包括企业、机构、非营利组织等。

2.数据质量体系结构概览2.1 数据质量定义和要素2.1.1 数据质量定义在本文档中,数据质量指数据的准确性、完整性、可用性和一致性等特征的度量和评估。

2.1.2 数据质量要素●准确性:数据与真实世界的一致性。

●完整性:数据的完整程度和覆盖范围。

●可用性:数据的易访问性和可操作性。

●一致性:数据在不同系统和环境中的一致性。

2.2 数据质量管理框架2.2.1 数据质量策略制定组织的数据质量目标和策略,确保数据质量成为组织战略的一部分。

2.2.2 数据质量评估和度量开展数据质量评估和度量,使用合适的指标和工具来检查和评估数据的质量水平。

2.2.3 数据质量问题识别与解决识别数据质量问题,并建立解决问题的流程和机制,在发现问题后能够及时采取纠正措施。

2.2.4 数据质量监控与报告建立数据质量监控系统,定期监测数据质量并报告,及时发现和解决数据质量问题。

2.2.5 数据质量培训和文化建设为组织成员提供数据质量培训,增强对数据质量的意识和重视,并建立良好的数据质量管理文化。

2.2.6 数据质量改进根据数据质量评估结果和监控报告,制定改进计划和措施,持续提升数据质量水平。

3.数据质量体系实施步骤3.1 数据质量目标设定确定组织的数据质量目标,并与组织的战略和业务目标相对应。

3.2 数据质量评估和度量方法选择选择适合组织的数据质量评估和度量方法,包括定性和定量指标的选择。

3.3 数据质量问题识别和解决流程建立建立数据质量问题识别和解决流程,明确问题的报告和跟踪方式,以及解决问题的责任人和时间要求。

大数据质量管理体系结构设计

大数据质量管理体系结构设计

大数据质量管理体系结构设计随着互联网时代的到来,大数据已成为重要的产业和运营核心,越来越多的企业开始利用大数据进行决策和管理,以提高运营效率和创造更高的价值。

但是,对于大数据的质量管理却成为了一个难题。

如何确保大数据的准确性、完整性和一致性,成为了企业和机构必须面对的挑战。

大数据质量管理体系结构是一个解决大数据质量问题的重要工具,它包括质量管理的架构、技术、流程和人员。

在这篇文章中,我们将讨论大数据质量管理体系结构的设计和关键步骤,以及如何实现大数据质量管理的最佳实践。

一、构建大数据质量管理体系结构的核心要素1. 策略与规则:构建大数据质量管理体系结构的首要步骤是明确战略和规则。

这意味着企业需要清楚地定义大数据质量目标,确定大数据质量标准和流程,更新数据质量规则和标准,并将它们应用于组织数据的收集、分析和处理过程。

2. 数据治理与质量度量:数据治理是指通过制定数据管理政策和流程,确保数据质量的汇总和维护过程。

质量度量是确保数据质量的核心方法之一,它将数据质量的管理和度量变成了一项标准的流程。

3. 数据质量度量与监控:数据质量度量是指在数据域中测量数据的准确性、一致性、完整性、唯一性等特征。

数据质量监控是指针对已收集的数据,对其进行实时监测和管理,保证数据的质量得到有效维护。

4. 工具与技术:大数据质量管理技术向有利于实现大数据质量目标的技术发展。

工具与技术涵盖了数据质量管理过程中的重要工具设备以及数据操作和处理的平台,为数据质量保障提供核心支持。

5. 数据资产管理:数据资产管理是指对数据进行分类、标记以及治理,从而提高数据利用价值,同时也加强了数据的安全性和质量管理。

二、实现大数据质量管理的最佳实践在构建大数据质量管理体系结构后,企业需要采取适当的步骤来确保其有效执行,并全面实现大数据质量管理的目标。

1. 集中管理数据:企业应该强调数据接入和管理的重要性,确保所有数据都被收集和存储在一个中心位置。

数据质量体系结构介绍

数据质量体系结构介绍

数据质量体系结构介绍第一章概述数据质量是指数据的准确性、可靠性、完整性、一致性和及时性。

一个强大的数据质量体系是一个组织保证数据质量的关键要素。

本文档旨在介绍数据质量体系的结构,以及各个组成部分的详细内容。

第二章数据质量体系结构数据质量体系结构包括以下几个核心组成部分:________1.数据质量策略数据质量策略是一个组织制定的数据质量的总体目标和原则。

该部分规定了数据质量的标准和要求,包括数据准确性、可靠性、完整性、一致性和及时性等方面。

数据质量策略还包括数据质量的管理方法和流程。

2.数据质量度量指标数据质量度量指标是衡量数据质量的标准和方法。

该部分定义了各种数据质量度量指标,并明确了具体的计算方法和评估标准。

数据质量度量指标可以包括数据准确性、数据完整性、数据一致性、数据可用性等方面的指标。

3.数据质量控制数据质量控制是确保数据质量达到标准的关键步骤。

该部分详细描述了数据质量控制的方法和流程,包括数据采集、数据清洗、数据校验、数据修复等方面。

数据质量控制还包括数据质量监控和数据质量报告,确保数据质量得到持续监控和改进。

4.数据质量治理数据质量治理是组织管理数据质量的机制和规范。

该部分规定了数据质量治理的责任和权限,包括数据质量治理的组织结构、职责分工、决策流程等方面。

数据质量治理还包括数据质量培训和知识管理,确保组织内部的数据质量意识和专业能力得到提升。

5.数据质量改进数据质量改进是持续提高数据质量的关键环节。

该部分介绍了数据质量改进的方法和流程,包括数据质量评估、问题分析、改进计划制定和执行等方面。

数据质量改进还包括数据质量团队的建设和数据质量项目的管理,推动数据质量持续改进的实施。

第三章附件本文档附带以下附件:________2.数据质量度量指标示例,供组织选择合适的度量指标。

3.数据质量控制流程图,详细展示了数据质量控制的流程和步骤。

4.数据质量治理组织架构示意图,展示了数据质量治理的组织结构和职责分工。

数据质量指标体系

数据质量指标体系

数据质量指标体系
1 什么是数据质量指标体系
数据质量指标体系是一种管理数据质量的重要机制,它可以帮助企业定义和实施数据质量管理措施来保证企业的数据质量,使获取的数据更准确可靠,更有意义。

通过数据质量指标体系的建立,可以有效的提升企业数据质量,对企业发展具有重要的作用。

2 数据质量指标体系的组成
数据质量指标体系由多种数据质量指标组成,其中包括使用率指标、准确性指标、完整性指标、可用性指标、合规性指标、时效性指标以及敏感性指标等。

各个指标体系通过检查不同的数据属性或功能来监测数据质量,用于评价数据的性能、完整性和准确性。

3 检测数据质量指标体系
数据质量指标体系可以通过不同的方式来检测,常见的检测方式有几种:
1、根据到达数据源的记录行数与发送源中记录行数的比较;
2、通过元数据检查,查看元数据是否符合规范要求;
3、按照质量规则检查数据,检验数据的准确性,时效性和可用性;
4、使用EDI(电子数据交换)测试,检查数据格式是否符合前后系统交互的要求;
5、对数据集进行快照比较,比较数据变化前后差异。

通过这些检测方法可以帮助企业及时发现数据质量问题,确保数据质量符合企业的要求。

4 数据质量指标体系的重要性
企业的数据质量对企业的发展起着非常重要的作用,可以说是企业发展的基础。

数据质量指标体系的建立,将为企业的信息管理和资源管理提供全新的视角,是企业获取准确可靠的数据的重要保障。

正是基于数据质量,企业管理者可以有效的提炼有价值的信息、实现商业洞察与决策依据,从而减少企业的成本,提升企业的业务收益。

数据质量体系结构介绍

数据质量体系结构介绍

数据质量体系结构介绍数据质量体系结构介绍1、引言1.1 背景1.2 目的1.3 范围2、数据质量概述2.1 什么是数据质量2.2 为什么数据质量重要2.3 数据质量的影响3、数据质量标准3.1 数据精确性3.1.1 数据准确性3.1.2 数据完整性3.1.3 数据一致性3.2 数据一致性3.2.1 数据命名规范 3.2.2 数据格式规范 3.2.3 数据编码规范 3.3 数据完整性3.3.1 数据缺失3.3.2 数据冗余3.3.3 数据错误3.4 数据可靠性3.4.1 数据源可信度 3.4.2 数据传输安全 3.4.3 数据备份与恢复 3.5 数据时效性3.5.1 数据收集及时性 3.5.2 数据更新及时性3.5.3 数据查询及时性4、数据质量评估4.1 数据质量评估方法4.1.1 主观评估方法4.1.2 客观评估方法4.2 数据质量评估指标4.2.1 数据准确性评估指标 4.2.2 数据完整性评估指标 4.2.3 数据一致性评估指标 4.2.4 数据可靠性评估指标4.2.5 数据时效性评估指标5、数据质量管理5.1 数据质量管理流程5.2 数据质量管理策略5.2.1 数据采集策略5.2.2 数据清洗策略5.2.3 数据存储策略5.2.4 数据治理策略6、数据质量监控与改进6.1 数据质量监控方法6.1.1 数据质量度量指标的监控 6.1.2 数据质量问题的监控6.1.3 数据质量变化的监控6.2 数据质量改进措施6.2.1 数据采集过程改进6.2.2 数据清洗过程改进6.2.3 数据存储过程改进6.2.4 数据治理过程改进7、数据质量保障7.1 角色责任7.2 培训与指导7.3 数据质量报告7.4 数据质量奖惩机制8、附件8.1 数据质量评估工具8.2 数据质量监控工具8.3 数据质量管理流程图注释:1、数据质量 - 在此处定义为数据符合既定规则、准确、完整、一致、可靠且及时的程度。

2、数据精确性 - 数据的准确性、完整性和一致性是数据精确性的三个关键方面。

数据质量评价体系

数据质量评价体系

数据质量评价体系
摘要:
1.数据质量评价体系的定义和重要性
2.数据质量评价体系的主要组成部分
3.数据质量评价体系的实施步骤
4.数据质量评价体系的应用实例
5.数据质量评价体系的未来发展趋势
正文:
随着信息技术的飞速发展,数据在企业决策和运营中的重要性日益凸显。

然而,数据的质量直接影响到企业决策的准确性和运营的效率。

因此,建立一个完善的数据质量评价体系是确保数据质量的关键。

数据质量评价体系是对数据质量进行评估、监控和管理的一种方法。

这个体系主要由五个组成部分构成,分别是数据质量的准确性、完整性、及时性、可靠性和一致性。

准确性是指数据是否真实反映了实际情况;完整性是指数据是否完整、无遗漏;及时性是指数据是否能及时反映实际情况;可靠性是指数据是否可信;一致性是指数据是否具有可比性。

实施数据质量评价体系的步骤主要有三步。

首先是确定数据质量的评价标准,这个标准应该根据企业的实际情况和需求来制定。

然后是收集数据,这个过程应该保证数据的全面性和准确性。

最后是进行数据质量的评价,这个过程应该根据制定的标准来进行。

数据质量评价体系在企业的运营和决策中发挥着重要的作用。

例如,企业可以通过数据质量评价体系来确定哪些数据是优质的,哪些数据是劣质的,从
而提高决策的准确性。

同时,企业也可以通过数据质量评价体系来发现数据质量的问题,从而及时进行改正。

随着大数据和人工智能技术的发展,数据质量评价体系也将迎来新的发展。

例如,通过引入人工智能技术,可以大大提高数据质量评价的效率和准确性。

商业银行数据质量组织架构和岗位职责

商业银行数据质量组织架构和岗位职责在当今信息化时代,商业银行的数据质量显得尤为重要。

优质的数据质量不仅对银行自身的经营管理有很重要的影响,而且对客户、监管机构和利益相关者也扮演着关键的角色。

因此,商业银行需要建立完善的数据质量组织架构,明确相关岗位的职责,从而保障数据质量,提升银行综合竞争力。

一、组织架构商业银行数据质量组织架构应当包括高层领导、数据管理部门和数据质量团队。

1.高层领导高层领导是数据质量管理的决策者和执行者,负责确定数据质量管理的战略规划、政策和目标。

他们需要为数据质量管理提供资源支持,推动数据质量管理理念深入全员,使数据质量管理融入到商业银行的日常经营管理当中。

2.数据管理部门数据管理部门是具体承担数据质量管理工作的部门,通常设有数据管理中心,也可以称为数据治理办公室。

数据管理部门主要负责数据质量管理工作的落实和执行,包括数据质量策略、规范、标准、流程、技术系统的建设和管理。

他们需要确保数据质量的符合度,对数据进行全面管理和控制,提供数据质量监控、报告和分析,并对数据质量问题进行调查和解决,同时推动数据质量管理标准化和制度化。

3.数据质量团队数据质量团队是负责具体数据质量管理工作的执行者。

他们通过对数据的整理、清洗和分析,发现数据质量问题,并与相关部门协调解决,同时推动数据质量管理理念和标准的贯彻执行。

二、岗位职责商业银行数据质量的组织架构中,必然会涉及到一系列核心职责和岗位,这些岗位将共同组成一个高效的数据质量管理团队。

以下是商业银行数据质量管理组织架构中常见的岗位职责:1.数据质量主管数据质量主管为数据管理部门的领导者,负责制定和推动银行的数据质量管理战略规划、政策和目标,确保数据质量管理工作的顺利推进。

同时,他还负责对数据质量管理工作进行全面监管和评估,决策数据质量管理的投资和资源分配。

2.数据质量分析师数据质量分析师负责对银行数据进行清洗和分析。

他需要收集数据、分析数据并发现数据质量问题,为数据质量问题的解决提供依据和支持,最终确保数据质量的完整性和准确性。

数据质量评价体系

数据质量评价体系数据质量评价体系是衡量数据质量优劣的一种方法,它可以帮助企业和政府部门确保数据的完整性、准确性、一致性、时效性和可用性。

本文将从数据质量评价体系的概述、评价指标、构建方法、应用、提高数据质量的措施以及总结与展望等方面进行详细阐述。

一、数据质量评价体系概述数据质量评价体系是一个包含多个评价指标的综合体系,旨在对数据的质量进行全面、客观、公正的评价。

数据质量评价体系的核心目标是提高数据质量,以满足业务需求和决策支持。

二、数据质量评价指标1.完整性:数据是否完整、无遗漏地反映了所关注的现象或领域。

2.准确性:数据的精确程度,包括数值精确度和位置精确度。

3.一致性:数据在时间、空间和逻辑上的连贯性和一致性。

4.时效性:数据的更新速度和实时性,以满足用户对新鲜数据的需求。

5.可用性:数据的可理解性、可获取性和可加工性,以便于用户的使用和处理。

三、构建数据质量评价体系的方法1.制定评价标准:根据数据质量的定义和指标,制定具体的评价标准。

2.确定评价指标权重:根据指标的重要性,为每个指标分配权重。

3.设计评价算法:结合权重和评价指标,构建数据质量评价算法。

4.建立评价反馈机制:对评价结果进行实时反馈,指导数据质量改进。

四、数据质量评价体系的应用1.企业数据管理:帮助企业提高数据质量,提升业务效率和决策水平。

2.政府数据开放:促进政府数据质量的提升,便于公众获取和利用政府数据。

3.数据交换与共享:确保数据在交换和共享过程中的质量,提高数据利用价值。

五、提高数据质量的措施1.完善数据采集与处理流程:确保数据在采集、传输、处理等环节的质量。

2.加强数据审核与校验:对数据进行严格审核,确保数据的真实性和准确性。

3.建立数据质量管理团队:专门负责数据质量的监控、评估和改进工作。

4.落实数据质量改进计划:持续关注数据质量问题,采取措施进行改进。

六、总结与展望数据质量评价体系是数据质量管理的重要组成部分。

随着大数据、人工智能等技术的发展,数据质量评价体系将不断完善,为各类组织和企业提供更加有效的数据质量保障。

商业银行数据质量组织架构和岗位职责

商业银行数据质量组织架构和岗位职责商业银行数据质量组织架构和岗位职责是确保银行数据质量的重要组成部分。

合理的组织架构和明确的岗位职责可以提高数据管理和监控的效率,从而减少数据错误和风险。

下面将详细介绍商业银行数据质量组织架构和岗位职责。

1.数据质量组织架构商业银行的数据质量组织架构通常由多个层次的部门和团队组成,包括数据治理委员会、数据质量团队以及与数据相关的其他部门。

以下是一个常见的商业银行数据质量组织架构示例:1.1数据治理委员会:负责制定数据质量策略、标准和规范,协调各个部门之间的数据管理工作,并对数据质量进行监控和评估。

1.2数据质量团队:负责执行数据质量策略和流程,跟踪和解决数据质量问题,保证数据的准确性、完整性和一致性。

1.3数据所有权部门:负责定义数据所有权和使用权限,确保数据的合规与保密。

1.4数据采集和整合部门:负责数据的采集、整合和转换,保证数据的及时性和正确性。

1.5数据仓库团队:负责数据仓库的设计、维护和优化,保证数据的可靠性和可用性。

1.6数据分析团队:负责数据的分析和挖掘,提供数据支持和决策依据。

1.7业务部门负责人:负责提供业务需求和规范,参与数据质量评估和验证,保证业务数据的质量。

1.8技术支持团队:负责提供数据质量工具和平台的支持,解决技术问题和故障。

2.岗位职责下面是商业银行数据质量组织中关键岗位的职责描述:2.1数据质量经理:负责整体数据质量管理工作,包括制定数据质量策略、标准和规范,监控数据质量指标,解决数据质量问题,提供关于数据质量的建议和决策。

同时负责与数据治理委员会和其他部门的沟通协调。

2.2数据质量分析师:负责开展数据质量评估和分析,制定数据质量检查方案,执行数据质量检查和验证,发现和解决数据质量问题,编写数据质量报告,并提出改进措施。

2.3数据治理主管:负责制定数据治理策略和规划,建立数据治理流程和机制,确保数据的安全、合规和保密,参与数据治理委员会的会议和决策。

商业银行数据质量组织架构和岗位职责

商业银行数据质量组织架构和岗位职责一、组织架构商业银行的数据质量组织架构通常分为数据质量管理部门和数据管理部门两大部分。

其中,数据质量管理部门主要负责数据质量策略、政策、标准、规程制定和数据质量评估等工作,而数据管理部门则主要负责数据的采集、存储、处理和使用等工作。

下面将具体介绍商业银行数据质量组织架构及其岗位职责。

1.数据质量管理部门数据质量管理部门主要负责商业银行的数据质量战略规划、数据质量政策制定和数据质量标准执行。

具体的组织架构包括数据质量领导、数据质量管理团队和数据治理委员会。

(1)数据质量领导数据质量领导是数据质量管理部门的领导者,负责制定数据质量长远规划和战略目标,同时也负责确保数据质量管理层与其他部门的有效协调。

(2)数据质量管理团队数据质量管理团队是数据质量管理部门的核心团队,主要负责数据质量评估和修正、数据质量监控和报告、数据质量策略和指导手册等工作。

(3)数据治理委员会数据治理委员会是商业银行的最高数据决策机构,由高层管理人员组成,主要负责确保数据治理策略的有效实施和数据质量管理工作的顺利进行。

2.数据管理部门数据管理部门主要负责商业银行的数据采集、存储、加工和使用等工作。

具体的组织架构包括数据采集团队、数据存储团队、数据加工团队和数据使用团队。

(1)数据采集团队数据采集团队主要负责商业银行内外部数据的采集和集成,确保数据的完整性和准确性。

(2)数据存储团队数据存储团队主要负责商业银行数据的存储和管理,确保数据的安全性和可靠性。

(3)数据加工团队数据加工团队主要负责商业银行数据的加工和分析,提供数据支持和分析报告。

(4)数据使用团队数据使用团队主要负责商业银行数据的使用和共享,确保数据的合规和安全。

二、岗位职责不同的部门和团队针对不同的数据管理和数据质量工作有各自的相关岗位及职责。

1.数据质量管理部门岗位职责(1)数据质量领导数据质量领导主要负责制定数据质量战略和规划,确保数据质量管理策略的有效实施。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据质量体系结构介绍作者:杜绍森编译出处:IT1682008-05-12 09:14数据质量管理过程是一个没有终点的过程,也没有统一架构原则。

这里提供的是一种针对数据仓库项目可以简单实现的、可扩展的、一种相对比较完善的捕捉数据质量事件,同时对其进行量度和控制的方法。

本文提供一个在数据仓库项目的实施过程中,可增量添加的、可扩展的数据质量体系结构,它可以保证以最小的对前期投资的影响,并增加到存在的数据仓库和数据集成环境中。

使用这个架构,也可以实现项目系统化的向6Sigma质量管理体系的扩展。

这个架构的设计也是针对数据仓库领域缺乏的公开的、一致的说明数据质量的问题来进行组织的。

有三股力量已将对将数据集成、数据质量的关注呈现在组织管理层优先执行活动中。

它们是:一、普遍地认为"如果仅能看到数据,而无法确定其质量等级,就无法更好的管理的业务"的认识,正在持续增长。

绝大多数的知识工作者相信对自身的工作职能来说,数据是至关重要的;二、绝大多数的全球化的,分布式的组织机构逐步形成共识,集成分散在全球各地的业务数据是企业竞争力的必要因素;三、急剧增长法律符合性的要求也是一个重要的因素。

仅这三个方面的驱动力,对于强调数据质量的问题显然还并不充分。

幸运的是,还有一股强大的动力正来自除了IT部门以外的业务人员。

业务人员正在逐步的认识到数据质量问题是一个严重的,需要高昂的成本的问题,这样,组织主动性地提供数据质量就有了更大的动力。

但是,多数的业务人员可能并不能完全了解数据质量问题产生的原因,找到提高数据质量的方法。

有时他们认为数据质量问题主要是IT部门操作层面的问题。

在这样的情况下,IT部门就应该更加认识到:数据质量问题不可能仅通过IT部门来单独改善,更需要业务部门的积极、主动参与。

事实上,数据质量领域一个极端的看法认为:"数据质量问题几乎和IT没有任何的关联"。

在关注数据质量时,如果仅仅要求前台的操作人员在输入数据时保持足够的细心,或要求销售人员在录入订单的客户和产品信息时保持足够的仔细显然都是不够的。

我们还可以通过在数据的录入界面上附加更加严格的技术性约束来避免和修复数据的质量问题。

这些方法提供了一些修复或避免数据质量问题的线索,但是在采取这些技术性措施之前,我们需要用一个更大的视野关注数据质量问题。

例如:在一个零售银行,身份证号码是空白的或者是填入了一些垃圾信息。

一个不错的想法是增加一个诸如必须满足999-99-9999的技术限制,系统不接受任何不满足格式约束的输入信息。

在这种约束下,身份证号码可能不再为空或者任何字符数据,但前台的数据录入人员就会由于完成后续工作的需要而被强迫录入有效的身份证号码,但在并没有客户有效身份证号码的情况下,他们只好使用了自己的身份证号码。

1. 建立质量传统、重建运行过程众所周知,如果没有来自组织高层对建立企业范围的数据质量体系的承诺,技术人员说明的数据质量问题尝试往往很难发挥作用。

在日本,汽车制造商通常将控制数据质量的态度渗透到组织的各个层面,从CEO到一线的生产线人员,从而保证了其准确、高效的决策效率。

为了说明管理层对建立数据质量文化的重要性,我们使用一个大型的连锁药店作为例子来说明,在这家药店,采购部门和数量庞大的供应商保持合作、供应关系。

在采购部,采购助理将每一个采供来的药物录入到IT系统当中,这些信息包含大量的属性。

这样采购助理会面对巨大的工作量,他们不得不评估一个小时他们可以录入多少的数据,多长时间才可以将这些信息录入完毕。

同时,采购助理也没有清晰的概念,谁将使用那些数据,那些数据对那些使用者更加重要。

有时,采购助理会由于明显的输入错误受到指责,但更麻烦的情况是,采购助理拿到的数据本身就是不完整或不可靠的。

例如:对药物的毒性水平,没有规范化的标注,长期以来,不同的药品,不同的品类,这个指标都是各不相同的。

那么,这个药店应该如何提高数据质量呢? 这里有一个9步骤的数据质量模版,它不仅可以用到这个药店,也可以应用到其他任何一个希望对数据质量进行管理的组织。

这9个步骤包括:● 获得来自组织高层对数据质量文化的承诺● 在执行层面上,形成保证数据质量的工作流程● 对提高数据录入的环境有所投资● 提高应用间集成性● 需要投入成本来改变存在问题的工作流程● 提高end-to-end的团队理解● 提升部门间的协作● 公开的表彰数据质量提升的事件● 提供持续的过程,不断的量度和提升数据质量从上面我们可以看到,在这个药店,需要一些资金用于修改数据数据录入系统,为采购助理提供一些录入时的选择和上下文提示。

公司的管理层也需要明确地强调采购助理工作的重要性,指明采购助理的工作是公司各个层面决策正确、有效性的基础。

采购助理的辛勤工作应该受到来自管理层的公开的表彰,并进行奖励。

从而达到实现团队的end-to-end互相了解和欣赏。

在执行层的支持和组织框架就需之后,就需要选用特定的技术方案。

后面,我们将讨论如何选择、使用恰当的技术来支持数据质量目标。

这些技术目标包括:● 早期的诊断和治疗数据质量问题● 明确对源系统的需求,集中力量提供更高质量的数据● 明确地描述在抽取、转换和加载过程中遇到的数据的错误问题● 提供捕捉数据质量问题的框架● 提供精确的度量数据质量的框架● 为最终的数据提供质量信心度量2. 数据质量探查的角色数据质量探查是一种描述数据上下文、一致性、数据结构的分析技术。

某种意义上说,当使用SELECT DISTINCT对某些字段数据查询时,就在完成一个数据质量探查的工作。

现在,已经有很多功能强大的工具可以帮助完成数据质量探查的工作。

一般来说这些工具已经提供了非常方便的接口来帮助用户了解数据和数据间的关系。

在数据仓库项目中,数据质量探查可以同时在战略和战术的的层面上扮演重要角色。

在DW项目开始时,一个数据源确定之后,就需要首先对它进行一次快速的数据质量探查过程来评估数据质量,为是否才用其作为有效的数据源作为策依据。

理想的情况下,这种战略性的评估应该在1,2天内完成。

早期的了解数据、揭示数据的问题是一个负责任的步骤。

几个月后才进行这项工作,对项目的目标有可能会是致命的。

从战略的角度决定将这个数据源纳入到项目中后,还需要有一个详细的战术性的数据质量探查来尽可能揭示更多的数据问题。

在这个阶段揭示的问题最终需要呈现在详细的规格说明中来处理,处理的方式包括:1) 将这些数据反馈给源系统,提请修正这些问题;或2) 将这些问题数据的处理融合到ETL过程中。

我们相信绝大多数的数据问题都可以在这两个过程中揭示出来,并得到解决。

3. 质量Screen质量Screen是数据仓库ETL架构的心脏,在数据流图中它担负着数据质量医生的作用。

质量Screen简化了在ETL或数据迁移过程中测试工作实践。

如果测试通过,一般不需要记录任何事情;但是如果测试失败,Screen必须要完成:● 将错误事件记录到错误事件主题中,并● 选择中止处理过程,将用于恢复的数据放到的临时存储中或者仅仅标记错误的数据所有的质量Screen在架构上是相似的,参照Jack Olson的分类方式,分为三个简单类型:列Screen、结构Screen和业务规则Screen。

列Screen用于测试单一列中的数据。

列Screen过程通常比较简单,进行一些比较明显的测试,如:某个列包含不希望的NULL,列值超过了定义的列的精度,或列值不满足格式的要求。

结构Screens测试跨列的数据间关系。

例如:列间的层次关系、一对多的关系。

结构Screens包括测试两个表域间的主外键关系,也包括对邮政地址的整个数据块的测试。

业务规则Screens实现更加复杂的、不适合列和结构Screens的测试。

例如:客户的Profile可以进行依赖时间的业务规则进行测试。

如:白金卡的常旅客要求至少5年,并每年至少2万公里的飞行距离。

业务规则测试也可以进行聚合规则的阕值的测试等。

4. 错误事件主题模型错误事件主题模型是一个集中式的维主题模型,它用来在保存质量Screens 过程中抛出的错误事件。

这个方法可以方便应用在通常的数据集成应用中。

在下图可以见到错误事件的ER模型:图1:错误事件主题模型这个模型的主表是错误事件事实表。

它的粒度是在ETL或数据迁移时质量Screens中抛出的错误事件。

事实表的粒度是事实表纪录内容的物理描述。

即,每一个质量Screen错误在这表中产生一条记录,表中每一条记录对应一个发现的错误。

错误事件的主题模型包含的维表包括错误发生的日历日期、Screen和Batch 工作维。

日历日期不是用分秒表示的时间戳信息,而是提供了一种通过通用的日历日期属性对错误事件提供约束和聚合的有用信息,例如:工作日、财年的最后一天等这样的描述信息。

事实表中的Time-of-day列则是一个完整的时间戳,用于精确的描述错误发生的时间。

这样格式在希望用时间做一些计算方面是非常有用的,例如计算两次错误发生的时间间隔等。

Batch维不仅能处理批操作,也可包含持续的操作过程。

Screen维精确的描述了Screen的标准是什么,当错误发生时我们应当做什么?(中断处理、发出信息挂起某些操作或者仅仅对数据进行标记等)。

错误事实表包含一个唯一的主键Error Event Key。

和维表的主键一样,这是一个用整数序列生成的代理键。

这个键域是非常有必要的,保证大量的错误在一次操作中同时发生时,将其加入到这个事实表当中的时候。

当然,这种错误情况最好不要发生。

这个错误事件主题还包含另外一个事实表,以更加详细的粒度纪录这个发生的问题。

在这个表中的每一条记录标示了数据记录中发生错误的每一个域。

这样,就可以记录和处理诸如复杂的结构或者业务规则在更高的层面上发生的问题。

这样的错误有可能在Event Detail 事实表中产生多条记录。

两个事实表通过Error event域间的主外键关系进行关联。

这样Error Event Detail表就可以从表、记录、域的角度精确的描述发生的问题,同样在这个表中通过主外键关系继承来自高粒度事实表的Date、Screen、Batch的信息。

到目前为止,我们已经拥有了一个可以处理复杂的多域、多错误的主题模型。

错误事件细节表也可以包含精确的时间戳用于提供完整的、精确的描述在一段时间内错误多个纪录的聚合阕值问题。

5. 响应质量事件从上面,已经注意到对每一个质量Screen都需要有所应对。

可能的选择包括:1)终止处理过程; 2)设置防御性标志挂起进程用于后续的附加操作;3)标记问题内容,继续后续的处理。

这三个选项都可能不是的最佳选择。

中断处理是一个明显的痛苦的选项,中断之后,我们还不得不进行手工的干预、诊断,选择重新启动、从断点处处理或者完全的结束这次的工作,进行异常恢复。

相关文档
最新文档