数据治理系列5:浅谈数据质量管理

合集下载

数据治理标准的核心要素

数据治理标准的核心要素

数据治理标准的核心要素
数据治理标准通常包括以下几个方面:
1. 数据质量管理:包括数据完整性、数据准确性、数据一致性、数据时效性等方面。

数据质量管理是数据治理的核心,旨在确保数据的质量和可靠性,以便更好地支持业务决策。

2. 数据安全和合规性管理:包括数据加密、数据备份、数据访问控制、数据泄露预防等方面。

数据安全和合规性管理是数据治理的关键,旨在确保数据的安全性和合规性,以避免数据泄露、数据篡改等风险。

3. 数据生命周期管理:包括数据的创建、存储、使用、共享、销毁等方面。

数据生命周期管理是数据治理的重要组成部分,旨在确保数据的生命周期得到有效管理和控制,以避免数据冗余、数据丢失等风险。

4. 数据架构和存储管理:包括数据模型、数据分类、数据存储方式、数据备份等方面。

数据架构和存储管理是数据治理的基础,旨在确保数据的组织方式、存储方式和访问方式能够满足业务需求和数据处理需求。

5. 数据服务和资产管理:包括数据服务目录、数据服务管理、数据资产管理等方面。

数据服务和资产管理是数据治理的重要环节,旨在确保数据资产得到有效管理和利用,以避免数据重复采购、数据价值流失等风险。

综上所述,数据治理标准旨在确保数据的可靠性、安全性、合规性、可管理性和可服务性,以便更好地支持业务决策和创新。

数据治理:数据仓库的数据质量管理规范

数据治理:数据仓库的数据质量管理规范

数据治理:数据仓库的数据质量管理规范—01 —质量管理对数仓的重要性现在数据仓库层面的工作越来越多,开发人员也越来越多,如何保障数据准确性是一项非常重要的工作,数据仓库的很多应用数据直接呈现给用户或者支撑企业分析决策的,容不得数据出现错误。

随着开展的业务越来越多,数据模型越来也多,我们管控的越晚就越容易出问题。

尽管有数据仓库建设规范,同样在数据模型命名,数据逻辑开发,每个人都可能不一样,而这些也容易导致数据模型准确性的问题。

我们迫切需要制定一套数据的准确性验证流程,让大家都按规范流程来做,保障数据的准确性。

—02 —数据指标管理首先我们看下数据仓库的数据流转,要确认计算出的指标正确,就要保证数据源的准确和逻辑的准确。

所以开发前需要确认需求理解的准确性。

根据“需求模板”完善所开发的需求,遇到提出的模糊定义,需要和业务人员确认指标口径的准确性。

需求模板主要包含业务分类、指标名称、是否新增、统计周期、指标维度、业务口径、技术口径、数据源表、需求提出人、需求提出日期、优先级等:开发数据指标过程分为四部分:看、查、管、控。

—03 —数据指标管理:看首先我们要对开发出的指标结果数据进行查看,是否有一些明显的异常,比如某个数据值不在正常范围内,如车速大于500KM/h,或者统计的总数过大,比如某城市人口1亿人等。

通过“看”找出异常指标数据,并予以解决。

—04 —数据指标管理:查查,分为测试验证和上线审核,两个步骤。

测试验证方法如下:1、总量核对,核对上下两步的数据总条数,没有过滤条件的话应该是一致的。

2、多维度统计,复杂的多维度指标拆分成单维度SQL统计,对每个指标分别进行核查。

3、多表关联统计,拆分成中间表进行核对每一步骤的指标。

4、明细到指标统计,比如随机找一台车的明细和最后统计的指标进行核对。

5、新老统计对比,比如有些指标是迁移或者之前业务手工制作,可以开发后的新指标同老指标进行对比。

测试需要有专门的数据测试人员进行测试,输出测试用例和测试报告。

数据治理的主要方法

数据治理的主要方法

数据治理的主要方法数据治理是指对数据进行管理和维护的一系列方法和措施,旨在确保数据的质量、一致性、安全性和可用性。

在现代企业中,数据已经成为重要的资产,因此数据治理也变得越来越重要。

下面将介绍几种常见的数据治理方法。

1. 数据分类与标准化数据分类是指将数据按照不同的属性进行划分,以便于后续的管理和使用。

通过对数据进行分类,可以更好地理解数据的含义和用途,从而有针对性地制定数据治理策略。

同时,数据标准化是指制定统一的数据命名规范、格式规范和编码规范,以确保数据的一致性和可比性。

2. 数据质量管理数据质量是指数据的准确性、完整性、一致性和及时性等方面的表现。

数据质量管理包括数据清洗、数据校验和数据监控等环节。

数据清洗是指通过数据去重、数据纠错和数据填充等手段,消除数据中的错误和冗余。

数据校验是指对数据进行验证,检查数据是否符合预期的规范和要求。

数据监控是指对数据的变化和使用进行监控,及时发现和修复数据质量问题。

3. 数据安全与隐私保护数据安全是指保护数据免受非法访问、篡改和破坏的能力。

数据安全包括数据加密、访问控制和审计跟踪等措施。

数据加密是指对数据进行加密处理,使其在传输和存储过程中不易被窃取和篡改。

访问控制是指对数据的访问进行授权和限制,确保只有合法的用户能够访问数据。

审计跟踪是指对数据的使用和修改进行记录和监控,以便追溯和审计。

4. 数据生命周期管理数据生命周期管理是指对数据从生成到销毁的整个过程进行管理和控制。

数据生命周期包括数据的收集、存储、处理、使用和归档等阶段。

通过对数据生命周期的管理,可以合理利用数据资源,降低数据管理的成本和风险。

同时,数据生命周期管理还可以确保数据的合规性和合法性,避免数据被滥用或泄露。

5. 数据治理组织与治理文化建设数据治理需要建立相应的组织结构和流程,以保证数据治理的有效实施。

数据治理组织应包括数据治理委员会、数据治理团队和数据治理专家等角色,负责制定数据治理策略和规范,协调数据治理工作的开展。

数据湖的数据治理与数据质量管理技巧(一)

数据湖的数据治理与数据质量管理技巧(一)

数据湖的数据治理与数据质量管理技巧随着数据科学和大数据时代的到来,数据湖作为一个存储、管理和分析海量数据的解决方案越来越受到企业和组织的青睐。

然而,数据湖中的数据多样且复杂,如何进行数据治理和保证数据质量成为了一个迫切需要解决的问题。

本文将探讨数据湖的数据治理和数据质量管理技巧。

一、数据湖的数据治理数据湖作为一个集成多种数据源的系统,通常包含结构化数据、半结构化数据和非结构化数据等。

而这些数据的规模和多样性给数据治理带来了巨大的挑战。

下面将介绍一些常用的数据治理技巧。

1. 数据分类和标准化首先,对数据进行分类和标准化是进行数据治理的基础。

通过对数据进行分类,可以使数据更易于管理和使用。

例如,可以将结构化数据、半结构化数据和非结构化数据分别进行整理和分类,并为每个数据类别定义相应的标准。

2. 数据质量检测和清洗数据质量是数据治理中的关键环节。

在数据湖中,数据质量往往是多样和复杂的,包括准确性、完整性、一致性和时效性等方面。

因此,对数据进行质量检测和清洗是非常重要的。

可以通过数据质量度量指标来评估和监控数据的质量,并利用数据清洗工具对数据进行清洗和修复。

3. 元数据管理元数据是数据湖的核心资产,对数据湖的数据进行管理和运维至关重要。

通过建立和维护元数据,可以更好地理解和管理数据,提高数据的可发现性和可用性。

二、数据湖的数据质量管理技巧数据湖中的数据质量管理是一个持续的过程,需要不断优化和完善。

下面将介绍一些常用的数据质量管理技巧。

1. 数据质量度量指标的定义和监控数据质量度量指标是衡量数据质量的重要依据,可以通过定义和监控这些指标来评估数据的质量。

例如,可以监控数据的准确性、完整性、一致性和时效性等指标,并及时发现和解决数据质量问题。

2. 数据质量问题的解决和修复当发现数据质量问题时,需要及时解决和修复。

可以通过数据清洗和数据纠错等技术手段来解决常见的数据质量问题,同时也可以借助专门的数据质量管理工具来辅助处理。

数据质量管理(DQC)

数据质量管理(DQC)

数据质量管理(DQC)数据质量管理(DQC)数据质量管理(Data Quality Management,简称DQC)是指通过一系列的策略、工具和方法,确保数据在整个生命周期中的完整性、一致性、准确性和实用性的过程。

随着大数据时代的到来,数据质量管理越来越受到重视。

本文将探讨数据质量管理的概念、重要性以及一些常用的数据质量管理方法。

一、概念数据质量管理是指通过对数据进行规范化、清洗和维护,以确保数据的准确性、可靠性和完整性,从而提高数据的价值和可信度。

数据质量管理不仅仅关注数据的正确性,还注重数据的及时性、一致性和可用性。

通过数据质量管理,我们可以更好地理解数据,提高决策的准确性,降低数据管理的风险。

二、重要性数据质量管理对于组织和企业来说至关重要。

一方面,高质量的数据能够提供可靠的决策依据,帮助组织做出正确的战略决策和商业决策。

另一方面,低质量的数据可能会给企业带来严重的后果,如财务错误、客户不满、市场失真等。

因此,数据质量管理不仅仅是一项技术工作,更是企业运营和管理的基础。

三、数据质量管理方法1. 数据清洗:数据清洗是数据质量管理的基础步骤,通过识别、纠正和删除数据中的错误、重复、不一致等问题,以保证数据的准确性和一致性。

常用的数据清洗方法包括数据审查、去除重复值、纠正错误数据等。

2. 数据验证:数据验证是确保数据符合预定规范和标准的过程。

通过数据验证,可以验证数据的完整性、格式正确性、范围有效性等。

常见的数据验证方法包括数据格式验证、数据逻辑验证和数据范围验证等。

3. 数据监控:数据监控是指实时或定期对数据进行检查和监控,以及对异常数据进行及时处理的过程。

通过数据监控,可以提前发现并解决数据质量问题,保证数据的即时性和可靠性。

常用的数据监控方法包括数据报表生成、数据可视化和异常数据检测等。

4. 数据治理:数据治理是指通过制定规范、管理流程和角色职责,确保数据质量的持续改进和管理。

数据治理包括数据策略制定、数据安全管理、数据质量指标定义等。

数据治理中的数据质量监管与监管

数据治理中的数据质量监管与监管

数据治理中的数据质量监管与监管数据是当今社会中最宝贵的资源之一,对于企业和政府来说,保证数据质量至关重要。

数据质量监管与监管是数据治理过程中的重要组成部分。

本文将介绍数据质量监管的背景和意义,分析数据质量监管的主要内容和方法,以及探讨数据质量监管面临的挑战与解决方案。

一、背景和意义随着大数据时代的到来,数据治理变得越来越重要。

数据质量是数据治理的基础和前提,直接影响到数据的有效性和可用性。

数据质量监管和监管是数据治理中确保数据质量的关键环节,有助于保障数据的准确性、一致性和完整性,提高数据价值和决策效果。

二、数据质量监管的主要内容和方法1. 数据质量评估:数据质量监管首先需要对数据进行评估,包括数据准确性、一致性、完整性、及时性等方面的评估。

评估方法可以采用数据抽样、数据统计分析、数据逻辑验证等手段,以识别数据质量问题和潜在风险。

2. 数据质量标准与指标:在数据质量监管中,制定数据质量标准和指标非常关键。

数据质量标准可以根据实际需求制定,如数据准确性要求达到99%以上、数据完整性要求达到95%以上等。

同时,需要设定相应的数据质量指标,对数据进行量化评估和监测。

3. 数据质量监测与报告:数据质量监管需要建立相应的监测机制和报告体系。

通过数据监测工具和技术手段,实时监测数据质量状况,及时发现和解决数据质量问题。

报告可以定期发布,向相关部门和管理人员提供数据质量的监测结果和分析报告。

4. 数据质量改进和优化:数据质量监管不仅仅是发现问题,还要针对问题采取相应的措施进行改进和优化。

例如,对于数据准确性不高的问题,可以加强数据采集和验证流程;对于数据完整性不足的问题,可以加强数据录入和核对环节。

三、数据质量监管面临的挑战与解决方案1. 数据来源的多样性:数据质量监管面临数据来源多样的挑战,不同数据源的质量差异较大。

解决方案可以采用数据标准化和格式化的方法,确保数据源的一致性和可比性。

2. 数据处理的复杂性:大数据量和复杂的数据处理流程使得数据质量监管变得更加困难。

大数据中的五种管理方法

大数据中的五种管理方法

大数据中的五种管理方法在大数据时代,企业面对的挑战日益增加,如何管理大数据成为企业急需解决的问题。

大数据中的管理方法主要包含五种,本文将对这五种方法进行详细探讨。

一、数据质量管理数据质量是大数据管理的核心,数据质量的好坏关系到企业的决策和业务流程的顺畅。

数据质量管理可以从数据源头开始,制定数据采集标准和规范,对数据进行清洗、去重、格式化等操作,确保数据的准确性和完整性。

此外,数据质量管理还需要建立数据质量监控机制,对数据质量进行持续跟踪和监测,及时发现问题并进行纠正。

二、数据安全管理数据安全是大数据管理的重要一环,随着企业数据规模的不断扩大,数据安全越来越得到关注。

数据安全管理包括数据加密、访问控制、审计跟踪等,以避免敏感数据的泄露和非法访问。

同时,需要建立完善的数据备份和恢复机制,以备不时之需。

三、数据治理管理数据治理是指企业利用大数据进行资源分配的一种管理方式,它将数据作为一种资源,采用全新的方式进行数据分配。

在数据治理过程中,需要对数据进行分类和标签化,以方便企业进行数据管理和利用。

同时,还需要建立数据管理委员会,对于数据的分配和管理进行统一协调。

四、数据分析管理大数据管理的重点是数据分析,利用数据分析可以对企业进行更加精细化的管理。

数据分析管理需要建立完善的数据统计和分析系统,对数据进行整合和分析,以提供有效的决策支持和业务流程优化方案。

同时,还需要建立数据挖掘和机器学习系统,以提高数据分析的效率和准确性。

五、数据可视化管理数据可视化是指利用图像、表格、地图等方式对数据进行展示和呈现,以便企业更加直观、清晰地了解数据。

数据可视化管理需要建立完善的数据展示系统,对于数据的展示进行统一规划和设计,避免信息冗余和重复,提高信息的可读性和可视化效果。

综上所述,大数据中的管理方法包括数据质量管理、数据安全管理、数据治理管理、数据分析管理和数据可视化管理。

企业需要综合考虑这五个方面,针对性地制定相应的管理策略和机制,以实现更加高效的大数据管理和利用。

质量控制中的数据质量管理

质量控制中的数据质量管理

质量控制中的数据质量管理数据质量管理在质量控制中扮演着至关重要的角色。

无论是生产、销售还是服务过程,良好的数据质量管理都是确保质量稳定的基础。

本文将探讨质量控制中数据质量管理的重要性,并提供几种常用的数据质量管理方法。

一、数据质量管理的重要性数据质量是指数据能够满足具体应用的需求,并具备准确、一致、完整、可靠、及时等特性。

在质量控制中,数据质量管理的重要性体现在以下几个方面:1. 为决策提供支持:质量控制需要依靠大量的数据来进行分析和决策。

如果数据质量不可靠,将导致决策的误差,从而影响整个质量控制过程。

2. 提高产品和服务质量:通过数据质量管理,可以及时掌握生产和服务过程中的异常情况,并采取相应的措施进行调整,从而提高产品和服务的质量。

3. 加强问题追溯:当质量问题出现时,通过数据质量管理可以快速追溯到具体的环节和原因,为问题的修复和预防提供有力的支持。

二、数据质量管理方法1. 数据清洗:数据清洗是指对数据进行筛选、过滤和修正,排除其中的错误和异常值。

数据清洗可以通过编写规则和算法来自动化处理,也可以通过人工核查和纠正来完成。

2. 数据验证:数据验证是确保数据的正确性和完整性的过程。

通过使用统计方法和逻辑规则来验证数据的准确性,并进行合理性分析和逻辑推理,以保证数据的可靠性。

3. 数据标准化:数据标准化是指将数据按照统一的规范进行整理和管理,以确保数据的一致性和易用性。

在数据标准化过程中,可以对数据进行分类、编码和归档,使其更易于管理和使用。

4. 数据备份和恢复:为确保数据的安全性和可靠性,需要进行定期的数据备份和恢复操作。

数据备份可以通过使用备份软件和设备来实现,同时需要建立相应的恢复机制和策略,以应对数据丢失或损坏的情况。

5. 数据监控:数据监控是对数据质量的实时监测和报警。

通过设立监控指标和阈值,可以及时发现数据质量问题,并采取相应的措施进行处理,以保证数据质量的稳定和可控。

三、总结数据质量管理是质量控制中不可或缺的一环。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据治理系列5:浅谈数据质量管理“数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。

”——以上内容摘自百度百科。

笔者观点:“数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。

通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力。

在数据治理过程中,一切业务、技术和管理活动都围绕这个目标和开展”。

一、数据质量问题盘点接下来我们盘点下企业一般都会遇到哪些数据质量问题:•数据真实性:数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料。

•数据准确性:准确性也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。

•数据唯一性:用于识别和度量重复数据、冗余数据。

重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。

•数据完整性:数据完整性问题包括:模型设计不完整,例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。

不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。

•数据一致性:多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。

数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。

相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。

•数据关联性:数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。

存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。

•数据及时性:数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。

二、数据质量问题根因分析说到数据质量问题的原因,做过BI或数仓项目的小伙伴肯定都知道,这是一个业务和技术经常扯来扯去、互相推诿的问题。

在很多情况下,企业都会把数据质量问题推给技术部门,让技术部门去查找和处理。

但是企业的数据质量问题真的都是技术引起的吗,技术部门人一定会说:“这个锅我不背!”其实,影响数据质量的因素主要就技术、业务、管理三个方面,下面我们就来从这三方面分析下产生数据质量问题都有哪些原因。

1、技术方面•数据模型设计的质量问题,例如:数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,造成数据录入无法校验或校验不当,引起数据重复、不完整、不准确。

•数据源存在数据质量问题,例如:有些数据是从生产系统采集过来的,在生产系统中这些数据就存在重复、不完整、不准确等问题,而采集过程有没有对这些问题做清洗处理,这种情况也比较常见。

•数据采集过程质量问题,例如:采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。

•数据传输过程的问题,例如:数据接口本身存在问题、数据接口参数配置错误、网络不可靠等都会造成数据传输过程中的发生数据质量问题。

•数据装载过程的问题,例如:数据清洗规则、数据转换规则、数据装载规则配置有问题。

•数据存储的质量问题,例如:数据存储设计不合理,数据的存储能力有限,人为后台调整数据,引起的数据丢失、数据无效、数据失真、记录重复。

•业务系统各自为政,烟囱式建设,系统之间的数据不一致问题严重。

2、业务方面•业务需求不清晰,例如:数据的业务描述、业务规则不清晰,导致技术无法构建出合理、正确的数据模型。

•业务需求的变更,这个问题其实是对数据质量影响非常大的,需求一变,数据模型设计、数据录入、数据采集、数据传输、数据装载、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。

•业务端数据输入不规范,常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错。

人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。

•数据作假,对,你没看错,就是数据作假!操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证。

3、管理方面•认知问题。

企业管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。

•没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到负责人。

•缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。

•数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。

•缺乏有效的数据质量问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。

•缺乏有效的数据管控机制,对历史数据质量检查、新增数据质量校验没有明确和有效的控制措施,出现数据质量问题无法考核。

小结:影响数据质量的因素,可以总结为两类,客观因素和主观因素。

客观因素:在数据各环节流转中,由于系统异常和流程设置不当等因素,从而引起的数据质量问题。

主观因素:在数据各环节处理中,由于人员素质低和管理缺陷等因素,从而操作不当而引起的数据质量问题。

三、数据质量管理的方法论在数据治理方面,不论是国际的还是国内的,我们能找到很多数据治理成熟度评估模型这样的理论框架,作为企业实施的指引。

而说到数据质量管理的方法论,其实业内还没有一套科学、完整的数据质量管理的体系。

很多企业对数据质量的重视程度还不够,即使部分企业在朝着这个方向努力,也是摸着石头过河。

数据是数字化时代企业的重要资产,数据可以以产品或服务的形态为企业创造价值。

既然数据可以是产品、可以是服务,那问题就简单了。

虽然数据质量管理没有成熟方法论支撑,但是产品和服务的质量管理体系却已非常的成熟了,何不尝试用产品和服务的质量管理体系来管理数据质量?!那国际上最权威的质量管理体系IOS9001是否也适用于企业的数据质量管理呢?下图是ISO9001基于PDCA的质量管理核心思想,其重点强调以客户为关注焦点、领导作用、全员参与、过程方法、持续改进、循证决策和关系管理。

注:图中的数字代表的是本标准在ISO9001的相关章节,无业务含义。

以下内容是根据笔者对质量体系相关资料的查阅和粗浅理解,给出数据质量管理的方法论,不免有所偏误,欢迎拍砖和指正。

依据ISO9001以及企业在数据治理方面的相关经验,笔者认为企业数据质量管理应从以下几个方面着手:1、组织环境我们在数据治理框架、主数据管理、数据标准管理等章节,都提到了组织机构的设置,这里再次强调一个强有力的数据管理组织的建设是数据治理项目成功的最根本的保证。

其作业是两个层面:一是在制度层面,制定企业数据治理的相关制度和流程,并在企业内推广,融入企业文化。

二是在执行层面,为各项业务应用提供高可靠的数据。

2、数据质量管理方针为了改进和提高数据质量,必须从产生数据的源头开始抓起,从管理入手,对数据运行的全过程进行监控,强化全面数据质量管理的思想观念,把这一观念渗透到数据生命周期的全过程。

数据质量问题是影响系统运行、业务效率、决策能力的重要因素,在数字化时代,数据质量问题影响的不仅仅是信息化建设的成败,更是影响企业降本增效、业务创新的核心要素,对于数据质量问题的管理,深度执行的总体策略“垃圾进,垃圾出(garbage in,garbage out)”,采用事前预防控制、事中过程控制、事后监督控制的方式进行数据质量问题的管理和控制,持续提升企业数据质量水平。

3、数据质量问题分析关于质量问题的分析,笔者推荐采用经典的六西格玛(缩写:6σ或6Sigma),六西格玛是一种改善企业质量流程管理的技术,以“零缺陷”的完美商业追求,以客户为导向,以业界最佳为目标,以数据为基础,以事实为依据,以流程绩效和财务评价为结果,持续改进企业经营管理的思想方法、实践活动和文化理念。

六西格玛重点强调质量的持续改进,对于数据质量问题的分析和管理,该方法依然适用。

根据六西格玛的DMAIC模型,我们可以将数据质量分析定义为六个阶段:(1)定义阶段(D阶段)。

界定数据质量治理的范围,并将数据质量改进的方向和内容界定在合理的范围内。

通过使用主数据识别法、专家小组法、问卷调查法、漏斗法等方法,定义出数据治理的对象和范围。

企业数据质量治理对象一般主要包括两类数据:一类是操作型数据,例如:主数据、参照数据和交易数据。

另一类是分析型数据,例如:主题数据、指标数据等。

注:根据笔者经验以及80/20法则,企业的数据质问题80%是由于管理不当或业务操作不规范引起的,参考:《主数据的3大特点、4个超越和三个80/20原则》。

(2)测量阶段(M阶段)。

在定义出数据治理对象和内容后,需要选取以下若干个指标来作为数据质量评价指标,建立数据质量评估模型,对企业的数据进行评估和测量。

常用的数据质量评价指标就是我们上述提到的:数据唯一性、数据完整性、数据准确性、数据一致性、数据关联性、数据及时性等。

(3)分析阶段(A阶段)。

基于数据质量评估模型,执行数据质量分析任务,通过数据分析,找到发生数据质量问题的重灾区,确定出影响数据质量的关键因素。

数据治理和大数据分析是密不可分的,数据治理的目标是提升数据质量从而提高数据分析的准确性,而大数据分析技术也可反向作用于数据治理,通过大数据分析算法和大数据可视化技术,能够更准确、更直观的定位到发生数据质量问题的症结所在。

该阶段可以用的大数据技术包括:回归分析、因子分析、鱼骨图分析、帕累托分析、矩阵数据分析等。

(4)改进阶段(I 阶段)。

通过制定改进管理和业务流程、优化数据质量的方案,消除数据质量问题或将数据质量问题带来的影响降低到最小程度。

我们一直在强调数据质量的优化和提升,绝不单单是技术问题,应从管理和业务入手,找出数据质量问题发生的根因,再对症下药。

同时,数据质量管理是一个持续优化的过程,需要企业全员参与,并逐步培养起全员的数据质量意识和数据思维。

该过程主要用到方法:流程再造、绩效激励等。

相关文档
最新文档