论银行数据治理体系建设
某商业银行监管数据质量专项治理工作方案

某商业银行监管数据质量专项治理工作方案某商业银行监管数据质量专项治理工作方案为切实提高本行监管数据质量,以优质数据服务于业务经营,推动各项业务高质量发展。
根据《中国银保监会办公厅关开展监管数据质量专项治理工作的通知》(银保监办发〔2020〕45号)文件精神,特制定本工作方案。
一、工作目标监管数据质量治理作为数据治理的重要组成部分,是一项基础性、系统性的工作,全行上下要充分认识提升监管数据质量的重要意义,把数据质量作为精细化管理的有效手段。
在数据治理过程中,我行应强化源头数据质量治理,建立主体责任明确的监管数据体系,确保监管相关数据治理要求落实到各环节,有效夯实数据治理管理基础,做到完善组织、制度、机制、系统等方面的工作短板,建立全面提升监管数据质量的长效工作机制。
一是开展自查自评。
根据《xx银行保险业监管数据质量评估模板》,组织开展监管相关数据质量及治理情况的自查自评。
重点排查评估核心监管指标数据准确性和真实性情况、数据质量控制机制是否健全、组织制度系统保障是否得力、内部重大差错报告和监督工作是否到位等方面,并明确下一步改进措施。
二、组织实施(一)成立领导小组行总部成立以行长为组长,办公室、xx部、xx部、xx部、等相关职能部室负责人为成员的数据质量治理工作领导小组,负责此次监管数据质量治理的总体工作部署。
工作领导小组办公室设在xx 部,负责治理工作的方案制订、组织协调工作。
(二)成立实施小组按照行总部领导小组总体部署,由xx部牵头,抽调xx、xx、xx等相关职能部室业务骨干,成立监管数据质量治理工作实施小组,由xx部负责人担任组长,负责本次专项工作的具体实施工作。
三、数据治理范围(一)数据类型。
包括监管数据及相关源头数据。
其中,监管数据是指按照监管要求定期报送银保监会及xx银保监局的监管统计数据和其他监管数据。
(二)数据时间范围:xx年xx月起至xx年x月。
(三)分行业机构数据:非现场监管、客户风险、信息科技非现场监管等系统采集数据和其他核心监管指标等。
银保监发〔2018〕22号银行业金融机构数据治理指引

银保监发〔2018〕22号银行业金融机构数据治理指引XXX关于印发银行业金融机构数据治理指引的通知银保监发〔2018〕22号各XXX,机关各部门,各政策性银行、大型银行、股份制银行,XXX,外资银行,金融资产管理公司,其他会管金融机构:现将《银行业金融机构数据治理指引》印发给你们,请遵照执行。
2018年5月21日(此件发至XXX和地方法人银行业金融机构)银行业金融机构数据治理指引第一章总则第一条为指导银行业金融机构加强数据治理,提高数据质量,发挥数据价值,提升经营管理能力,根据《中华人民共和国银行业监督管理法》等法律法规,制定本指引。
第二条本指引适用于XXX批准设立的银行业金融机构。
本指引所称银行业金融机构,是指在中华人民共和国境内设立的商业银行、XXX等吸收公众存款的金融机构、政策性银行以及XXX。
第三条数据治理是指银行业金融机构通过建立组织架构,明确董事会、监事会、高级管理层及内设部门等职责要求,制定和实施系统化的制度、流程和方法,确保数据统一管理、高效运行,并在经营管理中充分发挥价值的动态过程。
第四条银行业金融机构应当将数据治理纳入公司治理范畴,建立自上而下、协调一致的数据治理体系。
第五条银行业金融机构数据管理应当遵循以下根本准绳:(一)全覆盖原则。
数据治理应当覆盖数据的全生命周期,覆盖业务经营、风险管理和内部控制流程中的全部数据,覆盖内部数据和外部数据,覆盖监管数据,覆盖所有分支机构和附属机构。
(二)匹配性原则。
数据治理应当与管理模式、业务规模、风险状况等相适应,并根据情况变化进行调整。
(三)持续性原则。
数据治理应当持续开展,建立长效机制。
(四)有效性原则。
数据治理应当推动数据真实准确客观反映银行业金融机构实际情况,并有效应用于经营管理。
第六条银行业金融机构应当将监管数据纳入数据治理,建立工作机制和流程,确保监管数据报送工作有效组织开展,监管数据质量持续提升。
法定代表人或主要负责人对监管数据质量承担最终责任。
银保监发〔2018〕22号 银行业金融机构数据治理指引

中国银行保险监督管理委员会关于印发银行业金融机构数据治理指引的通知银保监发〔2018〕22号各银监局,机关各部门,各政策性银行、大型银行、股份制银行,邮储银行,外资银行,金融资产管理公司,其他会管金融机构:现将《银行业金融机构数据治理指引》印发给你们,请遵照执行。
2018年5月21日(此件发至银监分局和地方法人银行业金融机构)银行业金融机构数据治理指引第一章总则第一条为指导银行业金融机构加强数据治理,提高数据质量,发挥数据价值,提升经营管理能力,根据《中华人民共和国银行业监督管理法》等法律法规,制定本指引。
第二条本指引适用于中华人民共和国境内经银行业监督管理机构批准设立的银行业金融机构。
本指引所称银行业金融机构,是指在中华人民共和国境内设立的商业银行、农村信用合作社等吸收公众存款的金融机构、政策性银行以及国家开发银行。
第三条数据治理是指银行业金融机构通过建立组织架构,明确董事会、监事会、高级管理层及内设部门等职责要求,制定和实施系统化的制度、流程和方法,确保数据统一管理、高效运行,并在经营管理中充分发挥价值的动态过程。
第四条银行业金融机构应当将数据治理纳入公司治理范畴,建立自上而下、协调一致的数据治理体系。
第五条银行业金融机构数据治理应当遵循以下基本原则:(一)全覆盖原则。
数据治理应当覆盖数据的全生命周期,覆盖业务经营、风险管理和内部控制流程中的全部数据,覆盖内部数据和外部数据,覆盖监管数据,覆盖所有分支机构和附属机构。
(二)匹配性原则。
数据治理应当与管理模式、业务规模、风险状况等相适应,并根据情况变化进行调整。
(三)持续性原则。
数据治理应当持续开展,建立长效机制。
(四)有效性原则。
数据治理应当推动数据真实准确客观反映银行业金融机构实际情况,并有效应用于经营管理。
第六条银行业金融机构应当将监管数据纳入数据治理,建立工作机制和流程,确保监管数据报送工作有效组织开展,监管数据质量持续提升。
法定代表人或主要负责人对监管数据质量承担最终责任。
数据治理六要素

数据治理六要素引⾔:帆软作为全球数据分析和商业智能平台提供商,这⼏年深刻的感受到了全球数据应⽤的热潮,但是随着越来越多的客户开始实施并⼴泛应⽤BI系统,数据治理的话题也在最近被越来越多地提及和讨论。
过去的⼗年,银⾏的IT系统经历了数据量⾼速膨胀的时期,这些海量的、分散在不同⾓落的异构数据导致了数据资源的价值低、应⽤难度⼤等问题。
同时,银⾏内部的业务条线或⾏政分化也在不断地制造着银⾏数据交互的断层,⽽银⾏与外部业务交互所产⽣的“体外循环”数据与企业的核⼼数据体系并不能⾃然地融合,这个时候数据治理体系建设可能不是银⾏的⼀个选择,⽽是唯⼀的出路。
数据治理规划在长期对客户的FineBI商业智能项⽬的跟踪过程中我们发现,往往只有那些建⽴了⼀定的数据治理体系的客户,才能真正的将商业智能⽤起来,⽤户才能真正进⼊商业智能时代。
这个问题在银⾏等⾦融机构内显得尤为突出,银⾏数据向来以量⼤质优⽽著称,但是实际情况是它⽐其他⾏业好⼀些,但是长期以来也缺乏数据治理的体系化建设,导致商业智能价值链受阻。
要想在数字化转型中抓住机遇,银⾏的数据治理体系建设势在必⾏。
数据治理是⼀个系统⼯程,是⼀个从上⾄下指导,从下⽽上推进的⼯作。
因此,在指导⽅⾯必须得到⼤家的共识,要有⼀个强有⼒的组织、合理的章程、明确的流程、健壮的系统,这样才能使数据治理⼯作得到有效的保障。
要素⼀:发展战略⽬标战略是选择和决策的集合,共同绘制出⼀个⾼层次的⾏动⽅案,以实现更⾼层次⽬标。
数据战略是企业发展战略中的重要组成部分,是数据管理计划的战略,是保持和提⾼数据质量、完整性、安全性和存取的计划,是指导数据治理的最⾼原则。
数据治理是否与企业发展战略相吻合也是衡量数据治理体系实施是否成熟、是否成功的重要标准。
要在企业发展战略框架下,建⽴数据治理的战略⽂化,包括企业⾼层领导对数据治理的重视程度、所能提供的资源、重⼤问题的协调能⼒,以及对数据治理⽂化的宣传推⼴、培训教育等⼀系列措施。
银保监发〔2018〕22号 银行业金融机构数据治理指引

中国银行保险监督管理委员会关于印发银行业金融机构数据治理指引的通知银保监发〔2018〕22号各银监局,机关各部门,各政策性银行、大型银行、股份制银行,邮储银行,外资银行,金融资产管理公司,其他会管金融机构:现将《银行业金融机构数据治理指引》印发给你们,请遵照执行。
2018年5月21日(此件发至银监分局和地方法人银行业金融机构)银行业金融机构数据治理指引第一章总则第一条为指导银行业金融机构加强数据治理,提高数据质量,发挥数据价值,提升经营管理能力,根据《中华人民共和国银行业监督管理法》等法律法规,制定本指引。
第二条本指引适用于中华人民共和国境内经银行业监督管理机构批准设立的银行业金融机构。
本指引所称银行业金融机构,是指在中华人民共和国境内设立的商业银行、农村信用合作社等吸收公众存款的金融机构、政策性银行以及国家开发银行。
第三条数据治理是指银行业金融机构通过建立组织架构,明确董事会、监事会、高级管理层及内设部门等职责要求,制定和实施系统化的制度、流程和方法,确保数据统一管理、高效运行,并在经营管理中充分发挥价值的动态过程。
第四条银行业金融机构应当将数据治理纳入公司治理范畴,建立自上而下、协调一致的数据治理体系。
第五条银行业金融机构数据治理应当遵循以下基本原则:(一)全覆盖原则。
数据治理应当覆盖数据的全生命周期,覆盖业务经营、风险管理和内部控制流程中的全部数据,覆盖内部数据和外部数据,覆盖监管数据,覆盖所有分支机构和附属机构。
(二)匹配性原则。
数据治理应当与管理模式、业务规模、风险状况等相适应,并根据情况变化进行调整。
(三)持续性原则。
数据治理应当持续开展,建立长效机制。
(四)有效性原则。
数据治理应当推动数据真实准确客观反映银行业金融机构实际情况,并有效应用于经营管理。
第六条银行业金融机构应当将监管数据纳入数据治理,建立工作机制和流程,确保监管数据报送工作有效组织开展,监管数据质量持续提升。
法定代表人或主要负责人对监管数据质量承担最终责任。
银保监发〔2018〕22号 银行业金融机构数据治理指引

中国银行保险监督管理委员会关于印发银行业金融机构数据治理指引的通知银保监发〔2018〕22号各银监局,机关各部门,各政策性银行、大型银行、股份制银行,邮储银行,外资银行,金融资产管理公司,其他会管金融机构:现将《银行业金融机构数据治理指引》印发给你们,请遵照执行。
2018年5月21日(此件发至银监分局和地方法人银行业金融机构)银行业金融机构数据治理指引第一章总则第一条为指导银行业金融机构加强数据治理,提高数据质量,发挥数据价值,提升经营管理能力,根据《中华人民共和国银行业监督管理法》等法律法规,制定本指引。
第二条本指引适用于中华人民共和国境内经银行业监督管理机构批准设立的银行业金融机构。
本指引所称银行业金融机构,是指在中华人民共和国境内设立的商业银行、农村信用合作社等吸收公众存款的金融机构、政策性银行以及国家开发银行。
第三条数据治理是指银行业金融机构通过建立组织架构,明确董事会、监事会、高级管理层及内设部门等职责要求,制定和实施系统化的制度、流程和方法,确保数据统一管理、高效运行,并在经营管理中充分发挥价值的动态过程。
第四条银行业金融机构应当将数据治理纳入公司治理范畴,建立自上而下、协调一致的数据治理体系。
第五条银行业金融机构数据治理应当遵循以下基本原则:(一)全覆盖原则。
数据治理应当覆盖数据的全生命周期,覆盖业务经营、风险管理和内部控制流程中的全部数据,覆盖内部数据和外部数据,覆盖监管数据,覆盖所有分支机构和附属机构。
(二)匹配性原则。
数据治理应当与管理模式、业务规模、风险状况等相适应,并根据情况变化进行调整。
(三)持续性原则。
数据治理应当持续开展,建立长效机制。
(四)有效性原则。
数据治理应当推动数据真实准确客观反映银行业金融机构实际情况,并有效应用于经营管理。
第六条银行业金融机构应当将监管数据纳入数据治理,建立工作机制和流程,确保监管数据报送工作有效组织开展,监管数据质量持续提升。
法定代表人或主要负责人对监管数据质量承担最终责任。
银行业金融机构数据治理指引

银行业金融机构数据治理指引(征求意见稿)第一章总则第一条(立法依据)为指导银行业金融机构加强数据治理,提高数据质量,发挥数据价值,提升经营管理能力,根据《中华人民共和国银行业监督管理法》等法律法规,制定本指引。
第二条(适用范围)本指引适用于中华人民共和国境内经银行业监督管理机构批准设立的银行业金融机构。
本指引所称银行业金融机构,是指在中华人民共和国境内设立的商业银行、农村信用合作社等吸收公众存款的金融机构、政策性银行以及国家开发银行。
第三条(数据治理定义)数据治理是指通过建立组织架构,明确董事会、高级管理层、部门等职责要求,制定和实施系统化的制度、流程和方法,确保数据统一管理、高效运行,并在经营管理中充分发挥价值的动态过程。
第四条(数据治理总体要求)银行业金融机构应当将数据治理纳入公司治理范畴,建立自上而下、协调一致的数据治理体系。
第五条(数据治理原则)银行业金融机构数据治理应当遵循以下基本原则:(一)全覆盖原则:覆盖数据的全生命周期;覆盖业务经营、风险管理和内部控制流程中的全部数据;覆盖内部数据和外部数据;覆盖所有分支机构和附属机构;覆盖监管数据。
(二)匹配性原则:数据治理应当与管理模式、业务规模、风险状况等相适应,并根据情况变化进行调整。
(三)持续性原则:数据治理应当持续开展,建立长效机制。
(四)有效性原则:数据治理应当推动数据真实准确客观反映银行业金融机构实际情况,并有效应用于经营管理。
第六条(监管数据)银行业金融机构应当将监管数据纳入数据治理,建立工作机制和流程,确保监管数据报送工作有效组织开展,监管数据质量持续提升。
法定代表人或主要负责人对监管数据质量承担最终责任。
第七条(依法监督)银行业监督管理机构依据本指引对银行业金融机构数据治理情况实施监管。
第二章数据治理架构第八条(总体要求)银行业金融机构应当建立组织架构健全、职责边界清晰的数据治理架构,明确董事会、监事会、高级管理层和相关部门的职责分工,建立多层次、相互衔接的运行机制。
银保监发〔2018〕22号 银行业金融机构数据治理指引

中国银行保险监督管理委员会关于印发银行业金融机构数据治理指引的通知银保监发〔2018〕22号各银监局,机关各部门,各政策性银行、大型银行、股份制银行,邮储银行,外资银行,金融资产管理公司,其他会管金融机构:现将《银行业金融机构数据治理指引》印发给你们,请遵照执行。
2018年5月21日(此件发至银监分局和地方法人银行业金融机构)银行业金融机构数据治理指引第一章总则第一条为指导银行业金融机构加强数据治理,提高数据质量,发挥数据价值,提升经营管理能力,根据《中华人民共和国银行业监督管理法》等法律法规,制定本指引。
第二条本指引适用于中华人民共和国境内经银行业监督管理机构批准设立的银行业金融机构。
本指引所称银行业金融机构,是指在中华人民共和国境内设立的商业银行、农村信用合作社等吸收公众存款的金融机构、政策性银行以及国家开发银行。
第三条数据治理是指银行业金融机构通过建立组织架构,明确董事会、监事会、高级管理层及内设部门等职责要求,制定和实施系统化的制度、流程和方法,确保数据统一管理、高效运行,并在经营管理中充分发挥价值的动态过程。
第四条银行业金融机构应当将数据治理纳入公司治理范畴,建立自上而下、协调一致的数据治理体系。
第五条银行业金融机构数据治理应当遵循以下基本原则:(一)全覆盖原则。
数据治理应当覆盖数据的全生命周期,覆盖业务经营、风险管理和内部控制流程中的全部数据,覆盖内部数据和外部数据,覆盖监管数据,覆盖所有分支机构和附属机构。
(二)匹配性原则。
数据治理应当与管理模式、业务规模、风险状况等相适应,并根据情况变化进行调整。
(三)持续性原则。
数据治理应当持续开展,建立长效机制。
(四)有效性原则。
数据治理应当推动数据真实准确客观反映银行业金融机构实际情况,并有效应用于经营管理。
第六条银行业金融机构应当将监管数据纳入数据治理,建立工作机制和流程,确保监管数据报送工作有效组织开展,监管数据质量持续提升。
法定代表人或主要负责人对监管数据质量承担最终责任。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
欢迎访问数据中国大讲坛。
【讲座录音29】20130109《数据中国年终座谈会》Jimmy简介:/forum.php?mod=viewthread&tid=423&fromuid=19录音:/share/link?shareid=188569&uk=2164314794论银行数据治理体系建设中国银行总行信息科技部副总工程师孙中东现代商业银行日常经营活动中积累了大量数据,这些数据除了支持银行前台业务流程运转之外,越来越多地被用于决策支持领域,风险控制、产品定价、绩效考核等管理决策过程也都需要大量高质量数据支持。
银行日常经营决策过程的背后,实质是数据的生产、传递和利用过程。
此外,日益全面的和严格的监管措施和信息披露要求,也对银行数据提出了前所未有的挑战。
如果不能对这些数据进行有效管理,其价值就得不到很好体现,甚至会给运营管理带来负面作用,具体表现为:一是缺乏统一数据标准,难以建立全面、准确、完整地反映企业运营状况的单一数据视图,难以做到数据的逻辑整合而不仅仅是物理集中;二是缺乏规范的数据质量治理流程和考核机制,不能及时发现数据质量问题,或缺乏有效解决途径;三是对数据采集、分布、流转及应用的规划存在不合理现象,数据需求、数据质量、数据应用等问题的管理和解决分散在不同业务和技术部门,没有一个清晰的协调机制和统一的报告渠道,业务不能及时、按需获得数据支持;四是缺乏有效的数据安全管理机制,对敏感信息的访问缺乏有效控制,对银行形成潜在的声誉和法律风险等。
为使这些数据“包袱”变成“金矿”,数据治理(Data Governance)体系的构建就变得尤为重要和迫切。
一.数据治理体系简介数据治理是为满足企业内部信息需求,提升企业信息服务水准而制定的相关流程、政策、标准以及相关技术手段,用于保证信息的可用性、可获取性、高质量、一致性以及安全性。
数据治理体系建设的目的,是建立数据拥有者、使用者、数据以及支撑系统之间的和谐互补关系,从全企业视角协调、统领各个层面的数据管理工作,确保内部各类人员能够得到及时、准确的数据支持和服务。
通常认为,数据治理至少应当涵盖如下功能域:数据质量管理、元数据管理、数据标准管理数据安全管理和主数据管理,现对上述功能域说明如下。
1.数据质量管理:对支持业务需求的数据进行全面质量管理,通过数据质量相关管理办法、组织、流程、评价考核规则的制定,及时发现并解决数据质量问题,提升数据的完整性、及时性、准确性及一致性,提升业务价值。
2.元数据管理:元数据(Metadata)是关于数据的数据,即对数据的描述信息。
根据其属性的不同,元数据可分为技术元数据和业务元数据。
元数据管理是元数据的定义、收集、管理和发布的方法、工具及流程的集合,通过完成对相关业务元数据及技术元数据的集成及应用,提供数据路径、数据归属信息,并对业务术语、文档进行集中管理,借助变更报告、影响分析以及业务术语管理等应用,以此保证数据的完整性、控制数据质量、减少业务术语歧义和建立业务人员之间、技术人员之间,以及双方的沟通平台。
3.数据标准管理:通过建立一整套数据规范、管控流程和技术工具来确保银行各种重要信息,包括产品、客户、机构、账户等信息在全行内外使用和交换的一致和准确。
数据标准可分为技术标准和业务标准。
4.数据安全管理:通过建立对数据及相关信息系统进行保护的一系列措施,确保数据免遭未经授权的访问、使用、修改或删除,保证数据完整性、保密性和可用性,具体可分为管理和技术两大类措施。
5.主数据管理:主数据(Master Data)指描述核心业务实体的数据,如客户、机构、员工、产品等。
这些数据变化相对缓慢并通常在企业内跨业务重复使用。
主数据管理适用于管理、协调、监控与企业主要业务实体相关联的主数据的一系列规则、技术、应用、策略和程序。
二.数据质量管理简介业界普遍认可的数据质量定义为数据对其期望目的的适合度,即数据质量管理生命周期及其相关的数据质量管理流程,都要为确保数据满足其自身预期目标提供相应的方法和手段。
(一)数据质量管理基础和问题分类下列要素是进行数据质量管理的基础:1.数据质量的好坏是由用户以及数据使用价值所决定的。
2.数据质量的好坏代表着数据在数据知识应用中、数据所存在的系统中以及数据使用过程中被应用或者有价值的程度。
3.只有当数据被下游过程(系统或用户)所接收并使用时,数据质量问题的研讨才有意义。
4.数据是持续变更的,数据质量管理是一个持续过程而不是一次性活动。
银行关注的常见数据质量问题可以归成如下7类:1.定义缺失,指缺少关键业务元素定义,导致对同一字段的理解偏差。
例如,什么是“一个客户”,不同业务有不同理解,通常风险应用将组织机构号作为对公客户的“身份证”,一个组织机构号代表一个客户;而核心系统对客户号的分配较为随意,允许一个组织机构号下存在多个客户号。
2.数据异常,指系统的个别字段出现了异常信息,包括取值错误,格式错误、多余字符、乱码等。
3.信息缺失或不准确,指在系统表中已经设计了某些字段,但在使用过程中,很多记录却没有收集这些字段的信息,或存在信息收集不准确、信息重复登记等情况。
信息缺失或不准确通常在客户信息方面最为严重。
4.系统之间数据不一致,主要体现在两个方面:(1)系统间数据维护不一致。
为了满足各个系统内部逻辑、提高访问效率和减少数据传输,相同信息可能在不同系统进行冗余存放。
但冗余存放的数据如果不进行同步或及时的数据维护,则必会导致这些数据的不一致。
例如,银行通常存在核心系统与信贷系统数据不一致的问题。
(2)系统之间数据同步时效性造成的不一致。
典型案例如下:由于某些银行的贷记卡系统是外包系统,因此总账系统在T+1日才能取到贷记卡T日的数据,但是其他系统的科目余额缺失T+1日的数据,于是此种同步时效性的差异就导致了系统之间数据不一致。
5.数据完整性问题。
数据完整性问题主要体现在两个方面:(1)参照完整性,是指一个表A的外键不包含无效的键值,例如,借据表中记录了合同号,但是在合同表中无法找到相关记录;(2)数据含义冲突,如某些账户,从账户属性、存期等字段看,应是通知存款产品,但从科目看,又是普通定期产品。
6.数据生命周期问题。
银行中的关键数据,例如,账户、客户、产品信息等,都有若干日期字段记录其生命周期,这些日期字段包括创建/开户日期、关闭/销户日期、最后交易日期和最后修改日期等,但是在业务系统中往往存在修改了记录状态却并未同步更新相关日期字段的情况。
此外,还有一个违反合理数据生命周期的常见做法,就是直接在物理上删除记录。
7.代码问题。
包括三个与代码相关的问题:(1)代码不统一问题,即不同应用之间相同用途代码的编码不一致;(2)未代码化问题,即常见情况使用文字存储,而非将信息代码化,很多时候会发现信息存储的不少,但却不便于分析使用。
(3)意外代码,即实际数据中出现了未定义的代码值。
(二)数据质量管理方法论图1描述了权威人士普遍认可的数据质量管理方法论,共分六步。
图1 数据质量提升步骤图第一步:定义及验证首先,从技术和业务两个层面对数据应当满足的质量目标进行定义。
表1列出了一系列数据质量度量标准,但最终的定义应当以更规范的形式进行描述。
例如,属性X的缺失率不超过2%。
其次,对于派生数据,其源数据和转换的规则必须详细说明。
最后,上面描述的定义和规则将作为数据质量评估计划的输入源。
数据质量评估计划主要用来验证定义和规则的正确性,并且这个计划将详细描述数据必须满足的、适合它预期用途的属性,即它定义了数据质量。
这个计划还将指导初始的数据度量,通常也成为数据剖析。
表1 数据质量度量标准第二步:影响分析与共性分析完成数据质量目标定义后,需要评估一个特定的数据质量问题在预期的数据使用适合性方面带来的影响,并根据影响分析结果可以确定数据质量问题的重要性与优先级别。
所谓共性分析就是分析错误具有的共性,我们期望一次可以将许多错误归结到某类共同原因。
这个分析将为下一步追踪根本原因做好准备。
第三步:追踪根本原因图2所示鱼骨图是一个众所周知的用于鉴别数据质量背后根本原因的工具,它反映了需要达到的和实际的数据质量之间的差距原因,通常是信息、流程、技术、人员等因素所导致。
第四步:预防/修复数据质量问题图3描述了在追踪数据质量问题的根本原因时可用到的选择。
每一个选择都有相关的优点和弱点。
1.导致数据质量问题的根本原因,最常见的有人员、流程、业务系统前端、业务系统数据库、数据抽取和加载过程等方面处理不当,这些因素都有可能产生数据质量问题。
对于图3前三项(人员、流程、业务系统前端),重点在于预防,对于后三项(业务系统数据库,抽取、加载),则通常通过修复的手段来解决。
2.每类数据质量问题的预防/修复都有有利和不利的一面,比如,由于人员产生的质量问题,有利方面是可以再源头预防,不利方面在于人员往往会疏于管理、容易遗忘以及不同人员的差异性、专注点不同,这些都会不可避免地产生一定的数据质量问题。
图2 数据质量根本原因图3.涉及的数据量。
通常数据质量问题需要修复的数据量有大致规律,如人员、流程、前端应用产生的质量问题需要修复的数据量往往不大,而数据库处理、数据抽取和加载等后台环节导致的数据质量问题通常设计的数据量较大。
对于已经发生的数据质量问题,只能通过修复措施解决,但是从长远来看,重视预防措施,在源头控制错误的产生更为重要。
图3 预防/修复数据质量问题图第五步:趋势监控一个已知的数据质量问题被修复后并不意味着这个特定问题就被永远解决了。
如果没有有效地预防措施,错误仍有可能再现。
因此,对重要数据质量问题应当持续监控。
图4所示控制图经常被用来做质量问题监控,当错误的个数在一定范围之内浮动时,质量问题被认为处于可控状态。
图4 数据质量趋势监控图第六步:识别和研究偏差监控流程来识别问题。
例如,当一个已知数据的质量超过了允许的控制范围,流程将需要从该分支返回到第三步再一次识别根本原因。
图5 识别和研究偏差图(三)数据质量问题特征分析根据数据质量定义,数据的不同使用目的会导致不同的数据质量要求,例如,业务系统对数据的使用目的主要是为了保证业务流程的正常运转和满足一些简单的统计功能,因此只要业务流程和统计正常,就可以认为数据质量满足要求;而分析型系统对数据的使用目的则多种多样,而且涵盖企业运营的方方面面,那么满足业务流程正常运转的需要并不一定就能保证满足分析的需求,因此分析型应用的需求是决定数据质量管理目标的主要因素。
在这一前提下,对企业内部数据流转过程各环节中呈现出来的数据质量问题特性作如下分析:如图6所示,数据流转过程被分成三个阶段(环节)。
1.数据生产环节:企业内部的原始数据,绝大部分都产生自业务源系统,很少量的增值数据(Value-added data)产生于分析型系统。