数据集市建设、数据质量及数据管理方法
大数据:数据仓库和数据集市的比较

大数据:数据仓库和数据集市的比较随着科技的发展,数据成为了当下最热门的话题之一。
随着互联网的普及和各行各业的信息化建设与发展,数据规模与数据类型也日益增加。
面对如此巨大的数据量,如何正确地处理和分析数据,如何从中发现有价值的信息,也日益成为了各个企业必须面对的挑战。
在处理这些大数据时,数据仓库和数据集市是两种常见的数据存储和分析方式。
本文将详细比较数据仓库和数据集市的优缺点。
一、数据仓库数据仓库是指将企业内部不同系统中的数据进行收集和汇总,形成一个一致且具有高性能的数据存储库,并且保证数据的一致性、可更新性和可查询性。
数据仓库的主要特点:1、定期批量更新数据:数据仓库通常会对企业内部的数据进行定期批量的更新,而且一般是在业务量相对较小时进行。
2、面向历史:数据仓库主要面向数据的历史信息,针对的是过去的数据。
3、专注于查询:在数据仓库中,主要对数据进行查询操作。
4、主题导向:数据仓库是围绕着业务主题进行组织的,它包含了企业整个业务的各个方面。
数据仓库的优点:1、高效性:基于数据仓库的数据分析拥有更高的业务性能,用于大量数据处理时更加简单、高效。
2、数据一致性好:由于数据仓库的数据集中存储,因此能够保证数据的一致性。
3、适用于大型企业:数据仓库的搭建需要较高的成本,会考虑到企业经营的全局信息。
数据仓库的缺点:1、对实时更新的需求差:数据仓库的数据一般是较为静态的,更新时延相对较高。
2、对数据的一致性要求高:数据仓库在数据插入、更新、删除等操作上的成本相对更高,因此数据的一致性也更加重视。
3、可变性不强:数据仓库在建库时便需要考虑到全局信息,所以数据的构建相对比较稳定。
二、数据集市数据集市是指将企业内部不同系统中的数据进行收集,然后根据需要进行分类、整合、清洗、分析等操作,组成具有相同语义的业务数据集合,提供给业务部门,以支持各个业务部门的分析需求和决策需要。
数据集市的主要特点:1、实时更新:数据集市需要及时更新数据,这样业务部门才能随时获取到最新的数据信息。
数据仓库分层建设的基本思路

数据仓库分层建设的基本思路
数据仓库分层建设的基本思路如下:
1. 数据源层:这是数据仓库的基础,包含了各种原始数据,来自不同的业务系统、数据库、文件等。
2. 数据存储层:数据经过抽取、转换和加载(ETL)过程后,被存储在这一层。
它可以是关系型数据库、列式存储、NoSQL 数据库或数据湖泊等。
3. 数据处理层:在这一层,对数据进行清洗、转换、脱敏、标准化等处理,以提高数据质量和可用性。
4. 数据集市层:根据不同的业务主题或部门需求,将处理后的数据组织成数据集市。
数据集市通常是针对特定主题或业务领域的数据集合。
5. 数据应用层:这是数据仓库的顶层,为用户提供各种数据分析和应用工具,如报表、仪表盘、数据挖掘、机器学习等。
6. 元数据管理层:元数据用于描述数据仓库中的数据、处理过程和数据模型等信息。
元数据管理层负责管理和维护元数据,确保数据的一致性和可追溯性。
7. 数据质量管理层:数据质量是数据仓库的关键要素之一。
这一层负责监控和管理数据质量,包括数据清洗、数据验证、数据监控等。
通过分层建设,数据仓库可以更好地组织和管理数据,提高数据的质量和可用性,满足不同用户的需求。
同时,分层结构也有利于数据仓库的扩展、维护和性能优化。
在实际建设过程中,可以根据具体业务需求和数据特点,对分层结构进行适当调整和优化。
数据集市建设数据质量及数据管理方法

数据集市建设数据质量及数据管理方法一、数据集市建设数据集市是一个基于主题的、集成的、可维护的、非易失型的数据集合,旨在帮助企业高效地管理和分析数据。
数据集市的建设主要包括以下几个关键步骤:1.需求分析:根据企业的业务需求,明确需要建设的数据集市主题,确定数据集市的目标和功能。
2.数据源集成:将企业内部各个部门的数据源集成到数据集市中,确保数据的一致性和完整性。
3.数据清洗和转换:对集成的数据进行清洗和转换,清理无效数据和错误数据,使数据具有一致的格式和规范。
4.数据建模和设计:根据业务需求,设计数据模型和关系表结构,建立数据集市的数据架构。
5.数据加载和更新:将清洗和转换后的数据加载到数据集市中,并实时或定期更新数据,确保数据的时效性。
6.数据查询和分析:提供灵活的查询工具和分析功能,方便用户快速获取所需的数据,并进行多维度的数据分析。
7.数据安全和权限控制:对数据集市的访问和操作进行安全控制,确保数据的保密性和完整性。
二、数据质量的重要性数据质量是数据是否适合使用的度量,对于企业的决策和运营具有重要的影响。
数据质量较差会导致企业做出错误的决策,增加企业的风险和成本。
因此,保障数据质量非常重要,以下是提高数据质量的几个方面:1.准确性:数据准确性是数据质量的核心,需要确保数据的真实和正确。
2.完整性:数据完整性是指数据的完整和完备,确保数据的完整性对于数据分析和决策至关重要。
3.一致性:数据一致性是指数据在不同系统和不同时间下的统一性,确保数据在不同场景下的一致性。
4.时效性:数据时效性是指数据的更新和有效性,保证数据及时更新可以提高数据的时效性和可用性。
1.数据标准化:制定统一的数据标准和规范,明确数据的定义、命名规则和数据格式。
2.数据清洗和转换:清理无效数据和冗余数据,对数据进行转换和格式化,确保数据的一致性和完整性。
3.数据备份和恢复:建立完备的数据备份和恢复机制,确保数据的安全和可靠。
数据质量控制与优化经验总结工作总结

数据质量控制与优化经验总结工作总结在当今数字化时代,数据已成为企业和组织的重要资产。
高质量的数据能够为决策提供可靠的依据,提升运营效率,增强竞争力。
然而,数据质量问题却常常困扰着我们,如数据不准确、不完整、不一致、过时等。
为了确保数据的质量,提高数据的价值,我们进行了一系列的数据质量控制与优化工作,并积累了一些宝贵的经验。
以下是对这些工作的总结。
一、数据质量问题的分析在开展数据质量控制与优化工作之前,我们首先对存在的数据质量问题进行了深入的分析。
通过对现有数据的审查和评估,我们发现了以下主要问题:1、数据准确性问题部分数据存在错误或偏差,例如客户信息中的地址错误、销售数据中的金额计算错误等。
这些错误可能是由于数据录入时的疏忽、数据源的错误或数据转换过程中的失误导致的。
2、数据完整性问题一些关键数据字段存在缺失值,例如客户的联系方式、订单的支付状态等。
数据的不完整会影响数据分析的结果和决策的准确性。
3、数据一致性问题不同系统或数据源之间的数据存在不一致的情况,例如客户在不同系统中的名称、地址不一致,产品信息在不同数据库中的描述不同等。
4、数据时效性问题部分数据未能及时更新,导致数据过时,无法反映最新的业务状态,例如库存数据、市场价格等。
二、数据质量控制与优化的策略针对上述数据质量问题,我们制定了以下数据质量控制与优化策略:1、建立数据质量标准明确数据的准确性、完整性、一致性、时效性等方面的标准和规范,为数据的采集、录入、存储和使用提供指导。
2、数据清洗通过数据清洗工具和技术,对现有数据中的错误、缺失值和重复值进行处理和纠正。
例如,使用数据验证规则检查数据的准确性,通过数据匹配和合并来消除重复数据,利用填充算法或外推法来补充缺失值。
3、数据监控建立数据监控机制,定期对数据进行检查和评估,及时发现数据质量问题。
通过设置数据质量指标和阈值,对数据进行实时监控和预警,确保数据始终符合质量标准。
4、数据源头管理加强对数据源头的管理,提高数据采集的质量。
数据集市 指标

数据集市指标数据集市是指一个企业或组织内部的数据管理平台,用于集中管理和分析各种数据资源。
在数据集市中,各种指标起到了至关重要的作用。
指标是数据集市中对业务过程和绩效的度量,是衡量和评估企业运营情况的重要依据。
本文将围绕数据集市指标展开讨论,探讨其在企业数据管理和决策中的重要性和应用。
一、数据质量指标数据质量是数据集市中最基础的指标之一,它评估数据的准确性、完整性、一致性和及时性等方面。
数据质量指标的好坏直接影响到企业决策的准确性和有效性。
在数据集市中,可以通过检查数据的准确性、重复性、完整性和一致性等指标评估数据的质量,并采取相应的措施来提高数据质量。
二、数据可用性指标数据可用性指标是衡量数据集市中数据是否易于使用的重要指标。
数据可用性指标包括数据的易访问性、易理解性、易分析性等方面。
数据集市应提供方便快捷的数据访问和查询功能,同时还要提供可视化和分析工具,以便用户对数据进行深入分析和探索。
数据可用性指标的提高可以提高数据集市的价值和用户满意度。
三、数据安全性指标数据安全性指标是衡量数据集市中数据安全程度的重要指标。
数据安全性指标包括数据的机密性、完整性和可用性等方面。
企业在建立数据集市时,需要采取一系列的安全措施,如数据加密、访问控制、备份和恢复等,以确保数据的安全性。
数据安全性指标的好坏直接影响到企业的信息资产安全和业务连续性。
四、数据一致性指标数据一致性指标是衡量数据集市中数据一致性程度的重要指标。
数据一致性指标主要包括数据的命名规范、数据格式规范和数据标准等方面。
在数据集市中,数据一致性指标的提高可以避免数据冗余和数据不一致的问题,提高数据的可靠性和可信度。
五、数据价值指标数据价值指标是衡量数据集市对企业价值贡献程度的重要指标。
数据集市的价值主要体现在提供及时准确的数据支持企业决策和业务运营。
数据价值指标可以通过衡量数据集市的数据使用率、决策效果和业务绩效等方面来评估。
数据价值指标的提高可以帮助企业更好地洞察市场和客户需求,提高竞争力和创新能力。
数据集市建设数据质量及数据管理方法

数据治理实施步骤
制定计划
制定详细的数据治理实施计划, 包括资源投入、时间安排和人 员分工等。
监控与评估
对数据治理的实施过程进行监 控和评估,确保达到预期效果。
需求分析
了解业务需求和数据需求,明 确数据治理的目标和范围。
实施与执行
按照计划执行数据治理措施, 包括数据质量管理、数据安全 管理等。
持续改进
通过对比、验证等方法,评估数据 的准确性。
数据一致性评估
比较不同数据源之间的数据是否一 致,评估数据的一致性。
03
02
数据完整性评估
检查数据是否全面、无遗漏,评估 数据的完整性。
数据时效性评估
评估数据的及时性和有效性,确保 数据能够反映当前情况。
04
数据清洗与整合
数据清洗
通过数据预处理技术,去除无效、错误或不完整的数 据。
数据集市架构
数据集市架构通常包括数 据源、ETL过程、数据存 储和数据服务四个主要部 分。
数据源是数据集市的数据 来源,包括各类业务系统、 数据库、API等。
ETL过程负责从数据源抽 取、转换和加载数据到数 据集市中。
数据服务提供数据查询、 报表生成、数据分析等功 能的接口。
数据存储是数据集市的物 理存储结构,包括关系型 数据库、非关系型数据库 等。
数据整合
将不同来源的数据进行整合,形成统一的数据格式和 标准。
数据转换
将数据从一种格式或结构转换为另一种格式或结构, 以满足特定需求。
03
数据管理方法
数据管理流程
数据采集
从各种数据源中采集数据,确保数据的准确 性和完整性。
数据转换
将数据从原始格式转换为适合分析的格式, 如将日期格式统一。
如何有效管理大数据

如何有效管理大数据答案概述:对于如何有效管理大数据,以下是一些关键步骤和方法:数据收集,数据存储,数据处理,数据分析和数据安全。
深入分析:1. 数据收集:在管理大数据之前,首要任务是有效地收集数据。
这可以通过多种方式实现,包括传感器技术、物联网设备、Web爬虫等。
此外,还可以利用数据仓库、数据集市或第三方数据提供商来收集数据。
2. 数据存储:存储大数据的选择取决于其类型、体积和实时性要求。
常见的数据存储解决方案包括关系型数据库、NoSQL数据库、分布式文件系统等。
使用云存储技术也可以提供灵活性和可扩展性。
3. 数据处理:一旦数据收集和存储完成,下一步是对数据进行处理。
这包括数据清洗、数据转换和数据集成。
数据清洗可以消除重复、缺失或错误的数据。
数据转换可以将数据从一个格式转换为另一个格式。
数据集成可以将来自不同来源的数据整合在一起,以便进行后续的分析和应用。
4. 数据分析:对于大数据管理,数据分析是至关重要的一步。
数据分析技术包括统计分析、机器学习、数据挖掘和人工智能。
通过分析数据,可以发现隐藏的模式、趋势和关联性,从而帮助企业做出更明智的决策。
5. 数据安全:管理大数据时,保护数据的安全性是非常重要的。
这包括数据备份和恢复机制、访问控制、加密和身份验证等措施。
同时,合规性和隐私保护也需要被考虑进来,确保数据管理的合法性和道德性。
为了更好地管理大数据,还有一些额外的内容和背景信息:1. 大数据管理的挑战:管理大数据的挑战包括数据的多样性、规模的增长、数据质量的问题和隐私保护的需求等。
同时,还需要解决数据安全性、算法选择和技术能力等问题。
2. 大数据管理的工具和平台:为了更高效地管理大数据,有许多工具和平台可供选择。
其中包括Hadoop、Spark、Hive、Tableau、QlikView等。
这些工具和平台可以帮助企业管理和分析大数据。
总结:对于如何有效管理大数据,关键步骤包括数据收集、数据存储、数据处理、数据分析和数据安全。
数据分析质量管控策略

数据分析质量管控策略在当今数字化的时代,数据已成为企业决策的重要依据。
然而,数据的价值只有在其质量可靠的前提下才能得到充分体现。
如果数据存在错误、缺失或不一致等问题,不仅会导致决策失误,还可能给企业带来巨大的损失。
因此,制定有效的数据分析质量管控策略至关重要。
一、数据分析质量的重要性高质量的数据能够为企业提供准确、及时和全面的信息,帮助企业做出明智的决策。
例如,市场部门可以通过分析客户数据来了解消费者的需求和行为,从而制定更有效的营销策略;财务部门可以依靠准确的财务数据进行成本控制和预算规划;运营部门可以根据生产数据优化流程,提高效率。
相反,低质量的数据可能会引发一系列问题。
错误的数据可能导致错误的决策,使企业在市场竞争中处于不利地位;缺失的数据可能使企业无法全面了解业务情况,错过重要的发展机会;不一致的数据则会导致内部沟通混乱,降低工作效率。
二、数据分析质量问题的来源1、数据采集环节在数据采集过程中,可能由于采集方法不当、采集设备故障或人为疏忽等原因,导致数据不准确、不完整或重复。
例如,调查问卷设计不合理,可能无法收集到关键信息;传感器故障可能导致数据丢失。
2、数据存储环节数据在存储过程中可能会因为存储格式不一致、数据库设计缺陷或数据迁移错误等原因,出现数据损坏、丢失或不一致的情况。
3、数据处理环节数据处理过程中的错误,如计算错误、数据转换错误或数据清洗不彻底等,都可能影响数据质量。
4、数据源本身的问题如果数据源不可靠,例如来自外部的第三方数据存在误差,或者内部数据源的记录不准确,也会导致数据质量问题。
三、数据分析质量管控策略1、建立数据质量标准明确规定数据的准确性、完整性、一致性、时效性和可用性等方面的标准。
例如,对于客户信息,规定必填字段必须完整,手机号码格式必须正确等。
2、优化数据采集流程设计科学合理的数据采集方法和流程,采用自动化采集工具,减少人为干预。
同时,对采集人员进行培训,提高其数据采集的质量意识和技能水平。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•
各类元数据管理办法:
– ETL规则元数据
• ETL规则元数据中涉及到数据源元数据、目标系统 元数据、ETL流程、源与目标的映射关系等元数据 信息。 • 数据源元数据包括业务系统元数据和数据仓库元数 据等;目标系统元数据可能是数据仓库元数据、数 据集市元数据等。 • ETL规则元数据的管理:由数据库开发人员根据各 个模块的ETL过程以及过程运行的顺序,形成相关 元数据管理文档进行统一管理。
营销事务数据
• 营销事务数据用以支撑营销活动的制定与开展
– 套餐资料库 – 营销资料库 – 营销资源库
– 套餐资料库
• 套餐资料库存储已有的套餐资料,为套餐梳理和套 餐方案设计环节提供数据支撑。
– 套餐的结构包括基本套餐和可选套餐两部分。基本套餐是 套餐的主体部分,它包含了套餐的核心产品及主要优惠规 则,可以独立存在;可选套餐是由客户自行选择的叠加套 餐,一般不单独提供,需以购买基本套餐为前提。
– 从属型(Bill Inmon)
实现目的
– 合并不同系统数据源 – 非实时更新数据的访问 – 信息发布面向特定用户群体 – 合理的查询响应时间 – 快速一致的视图访问
– 独立型
– 从属型
实现步骤:
– 定义商业目标 – 理解数据源 – 确定汇总粒度 – 定义数据模型
实现原则:
– 统一构建 – 总体指导 – 稳定性 – 可适应性 – 可扩展性
• • • • • • •
人力资源 财务预算 广告资源 渠道资源 合作伙伴 促销品资源(包括赠送品、搭售品等) 其他支撑系统功能(如计费系统)
目录
◇ 数据集市 ◇数据管理
数据整合 数据质量 元数据管理
数据整合 整合准备:
– 源/目标模型 – 数据预处理
整合过程:
– 数据抽取 – 数据转换 – 数据加载
– 自助取数汇总表
• 自助取数汇总表主要包含按照客户、用户等维度进 行数据的初级汇总和整合,实现自助取数系统对客 户、产品等相关信息数据提取
– 外部数据宽表(外部调研数据)
• 在成功获取了外部数据后,可构建合适的数据集市 ,纳入系统的外部数据可包括:竞争对手信息、客 户偏好信息、客户满意度信息等 • 外部数据涵盖的范围非常广泛,将所有的外部数据 都加载到针对性营销的数据集市中存在较大难度。
各类元数据管理办法:
– 报表元数据
• 包括对报表和报表中具体指标(度量)的描述信息 等 • 报表元数据的管理:对数据集上可以计算的度量进 行相关元数据的管理,包括详细设计文档中对各个 表中度量的定义、描述等;对所有表和度量之间的 关系进行严格的文档记录,包括度量的计算、度量 之间的相互依赖关系、以及历史信息进行元数据管 理
– 版本控制
数据整合总体流程
总体处理流程
目录
◇ 数据集市 ◇数据管理
数据整合 数据质量 元数据管理
数据质量解决方法
信息问题域
数据采集点
企业模型
数据质量问题
技术问题域
数据质量问题
及时性 文件传输方式 漏传 传输技术 网络传输过程不可靠
流程问题域
管理问题域
数据质量解决和验证 数据质量评估分析
源系统 评估报告
数据质量管理平台
管理功能 数据质量 检查稽核 数据质量任务派发 数据质量组织管理 数据质量角色管理 数据质量权限管理 数据质量工单管理 数据处理情况考核 数据质量 基础管理 数据质量 评估监控 数据属性检查 数据表关系检查 异常处理 数据质量评估 数据质量告警 数据质量监控 规则配置 统一指标定义 异常流程跟踪 数据属性关系检查 数据对比稽核 数据对比展现 数据质量分析 数据质量异常跟踪 数据质量修正跟踪 算法配置 流程配置 接口定义
– 营销资料库
– 营销资料库包含了整个营销活动的策划、分析、评估环节 所涉及到的除了套餐以外的内容:
• • • • •
市场调研所需的问卷题库 营销脚本 宣传方案 促销方案 营销活动案例
– 营销资源库
– 营销资源库包含了电信公司所拥有的渠道、销售品、外呼中心等 资源的,供营销策划人员在策划时可以查询当前营销活动可以利 用的营销资源;用于对营销活动所需资源的可利用性进行检查
源系统1
源系统2
ETL/EAI
企业数据平台
数据质量管理总体流程 总体处理流程:
目录
◇ 数据集市 ◇数据管理
数据整合 数据质量 元数据管理
元数据管理 元数据定义
– 元数据最本质,最抽象的定义为:data about data (关于数据的数据) – 在数据仓库领域中,元数据被定义为:描述数 据及其环境的数据
各类元数据管理办法:
– 数据仓库元数据
• 数据仓库采用RDBMS进行数据的存储和管理,设计 模式遵循数据仓库的设计准则,实现主题、维、度 量等多维概念模型,这些元素在RDBMS中物理上是 具体的数据表,这些表与具体多维模型的映射关系 需要通过元数据进行描述和定义。 • 数据仓库元数据的管理:制定数据仓库模型设计文 档记录事实表、维度、属性、层次等信息,物理表 与多维模型的映射关系等信息 ,对文档进行统一版 本的管理。
智能营销数据管理
智能营销元数据管理
?????
谢谢!
– – – – – – – 数据源元数据 ETL规则元数据 数据仓库元数据 报表元数据 接口文件格式元数据 商业元数据 其他元数据
各类元数据管理办法:
–
•
数据源元数据
数据源元数据主要是数据库模型设计文档、为综 合统计分析平台提供数据的各种业务系统的数据 字典及数据接口文件等。 数据源元数据的管理:由相关人员对各类文档进 行统一版本的管理。
各类元数据管理办法:
– 接口文件格式元数据
• 接口数据文件格式,包括接口数据文件的命名、传 输周期、格式等说明信息。 • 接口文件格式元数据:与ETL规则元数据进行统一 管理。
各类元数据管理办法:
– 商业元数据
• 系统中对各项指标的业务含义的描述性信息,在综 合统计分析平台中,包括维、度量的业务含义描述 ,主题的分析目标描述,报表指标的解释信息等。 • 商业元数据的管理可以分解成数据仓库元数据的管 理和报表元数据的管理。
集市建设及数据管理方法 (初稿)
目录
◇ 数据集市
数据集市
数据集市:
–数据仓库的子集 –经过ETL流程的一定粒度汇总数据 –面向部门级业务 –针对特定主题的数据集 –星型模式(不遵循3NF结构) –缓解仓库访问瓶颈
实现方式:
– 独立型(Ralph Kimball)
• • • • • • • • 仓库是集市的联合 数据来源于业务系统 首先满足数据展示的需求 必需统一的数据仓库建设思想协调 集市是仓库的子集 数据来源于仓库 提供更强的数据一致性和灵活性 长期规划
各类元数据管理办法:
– 其他元数据
• 数据访问日志、数据装载日志等信息。数据访问日 志记录数据库的访问信息,包括对数据库表的操作 、锁、内存使用、I/O使用等信息;数据装载信息记 录每个ETL过程的抽取时间、操作人员、起始和截 止时间、抽取涉及到的表、操作行数等相关信息 • 其他元数据的管理:将元数据信息记录到日志,形 成元数据文件进行统一管理
数据分层架构
针对性营销数据集市
基于EDW/ODS ,通过对EDW/ODS 中的数据进行一定粒度的汇总,满足 针对性营销IT支撑需求的数据集合
包括营销分析数据和营销事务数据
营销分析数据
– 数据挖掘宽表 – 自助取数汇总表 – 外部数据宽表
– 数据挖掘宽表
• 旨在为数据挖掘模型的建立和分析提供基础支撑, 并为之提供有效的数据集合,提升系统效率。 • 包含客户属性类数据、客户拥有类数据、客户行为 类数据、客户价值类数据和客户交互类数据。
数据质量 管理人员 数据质量 检查 问题汇总 数据质量 稽核 ODS系统 维护人员 ETL处理 过程 源系统数 据人员
分析问题 问题展现
问题工单 生成派单 问题验证
数据质量 分析评估
数据质量 考核
数据质量 检查人员
派单 判断
问题 解决
N
ODS系统 问题工单 工单处理 源系统 问题工单
ODS系统 评估报告
元数据存储
– 技术元数据:为企业技术用户和IT人员提供支 持的元数据 – 业务元数据:为企业业务用户提供支持的元数 据
元数据管理
元数据管理技术——公共仓库元模型CWM
CWM
– 公共仓库元模型(Common Warehouse Metamodel)是OMG国际标准化组织 提出的,主要目的是在异构环境下,使不同数据仓库工具、平台和元数据 知识库进行元数据交换。
元数据管理-支持五类系统管理功能
– 描述哪些数据在数据仓库中; – 定义要进入数据仓库中的数据和从数据仓库中 产生的数据; – 记录根据业务事件发生而随之进行的数据抽取 工作时间安排; – 记录并检测系统数据一致性的要求和执行情况; – 衡量数据质量。
数据仓库元数据管理
数据仓库涉及的元数据管理包括:
整合规则:
– 数据编码统一 – 保证数据质量 – 支持异常控制 – 流程可维护 – 异常处理 – 流程管理
输出:
– 规则分析
• 包括:候选数据源确定、源与目标的映射关系、估 计行数等
– 执行分析
• 包括:执行时间、执行方式、执行顺序、执行频度 等
– 异常报告
• 包括:异常位置、异常原因、处理方式等