企业数据集市建设要点分析
数据集市模型策略

数据集市模型策略
数据集市模型策略主要包括以下方面:
1.明确目标与需求:首先要明确数据集市的目标和需求,比如是要满足特定部门的数据分析需求,还是为了提高企业整体的数据治理水平。
2.数据源选择:根据需求选择合适的数据源,包括数据库、数据仓库、API、IoT设备等。
3.数据建模:根据业务需求和数据特点,选择合适的数据模型,如星型模型、雪花模型等。
4.数据整合:将来自不同数据源的数据进行整合,包括数据清洗、去重、转换等操作。
5.数据存储:根据数据量和查询需求选择合适的存储方案,如关系型数据库、NoSQL数据库等。
6.数据安全:设置适当的数据访问控制和权限管理,以确保数据的安全性和隐私保护。
7.数据分析与可视化:提供可视化工具和报表,方便用户进行数据分析。
8.维护与更新:定期对数据集市进行维护和更新,以确保数据的准确性和完整性。
9.监控与优化:对数据集市进行性能监控和优化,包括查询性能、存储优化等。
10.培训与支持:为用户提供培训和支持,帮助他们更好地使用数据集市。
在实施过程中,要注意以下几点:
1.业务驱动:以业务需求为导向,确保数据集市满足实际业务需求。
2.统一规划:进行统一规划和管理,避免数据孤岛和重复建设。
3.标准化:建立统一的数据标准和技术规范,确保数据的准确性和一致性。
4.灵活扩展:设计可扩展的数据模型和存储方案,以适应业务变化和数据增长。
5.高效安全:确保数据集市的高效性和安全性,为用户提供可靠的数据服务。
数据集市建设数据质量及数据管理方法

数据集市建设数据质量及数据管理方法一、数据集市建设数据集市是一个基于主题的、集成的、可维护的、非易失型的数据集合,旨在帮助企业高效地管理和分析数据。
数据集市的建设主要包括以下几个关键步骤:1.需求分析:根据企业的业务需求,明确需要建设的数据集市主题,确定数据集市的目标和功能。
2.数据源集成:将企业内部各个部门的数据源集成到数据集市中,确保数据的一致性和完整性。
3.数据清洗和转换:对集成的数据进行清洗和转换,清理无效数据和错误数据,使数据具有一致的格式和规范。
4.数据建模和设计:根据业务需求,设计数据模型和关系表结构,建立数据集市的数据架构。
5.数据加载和更新:将清洗和转换后的数据加载到数据集市中,并实时或定期更新数据,确保数据的时效性。
6.数据查询和分析:提供灵活的查询工具和分析功能,方便用户快速获取所需的数据,并进行多维度的数据分析。
7.数据安全和权限控制:对数据集市的访问和操作进行安全控制,确保数据的保密性和完整性。
二、数据质量的重要性数据质量是数据是否适合使用的度量,对于企业的决策和运营具有重要的影响。
数据质量较差会导致企业做出错误的决策,增加企业的风险和成本。
因此,保障数据质量非常重要,以下是提高数据质量的几个方面:1.准确性:数据准确性是数据质量的核心,需要确保数据的真实和正确。
2.完整性:数据完整性是指数据的完整和完备,确保数据的完整性对于数据分析和决策至关重要。
3.一致性:数据一致性是指数据在不同系统和不同时间下的统一性,确保数据在不同场景下的一致性。
4.时效性:数据时效性是指数据的更新和有效性,保证数据及时更新可以提高数据的时效性和可用性。
1.数据标准化:制定统一的数据标准和规范,明确数据的定义、命名规则和数据格式。
2.数据清洗和转换:清理无效数据和冗余数据,对数据进行转换和格式化,确保数据的一致性和完整性。
3.数据备份和恢复:建立完备的数据备份和恢复机制,确保数据的安全和可靠。
数据集市 指标

数据集市指标数据集市是指一个企业或组织内部的数据管理平台,用于集中管理和分析各种数据资源。
在数据集市中,各种指标起到了至关重要的作用。
指标是数据集市中对业务过程和绩效的度量,是衡量和评估企业运营情况的重要依据。
本文将围绕数据集市指标展开讨论,探讨其在企业数据管理和决策中的重要性和应用。
一、数据质量指标数据质量是数据集市中最基础的指标之一,它评估数据的准确性、完整性、一致性和及时性等方面。
数据质量指标的好坏直接影响到企业决策的准确性和有效性。
在数据集市中,可以通过检查数据的准确性、重复性、完整性和一致性等指标评估数据的质量,并采取相应的措施来提高数据质量。
二、数据可用性指标数据可用性指标是衡量数据集市中数据是否易于使用的重要指标。
数据可用性指标包括数据的易访问性、易理解性、易分析性等方面。
数据集市应提供方便快捷的数据访问和查询功能,同时还要提供可视化和分析工具,以便用户对数据进行深入分析和探索。
数据可用性指标的提高可以提高数据集市的价值和用户满意度。
三、数据安全性指标数据安全性指标是衡量数据集市中数据安全程度的重要指标。
数据安全性指标包括数据的机密性、完整性和可用性等方面。
企业在建立数据集市时,需要采取一系列的安全措施,如数据加密、访问控制、备份和恢复等,以确保数据的安全性。
数据安全性指标的好坏直接影响到企业的信息资产安全和业务连续性。
四、数据一致性指标数据一致性指标是衡量数据集市中数据一致性程度的重要指标。
数据一致性指标主要包括数据的命名规范、数据格式规范和数据标准等方面。
在数据集市中,数据一致性指标的提高可以避免数据冗余和数据不一致的问题,提高数据的可靠性和可信度。
五、数据价值指标数据价值指标是衡量数据集市对企业价值贡献程度的重要指标。
数据集市的价值主要体现在提供及时准确的数据支持企业决策和业务运营。
数据价值指标可以通过衡量数据集市的数据使用率、决策效果和业务绩效等方面来评估。
数据价值指标的提高可以帮助企业更好地洞察市场和客户需求,提高竞争力和创新能力。
数据集市建设总结汇报材料

数据集市建设总结汇报材料数据集市(Data Mart)是指在某个特定业务范围内,为了满足相关业务领域的需求而建立的数据仓库中的一个子集。
数据集市通过有效地组织、聚焦和提供业务相关的数据,帮助企业更好地进行决策。
以下是数据集市建设总结汇报材料。
一、引言数据集市是企业数据管理与决策支持的重要工具,在当今大数据时代,数据管理和分析变得至关重要。
本次数据集市建设旨在为企业提供决策支持和业务优化的解决方案。
二、建设目标1. 提供决策支持:为企业高层管理者和决策者提供及时、准确、可靠的数据分析和报告,帮助他们做出明智的决策。
2. 支持业务优化:通过数据集市的建设,优化企业的业务流程,提升工作效率,减少重复劳动和错误。
3. 提高数据共享和沟通:通过数据集市,实现数据的集中管理和共享,促进企业内部各部门间的合作和信息共享。
三、建设过程1. 需求分析:深入了解企业的业务需求,与业务部门进行沟通,明确需要整合和分析的数据。
2. 数据采集和清洗:从各个业务系统中收集数据,并对数据进行清洗、整理和转换,以保证数据的准确性和一致性。
3. 数据集市架构设计:根据业务需求和数据特点,设计数据集市的结构,包括维度表、事实表、数据模型等,同时确定数据集市的共享权限和安全控制策略。
4. 数据集市建设:搭建数据集市的技术平台,包括硬件设备和软件工具的选择和配置,建立数据仓库,开展ETL(抽取、转换、加载)工作,并将数据导入数据集市。
5. 数据分析和报告:利用BI工具和数据分析技术对数据进行深入分析,生成可视化报表和图表,为决策者提供直观的数据支持。
6. 上线与运行:在经过充分测试和调试之后,将数据集市正式上线运行,并进行定期的维护和更新。
四、建设成果1. 提供了全面、精确的数据分析和报告,为企业决策者提供决策支持,降低决策风险。
2. 优化了企业的业务流程,减少了重复劳动和错误,提高了工作效率。
3. 实现了数据的共享和沟通,促进了企业内部各部门的协作和信息交流。
数据仓库数据集市规划与元数据应用

数据仓库数据集市规划与元数据应用数据仓库是企业中存储、管理和分析大量数据的重要工具。
为了更好地利用数据仓库中的数据,数据集市规划和元数据应用是必不可少的。
本文将详细介绍数据仓库数据集市规划的重要性,并探讨元数据在数据仓库中的应用。
一、数据集市规划的重要性数据集市是数据仓库中的一个重要组成部分,它是按照业务或者主题进行划分的数据集合。
通过将数据仓库中的数据进行分类整理,形成数据集市,可以更加方便和快速地获取所需的数据,提高数据的可用性和可靠性。
1. 提高数据的可用性数据集市规划可以根据业务需求将数据按照一定的分类和组织方式进行划分,使得数据更加易于理解和使用。
通过将数据整理成数据集市,可以使得数据对于企业内部的各个业务部门更加可用。
不同的业务部门可以根据自己的需求去获取所需的数据,提高工作效率。
2. 提高数据的可靠性数据集市规划可以对数据进行质量管理,提高数据的可靠性和准确性。
通过对数据进行分类和整理,可以更加方便地监控数据的质量,及时发现和纠正数据中存在的问题,提高数据的质量和可信度。
3. 降低数据管理的成本数据集市规划可以将数据仓库中的数据按照一定的逻辑和组织方式进行整理,使得数据管理更加简单和高效。
不同的业务部门可以根据自己的需求去获取所需的数据,减少了对整个数据仓库的访问和管理,降低数据管理的成本。
二、元数据在数据仓库中的应用元数据是描述数据的数据,它包括了数据的属性、结构、逻辑关系等信息。
在数据仓库中,元数据的应用非常重要,可以帮助用户更好地理解和使用数据。
1. 实现数据集市的构建元数据可以描述数据集市的分类、组织和内容等信息,帮助用户更好地理解不同的数据集市。
通过元数据的应用,用户可以快速地找到并获取所需的数据,提高数据的可用性。
2. 支持数据治理元数据可以记录数据的质量、来源、更新频率等信息,帮助用户更好地掌握数据的全貌,进行数据治理。
通过对元数据的管理和应用,可以提高数据的一致性、准确性和可信度,为企业的决策和分析提供可靠的依据。
大数据集市建设、数据质量及数据管理方法

– 外部数据宽表(外部调研数据)
• 在成功获取了外部数据后,可构建合适的数据集市 ,纳入系统的外部数据可包括:竞争对手信息、客 户偏好信息、客户满意度信息等
• 外部数据涵盖的范围非常广泛,将所有的外部数据 都加载到针对性营销的数据集市中存在较大难度。
营销事务数据
• 营销事务数据用以支撑营销活动的制定与开展
各类元数据管理办法:
– 接口文件格式元数据
• 接口数据文件格式,包括接口数据文件的命名、传 输周期、格式等说明信息。
• 接口文件格式元数据:与ETL规则元数据进行统一 管理。
各类元数据管理办法:
– 商业元数据
• 系统中对各项指标的业务含义的描述性信息,在综 合统计分析平台中,包括维、度量的业务含义描述 ,主题的分析目标描述,报表指标的解释信息等。
– 套餐资料库 – 营销资料库 – 营销资源库
– 套餐资料库
• 套餐资料库存储已有的套餐资料,为套餐梳理和套 餐方案设计环节提供数据支撑。
– 套餐的结构包括基本套餐和可选套餐两部分。基本套餐是 套餐的主体部分,它包含了套餐的核心产品及主要优惠规 则,可以独立存在;可选套餐是由客户自行选择的叠加套 餐,一般不单独提供,需以购买基本套餐为前提。
ODS系统 维护人员
源系统数 据人员
ETL处理 过程
问题工单 生成派单
派单 判断
ODS系统 问题工单
源系统 问题工单
问题验证
数据质量 分析评估
数据质量 考核
问题 N 解决
工单处理
ODS系统 评估报告
源系统 评估报告
数据质量管理平台
管理功能
数据质量任务派发 数据质量组织管理 数据质量角色管理 数据质量权限管理 数据质量工单管理 数据处理情况考核
数据集市建设、数据质量及数据管理方法

•
各类元数据管理办法:
– ETL规则元数据
• ETL规则元数据中涉及到数据源元数据、目标系统 元数据、ETL流程、源与目标的映射关系等元数据 信息。 • 数据源元数据包括业务系统元数据和数据仓库元数 据等;目标系统元数据可能是数据仓库元数据、数 据集市元数据等。 • ETL规则元数据的管理:由数据库开发人员根据各 个模块的ETL过程以及过程运行的顺序,形成相关 元数据管理文档进行统一管理。
营销事务数据
• 营销事务数据用以支撑营销活动的制定与开展
– 套餐资料库 – 营销资料库 – 营销资源库
– 套餐资料库
• 套餐资料库存储已有的套餐资料,为套餐梳理和套 餐方案设计环节提供数据支撑。
– 套餐的结构包括基本套餐和可选套餐两部分。基本套餐是 套餐的主体部分,它包含了套餐的核心产品及主要优惠规 则,可以独立存在;可选套餐是由客户自行选择的叠加套 餐,一般不单独提供,需以购买基本套餐为前提。
– 从属型(Bill Inmon)
实现目的
– 合并不同系统数据源 – 非实时更新数据的访问 – 信息发布面向特定用户群体 – 合理的查询响应时间 – 快速一致的视图访问
– 独立型
– 从属型
实现步骤:
– 定义商业目标 – 理解数据源 – 确定汇总粒度 – 定义数据模型
实现原则:
– 统一构建 – 总体指导 – 稳定性 – 可适应性 – 可扩展性
• • • • • • •
人力资源 财务预算 广告资源 渠道资源 合作伙伴 促销品资源(包括赠送品、搭售品等) 其他支撑系统功能(如计费系统)
目录
◇ 数据集市 ◇数据管理
数据整合 数据质量 元数据管理
数据整合 整合准备:
– 源/目标模型 – 数据预处理
数据集市建设数据质量及数据管理方法

数据治理实施步骤
制定计划
制定详细的数据治理实施计划, 包括资源投入、时间安排和人 员分工等。
监控与评估
对数据治理的实施过程进行监 控和评估,确保达到预期效果。
需求分析
了解业务需求和数据需求,明 确数据治理的目标和范围。
实施与执行
按照计划执行数据治理措施, 包括数据质量管理、数据安全 管理等。
持续改进
通过对比、验证等方法,评估数据 的准确性。
数据一致性评估
比较不同数据源之间的数据是否一 致,评估数据的一致性。
03
02
数据完整性评估
检查数据是否全面、无遗漏,评估 数据的完整性。
数据时效性评估
评估数据的及时性和有效性,确保 数据能够反映当前情况。
04
数据清洗与整合
数据清洗
通过数据预处理技术,去除无效、错误或不完整的数 据。
数据集市架构
数据集市架构通常包括数 据源、ETL过程、数据存 储和数据服务四个主要部 分。
数据源是数据集市的数据 来源,包括各类业务系统、 数据库、API等。
ETL过程负责从数据源抽 取、转换和加载数据到数 据集市中。
数据服务提供数据查询、 报表生成、数据分析等功 能的接口。
数据存储是数据集市的物 理存储结构,包括关系型 数据库、非关系型数据库 等。
数据整合
将不同来源的数据进行整合,形成统一的数据格式和 标准。
数据转换
将数据从一种格式或结构转换为另一种格式或结构, 以满足特定需求。
03
数据管理方法
数据管理流程
数据采集
从各种数据源中采集数据,确保数据的准确 性和完整性。
数据转换
将数据从原始格式转换为适合分析的格式, 如将日期格式统一。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
企业数据集市建设要点分析高并发、低延迟场景下,企业如何建设敏捷高效的数据集市目录一、数据集市的发展态势 (3)二、数据集市与数据仓库的对比 (5)三、数据集市的项目建设方案及技术点 (6)四、数据集市建设所需支持及面临的风险 (9)五、数据集市项目验收 (11)随着大数据技术的发展,数据量急剧增长,数据的分析挖掘工作也变得越来越重要。
在这背后,数据仓库的建设尤为重要,通过数仓,可以为数据分析人员提供全面的数据和计算能力。
数据仓库包括原子级别的数据和轻度汇总的数据,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。
但是数据仓库在高并发、快速响应的场景下具有很大的局限性,无法满足海量投资者数据查询服务需求。
数据集市,也叫数据市场,是企业级数据仓库的一个子集,是为满足特定的部门或者用户的需求,只面向某个特定的主题,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体,提升数据查询的效率。
本文围绕着数据集市的需求、架构、方案等方面进行了问题的讨论,对于大家了解和应用数据集市非常具有参考价值。
一、数据集市的发展态势Q1:当前,金融行业中在什么场景下需要建设数据集市?是否该启动数据集市建设?数据集市的建设是由哪些因素触发的?A1-1:数据集市(Data Mart) ,也叫数据市场,是企业级数据仓库的一个子集,是为满足特定的部门或者用户的需求,只面向某个特定的主题,数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。
数据集市可以在一定程度上缓解访问数据仓库的瓶颈。
数仓解决海量数据统计分析,低用户并发,大量计算。
数据集市低延时和高并发查询的情况下具备足够的支撑能力,可以7×24对外提供数据服务,且不影响原有数据仓库统计分析应用的正常运行。
大量生产数据的预处理在数仓进行,数据集市接收数仓预处理后的数据。
数据集市是对数仓的补充,灵活、快速响应业务,支持用户部门自行定制数据进行统计分析,支持高并发、性价比较高。
A1-2:当用户对大量数据的实时性要求非常迫切,而数据仓库无法满足时,就需要有针对性的对这些数据进行处理,提升存储和计算的效率,这就需要建立数据集市,通过对数据的预处理,提升数据查询处理效率。
Q2:企业建设数据集市的动力来自哪里?建设数据集市对金融行业客户有何现实意义?A2:数据集市是数据仓库的一个重要补充,满足客户对数据的即时性要求;传统数仓往往比较重存储,且为了保持数据完整性,而严格按照范式要求保存数据,从而导致计算量很大,时效性较低。
建立数据集市,有助于进一步发挥数据价值,因其面向主题,可以对数据做各种处理,从而在设计上提升数据存储和查询的效率。
Q3:目前金融行业中,规划或者已经建设了数据集市项目的企业多吗?数据集市在金融行业中发展的态势如何?A3-1:数据集市适合行业内拥有海量数据的公司,需对特定领域服务,通过互联网,对公众、监管机构提供数据服务,好处是快速灵活、降低原有数据仓库成本。
A3-2:金融行业积累了非常多的数据,数据质量也很高,随着金融业与技术的紧密结合,面向某一领域的数据需求变得越来越强烈,比如行情数据,很多应用都需要,这时如果形成行情的数据集市,提供数据服务,不仅避免重复建设,而且有利于数据的统一管理。
Q4:数据集市项目的直接用户和间接用户是哪些方面?数据集市会为用户带来哪些好处?A4-1:直接用户是各业务部门、各业务系统,数仓不直接为各业务系统直接提供数据服务,通过数据集市提供;间接用户是各业务系统的用户,如通过互联网办理业务的投资者用户。
直接用户是可以定制化数据服务,方便、快捷,间接用户是快速响应、更好用户体验、高性能和可用性。
A4-2:直接用户是业务数据分析人员、业务系统负责人员,对数据有强烈的需求和敏锐的嗅觉,能够将数据价值抽象出来;间接用户就是一线业务人员,可以直接获取该数据价值,对用户及时反馈。
数据集市提升了数据交互的时间,使数据的使用变得流畅。
二、数据集市与数据仓库的对比Q1:数据集市的出现,会使数据仓库消亡吗?A1-1:不会的,两者在概念上并不完全平级,就像工厂和门店的关系一样,两者应该是相辅相成,充分发挥数据的价值的。
Q2:数据集市、数据仓库在方法论上有什么差异,为什么选择不同的技术和平台?相比而言,数据集市和数据仓库各有什么优点和缺点?A2-1:本质上没有区别,如豪华汽车和中端汽车,目的是解决不同场景的问题。
数据集市(Data Mart) ,也叫数据市场,是企业级数据仓库的一个子集,是为满足特定的部门或者用户的需求,只面向某个特定的主题,数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。
数据集市可以在一定程度上缓解访问数据仓库的瓶颈。
数仓解决海量数据统计分析,低用户并发,大量计算。
数据集市低延时和高并发查询的情况下具备足够的支撑能力,可以7×24对外提供数据服务,且不影响原有数据仓库统计分析应用的正常运行。
A2-2:数据仓库用于存放着非常多的各类数据,而数据集市是把某些方面的数据包装对外服务的。
所以数仓的数据全,粒度细,没有很好的加工,而数据集市可能会改变原有数据,所以粒度是较粗的。
数据仓库的优点是数据全面,但是分析时效性慢,而数据集市更关注于时效性和应用场景,不关心数据本身结构。
三、数据集市的项目建设方案及技术点Q1:在软/硬件、开发、运行、维护和管理等各个方面面临哪些困难?如何克服?A1-1:可能主要在三方面:1、技术管理:专门的开发运维团队,和数仓(大仓)间的职责分工,集市技术人员与业务人员间的职责分工明确2、技术架构:集市数据架构设计,从数仓(大仓)数据加载,数据集市运维监控,集市高性能、高可用机制,业务人员灵活定制数据服务与集市日常数据服务、集市数据加载间的资源分配,新技术掌控力度等3、信息安全:开发、运维分离,生产操作各项安全审计,数据库本身权限最小、数据隔离机制等A1-2:类比大数据平台,数据ETL是个非常重要且比较有难度的技术点,往往会有人提出数据导的不正常或丢失、数据未正常到达等情况,这个没有较好的解决方法,只能做好监控,尽量保证各个环节正常流转。
在运维方面,集群往往面临着查询和存储压力,如何在遇到问题时有效解决或者预警,这也是非常有挑战的,可以通过对平台底层的了解,不断对集群进行优化和监控。
在开发方面,需要分析人员对业务需求非常了解,才能设计出合理的数据模型,提升数据服务的效率。
Q2:从数据的采集、数据的存储、数据的处理、数据的访问/供应等几个方面,那种方案合适,以及如何进行设计?A2-1:一般分为数据采集、数据传输、数据处理、数据存储、平台服务等方面,具体每个部分技术方案需要看企业的需求,关键点包括:数据治理、数据加载、数据存储等方面。
A2-2:整体架构包括采集、存储、处理和访问等层次,就像建立大数据平台一样,这都是需要重点考虑的技术点,至于哪种方案合适,首先还是要了解各个层次对应的技术组件和成熟的解决方案,对各个技术点重点测试,掌握优缺点后才能合理组合各个组件。
每个公司都会找到适合自己的整体方案,毕竟,并没有一种方案能完全适应各个公司的数据情况。
Q3:数据集市完成的目标和使命是什么?从这个意义上讲,应该为数据集市的成功标准设计什么样的KPI?A3-1:主要分为业务需求和技术需求两部分。
业务需求主要是技术服务部门或系统的业务场景,建模即业务建模,需要对业务关系、实体充分了解,目前各厂商针对各个行业,如证券都有成熟业务模型。
技术需求主要包括可维护性、性能、安全、监控运维等。
A3-2:需求模型的确定需要详细了解业务需求,同时具备数据建模思维,将需求转化为数学模型,从而通过数据集市计算引擎实现。
数据集市是否有效的衡量标准有扩展性、性能、稳定性、安全、易用性等方面。
Q4:金融行业在数据集市项目中,是否涉及到主机、存储、数据库、系统管理等的选型?如何选型?A4-1:在数据集市项目中,重点关注数据集市的系统技术方案,好的数据存储和计算引擎是数据集市项目成功与否的关键,存储格式、计算性能、扩展性、稳定性、安全性、数据ETL等方面都是要考察的技术点,就像大家选择oracle做OLTP系统一样,选择一个好的底层引擎,才有可能将数据集市做大做强。
A4-2:一般数据集市和企业数据仓库或大数据平台一起进行选型,主要考虑点包括分布式系统,性价比低,国产厂商,金融行业成功案例,满足各项需求指标等。
Q5:金融行业在规划数据集市项目时,有哪些技术路线可选?如何选?还有,有哪些数据集市的供应商可选?如何考察?A5:最主要在于分布式数据库选型,如传统关系型如oracle、db2,mpp架构GP、TD、Gbase,新兴分布式架构,如阿里云、华为、星环大数据平台等。
Q6:金融行业在实施数据集市项目时,成本组成有哪些?A6-1:主要四方面,软件平台厂商支持、团队建设、应用系统开发、硬件维护。
A6-2:主要包括硬件服务器、软件平台、平台管理人员、数据分析团队(建模、数据服务化、系统开发)。
Q7:数据集市中有大量数据时,数据之间的关系应该怎么管理呢?场景问题:面对大量的数据集市中的数据,有可能针对同一个属性从不同的表里得到是存在不一致的情况的。
这种情况怎么处理?A7-1:这需要两方面:1、充分理解业务场景,进行元数据管理,定义各表中各字段的业务含义2、加强数据治理,在数据ETL时对业务系统数据进行按照元数据规则进行预处理。
A7-2:这个也是数据分析时遇到的共性问题,数据仓库同样由此问题,通常的做法就是建立元数据标准,在数据ETL的时候进行标准化处理,避免数据不一致的情况。
Q8:实施数据集市的项目时,对于项目参与人员,应该如何规划培训学习进行技能储备?A8-1:数据集市的项目跟建立大数据平台一样,是个大工程,都面临着数据ETL、存储、计算、数据管理等技术方面的挑战,而比大数据平台更复杂的是数据集市是个面向业务人员的OLAP型系统,如何满足业务各种各样的建模需求也是建立数据集市面临的一个大问题。
所以,项目人员既要懂底层技术,又要懂上层业务,只有这样才能发挥数据集市的优势。
在技术方面,可以类比大数据平台,可以储备数据ETL、分布式存储、分布式计算、管理和运维的经验;业务上就要深入了解业务需求,转化为数据模型。
四、数据集市建设所需支持及面临的风险Q1:数据集市的建设方应该是那个部门?哪些部门需要提供支持?以及什么样的支持?A1-1:建设方为技术部门的数据仓库组或技术平台组,所服务业务部门,技术部门各业务系统组,采购、财务部门,按照各部门分工支持配合。
A1-2:业务部门、技术部门(主要为数据分析团队、数据仓库团队)应当作为核心部门对此支持,主要为实施、分析和使用;其余部门应当作为辅助。