大数据平台-数据建模总结-技术方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
1 仓库底层模型重构 ............................................................................................................................ 1
1.1.1.1 数据仓库建模基本理论.......................................................................... 1
1.1.1.2 大数据平台下数据仓库设计思路 ........................................................... 6
1.1.1.3 整合层数据处理思路.......................................................................... 27
1.1.1.4 整合层主题模型设计关注点............................................................... 28
1.1.1.5 整合层主题模型算法选择 .................................................................. 30
1.1.2 核心模型改造方案......................................................................................................... 31
1.1.
2.1 新核心模型重构设计思路 .................................................................. 31
1.1.
2.2 新核心模型设计................................................................................. 32
1.1.
2.3 老核心模型中历史数据迁移............................................................... 34
1.1.
2.4 新老核心模型同步运行...................................................................... 35
1.1.
2.5 下游应用切换到新核心模型............................................................... 35
1.1.
2.6 老核心模型归档下线.......................................................................... 35
1.1.3 共性加工层重构方案..................................................................................................... 35
1.1.3.1 方案概述............................................................................................ 35
1.1.3.2 分层设计方案..................................................................................... 36
1.1.3.3 数据保留规则..................................................................................... 36
1 仓库底层模型重构
针对新核心系统的数据表,重新进行整合层的主题域划分及模型设计,逐渐废除现有的新核心向老核心映射后的模型实体。
新设计的模型实体,可优先入模新核心的源系统,不要求外围系统的也按此模型入模(重保高时效应用依赖的外围表除外)。
但新设计的数据模型需考虑卡中心各外围系统,保持模型的稳定性,以及需考虑各源系统的数据到达时间,合理进行模型整合及拆分,保障下游应用的时效。后续外围系统的模型新增及调整,均可以此模型作为参照。
整合成新的仓库模型,在设计上需与传统数仓模型有一定区分,能满足大数据平台的特性,从存储、使用、性能、稳定等角度综合考虑。
由于后续仓库拟不存储敏感信息,需酌情在底层新增敏感信息的弱化信息处理(如手机号是否有效,长度等)。
重构共性加工层的模型,梳理出来的重要指标维度,需在共性加工层进行实现。将各集市及下游的共性指标维度(尤其是基础性指标)进行下沉,以及考虑到处理时效等,减少加工链路。
新核心新的业务特性,或者下游应用使用的一些重点主题,需合理考虑模型或指标维度的新增。
重构后的数据模型,必须能涵盖现有生产的所有下游应用,保障业务的延续性。
底层数据模型的重构,需充分考虑生产上新老两套模型的并行方案,以支持后续两套模型的平稳过渡。
重构后的数据模型,包括整合层及共性层,整体批次时效不得晚于现有生产时效。
数据仓库建模
1.1.1.1 数据仓库建模基本理论
一、数仓建模的目标
访问性能:能够快速查询所需的数据,减少数据I/O。
数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成