大数据平台-数据建模总结-技术方案

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目录

1 仓库底层模型重构 ............................................................................................................................ 1

1.1.1.1 数据仓库建模基本理论.......................................................................... 1

1.1.1.2 大数据平台下数据仓库设计思路 ........................................................... 6

1.1.1.3 整合层数据处理思路.......................................................................... 27

1.1.1.4 整合层主题模型设计关注点............................................................... 28

1.1.1.5 整合层主题模型算法选择 .................................................................. 30

1.1.2 核心模型改造方案......................................................................................................... 31

1.1.

2.1 新核心模型重构设计思路 .................................................................. 31

1.1.

2.2 新核心模型设计................................................................................. 32

1.1.

2.3 老核心模型中历史数据迁移............................................................... 34

1.1.

2.4 新老核心模型同步运行...................................................................... 35

1.1.

2.5 下游应用切换到新核心模型............................................................... 35

1.1.

2.6 老核心模型归档下线.......................................................................... 35

1.1.3 共性加工层重构方案..................................................................................................... 35

1.1.3.1 方案概述............................................................................................ 35

1.1.3.2 分层设计方案..................................................................................... 36

1.1.3.3 数据保留规则..................................................................................... 36

1 仓库底层模型重构

针对新核心系统的数据表,重新进行整合层的主题域划分及模型设计,逐渐废除现有的新核心向老核心映射后的模型实体。

新设计的模型实体,可优先入模新核心的源系统,不要求外围系统的也按此模型入模(重保高时效应用依赖的外围表除外)。

但新设计的数据模型需考虑卡中心各外围系统,保持模型的稳定性,以及需考虑各源系统的数据到达时间,合理进行模型整合及拆分,保障下游应用的时效。后续外围系统的模型新增及调整,均可以此模型作为参照。

整合成新的仓库模型,在设计上需与传统数仓模型有一定区分,能满足大数据平台的特性,从存储、使用、性能、稳定等角度综合考虑。

由于后续仓库拟不存储敏感信息,需酌情在底层新增敏感信息的弱化信息处理(如手机号是否有效,长度等)。

重构共性加工层的模型,梳理出来的重要指标维度,需在共性加工层进行实现。将各集市及下游的共性指标维度(尤其是基础性指标)进行下沉,以及考虑到处理时效等,减少加工链路。

新核心新的业务特性,或者下游应用使用的一些重点主题,需合理考虑模型或指标维度的新增。

重构后的数据模型,必须能涵盖现有生产的所有下游应用,保障业务的延续性。

底层数据模型的重构,需充分考虑生产上新老两套模型的并行方案,以支持后续两套模型的平稳过渡。

重构后的数据模型,包括整合层及共性层,整体批次时效不得晚于现有生产时效。

数据仓库建模

1.1.1.1 数据仓库建模基本理论

一、数仓建模的目标

访问性能:能够快速查询所需的数据,减少数据I/O。

数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成

相关文档
最新文档