阿里集团大数据建设OneData体系
一文读懂BI、数据仓库、数据湖与数据中台(建议收藏)

数据中台最核心的是OneData体系。
这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控、数据资产管理工具等。
数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,出于分析性报告和决策支持目的而创建。
数据中台是一个数据集成平台,它不仅仅是为数据分析挖掘而建,它更重要的功能是作为各个业务的数据源,为业务系统提供数据和计算服务。
数据中台的本质就是“数据仓库+数据服务中间件”。
中台构建这种服务时是考虑到可复用性的,每个服务就像一块积木,可以随意组合,非常灵活,有些个性化的需求在前台解决,这样就避免了重复建设,既省时、省力,又省钱。
在二战时期,美军是以庞大的军队为单位作战;到了越战时,以营为单位作战;到了中东战斗的时候,以7人或者11人的极小班排去作战,这就是今天具备最强核心竞争力和打击能力的组织。
而美军之所以能灵活作战,敢放这么小的团队到前方,是因为有非常强的中台能力,这些能力包括战斗直升机、舰炮远程支援、战术导弹系统、战斗机支援体系等,这些能力能支持小团队快速做判断,并且引领整个炮火覆盖和定点清除。
而对比今天多变的市场竞争环境,企业也正在寻找像美军一样具备创新性、灵活性的中台能力。
今天我们就从以下几个方面来说说数据中台:1.数据中台产生的历史背景2.数据中台对企业有什么价值3.到底什么是数据中台4.数据中台与数据库、数据湖和BI有什么区别5.企业搭建数据中台需要注意什么6.企业如何使用数据中台一、数据中台产生的历史背景数据从软件诞生的那一天开始就存在,但是,数据并不是第一天就被存储和利用的。
在信息化时代,企业早期通过流程来进行生产和管理,流程是预先设计好的,然后在设计好的流程中产生了数据。
比如现在销售部门依赖于CRM(客户关系管理平台),售后部门主要看客服系统,市场营销部门关心微信平台,数据分析团队使用各类数据分析工具…在这个过程中,各个企业分别都在用不同的方式来尽可能的利用数据产生的价值。
产品经理阿里/网易/美团/58用户画像中的ID体系建设

编辑导语:上篇文章中作者介绍了关于,建立用户画像分两侧来进行,用户画像体系偏战略和应用,标签分类偏管理和技术实现侧;本文作者分享了关于几大企业里关于ID体系建设的分析,我们一起来看一下。
在《》梳理完标签画像体系的业务需求后,索隆开始了对画像体系的整体设计,其中首要遇到的就是用户ID体系的打通相关的问题。
公司各业务线ID繁多,数据割裂,如何才能尽可能关联更多的数据,以准确的描绘出一个用户的画像呢?接下来我们来看看索隆通过对界内科技巨头:阿里、网易、美团、58的调研分析,来一步步建立自己公司的ID-Mapping体系的过程。
阿里巴巴作为一家包含多条业务线的公司,如电商、金融、广告、文化、教育、娱乐、设备和社交等领域,数据区域包含国内、国外;数据场景包含线上的人货场钱、线下的人货场钱位置等数据,以及物流、用餐、咨询、影视、出行、阅读、音乐和健康等相关数据。
ID类型包含phone、PC cookie、IMEI与IDFA、淘宝账户、支付宝账户、邮箱等。
而对于每个BU来说,他们知道的只是这个客户的片面属性,在开展营销活动时,只是针对一个手机号或一个邮箱做营销,但背后不能识别出来一个自然人、一个公司。
为打破数据孤岛,创造更大的数据价值,阿里使用OneData作为核心方法论。
OneData体系包含:OneID基于超强ID识别技术链接数据,高效生产标签;业务驱动技术价值化,消除数据孤岛,提升数据质量,提升数据价值;而ID的打通,必须有ID-ID之间的两两映射打通关系,通过ID映射关系表,才能将多种ID之间的关联打通,完全孤立的两种ID是无法打通的。
打通整个ID体系,看似简单,实则计算复杂,计算量非常大;假如某种对象有数亿个个体,每个个体又有数十种不同的ID标识,任意两种ID之间都有可能打通关系,想要完成这类对象的所有个体ID打通需要数亿次计算,一般的机器甚至大数据集群都无法完成。
大数据领域中的ID-Mapping技术就是用机器学习算法类来取代野蛮计算,解决对象数据打通的问题;基于输入的ID关系对,利用机器学习算法做稳定性和收敛性计算,输出关系稳定的ID关系对,并生成一个UID作为唯一识别该对象的标识码。
2023-OneData体系架构建设方案-1

OneData体系架构建设方案随着信息化的快速发展,数据已经成为企业最为重要的资产之一。
为了更好地管理和利用企业数据,许多企业开始建设数据体系架构,其中,OneData体系架构以其完善的构架和便捷的管理方式备受青睐。
本文将分步骤介绍OneData体系架构的建设方案。
第一步,确定数据管理目标。
了解企业的业务流程、数据流动的方式以及数据管理的瓶颈问题等,明确企业所需的数据管理目标,建立适合企业的数据管理模型,制定相应的数据管理策略。
第二步,组织数据资源。
对企业所有的数据进行分类和整理,建立数据目录,对数据进行细致的描述和分类管理,将数据资源整合、归纳、标准化和优化,达到规范、便捷和高效的管理目的。
第三步,建立数据安全管理规范。
数据安全是企业数据管理的基础,要建立一套科学的数据安全管理规范,以保护企业重要数据的安全性、完整性和可用性,同时降低数据安全风险。
第四步,构建数据应用支撑平台。
数据应用是数据管理的重要方向,要完善应用架构,保证应用功能的合理性、安全性和易用性,建立一个集数据管理、数据分析、数据挖掘、数据展示于一体的应用支撑平台,提高数据应用的效率和准确性。
第五步,推行数据治理体系。
数据是企业的重要资产和资源,为了更好地维护和利用数据,要建立数据治理体系,把数据管理整个过程分解为不同的环节,精细化管理,确保数据管理的透明度、合规性、高质量性和长期可用性。
总之,建立OneData体系架构是企业数据管理效率提高的必由之路,循序渐进地实施上述五步方案,将有助于企业数据管理体系的完善,进一步提升企业数据管理的质量和效率。
阿里巴巴大数据实践之路-陈鹏宇

One D ata前台业务DWODPS,ADS统一的大数据技术平台数据共享算法共享知识共享数据安全数据质量数据标准运营管理生态建设统一的数据仓库公共数据产品和数据服务金融营销信用安全风控客服物流搜索…成本管理DWODPS,ADS统一的大数据技术平台数据共享算法共享知识共享数据安全数据质量数据标准运营管理生态建设统一的数据仓库公共数据产品和数据服务成本管理④生态①存②通数据孤岛ODPS1 2 3统一平台,数据大集中资源共享,弹性分配数据隔离,分权管理集群1集群2集群n飞天:一台计算机ODPS:一个计算引擎按需弹性分配的计算资源大池数据共享12数据整合One Data公共数据服务One Service 如何打通多个业务数据?关系网部门1部门3部门5络部门2部门4……集群1集群2集群n飞天:一台计算机ODPS:一个计算引擎One D ata:一个数据仓库One S ervice:公共数据服务人群画像特征工程关系库行为库……全局元数据管理,全链路血缘跟踪账号,权限,计量数据业务金融营销安全物流信用……数据加工数据仓库数据加工流水线EDW ADMCDM 模型运算决策引擎算法部署模型决策访问接口模型结果在线系统金融业务贷款保险理财共建共享的数据社区发布检索申请授权使用知识数据算法程序数据资产运营管理数据质量数据安全数据标准成本管理。
onedata数据治理方法论

onedata数据治理方法论OneData数据治理方法论数据治理是指对企业内部的数据进行规范、管理和优化的一种方法。
随着数据量的爆炸式增长和数据应用的日益普及,数据治理成为了企业不可或缺的一环。
在数据治理过程中,OneData数据治理方法论被广泛应用。
本文将介绍OneData数据治理方法论的基本概念、核心原则和方法步骤。
一、基本概念OneData数据治理方法论是由一家专注于数据管理和数据治理的公司提出的,旨在帮助企业高效、合规地管理数据资源。
OneData数据治理方法论强调数据的一致性、完整性、准确性和安全性,通过建立数据治理组织、制定数据治理策略和实施数据治理流程来实现这些目标。
二、核心原则OneData数据治理方法论的核心原则包括数据所有权、数据定义、数据访问控制和数据质量管理。
1. 数据所有权:明确数据的所有者和使用者,建立数据治理组织和相关的决策机制。
只有明晰的数据所有权和责任分配,才能保证数据的有效管理和使用。
2. 数据定义:建立统一的数据定义和数据词典,确保不同部门之间对于数据的理解和使用是一致的。
通过统一的数据定义,可以避免数据使用中的歧义和误解,提高数据的一致性和准确性。
3. 数据访问控制:建立数据访问权限管理机制,确保数据的安全和隐私。
根据不同的角色和职责,对不同的用户进行权限控制,保护敏感数据的安全性,防止数据泄露和滥用。
4. 数据质量管理:建立数据质量评估和监控机制,持续提高数据的质量。
通过数据清洗、数据验证和数据纠错等手段,确保数据的准确性、完整性和一致性,提高数据的可信度和可用性。
三、方法步骤OneData数据治理方法论的实施包括四个步骤:规划、建设、运行和优化。
1. 规划阶段:确定数据治理的目标和战略,制定数据治理的路线图和计划。
在规划阶段,需要明确数据治理的范围和目标,明确数据治理的组织结构和职责,制定数据治理的策略和指导原则。
2. 建设阶段:搭建数据治理的组织和流程,建立数据治理的基础设施和工具。
大数据:阿里数据整合及管理体系OneData

⼤数据:阿⾥数据整合及管理体系OneData⾯对爆炸式增长的数据,如何建设⾼效的数据模型和体系,对这些数据进⾏有序和有结构地分类组织和存储,避免重复建设和数据不⼀致性,保证数据的规范性,⼀直是⼤数据系统建设不断追求的⽅向。
数据仓库模型实施过程:1. ⾸先,在建设⼤数据数据仓库时,要进⾏充分的业务调研和需求分析。
这是数据仓库建设的基⽯,业务调研和需求分析做得是否充分直接决定了数据仓库建设是否成功;2. 其次,进⾏数据总体架构设计,主要根据数据域对数据进⾏划分;按照维度建模理论,构建总线矩阵、抽象出业务过程和维度;3. 再次,对报表抽象整理出相关指标体系,使⽤ OneData ⼯具完成指标规范定义和模型设计;4. 最后,代码研发和运维;⼀、概述阿⾥⼤数据建设⽅法论的核⼼:从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理化、可追溯、可规避重复建设;1、定位及价值建设统⼀的,规范的数据接⼊层(ODS)和数据中间层(DWD 和DWS),通过数据服务和数据产品,完成服务于阿⾥的⼤数据系统建设,即数据公共层建设。
提供标准化的(Standard)、共享的(Shared)、数据服务(Service)能⼒,降低数据互通成本,释放计算、存储、⼈⼒等资源,以消除业务和技术之痛;2、体系架构业务板块:根据业务属性,将业务划分出⼏个相对独⽴的板块,使业务板块之间的指标或业务重叠性较⼩;规范定义:结合⾏业的数据仓库建设经验和阿⾥数据⾃⾝特点,设计出的⼀套数据规范命名体系,规范定义将会被⽤在模型设计中;模型设计:以维度建模理论为基础,基于维度建模总线架构,构建⼀致性的维度和事实(进⾏规范定义),同时,在落地表模型时,基于阿⾥⾃⾝业务特点,设计⼀套规范命名体系;⼆、规范定义规范定义指以维度建模作为理论基础,构建总线矩阵,划分和定义数据域、业务过程、维度、定量/原⼦指标、修饰类型、修饰词、时间周期、派⽣指标。
1、名词术语数据域:指⾯向业务分析,将业务过程或维度进⾏抽象的集合。
阿里集团大数据建设OneData体系

交易
设计方法-DIM模型设计
确定维度
选择维度属 性
冗余高粒度 维度属性
整合分组和 划分
流量 支架维度、杂项维度、微型维度 慢变维、快变维、巨型维度 维度表的一致性和集中化
商品
交易
设计方法-DWS模型设计
确定粒度
选择指标
划分物理表
冗余维度
可以有哪些划分?
指标分类
流量 数据域
时间周期(1d,nd,td)
(三)模型设计
什么是数据模型? 为什么需要数据模型?
数据模型
定位
数据模型
数据的有序、有结构的分类组织和存储方法
有效组织和存储 统一算法口径 避免重复计算 取用方便
比如, 淘系交易明细事实表,分摊金额至交易子订单,去掉优惠金额等逻辑; 冗余商品、买家、卖家等维度的属性;
比如, 主交易卖家粒度最近1天汇总事实表 主交易商品粒度最近1天汇总事实表
设计准则
一致性(规范、设计理念、执行细则) 高内聚和低耦合 成本、历史数据、性能、运维平衡
流量
数据刷新单日可回滚 核心模型相对稳定性 商品清晰可理解,而不是一味简单方便查询
交易
设计方法-DWD模型设计
识别业务过 程
选择事实表 的类型
选定维度及 确定粒度
添加度量
冗余维度
流量 维度冗余事实表带来的好处与弊端 DWD层关联相关数据和组合相似数据的原则 DWD层事实宽表垂直划分和水平切割
指标举例
最近1天SEO来源的海外搜索UV
se_uv_1d_032
1 指标如何拆解?
最近1天SEO来源的海外搜索UV
时间周期:一天时间(1d)
修饰词:SEO来源、海外搜索
数据中台实战(二):基于阿里OneData的数据指标管理体系

数据中台实战(二):基于阿里OneData的数据指标管理体系本文将通过具体案例来介绍OneData的实施流程,继而介绍阿里OneData数据体系中数据指标的管理和数据模型的设计,最后再为大家讲数据看板的设计。
上一篇文章讲了《数据中台实战(一):以B2B点电商为例谈谈产品经理下的数据埋点》,本文我们先以一个例子实战介绍OneData 实施流程。
接着再讲阿里OneData数据体系中数据指标的管理、数据模型的设计。
最后讲一下数据产品中,数据看板的设计。
全是实战干货,看完本文你就会知道数据中台最核心的内容。
阿里OneData实施过程实战比如当时我们运营提了一个比较有指导意义的数据指标叫爆款率,我们以爆款率为例先说一下OneData每个步骤实施的流程和涉及的角色。
第一步:要确定指标的业务口径业务口径应该由数据中台的产品经理主导,找到提出该指标的运营负责人沟通。
首先要问清楚指标是怎么定义的,比如运营说爆款率的定义分子是是专场中商品销售件数超过20件的商品数,分母是专场内的总商品数(专场如上图所示,商品会放在运营人员组的一个一个专场里面)。
这里面有几个坑:1. 这个20件可能是运营拍脑袋定义的数据,这时要协调我们的数据数据分析师看下历史专场销售件数的分布找出最合理的值,然后和运营基于数据再一起定义最终的阈值。
如果历史数据专场销售件数大部分都远远超过20件那么这个指标就所有的专场都是爆款专场,就没什么意义了。
2. 商品的销售件数超过20件,其中有一个十分有争议的字眼那就是销售,怎么定义销售?是下单就算,还是支付才算?考虑不考虑退款?如果考虑退款是发起退款就算还是退款实际发生后再算?其实是有很多问题要考虑的。
最终和运营确定为该专场支付后的商品件数除以专场商品的总件数。
3. 销售的商品件数是按商品销售的件数还是按照商品下SKU的销售件数,这个是要搞清楚的,可能运营不关心这个事,但是影响到模型的设计。
处理完这些坑后关于指标的定义还需要问这几个问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
层次结构
数
据 化
表数据分布 情况
表关联使用 情况
CDM核心架构
汇总事实表 明细事实表 明细维表
维度
Star Scheme
指标
规范化
设计方法-DWD模型设计
识别业务过 程
选择事实表 的类型
确定粒度及 选定维度
添加度量
冗余维度
流量 维度冗余事实表带来的好处与弊端 DWD层关联相关数据和组合相似数据的原则 DWD层事实宽表垂直划分和水平切割
定位
OneData体系架构
名词术语(一)
名词
解释
数据域
数据域是业务板块中有一定规模且相对独立的数据业务范围。 面向业务分析,将业务过程或者维度进行抽象的集合。 为保障整个体系的生命力,数据域是需要抽象提炼、并且长期维护 和更新的,但不轻易变动。在划分数据域时,既能涵盖当前所有的 业务需求,又能在新业务进入时无影响的被包含进已有的数据域和 扩展新的数据域。
逻辑结构 业务板块
核心架构
举例 电商业务
数据域
交易域
业务过程
维度
支付
订单
修饰类型
时间 周期
修饰词
原子指标
最近1天
支付方式 花呗
支付金额 pay_amt
派生指标
度量 属性
最近1天通过花呗 支付的支付金额 pay_amt_1d_009
支付金额 pay_amt
订单ID 创建时间
……
1.数据域:是指一个或多个业务过程或者维度的集合 2.原子指标:基于某一业务过程下的度量。例如:支付+金额=支付金额; 3.派生指标=原子指标+时间修饰+其他修饰词+原子指标;属性是用来刻画某个实体对象维度的数据形态;事实叫做度量,如购买数量 4.修饰:指针对原子指标的业务场景限定抽象。例如:最近N天
(三)模型设计
什么是数据模型? 为什么需要数据模型?
数据模型
定位
数据模型
数据的有序、有结构的分类组织和存储方法
有效组织和存储 统一算法口径 避免重复计算 取用方便
比如, 淘系交易明细事实表,分摊金额至交易子订单,去掉优惠金额等逻辑; 冗余商品、买家、卖家等维度的属性;
比如, 主交易卖家粒度最近1天汇总事实表 主交易商品粒度最近1天汇总事实表
定位
数据 规范定义
数据 模型设计
数据研发义
规范定义
指标的定义和管理体系
统一指标、统一算法口径
有效GMV:下单金额?支付金额?最近1天?自然周?财年? 去除大额的逻辑是?计算逻辑是什么? 下单有效金额(crt_ord_vld_amt)、最近1天下单有效金额 (crt_ord_vld_amt_1d_001)
指标举例
最近1天SEO来源的海外搜索UV
se_uv_1d_032
1 指标如何拆解?
最近1天SEO来源的海外搜索UV
时间周期:一天时间(1d)
修饰词:SEO来源、海外搜索
2 英文字段名是怎么生成的?
se_uv_1d_032
原子指标:搜索UV
原子指标(搜索UV)英文名:se_uv
3 英文字段名后面的编号有规律?
OneData 体系架构
天矢
阿里巴巴数据技术及产品部
01 总述 02 规范定义 03 模型设计 04 实施流程
目录
(一)总述
背景
业务多且 变化快
数据不一 致
数据质量 要求高
运维任务 多
数据量大
…
什么是OneData
大数据建设方法论
从规范定义、数据模型、数据研发到数据服务,可管理、可追溯,规 避重复建设,提供标准的、共享的、服务化的数据;
派生指标由原子指标、时间周期修饰词、若干其他修饰词组合得到。
原子指标
时间周期 修饰词
其他 修饰词
派生指标
修饰类型
原子指标、修饰词,直接归属在业务过程下。 派生指标可以选择多个修饰词,修饰词之间的关系为‘或’或者‘且’的关
系,具体由具体的派生指标语义决定。 派生指标唯一归属一个原子指标,继承原子指标的数据域、与修饰词的数据
修饰词 指除了统计维度以外指标的业务场景限定抽象。修饰词隶属于一个 修饰类型,如日志域的访问终端类型下,有修饰词PC端、无线端等。
名词术语(二)
名词
解释
原子指标/ 基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业 度量 务含义的名词。原子指标=业务过程(动作)+度量,如支付(事件)金额(度量)。
业务过程
时间周期 修饰类型
业务过程是指企业的业务活动事件,如下单、支付、退款都是业务 过程。请注意业务过程是一个不可拆分的行为事件,通俗讲业务过 程就是企业活动中的事件。 用来明确数据统计的时间范围或者时间点,如最近30天、自然周、 截至当日等。 是对修饰词的一种抽象划分。修饰类型从属于某个业务域,如日志 域的访问终端类型涵盖无线端、PC端等修饰词。
派生指标 维度
维度属性
派生指标=一个原子指标+多个修饰词(可选)+时间周期。可以理解为对原子指标 业务统计范围的圈定。如原子指标:支付金额,最近1天海外买家支付金额则为派 生指标(最近1天为时间周期,海外为修饰词,买家作为维度而不作为修饰词)。 维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度, 也可以称为实体对象。维度属于一个数据域,如地理维度(其中包括国家、地区、 省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的 内容)。 维度属性隶属于一个维度,如地理维度里面的国家名称、国家ID、省份名称等都 属于维度属性。
域无关。 一般而言:事务型指标和存量型指标只会唯一定位到一个业务过程,如果遇 到同时有两个行为发生、需要多个修饰、生成一个派生指标的话,选择时间 靠后的行为创建原子指标,另一个时间靠前的行为创建为修饰词。 原子指标有确定的英文字段名、数据类型和算法说明;派生指标要继承原子 指标的英文名、数据类型和算法要求。
交易
设计方法-DIM模型设计
确定维度
选择维度属 性
冗余高粒度 维度属性
整合分组和 划分
流量 杂项维度、微型维度 慢变维、快变维、巨型维度 维度表的一致性和集中化
商品
交易
设计方法-DWS模型设计
一天时间:1d
修饰词(seo来源、海外搜索):全部吞并在032编号中
按照 原子指标+时间周期自增
4 为什么要加个编号,如何体现出修饰词?
1.为了保障唯一性,算法可追溯; 2.一个派生指标涉及的修饰词个数和具体的修饰不可控,所以在保障唯一性的前提下英文字段名中体现所有修饰,并不可行;
指标体系.基本原则