阿里巴巴全域数据建设

阿里巴巴全域数据建设
阿里巴巴全域数据建设

阿里巴巴全域数据建设

阿里巴巴数据技术及产品部定位阿里数据中台:以全域大数据建设为中心,技术上覆盖整个大数据从采集、加工、服务、消费的全链路的各个环节,对内对外提供服务。丰富的大数据生态组件,构成了阿里的核心数据能力,通过大数据生态组件,可以迅速的提升数据应用的迭代能力,人人都有可能成为大数据专家。

在全域数据建设过程中,还构建了阿里巴巴OneData体系作为大数据标准化规范,从方法论到落地实践;从对指标定义、数据研发、数据服务的口径管理到数据规范定义、模型规范定义、研发流程的规范化;每个环节均有对应工具进行严格保障,并做到方便管理、问题追溯。

数据中台-阿里数据技术及产品部定位

2016年阿里巴巴集团提出中台概念,阿里巴巴数据技术及产品部承载了集团数据中台的工作,其核心就是建设全域大数据。

◎从内容上看,我们管理和运维着阿里巴巴集团最核心的基础数据;

◎从技术上看,我们覆盖了从数据采集、计算加工到数据服务、数据应用等数据链路上的每一个环节,为阿里生态内外的业务、用户、中小企业提供全链路、全渠道的数据服务。

举个例子,被大家熟知的双11当天可见炫酷数据大屏就是由我们部门负责的。

【阿里数据中台全景图】

上图是阿里数据中台的全景图,从这个图中我们可以看见实际上阿里数据中台在架构的组成上,呈现了一个“四横三纵”的结构,底层的基础设施来自于阿里云平台。

◎先来讲四横——

整张架构图从下往上看,最下面这块内容主要从数据采集和接入为角度,按照业态接入数据(比如淘宝、天猫、盒马等),我们把这些数据抽取到计算平台;接着通过OneData体系,以“业务板块+分析维度”为架构去构建“公共数据中心”;再基于公共数据中心在上层根据业务需求去建设:消费者数据体系、企业数据体系、内容数据体系等;经过深度加工后,数据就可以发挥其价值被产品、业务所用;最后通过统一的数据服务中间件“OneService”提供统一数据服务。

在阿里内部,阿里数据平台上的数据产品已有几十种,每天有上万内部员工在使用数据产品;我们的官方统一数据产品平台“生意参谋”累计服务了超2000万商家……

◎接下来是三纵——

基于阿里巴巴如此大体量的数据体系建设背后,我们必须要通过大量工具去保证快速、高效、高质量数据接入,这部分我们通过智能数据研发平台来实现,将我们的理论及实践过程,通过一整套的工具体系及研发流程去保障落地,确保每一个团队,每一个BU,通过统一规则去建设数据体系;同时,当数据多了以后最直接问题就是成本,因此我们还建立了统一的数据质量管理平台。

全域数据到底是什么?

阿里巴巴目前生态建设包括了核心的电商业务,淘宝、天猫、聚划算等,同时还有文娱板块的优酷、土豆、UC浏览器等,当然还有本地化服务比如口碑、饿了么等。基于业态背后还有蚂蚁、菜鸟、阿里妈妈、阿里云等等。

这一系列的生态数据我们都会集中进行存储和管理,并构成了我们的全域数据所覆盖的范围。

一方面,上述每一种业态都是全域数据的来源;另外一方面基于这些优质的数据,进行解析和处理,再反哺给到业务。我们要实现的是:利用全域数据去驱动业务,让数据发挥更大价值。

以手淘为例,手机屏幕是非常小的,我们如何在有限的空间内展示给到用户看到他们真正希望看见的内容?“千人千面”这一应用的背后,实际上就是基于大数据的算法应用场景,来实现的。还有芝麻信用、菜鸟的智能物流、阿里妈妈的精准营销等等,它们都是通过大数据驱动之下,构成了业务与数据联通的闭环。

阿里全域数据建设的初衷

我们为什么要做全域数据?

◎首先,降低成本——

大家都知道大数据建设的资金投入其实是非常巨大的。比如基础建设的投入、机房、机架、服务器、网络带宽,包括软件平台建设,开发运维团队的组建等等,都会耗费企业大量的资金和人力。以优土(优酷土豆的简称)为例,优土去年加入阿里巴巴集团之后,我们开始启动数据融合项目:在此之前,优土有自己的Hadoop集群,阿里巴巴的数据规模则大的多,将优土数据融合到阿里大平台上,可以让优土获得更多弹性资源,也可以在基础设施运维、人力运维、平台运维上复用集团的技术体系;基于OneData大数据建设体系、统一的数据采集规范等,减少人力及运维成本。当项目完结后,我们发现目前优土在数据建设上的成本不到原来50%。

◎其次,技术赋能——

客观来说,在阿里生态内公司的数据能力参差不齐,因此为了赋能其他生态公司,我们通过短时间的数据体系迁移,让他们拥有和阿里集团同样的大数据能力。上述的优土融合项目就是通过半年时间,实现了技术赋能。

◎第三,数据连接——

我们知道数据孤岛的现象不光存在于传统行业,互联网行业也是一样。所以只有把数据连接起来,它才能发挥更大的价值,消除数据孤岛,让数据连接起来,也是我们进行全域数据建设的目的之一。◎最后,赋能业务——

无论我们的集群规模有多大,服务体量有多大,最终还是要回归业务、通过业务的数据表现来体现我们的价值——把数据体系统一后,除了让业务可以更加准确、快速的获取决策分析数据外,还能提供业务快速试错的机会,最终为业务创新降低了门槛。

如何建设全域数据

在整个全域数据接入过程中,尽管基础设施建设已经非常强大,但在实际过程中,我们仍然面对了诸多困难和挑战。仍以优土为例,它的大数据机房在青岛,阿里集团大部分数据集群都在内蒙古和张北,而涉及到数据迁移也绝不是“拉一根网线”这么简单——其中涉及到应用体系、大数据架构都需要定制方案去做;

另外,统一数据采集在接入的过程中也会就原有业务进行统一梳理,包括后面的数据验证,做过数据的人应该都知道其中的痛点;同时在迁移过程中,原有的数据对业务的服务还不能停,这事情我们叫——飞机上换轮子,一边要进行核心零部件更新,一边还要保持高速飞行;

最后就是项目周期,基于现实情况,大数据建设一般需要较长的周期,无法在几周内完工,因为大数据建设不是一蹴而就,而是一根体系化过程。

从基础设施来看,阿里经过电商发展,包括多年双11这种特殊场景下的考验,在基础设施上,从数据中心到网络到服务器,到数据库中间件、计算平台、数据平台、算法平台都有了非常多的沉淀。因此,在建设全域数据的时候,我们要做的第一步就是将生态公司的数据在基础设施阶段就进行融合。

▊我们的数据组件划分如下:

最底层——数据采集,这是数据的来源;中间——计算存储平台:实时计算采用自主研发的Blink,离线则采用MaxCompute。

▊上图详细介绍了我们的数据组件:

基于用户的网上行为去做数据采集(我们有PC和无线的采集体系)然后放到实时、离线计算平台上来,这两个计算平台除本身计算能力外,还有许多基于SQL、Graph等可编程的能力,最上面就是研发工具、产品服务、BI工具。

有如此强有力的基础支撑外,长在上面的应用能力也非常给力:以研发工具为例,阿里有约两万名研发工程师,而每天基于阿里数据平台开展工作的同学就有近一万人!

基于这些丰富的大数据组件,大部分的研发同学、专业的或非专业的同学都能在上面基于大数据做一些探索和尝试。

▊下面介绍我们在全域数据建设中的几个体系:

◎首先看流量体系——

这是互联网行业和传统行业最大的区别。

打个比方,如果我们把淘宝可以看做流量分发中心,用户进来后把流量给到商品、给到卖家。那么在进行流量数据采集时,大家可能会给出不同的方案。

我们基于阿里巴巴多年的电商经验,也沉淀出来了一套统一的流量采集规范——超级位置模型:

以淘宝的页面为例:

—————————

站点就是淘宝,下面会有页面、区块、位置,这些都是可以根据业务实际需求去埋点,并直观获取页面任何位置的数据,比如页面概况分析、路径分析、跳转分析、页面点击、用户分析等等。业务方只需要按照规范埋点,我们就能够迅速给到基础的流量分析能力,而基于此,配套对应的数据产品就可以解决80%的流量方面的数据问题。

◎其次看计算组件化——

众所周知,基于互联网的基础内容其实是能够固化下来特定需求,中间过程可以通过工程化能力去解决,然后迅速把这些东西配置出来,而不需要每一个需求都去做代码开发计算——这就是计算组件化。这样做的好处首先就是;配置简单、复用性高,同时,在注意统一规范后,未来接入uc、接入高德等业务,我们可以做到一键接入。

◎OneData体系,全域数据建设最核心的体系——

目前,从整个大数据建设过程来看,它分为数据接入、规范定义、计算加工、数据验证、数据稳定性,这几个部分合并构成了整体的数据研发流程。

OneData体系工具是全域建设的保障——我们知道现在存储和计算可能已不是瓶颈。随着分布式技术的发展,以Hadoop为典型代表,廉价的pc服务器即可搭建出超强的计算能力,因此存储和计算未来会变的越来越便宜,但相对昂贵的是工程师的时间成本。

所以,工具化是解决研发效率的关键一环。我们把大量机械、人肉、不产生价值的工作,通过工具去完成,比如从数据的接入开始,我们有OneClick保证高效接入,根据阿里巴巴完善的元数据,我们有能力把基于业务db的数据一键拉到计算平台,这个过程几乎不需要人的参与。

同时,通过OneDefine工具来确保数据建设过程是规范的,比如:模型分层、表命名规范、字段命名规范等。

◎再看计算过程——

阿里数据应用的群体在能力上是参差不齐的,有专业的数据研发、有算法工程师、有分析师、可能还有业务运营,很多人可能简单自学SQL后,就可以自己跑数据:通常情况下,SQL质量无法保证,如果查询的数据量非常大,可能后台几千台机器就转起来了,为避免类似情况发生,我们会在提交任务过程中做代码校验,对于性能问题、规范问题、代码质量问题都会给出必要的提示,比如sql代码对于除数为0没有做代码兼容,比如我们的ddl语句中没有做数据生命周期的设置,比如sql的query

中没有做分区的条件限制,甚至你的sql代码别人已经计算过,可以复用结果不需要重新计算这些问题,我们都会给出精确到提示。

在数据研发过程中,代码编写可能只占工作量的20%,那么大部分时间都去干吗了?是数据验证,代码修改前和代码修改后,数据到底差多少,差在哪儿?过去如果没有工具只能写一堆角本,再去验证,效率极其低下,而且极易出错,现在有了“在彼岸”工具我们可以通过简单的勾勾选选就知道前后差异到底差在哪?然后迅速给测试报告,保证整个研发过程的数据质量是有保障的。

最后,任务上线后,大量时间都在运维,监控数据质量、监控产出时间等等,这些日常要去关注的工作我们也会有相关的工具去支持,因此OneData体系工具是全域数据建设的重要保障。

工具有了,规范有了,我们还需要与研发流程全程打通,我们就可以确保规范真正的落实到每位开发者身上,因此我们可以这样来理解研发流程:某位研发同学在做数据需求,要先把规范定义完成才能继续进行代码开发。

▊代码开发中会有两道检查:

◎第一道是SQLscan:这里面会检查代码规范性、代码质量、可能出现的性能问题,把这些问题避免掉;

◎另一道是“在彼岸”数据测试:重要的数据做了数据变更后,会要求做回归测试流程,轻松简单的勾选,就可以快速给出测试。如果任务需在生产环境运行,这两个环节必须完成后才能够提交,上述过程就是整个基于OneData体系的研发流程。

目前阿里巴巴数据总量已超EB级别,总表数也已经超百万,这么大体量下,如何能够做到高效灵活却又不失规范的大数据建设,我们确实探索了很长时间。

随着阿里业务的不断拓展,对于大数据能力的要求会越来越高,技术上,如何突破传统数仓etl架构?我们从基础设施的计算存储分离、离线在线混布等事情上已经开始探索,相信在不久的将来,我们会对传统数仓etl进行重新的定义。

阿里数据分析笔试题

2016阿里巴巴数据分析师职位笔试题目 阿里巴巴作为全球领先的小企业电子商务公司,招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理 和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从n个数据对象任意选择k 个对象作为初始聚类中心;

数据仓库建设的几点建议.doc

北京甲骨文软件有限公司咨询经理鲁百年博士 一、国内信息化的现状 1、信息化建设的发展历史:在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2、为何要建立数据仓库:前面我们讲过,业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区: 大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以看到十几张或者几十张报表。领导不满意,项目负责人压力也很大,无法交待。这时,项目经理或者项目负责人才意识到,项目有问题,但是谁也不敢说项目有问题,因为这样显然是自己当时的决策失误。怎么办?寻找咨询公司或者一些大的厂商,答案往往是数据仓库缺乏数据模型,应该考虑数据模型。如果建设时考虑到整个企业的数据模型,就可以建设成企业级的数据仓库(EDW。什么是数据模型,就是满足整 个企业分析要求的所有数据源。结果会如何,我个人认为:这样做企业级数据仓

阿里巴巴数据产品经理工作(总结篇) _0

[ 产品经理] 阿里巴巴数据产品经理工作(总结篇) 2015-3-17 17:07| 发布者: 猫儿 来自: 阿里巴巴PD | 关键词: PD(指产品经理,下同)本身就是在做牛做马,关系圈异常复杂。数据PD也不例外。而且打交道的人更多。以下是我用PPT绘制的数据产品经理关系圈。 科普: PD:对于WEB产品设计人员而言,它的意思是“产品设计人员”,即produce designer。 PD:在IT企业中,一般是Product Director(产品主管)或Project Director(项目主管)的意思 一. 如何做一个好的数据产品经理?

PD(指产品经理,下同)本身就是在做牛做马,关系圈异常复杂。数据PD也不例外。而且打交道的人更多。以下是我用PPT绘制的数据产品经理关系圈。如果你也做过数据产品的产品经理(好拗口),相信也有同感。既然要和这么多人打交道,要推动数据产品的上线,数据产品经理自然有着一定的要求。 我的体会如下——也借此去鞭策自己在朝这个方向努力: 1.要极其熟悉公司业务及动向。所以要了解公司的商业模式、战略、以及业务流程、要考核的各种指标,以及指标背后的业务含义等。这一点,再了解都不够。 2.要了解数据分析。好的数据PD,即使不做数据PD,也应该是个数据分析师。数据PD 的一大要务就是将数据分析做成可复制,可自动运转的系统。虽然有数据分析师们围绕在自己周围,但是自己也要清楚业务的问题,分别要看什么数据,或者当数据出现后,意味着业务出现了什么问题或者会出现什么问题。这一点,要向最好的数据分析师们看齐。

3. 要了解数据仓库及商务智能。 这两个关键词背后都是庞大的体系,恐怕我短短半年的转岗时间太短,虽然能够对别人讲解一通商务智能产品的架构。嘴里虽然会抛出若干个类似于汇总,钻取,度量,指标,维度,缓慢变化维,层次,属性,仪表盘等等术语,但是也不支持多几层的知识钻取,遇到异常问题,也不知道该从什么地方分析原因。幸而身边有数据仓库的同事,可以多多学习。这一点,没有天花板。 而商务智能,做为一门学科,起源于20世纪90年代,它的出发点是帮助用户更好地获取决策信息,最初商务智能的动机是为用户提供自助式的信息获取方式,这样,用户就可以不用依赖于IT部门去获取定制的报表。(引自《信息仪表盘》一书P41)。而如今,商务智能除了提供信息,更主要的是降低用户获取数据的门槛,提升数据的实时性等方面。从降低用户获取数据的门槛一个方向,我们就可以做很多事情,比如如何设计信息仪表盘(designing of information dashboard)?如何让数据以更亲和的更直观的方式展示(数据可视化)?如何能够让用户离线访问?如何能够实现警戒数据的主动发送?这一点上,花多少功夫都不多。 4. 要精通数据产品开发流程。数据开发+产品开发。 数据PD的最终目的是要做数据产品。这里要拆开看,其一,数据产品本身也是在线可供用户实现的产品,既然是产品,产品的整套研发思路和普通的产品没有太大区别,用户是谁,他们需求是什么,满足需求需要什么feature list,每个feature list的资源评估以及优先级如何,产品的生命周期如何?这是产品开发。然后他是个数据产品,意味着这比普通的产品,多了更多的要求。在数据这个内核之外,它需要各种feature list,如订阅,搜索,自定义,短信接口,邮件接口等。但是数据这个内核,也需要一套数据开发流程。 比如: 数据源——是否足够,是否稳定——数据PD需要足够了解目前的业务处理系统建设情

现代电信企业数据仓库系统建设

现代电信企业数据仓库系统建设 电信企业数据仓库建设的需求 电信行业目前主要的数据来自于计费系统和网管数据。电信系统经过多年的运行,已经存储了大量的历史数据。这些数据中蕴涵着丰富的信息,从中可以了解企业在电信市场经营过程中所处的态势、竞争对手的经营形势、客户群的分布状况、消费特征、企业经营发展的趋势等,对其进行分析处理可以得到很多令人欣喜的结论。强大的数据处理能力,加上丰富的企业数据,可以有力地促进企业经营和竞争。 目前,企业信息化建设呈现出“数据集中化、业务综合化、管理扁平化、决策科学化”的发展趋势。面对激烈的市场竞争,许多大型企业纷纷实施“以客户为中心,以服务求发展”的经营策略。如何优化客户关系,增强企业的竞争优势已经成为现代企业关注的焦点。现有的应用系统往往以“产品”为中心,以“单据(票证)”处理为基础,是面向联机事务处理(Online Transaction Processing,简称OLTP)的系统,而以客户为中心的经营管理模式要求对现有业务系统的数据进行有效的集成并加以重组,建立面向联机分析处理(Online Analysis Processing,简称OLAP)的系统。通过分析客户的行为,掌握不同类型客户的特征,进而为客户提供更加优质的服务,尤其是个性化的服务,同时全面掌握并理解、分析企业业务的发生情况,充分发挥企业现已积累的数据,为各级管理人员提供科学化管理和决策的有力依据,以提高企业的经营业绩,保证利润的持续增长。 面对纷繁复杂的市场竞争,众多企业立足于多年积累的数据和自身的核心业务,提出了建立企业级数据仓库的规划和实施方案,为企业的进一步发展奠定基础。 企业数据仓库系统的总体结构 一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部分 从系统结构看,电信行业数据仓库解决方案系统一般包括应用系统部分、中央数据仓库系统部分,数据源系统部分三大部分。如图所示:

阿里云大数据解决方案

阿里云大数据解决方案 阿里云“数加平台”提供了大量的大数据产品,包括大数据基础服务、数据分析及展现、数据应用、人工智能等产品与服务。这些产品均依托于阿里云生态,在阿里内部经历过锤炼和业务验证,可以帮助组织迅速搭建自己的大数据应用及平台。 奥远电子作为阿里云辽宁区授权服务中心,可为用户提供专业、高效和本地化的服务,包括运维、产品咨询、备案咨询、解决方案和架构搭建等一体化等,同时旨在帮助本地政府部门和企事业单位、个人了解云计算,使用阿里云服务,为用户提供网络、服务和计算资源等,从而减轻用户因业务量骤增而带来的IT压力,助力轻松上云。 基础产品: 大数据计算服务(MaxCompute,原名ODPS) 是一种快速、完全托管的GB/TB/PB级数据仓库解决方案。MaxCompute为您提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决海量数据计算问题,有效降低企业成本,并保障数据安全。 分析性数据库(AnalyticDB) 是阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,使得您可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。分析型数据库对海量数据的自由计算和极速响应能力,能让用户在瞬息之间进行灵活的数据探索,快速发现数据价值,并可直接嵌入业务系统为终端客户提供分析服务。 数据集成(Data Integration) 是阿里集团对外提供的可跨异构数据存储系统的、可靠、安全、低成本、可弹性扩展的数据同步平台,为20+种数据源提供不同网络环境下的离线(全量/增量)数据进出通道。 核心解决方案介绍: (一)个性化推荐 根据用户的兴趣特点和购买行为,推荐用户感兴趣的信息和商品。建立在海量数据挖掘基础之上,为用户提供完全个性化的决策支持和信息服务。 业务需求: 1.研发成本高:对于一些中小企业,想做自己的个性化推荐业务,但是不知道如何收集数据,而且搭建和使用算法的成本较高,需要算法团队、算法框架等。 2.推荐效果差:很多时候是企业积累了很多用户数据、用户行为数据,在此基础上尝试做了个性化推荐,但是推荐效果并不好,没有带来实际转化率的提升 3.不断提升效果:为了提升用户粘性和用户留存,需要从各维度进行对比,使用A/B test来确定不同算法的效果,以进一步提升转化率。 典型应用场景: 1.视频网站:短视频推荐通过对视频内容进行分析和特征抽取,向您的用户提供个性化的视频推荐。 2.2.电商网站:电商推荐针对不同偏好的用户提供个性化的商品推荐,新注册的用户和商品上新也能够享受到实时推荐,助力您的企业提升销售额。

最新阿里巴巴现状分析

阿里业务现状介绍 一、阿里业务板块 阿里巴巴是国内最大的电商平台,位列中国互联网巨头“BAT”之一。2017年财年(2016.03~2017.03)收入已达到1583亿元,同比增长57%,5年复合增速51%。 从2017财年起,阿里将其业务分为四大板块: (1)核心电商业务(由国内外的零售、批发电商平台以及营销平台构成); (2)云计算业务(阿里云); (3)数字媒体与娱乐业务(优酷土豆、UC网页等); (4)创新业务及其他(包括YunOS、高德地图、钉钉等)。 核心电商业务目前仍是阿里的主要收入来源,其他业务增长潜力较大。2017财年电商板块的收入为1339亿元,占总营收的85%(2015、2016年财年的占比均在90%以上)。其他业务板块也处于快速的增长期,云计算业务2017财年增长121%至67亿元,数字媒体娱乐业务收入增长271%至147亿元,创新类和其他业务收入增长65%至30亿元。三大潜力业务是阿里生态的重要环节,不仅可以服务于阿里核心电商业务,也有望成为阿里未来收入增长的新引擎。 阿里巴四大业务版块(下图):

阿里起家于电商平台业务,当电商GMV从高速增长向中速增长的过程中,阿里业务需要进一步向横向、纵向两个维度扩张。平台业务模式的核心是数据的掌控。 阿里巴巴向横/纵两个维度成长(下图): 阿里巴巴生态圈(下图): 从本次案例分析,主要着重分析其电商平台-制度成本 交易数据-交易成本 物流对应-物流成本 支付-支付成本 二、阿里的电商业务情况、收入来源及构成 1)GMV及活跃客户情况情况

2017财年,阿里GMV(GMV=1销售额+2取消订单金额+3拒收订单金额+4退货订单金额)约为3.8万亿。2013财年突破1万亿后,GMV年均复合增长率为36.8%。 时至今日,阿里仍然是中国唯一交易总金额超过1万亿的电商平台。 阿里庞大GMV已高度“移动化”:2017财年GMV中79%来自移动端,较2016财年提高了14个百分点。2014财年,移动端GMV突破3000亿元、2017财年接近3万亿,年均复合增长率达110%。 2)活跃用户数及人均消费 2017财年,电商平台的活跃买家总数为4.54亿,近三年的平均复合增长率为21.2%。

建设数据仓库7个步骤

成功实施数据仓库项目的七个步骤 建立一个数据仓库并不是一个简单的任务,不应该由一个人单独完成。由于数据仓库最佳结合了业务惯例和信息系统技术,因此,一个成功的数据仓库实施需要这两方面的不断协调,以均衡其所有的需要,要求,任务和成果。我很乐意与大家分享我在规划和管理任何数据库项目时采用的方法,这些数据库包括交易数据库,数据仓库,和混合型数据库。由于我生活在关系数据库和数据仓库以及用以支撑它们的数据提取,转换和加载(ETL )过程中,所以我会集中在这些领域讨论我的方法。然而,您可以将这些方法扩展到整个栈--OLAP立方体和如报告,特征分析(ad-hoc analysis),记分卡和仪表盘展示之类的信息传递应用。 我不是吃撑了要告诉一个真正的项目经理( PM )如何做他或她的工作,相反,我写的这些是为那些数据库管理员和开发者,他们没有好运气能与有经验的项目经理一起工作;同样也适合这样的IT专业人员,他们被突然要求:“建立一个数据仓库“,并且需要自己扮演项目经理的角色。我的讨论不会是完整的,但我希望这会给您足够的信息来让您的项目球滚起来。 如图1所示,数据仓库项目有3个轨道(tracks):数据轨道,技术轨道和应用层轨道。当您在整理任何数据库项目计划时,我建议您以这三个轨道为模板来管理和同步您的活动。当您向技术决策者( TDMs ) ,商业决策者( BDMs ) ,和所有其他该数据仓库项目参与者讲解您的计划时,您也可以把图1当作一个高级的概要图来使用。 使用一种生命周期管理方法 我鼓励您利用您的组织可以提供的资源,比如设计,开发和部署系统和软件的技术和方法。如果贵公司对于这些工作没有采用任何正式的方法,继续前进吧,您可采用我为我自己的数据库项目开发的7D数据库生

数据仓库建设方案详细

第1章数据仓库建设 1.1数据仓库总体架构 专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。 根据专家系统数据仓库建设目标,结合系统数据业务规,包括数据采集频率、数据采集量等相关因素,设计专家系统数据仓库架构如下: 数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的容: 数据采集:负责从各业务自系统中汇集信息数据,系统支撑Kafka、Storm、Flume

及传统的ETL采集工具。 数据存储:本系统提供Hdfs、Hbase及RDBMS相结合的存储模式,支持海量数据的分布式存储。 数据分析:数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。 数据服务总线:数据系统提供数据服务总线服务,实现对数据资源的统一管理和调度,并对外提供数据服务。 1.2数据采集 专家系统数据仓库数据采集包括两个部分容:外部数据汇集、部各层数据的提取与加载。外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层(ODS);部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1外部数据汇集 专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载子系统等相关子系统,数据采集的容分为实时数据采集和定时数据采集两大类,实时数据采集主要对于各项检测指标数据;非实时采集包括日检修数据等。 根据项目信息汇集要求,列车指标信息采集具有采集数据量大,采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行灵活配置横向扩展。 本方案在数据采集架构采用Flume+Kafka+Storm的组合架构,采用Flume和ETL 工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对问题指标进行预警。具体采集系统技术结构图如下:

企业大数据平台下数仓建设思路

企业大数据平台下数仓建设思路 本文章来自于阿里云云栖社区 摘要:介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。与阿里云大数据数仓结缘介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的 免费开通大数据服务:https://https://www.360docs.net/doc/f313935162.html,/product/odps 介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础架构。2008年加入阿里进入淘宝数据平台部后,他开始接触分布式计算平台Hadoop。 初始时在Hadoop平台上构建数仓主要解决企业内部数据分析的需求,在2010年公司决定对外开放数据后,开始于2011年利用自建的数仓体系支持对外数据产品数据魔方、淘宝指数。后续在平台和产品上不停的丰富数据内容,同时离线和流式两套数据体系支持数据产品。 从2012年开始,之前在Hadoop上的数据体系搬迁到阿里云数加MaxCompute (原ODPS)(原文链接: https://https://www.360docs.net/doc/f313935162.html,/product/odps?spm=5176.100239.blogcont67020.17.8 okFBH),并完成了数据体系的重构,此时介然负责平台基础数据的建设支持全

阿里巴巴数据分析

图一:整体变化时间序列数据图 从图中可以看出: 阿里巴巴的总资产、流动资产、非流动资产2012年~2015年呈现出了明显同步增长趋势;股东权益2012年~2013年减少,2013年~2015年开始大幅增长;营业收入、营业成本、毛利润2012年~2015年增长基本保持稳定,稳中有涨。整体分析: 从资产构成来看,流动资产所占总资产的比重在逐年下降,止2015年为55.63%,而构成流动资产的现金部分占总资产比重则在2014年~2015年开始上涨达到49.33%。通过分析说明尽管阿里巴巴的流动资产占总资产比重下降,但仍高于非流动资产所占比重,在合理范围内。总资产及现金较大幅度的增加表明企业占有的经济资源增加,经营规模扩大,资产流动性增强。

从股东权益变化来看2012年~2013年随着资产的增长,股东权益却呈下降趋势,说明资产的增长主要是来源于负债的增加,而2013年~2015年股东权益的大幅增长可以说明阿里巴巴意识到高负债带来了高风险,转而采取了较稳健的财务政策。 图二:偿债能力时间序列数据图 从图中可以看出: 2012年~2013年资产负债率呈现大幅增长,而从2013年~2015年该比率发生扭转开始平稳下降。 偿债能力分析: 从资产负债率变化的角度来看,该比率在2012年-2013年大幅增加,这可能导致债权人的权益无法得到保障,因为资产负债率越高,说明企业的长期偿债能力就越弱,债权人的保证程度就越弱。而该比率从2013年~2015年的平稳下降说明企业也意识到高债务的严重性并及时采取了相应的行动,进行资产结构优化,从而降低负债带来的企业风险,提高了债权人的保证程度。

百度、阿里、腾讯三巨头开挖大数据

百度、阿里、腾讯三巨头开挖大数据2014-04-14 09:55 罗超 36大数据字号:T | T 实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下,数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时,数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。 AD:51CTO学院:IT精品课程在线看! 概念、模式、理论很重要,但在最具实干精神的互联网领域,行动才是最好的答案。国内互联网三巨头BAT 坐拥数据金矿,已陆续踏上了大数据掘金之路。 BAT都是大矿主,但矿山性质不同 数据如同蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。 百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。 阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。 腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。

下面,就将三家公司的情况一一扫描与分析。 一、百度:含着数据出生且拥有挖掘技术,研究和实用结合 搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。 除了网页外,百度还通过阿拉丁计划吸收第三方数据,通过业务手段与药监局等部门合作拿到封闭的数据。但是,尽管百度拥有核心技术和数据矿山,却还没有发挥出最大潜力。百度指数、百度统计等产品算是对数据挖掘的一些初级应用,与Google相比,百度在社交数据、实时数据的收集和由数据流通到数据挖掘转换上有很大潜力,还有很多事情要做。 2月底在北京出差时,写了一篇《搜索引擎的大数据时代》发在虎嗅。创造了零回复的记录。尽管如此,仍然没有打消我对搜索引擎在大数据时代深层次变革的思考。搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。这几个挑战使得数据正在远离传统搜索引擎。不过,搜索引擎在大数据上毕竟具备技术沉淀以及优势。 接下来,百度会向企业提供更多的数据和数据服务。前期百度与宝洁、平安等公司合作,为其提供消费者行为分析和挖掘服务,通过数据结论指导企业推出产品,是一种典型的基于大数据的C2B模式。与此类似的还有Netflix的《纸牌屋》美剧,该剧的男主角凯文·史派西和导演大卫·芬奇都是通过对网络数据挖掘之后,根据受欢迎情况选中的。

2017阿里巴巴年度零售情况分析

2017阿里巴巴年度零售情况分析

“2017年已划上句号,2018崭新的一年已经开始!根据数据统计显示:2017年阿里中国零售平台GMV规模达46350亿,同比增长30%。其中,天猫跟淘宝网分别达到21090亿及25260亿,同比分别增长43.9%及20%! 数据来源:云观咨询、中商产业研究院整理 受益于中国电子商务的高速发展,阿里巴巴中国零售平台近几年在自身基数已经非常大的情况下GMV还保持着相当不错的增长!并且能在2016年以21%的增幅处于最低谷的时期,还能够快速调整过来并在2017年交出近30%的增长成绩,GMV突破4.5万亿,实在不易! 同期中国社会消费品零售总额2016年约33.23万亿,2017年预估约36.65万亿增长约10.3%,阿里中国零售平台GMV增长领跑社零近3倍,占比社零约12.6%!预测阿里巴巴将在2019年底完成1万亿美元的目标

数据来源:云观咨询、中商产业研究院整理 在2012年1月阿里将原来的淘宝商城正式更名为现天猫的时候,这将注定是中国电子商务尤其是B2C发展历程当中重要的一件大事!同时天猫也迎来了高速发展的黄金时期,五年时间,由2000亿到2万亿规模翻了近10倍! 在2016年短暂的增长低谷后,2017年加紧大力完善菜鸟网络,发力天猫超市等,补足了以往短板的物流板块,从而2017年消费电子及快速消费品等品类得以爆发增长,再加上新零售模式软硬件的进一步完善,线上线下系统等对接的进一步成熟,唤醒了服饰等传统龙头品类的第二春,多方面发力从而拉动了2017年整体44%的增长! 天猫自身体量首次突破2万亿大关,并且占比阿里中国零售平台整体份额由2012年的22.6%升至2017年的45.5%,如不出意外2018年天猫就将占据半壁江山!

数据仓库建设对数据量、硬件、软件的要求

1、不同数据量级别对服务器硬件、软件的要求 (要考虑到数据的双向传输、压力等状况) (我们目前的数量级别是多少?如果考虑到服务明细数据、三年的增量等) 不同数据量级别对服务器硬件、软件的要求:没什么特别要求,只要保证单台数据查询比较快就OK,数据量级别主要是靠横向扩展机器的台数来满足,只要数据是按照最初设计的存储方式来存储,满足我们查询的速度即可; 目前我们数据量单表每天5000左右的量,整个数据库10g左右,未来三年可能是一年2000万的处理量,三年后数据量可能到达上亿条记录,整个数据库35g左右。 2、Oracle数据库对数据量有没有什么限制? 在Oracle中,数据库是由实例和物理存储结构组成的。而物理存储结构是指存储在磁盘上的物理文件,包括数据文件(data file)、控制文件(control file)、联机重做日志(online redo log)、参数文件(spfile/pfile)、警告日志(alert log)、跟踪文件(trace file)等众多作用不同的文件所组成的。我们最关注的数据,则是保存在数据文件(data file)中。那我们在创建以及维护数据库时,该如何规划数据文件的大小和数量呢?这里面涉及较多的考量因素。主要有如下几点: 2.1操作系统的限制 数据库是运行在操作系统之上的,操作系统是基础,因此,操作系统所能支持的最大文件容量和数量就成为数据库所能支持的限制。但不同操作系统之间,这个限制也是不同的。 以下是较为常见的几种操作系统对此的限制: 2.1.1 WINDOWS 最大数据块:16K 最大文件数量:20000个(数据块2K时)/40000个(数据块4K时)/65536个(数据块为8K或16K时)最大文件容量:4GB(文件系统为FAT时)/ 64GB(文件系统为NTFS时) 2.1.2 UNIX和LINUX 最大数据块:32K (LINUX_X86为16K) 最大文件数量:65534个 2.2O RACLE数据库的限制 每个数据库可管理的最大文件数量:65533个

数据仓库建设的几点建议培训资料

数据仓库建设的几点 建议

北京甲骨文软件有限公司咨询经理鲁百年博士 一、国内信息化的现状 1、信息化建设的发展历史: 在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2、为何要建立数据仓库: 前面我们讲过,业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区: 大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以

阿里巴巴大数据创新驱动力

大数据创新驱动力从业务中台到数据中台的进阶

汽车金融电商制造房地产医疗政府科技 新零售业务中台 数据中台 交通 阿里商业操作系统的中台战略

全域新营销 消费者洞察—重构对消费者的认知可识别、可触达、可交互、可沉淀 产品智能生产与组合—柔性供应链定制化“商品”+“内容”+“服务”场的体验与服务—线上与线下打通全渠道对接、用户新体验 数据驱动供应链全渠道销售立体认知 消费者端 全域触达 用户画像 精准营销 需求预测库存优化 商品/供应链端 品类分析定价策略 敏捷制造 流程优化 数据驱动采购 销售预测 智能选址 经销商/零售商端 智能选品智能备货 数字化门店 智能导购助手 全数据中台 全面、统一、融通 业务中台 系统重构与升级 全全渠道数据采集、全域数据中心、全链路业务分析思路与框架 驱动反哺 统通 统一数据埋点采集、统一数据模型、统一数据管理与服务 全域数据的打通与链接、业务全流程的打通与链接 以消费者运营为核心的全域新营销 产销协同一体化—产品IP 线上与线下、场景与消费无缝连接 统通 数据智能驱动的中台业务模式 人货场 业务中台到数据中台的创新驱动

As-Is To-Be 数据中台 打破数据孤岛 数据洞察 沉淀数据资产 赋能业务 促进业务创新 Today 1321 统一了数据认知,避免数据重复使用产生数据标准化 ?打破企业内信息孤岛,建设全域数据中心, 2 的错误及成本浪费 数据服务化 ?数据业务化,通过数据洞察指导业务决策 及创新 3 企业统一管理。为数据服务化提供基础支数据资产化 ?统一采集、建模后,形成资产积累,便于 4形成数据大P 脑 MO Services 4持。 数据智能化 ?通过智慧算法训练数据细胞,形成智慧大 脑,预先洞察未来。 数据中台:业务数据化,数据资产化,数据智能化

数据仓库在我国企业的应用现状及实施策略分析

广西科学院学报 2006,22(4):375~377 Journal of GuangxiA cade m y of Sciences V ol .22,N o .4 N ove m ber 2006收稿日期:2006209212 作者简介:何朝红(19652),女,广西南宁人,硕士,主要从事供应链管理和物流信息化研究。 数据仓库在我国企业的应用现状及实施策略分析 On the Appl i ca ti on of Da t a W arehouses i n Ch i n ese En -terpr ises 何朝红 H E Chao 2hong (广西物资集团总公司,广西南宁 530022) (Guangx iM aterials Group Corp .,N ann ing ,Guangxi ,530022,Ch ina ) 摘要:分析数据仓库在我国企业中的应用现状。认为目前我国企业数据仓库的应用主要存在对数据仓库的概念理解不深,对项目的长期性、艰巨性认识不足,数据库系统中数据的积累不够,用户没有参与数据仓库建设的需求分析,项目实施过程中的管理混乱,具体实现中的技术问题尚未完善等问题。企业应从确定建立数据仓库的合适时机,选择切合实际的实施方法,取得最高管理层的支持和认可,确定基本目标、量化预期收益,选择正确的设计思路,选择合适的合作伙伴等6个方面应用数据仓库技术。关键词:数据仓库 应用 问题 策略 中图法分类号:T P 311113 文献标识码:A 文章编号:100227378(2006)0420375203 Abstract :T he app licati on of data w arehouses in Ch inese enterp rises is discussed .T he p roble m s in the app licati on are revealed as fo ll ow s .T he data w arehouse can not be fully understood .T he l ong ter m and hardness of the p roject runn ing are neglected .T here are less data accum ulated in the data w arehouse .T here is lack of users partici pating in the de m and analysis of the data w are 2house establishm ent ,and poor m anage m ent in the i m p le m entati on of the p ro ject .T he technical p roble m s have not been i m p roved in the operati on of the data w arehouse .T he relevant sugges 2ti ons are p resented .For the p roject to be supported ,it needs to choose a correct ti m e and a p rag 2m atic executi on w ay to construct a p ro ject ,set up an essential goal ,m easure the expecting bene 2fits ,and select a suitable partner . Key words :data w arehouse ,app licati on ,p roble m s ,strategy 近年来,计算机网络和数据库技术的迅速发展和广泛应用,使得企业管理进入了一个崭新的时代,企业的许多业务得到了联机事务处理(OL T P )信息系统的支持。然而,随着市场竞争的加剧,正确及时的决策成为企业生存和发展的重要环节。特别是随着数据库系统的逐日运行,产生了大量的业务数据,如何安全有效地存储和管理这些数据,并从大量繁杂的数据中获取其中有用的决策信息,为高层管理人员提供快速、准确和方便的决策支持,成为目前企业提高管理水平和竞争优势必须解决的问题。数据仓库(D ata W arehouse )技术的产生和发展,为这个问题的解决提供了有效的理论和方法指导。 数据仓库是20世纪90年代初出现的数据管理的 新技术,到20世纪90年代中期已在发达国家的许多行业中得到应用[1]。建立数据仓库的目的,就是把来自企业内部和外部的大量异构数据按辅助决策主题的要求进行加工、集成,为高层管理人员提供各种类型的、有效的数据分析,起到决策支持的作用。因此,数据仓库已经成为继Internet 之后的又一技术热点。 1 数据仓库在我国企业的应用现状 随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断发展,数据仓库技术也在不断完善,并在实际应用中发挥了越来越大的作用。据美国国际数据公司(I D C )调查,使用数据仓库技术的投资回报率(RO I )平均超过400%,平均回报时间 为2~3年;若从部门级数据仓库(也称“数据集市”)开始实施,则投资回报率平均超过500%[2]。 目前,在美国,30%到40%的公司已经或正在建

阿里大数据之战

龙源期刊网 https://www.360docs.net/doc/f313935162.html, 阿里大数据之战 作者:郭夏星葛欣 来源:《经济视野》2015年第03期 【摘要】21世纪的第二个十年已经获得和新技术提供的数据量有关的多个巨额标签:“大数据” (CORDIS,2010; Manyika, 2011; ORT, 2011)、“数据爆炸” (Miller, 2010)和“数据洪水”(Swanson,2007)。“大数据”正改变着我们的工作能力。本文将通过阿里巴巴十年“大数据之路”,解析IT企业中大数据的应用。 【关键词】大数据时代阿里巴巴 大数据产生于现代信息大量冲击的背景下,具有非凡新颖的用途。事实上,全球商业巨头早已意识到了数据的重要意义: ZARA规定每个店铺经理要用平板电脑收集客户信息与建议 等海量数据,为生产销售决策提供意见,大大降低存货率;农夫山泉2011年引入数据库平台SAP Hana,加强数据分析能力;阿迪达斯基于外部环境、消费者调研和门店销售数据的收 集、分析,挖掘细分市场,促进战略转型—由批发转为零售;还有搜狗热词、微博热门排行榜等,无一不在显示大数据带来的商机。本文以阿里巴巴为例,解析IT企业中大数据的应用。 一、阿里巴巴十年数据路 数据和信用体系堪称阿里最独特的地方,这也是其有望实现爆发的关键。阿里巴巴十年数据建设最早可以追溯到2003年。2003年5月,阿里集团用一亿元人民币建立个人网上贸易市场平台——淘宝网。2004年10月,创建支付宝公司,推出起中介作用的安全交易服务。公司业务做大,海量数据涌来,阿里“淘数据”应运而生。随后,阿里相继推出“数据门户”、“数据 魔方”,进行了初步的数据开放,为2012年“聚贤塔”产品发布奠定基础。至此,阿里正式宣布“数据”、“平台”、“金融” 三步走战略。阿里运用大数据,具体包括以下几个方面。 1、提高数据精度,去粗取精 阿里巴巴是中国最大的、世界第二大网络公司。其数据量之大,已经没有公司能够给它提供相关数据业务,因此阿里开始了自行开发之路。从“淘数据”起步,阿里将淘宝每天的交易量、用户支付金额、年龄、购买时段等进行简单收集,随着数据数量、种类愈渐繁杂,阿里将传统存储系统扩展为Hadoop数据库存储。 数据一旦庞大,精度问题就成为关注点。稍微的偏差是可以被容忍的,但我们要呈现的是更为真实的数据,净化数据质量就是首要任务。因而阿里相继开发了多种数据软件,尤其“聚宝塔”出现,为其提供数据存储和数据云计算服务。云计算会成为下一代互联网经济的基础设施。这种分析方法拨开了表面,看到最原始的数据。 2、扩宽数据广度,海纳百川

数据仓库建设方案-2018-3-28

数据仓库建设 商务智能(Business Intelligence)用于支持制定业务决策的技能、流程、技术、应用和实践。核心是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,帮助企业了解新的趋势、抓住新的市场机会、发现潜在的威胁,达到资源的合理配置,节约成本提高效益。数据仓库是商业智能的基础,它为OLAP、数据挖掘提供分析和决策支持。 一、数据仓库概念 1.数据仓库定义 是一个面向主题的、集成的、相对稳定的、反映有有历史变化的数据集合,用于支持管理决策。具有以下特点: ●详细交易及相关业务数据的集合 ●包含必要的内部与外部信息 ●来自于多个数据源、业务操作系统 ●保存一定的时间周期 ●按照企业内业务规则决定存储模型 2.建设的必要性 目前大多数信息系统由于建设时间、建设方、各阶段需求不同,会出现一系列问题:缺乏整体规则、信息缺乏完整性、缺乏统一的信息管理标准和规范、信息孤岛、不具备大容量的数据管理和分析能力。

3.价值 ●提高管理决策的科学性和管理效率 ●信息的整合,可推动现在有信息管理体系的重构 ●打通信息孤岛全局共享,降低数据获取的难度 ●逐渐取代各类业务管理报表系统 ●运用历史数据发现规律 二、数据仓库建设 1.业务需求定义 梳理出所有业务过程,分析业务内容提取需求,对其相关的数据进行探查,并对各系统核心业务人员访谈,准确的了解业务需求情况,近期调研 2.技术体系结构 生命周期图 技术架构图:

3.数据仓库数据建模 数据模型是抽象描述现实世界的一种方法,是通过抽象的实体及实体之间的联系来表示现实世界中事务的相互关系的一种映射,数据仓库模型是数据模型中针对特定的数据仓库应用系统的特定模型。数据仓库建模方法种类较多,常见的三种是范式建模、维度建模、实体建模,每种方法本质上都是从不同的角度解决业务中的问题。 关于数据仓库建模单独用一篇来详细介绍,这儿仅对维度建模做基本的介绍,维度建模由数据仓库领域另一位大师Ralph Kimall所倡导,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,

相关文档
最新文档