淘宝大数据案例
生活中的大数据应用案例

生活中的大数据应用案例那我可就开始讲啦!一、购物平台的“猜你喜欢”你有没有发现,当你在淘宝或者京东上逛了一圈,看了些衣服或者电子产品啥的,下次再打开这个APP的时候,首页就会给你推荐好多类似的东西。
这就是大数据在起作用啦。
比如说你看了好几件复古风格的连衣裙,大数据系统就会分析你的浏览记录,发现你对复古风的衣服感兴趣。
然后它就会在后台从海量的商品里筛选出那些复古风格的连衣裙、复古的包包、复古的鞋子等等推荐给你。
就好像有个特别懂你的小助手,知道你心里在想啥似的。
我有个朋友,她特别喜欢动漫周边。
有一次她在一个购物平台上买了个火影忍者的手办,之后那平台就老给她推荐各种火影忍者的T恤、手机壳、钥匙链之类的。
她虽然嘴上说被看透了有点“恐怖”,但每次看到那些推荐的新周边还是忍不住点进去看,有时候还会再买点啥呢。
二、短视频平台的个性化推荐。
抖音、快手这些短视频平台那更是把大数据用到了极致。
你刚注册的时候,可能会给你推荐一些比较热门的视频,像搞笑段子、热门舞蹈啥的。
但是当你开始关注一些美食博主,点赞了几个做蛋糕、做红烧肉的视频之后,你就会发现你的推荐页面慢慢就被各种美食视频占领了。
我自己就有这样的经历。
我有段时间对宠物很感兴趣,就点赞了一些猫猫狗狗的可爱视频。
结果接下来好长一段时间,我一打开抖音,全是各种萌宠的视频,什么二哈拆家的搞笑瞬间、小奶猫撒娇的可爱模样。
感觉就像是抖音知道我掉进了“宠物坑”,一个劲儿地给我投喂我想看的东西。
这就是大数据根据我的喜好行为来给我定制的专属视频流,让我能一直刷到自己感兴趣的内容,根本停不下来。
三、导航软件的路况预测。
像高德地图、百度地图这样的导航软件也是大数据的“重度使用者”。
你开车或者坐车的时候打开导航,它不仅能给你规划从A地到B地的路线,还能告诉你哪条路堵,哪条路畅通。
这是怎么做到的呢?就是靠大数据收集了大量车辆的行驶信息。
比如说有很多车都在一条路上开得很慢,导航软件就能判断出这条路可能是堵车了。
大数据金融案例

大数据金融案例【篇一:大数据金融案例】如今,金融业面临众多前所未有的跨界竞争对手,市场格局、业务流程将发生巨大改变,企业更替兴衰;未来的金融业,业务就是it,it??就是业务;金融业将开展新一轮围绕大数据、移动化、云的it??建设投资。
本节主要介绍金融行业大数据的应用案例,希望对读者有一定的启发和学习价值。
【案例一】淘宝网掘金大数据金融市场随着国内网购市场的迅速发展,淘宝网等众多网购网站的市场争夺战也进入白热化状态,网络购物网站也开始推出越来越多的特色产品和服务。
1.余额宝以余额宝为代表的互联网金融产品在2013??年刮起一股旋风,截至目前,规模超1000亿元,用户近3000??万,如图所示。
相比普通的货币基金,余额宝鲜明的特色当属大数据。
以基金的申购、赎回预测为例,基于淘宝和支付宝的数据平台,可以及时把握申购、赎回变动信息。
另外,利用历史数据的积累可把握客户的行为规律。
余额宝手机端界面2.淘宝信用贷款淘宝网在聚划算平台推出了一个奇怪的团购“商品”——淘宝信用贷款。
开团不到10??分钟,500??位淘宝卖家就让这一团购“爆团”。
他们有望分享总额约3000??万元的淘宝信用贷款,并能享受贷款利息7.5??折的优惠。
据悉,目前已经有近两万名淘宝卖家申请过淘宝信用贷款,贷款总额超过14??亿元。
淘宝信用贷款是阿里金融旗下专门针对淘宝卖家进行金融支持的贷款产品。
淘宝平台通过以卖家在淘宝网上的网络行为数据做一个综合的授信评分,卖家纯凭信用拿贷款,无需抵押物,无需担保人。
由于其非常吻合中小卖家的资金需求,且重视信用无担保、抵押的门槛,更加上其申请流程非常便捷,仅需要线上申请,几分钟内就能获贷,被不少卖家戏称为“史上最轻松的贷款”,也成为淘宝网上众多卖家进行资金周转的重要手段。
3.阿里小贷淘宝网的“阿里小贷”更是得益于大数据,它依托阿里巴巴(b2b)、淘宝、支付宝等平台数据,不仅可有效识别和分散风险,提供更有针对性、多样化的服务,而且批量化、流水化的作业使得交易成本大幅下降。
淘宝商城营销案例分析

三只松鼠的营销策略主要围绕品牌形象、产品品 质、用户体验、营销活动四个方面展开。
1. 品牌形象
三只松鼠通过塑造可爱、活泼、亲切的形象,提 升品牌认知度和好感度。
2. 产品品质
三只松鼠注重产品研发和品质控制,提供健康、 美味的休闲食品。
三只松鼠的营销策略与实施过程
3. 用户体验
三只松鼠通过优化购物流程、提供便捷的售 后服务等方式,提升用户体验。
1. 通过淘宝直通车、钻石展位等平台进行广告推 广;
2. 与知名时尚博主和模特合作,进行品牌宣传和 推广;
茵曼女装的营销策略与实施过程
3. 定期举办促销活动,如满减、折 扣等,吸引消费者购买;
VS
4. 开设线下实体店,增强消费者体 验和品牌认知度。
茵曼女装的营销策略与实施过程
实施过程
1. 策划和准备阶段:进行市场调研、确定营销策略和具体实施方案;
茵曼女装的营销效果评估与启示
营销效果评估
通过以下指标对茵曼女装的营销效果进行 评估
1. 销售额
茵曼女装的销售额在营销活动期间得到了 显著提升;
2. 客户数量
茵曼女装的客户数量也得到了明显增加;
茵曼女装的营销效果评估与启示
3. 品牌知名度
茵曼女装的品牌知名度得 到了提升;
4. 客户满意度
茵曼女装的客户满意度也 得到了提高。
价格策略
淘宝商城的价格策略主要是低价和折扣,通过提 供具有竞争力的价格吸引消费者。此外,淘宝商 城还通过会员制度和积分体系等方式,提供更多 的优惠和回馈。
渠道策略
淘宝商城的渠道策略主要是线上销售,通过自有 网站和移动应用程序提供服务。同时,淘宝商城 还通过与实体店合作,提供线下体验和线上购买 的服务。
大数据分析揭示市场需求动态以淘宝为例进行分析

大数据分析揭示市场需求动态以淘宝为例进行分析随着互联网的普及和电商平台的迅速发展,消费者购物行为发生了巨大的变化。
作为中国最大的电商平台之一,淘宝集结了海量的商品和消费者数据,这些数据蕴含着丰富的市场需求动态信息。
通过大数据分析,我们可以深入洞察消费者的购买行为和喜好,进而揭示市场需求的动态演变。
第一部分:淘宝的用户基础和数据情况淘宝作为中国最大的电商平台,拥有庞大的用户基础和海量的交易数据。
根据公开数据显示,截至2020年底,淘宝的活跃用户已经超过8亿,日均PV超过300亿。
这些用户在淘宝平台上进行着各类商品的购买和交易,每一次交易都会生成大量的交易数据。
第二部分:通过大数据分析揭示市场需求动态的方法1. 用户行为数据分析淘宝平台记录了用户在平台上的所有行为数据,如搜索、浏览、收藏、加购物车、购买等,通过对这些行为数据的分析,我们可以了解用户的兴趣和购买意向。
例如,根据用户的搜索关键词和频次,可以得知用户对某一类商品的需求量和热门程度。
2. 用户画像分析通过淘宝的用户画像功能,可以对用户进行精细化分析,了解他们的性别、年龄、地域、购买偏好等信息。
根据这些用户画像数据,可以进行更准确的市场需求分析和产品推荐。
3. 评论数据分析淘宝上的商品评论反映了消费者对商品质量、售后服务等方面的评价,通过分析评论数据,我们可以了解消费者对某一类商品的满意度和不满意之处,进而对市场需求进行更精准的判断。
第三部分:以淘宝为例的市场需求动态分析1. 商品品类热度分析通过淘宝平台上的商品数据,我们可以了解不同商品品类的热度和销售情况。
根据商品的销量、收藏量、搜索量等指标,可以判断出哪些品类是当前市场的热门需求,从而指导企业的产品策略和市场定位。
2. 地域需求分析淘宝平台可以精确记录用户的地理位置信息,通过分析用户地域分布与购买行为的关系,可以了解不同地区的消费偏好和需求差异。
例如,北方地区消费者可能对保暖服饰的需求更高,而南方地区消费者对夏季清凉产品的需求更为旺盛。
网络销售模式案例分析

网络销售模式案例分析案例一:淘宝网络销售模式分析背景:淘宝是中国最大的网络零售平台之一,以电商交易为主要业务,拥有大量的卖家和买家。
在淘宝上,卖家可以开设自己的网店并展示商品,买家可以在平台上浏览和购买商品。
案例分析:1. 买家选择商品:在淘宝上,买家可以浏览各个店铺的商品,通过搜索引擎或者分类目录找到需要的商品。
卖家通过商品标题、图片和描述等信息吸引买家注意。
买家可以通过查看商品详情和评价来判断商品的质量和信誉。
2. 线上支付:当买家确定购买商品后,可以选择支付方式进行付款,如支付宝、微信支付等。
淘宝为买家提供多种支付方式,并保证支付的安全性和可靠性。
3. 物流配送:卖家在确认收款后,通过淘宝平台和合作物流公司进行物流配送,买家可以选择快递方式和送货地址。
淘宝提供物流查询功能,买家可以随时查询包裹的状态。
4. 售后服务:如果买家对商品不满意或者出现质量问题,可以联系卖家进行退换货。
淘宝平台提供买家与卖家之间的沟通渠道,促进双方的沟通和解决问题。
5. 评价和信誉机制:买家可以对购买的商品和卖家进行评价,这些评价可以帮助其他买家判断购买的可靠性和商品质量。
卖家的信誉评级在淘宝平台上也会显示,买家可以参考卖家的信誉等级来判断卖家的可信度。
6. 促销活动:淘宝经常举办各种促销活动,如双11购物节、618购物狂欢等,吸引买家参与购物。
卖家可以通过参与促销活动来提高自己的销量和知名度。
结论:淘宝通过线上平台搭建了一个完整的购物流程,为买家和卖家提供了方便、快捷和安全的购物和交易环境。
淘宝的成功在很大程度上得益于其强大的网络销售模式和良好的用户体验。
续写:7. 数据分析和精准推荐:淘宝利用大数据分析技术对买家的行为数据进行分析,了解买家的购物偏好和需求,从而为其提供更加精准的推荐商品和优惠活动。
通过个性化推荐,淘宝可以增加买家的购买欲望和购物体验。
8. 社交化销售:淘宝通过引入社交元素,使得买家与卖家之间可以直接互动,分享购物心得和交流需求。
大数据营销侵权的典型案例

大数据营销侵权的典型案例大数据营销是收集和分析平台数据以获得相关用户的某些特征,然后以一定程度的针对性,精确性和个性化的营销策略。
因此,使用大数据进行销售的公司已成为主流。
为此,亿信华辰将与您分享一些大数据营销案例!大数据营销案例一:云南白药“大数据+明星”品牌营销2017年6月,云南白药牙膏官方旗舰店在淘宝上开业,为了让公众得到这个信息,提高品牌知名度和知名度,云南白药和阿里开展了大数据技术,明星效应和跨界宣传的开放营销。
对于许多刚开业的在线商店来说,短期的品牌曝光和销售冲动可能是开业非常普遍的目的。
对于云南白药而言,不同之处在于,它致力于通过在线上的营销来打开品牌。
并以“长期市场优势的沉淀”作为目标,因此与阿里的合作主要集中在品牌形象的创造和传播上,以获得长期的品牌效应。
为了实现这一目标,云南白药基于品牌特征和产品优势,主要利用阿里的生态平台和大数据技术来收集和分析淘宝用户,包括用户搜索,浏览,点击,购买和共享。
深入了解此类行为,了解淘宝用户的使用习惯和偏好,并根据用户年轻化的主要特征,结合云南白药的特点,策划了将明星粉丝转变为店铺粉丝的营销理念,明星粉丝该小组并进一步针对两位明星代言人黄晓明和井柏然的粉丝组织了营销互动活动。
为了激发两个明星粉丝团体的参与和互动热情,云南白药和阿里开展了一项活动,以帮助偶像在淘宝上成为头条新闻,通过PK增强粉丝和品牌之间的互动。
该活动一出,就取得了非常好的成绩。
在短短的几天内,它吸引了成千上万的粉丝积极参与,迅速将超过30万的粉丝带到了旗舰店,并在短时间内获得了很高的评价以及品牌知名度。
此后,云南白药还与广受欢迎的网络剧《春风十里不如你》的原作者冯唐进行了跨界知识产权营销,推出了春风十里的主题套装。
除了与淘宝网用户进行巧合程度的数据收集和分析外,它还在其他一些平台上进行了相应的重合度抓取,整合了这些资源,并设计了一套IP媒体矩阵。
这样,云南白药牙膏成功实现了销售额的大幅增长。
淘宝取得成功的原因:利用大数据分析用户行为习惯和趋势,提高商品销售率

淘宝取得成功的原因:利用大数据分析用户行为习惯和趋势,提高商品销售率从成立至今,淘宝已成为全球最大的在线交易平台之一,其成功的原因可以归结于其利用大数据分析用户行为习惯和趋势来提高商品销售率。
在这篇文章中,我们将探讨淘宝如何利用大数据来帮助其实现商业成功,以及大数据如何改变了淘宝的商业模式。
一、淘宝的大数据分析策略淘宝有着强大的数据分析能力,它利用这些数据来帮助商家更好地了解市场,更好地了解用户需求。
淘宝的数据主要来自三个渠道:第一,淘宝系统内部的交易记录和用户行为数据;第二,支付宝系统内部的用户消费和转账数据;第三,淘宝平台外的其他数据源,比如互联网上的搜索引擎数据和社交媒体数据等。
淘宝将所有这些数据汇集起来,并通过大数据算法进行分析和挖掘。
它不仅能够识别出用户的兴趣爱好和购物习惯,还能够跟踪用户在平台上的行为,并通过数据预测和推荐算法来预测用户的购买意愿。
通过这些方法,淘宝能够精准地定位用户需求并为其推荐最符合其需求的商品,从而提高商品的销售率。
二、数据分析对淘宝的商业模式的影响数据分析在淘宝的商业模式中起着非常重要的作用。
淘宝通过数据分析来快速了解用户需求和市场趋势,从而能够及时地调整自己的营销策略和产品定位。
同时,淘宝还能够利用数据来预测未来市场需求,以便提前做好准备。
通过对商品销售数据的分析,淘宝能够及时发现并解决潜在的问题,从而提高用户的满意度。
另外,通过数据分析,淘宝还能够不断改进其交易平台和商品管理系统,提高其效率和精准度。
三、淘宝大数据分析的应用案例1.商品推荐引擎淘宝的商品推荐引擎使用的是基于用户兴趣、行为和历史购买记录等数据的推荐算法。
通过这种方式,淘宝能够推荐最符合用户需求的商品,并将其展现在用户的首页上。
这种个性化推荐有助于提高用户的购买意愿和销售率。
2.店铺经营分析淘宝将店铺的经营状况进行系统化分析,对店铺的销售、商品售出时间、支付等数据进行监测。
针对这些数据,淘宝可以通过数据分析得出更精细化的营销策略,提高店铺的经营效率。
阿里巴巴农村淘宝分析报告及县域电商农村电商案例分析

电子商务发展
7
县域电商形势
电子商务发展
8
县域电商形势 买不到、价格高、多人用
电子商务发展
9
县域电商形势
电子商务发展
10
电子商务发展
县域电商形势 县域电商兴起! 176个县长不约而同去了阿里巴巴。
11
电子商务发展
农村电商市场前景具有明显的广阔性 阿里巴巴的数据表明:过去三年,淘宝农村消费占比不 断提升,从2012年第二季度的7.11%上升到了2014年第一 季度的9.11%。
16
电子商务发展
2014年电商大事件 u2014年3月10日,京东宣布与腾讯建立战略合作伙伴关系,腾讯购买京东251,678,637股普通 股,占京东上市前在外流通普通股的15%,腾讯将向京东支付2.146亿美元。并将QQ网购、拍 拍的电商和物流部门并入京东。
17
电子商务发展
2014年电商大事件 u微信从0到1亿用户用时14个月时间;用1亿到2亿用户,用时6个月时间;从2亿到3亿用户用时 4个月时间,截止2013年用户数突破6亿,活跃客户达到2.7亿。 u2014年是微商发展最迅速的一年,下半年微商迅速火爆。所谓微商,移动端上进行商品售卖 的小商家。
31
成功案例
32
成功案例
赵海伶:一个人改变一群同学
33
成功案例
赵海伶:一个人改变一群同学
19
电子商务发展
2014年电商大事件—上市热潮
u5月22日,京东正式登陆纳斯达克,发行价为19美元,融资17.8亿美元,加上腾讯的5%投资
,京东的整体融资额达到30亿美元。
20
电子商务发展
2014年电商大事件—上市热潮
u9月19日,阿里巴巴于美国时间在纽交所正式挂牌交易,股票代码“BABA”,IPO发行价敲定
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
淘宝大数据案例【篇一:淘宝大数据案例】【编者按】近两年,“大数据”这个词越来越为大众所熟悉,“大数据”一直是以高冷的形象出现在大众面前,面对大数据,相信许多人都一头雾水。
下面我们通过十个经典案例,让大家实打实触摸一把“大数据”。
你会发现它其实就在身边而且也是很有趣的。
马云说:互联网还没搞清楚的时候,移动互联就来了,移动互联还没搞清楚的时候,大数据就来了。
近两年,“大数据”这个词越来越为大众所熟悉,“大数据”一直是以高冷的形象出现在大众面前,面对大数据,相信许多人都一头雾水。
下面我们通过十个经典案例,让大家实打实触摸一把“大数据”。
你会发现它其实就在身边而且也是很有趣的。
啤酒与尿布全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。
没想到这个举措居然使尿布和啤酒的销量都大幅增加了。
如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。
数据新闻让英国撤军2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。
将伊拉克战争中所有的人员伤亡情况均标注于地图之上。
地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。
密布的红点多达39万,显得格外触目惊心。
一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。
意料之外:胸部最大的是新疆妹子淘宝数据平台显示,购买最多的文胸尺码为b罩杯。
b罩杯占比达41.45%,其中又以75b的销量最好。
其次是a罩杯,购买占比达25.26%,c罩杯只有8.96%。
在文胸颜色中,黑色最为畅销。
以省市排名,胸部最大的是新疆妹子。
qq圈子把前女友推荐给未婚妻2012年3月腾讯推出qq圈子,按共同好友的连锁反应摊开用户的人际关系网,把用户的前女友推荐给未婚妻,把同学同事朋友圈子分门别类,利用大数据处理能力给人带来“震撼”。
“魔镜”预知石油市场走向如果你对“魔镜”还停留在“魔镜魔镜,告诉我谁是世界上最美的女人”,那你就真的out了。
“魔镜”不仅仅是童话中王后的宝贝,而且是真实世界中的一款神器。
其实,“魔镜”是苏州国云数据科技公司的一款牛逼的大数据可视化产品,而且是国内首款喔。
在现在,“魔镜”可以通过数据的整合分析可视化不仅可以得出谁是世界上最美的女人,还能通过价量关系得出市场的走向。
在不久前,“魔镜”帮助中石等企业分析数据,将数据可视化,使企业科学的判断、决策,节约成本,合理配置资源,提高了收益。
【篇二:淘宝大数据案例】在这个时代能够存活下来的,不是最强大的企业,而是能够随环境变化而迅速做出调整的企业。
很多人有这样的体验。
有一天在一个b2c商城选剃须刀,发现没有合适的。
第二天。
上其他新闻网站的时候,看到了很多这类产品的推荐广告,又忍不住去点击浏览,甚至购买。
这项反复跟踪推荐的技术,就是营销公司开发的所谓到访定位技术,针对目标用户进行再次营销,其精准的效果要大大好于其他定向技术。
而这背后则是在起作用,将数据运用于营销正改变着传统传播方式和消费者洞察方式。
2013年是爆发年,作为以数据和技术为驱动力的互联网营销,大数据将为其带来巨大的应用价值,也会在广告营销层面上帮助企业做得更好。
无论是百度、腾讯还是淘宝、新浪,每个平台上都有海量的数据,即便是一个单一的媒体平台,其数据也反映着网民的各种行为,例如百度的平台上呈现的是网民的各种与搜索有关的行为,而淘宝上则显示着网民的购买行为,新浪的平台上则可以看到网民的阅读行为。
从商业本质上说,营销的过程就是就是满足需求、提供价值、完成交易实现利润的过程,互联网的迅速发展,改变了消费者的消费模式和行为习惯,也飞速改变着传统的商业模式,这是最好的时代,这是最坏的时代,狄更斯的这句话,用在今天再合适不过。
巨变是这个时代的特点,在这个时代能够存活下来的,不是最强大的企业,而是能够随环境变化而迅速做出调整的企业。
而要调整的,最重要的是一种思维模式。
在大数据时代之前,企业多从哪些平台提取数据、提取哪些营销数据呢?一般是crm或bi系统中的顾客信息、市场促销、广告活动、展览等结构化数据以及企业官网一些数据。
但这些信息只能达到企业正常营销管理需求的10%的量能,并不足够给出一个重要洞察和发现规律。
而其他85%的数据,诸如社交媒体数据、邮件数据、地理位置、音视频等这类不断增加的信息数据,和包括数据量更大、逐渐广泛应用、以传感器为主的物联网信息,以及风起云涌的移动3g互联网信息等,这些就是大数据所指的非结构性或者叫作多元结构性所需的数据,它们更多以图片、视频等方式,几年前可能被置之度外不会被运用,而今大数据能进一步提高算法和机器分析的作用,这类数据在如今竞争激烈的市场日显宝贵、作用突出,并能被大数据技术所充分挖掘、运用。
但目前,虽然大数据展示了非凡的前景和巨大作用,不过,大数据营销仍面临不少问题与挑战。
首先面临的是技术难题,毕竟大数据技术尚处于活跃前期,各方面技术并不太扎实,各项工具需要进一步完善。
但实际情况是,真正启动大数据营销,你面临的不仅仅是技术和工具问题,更重要的是要转变经营思维和组织架构,来真正地挖掘那座数据金矿。
【篇三:淘宝大数据案例】图1 数据仓库平台发展三个阶段第一个阶段:rac时代2008年前的单节点oracle,这个时候还称不上数据仓库,只能承担简单的数据处理工作,也基本上没有数据仓库架构,随着业务的飞速发展,很快单节点的oracle因无扩展能力,计算存储能力就应付不了了;2008年之后,为了应对日益增长的数据量,rac集群应运而生,从一开始的4个节点逐步发展到20个节点,成为当时号称全球最大的rac集群,在oracle官网上也作为了经典案例,rac集群当时不管在稳定性、安全性、存储能力还是计算能力都表现非常优秀,随之而来第一代数据仓库架构也逐步形成;这个阶段数据的etl过程主要通过oracle的存储过程实现,大量的sql脚本任务运行在集群上,任务运行的调度过程是通过crontab来进行控制管理,随着任务数的不断增长,这时面临最大的问题是如何保证这成千上万的脚本每天是正常运行,出错后如何及时发现解决,这在当时天天困扰着开发,一直处于每天救火的状态,也就是这个时候,为了解决这个难题,数据团队开始自主研发调度系统,并将之命名为天网调度系统,形成了如下第一代调度系统的架构和原型:图2 天网调度系统架构图3 天网调度系统原型第二个阶段:hadoop时代调度系统的上线很好的解决了每天救火的状态,但是好景不常在;2008年,淘宝b2c新平台淘宝商城(天猫前身)上线;2009年,淘宝网成为中国最大的综合卖场;2010年1月1日淘宝网发布全新首页,此后聚划算上线,然后又推出一淘网;业务的飞速发展给数据带来的挑战,就是每天处理的数据量也在不断的翻倍,首先碰上瓶颈的是rac集群针对网站的访问日志数据已经搞不定了,rac集群虽然有一定的扩展能力,但是无法无限制的线性扩展,并且扩容就意味着高昂的机器成本和软件成本,为了应对日益增长的数据量,2009年数据团队开始探索新的技术领域,同时探索应用了两个方向的技术:greenplum 和 hadoop,主要的场景就是用来解决海量的日志数据,hadoop因其良好的线性扩展能力,并且是开源的系统,能够基于官方版本二次开发适合淘宝的特性功能,逐渐占据了优势; 2010年初,最终确定放弃greenplum和rac,全面使用hadoop,也就是这个时候我加入了淘宝数据团队,之后不久数据团队启动了去o项目,整个数据团队历经一个多月时间,风风火火将所有rac 上的存储过程,改写成hive和mr脚本,并将所有的数据都搬到了hadoop上,hadoop集群命名为云梯1,形成了hadoop时代的数据仓库架构,如下图4:图4 云梯1数据仓库架构进入2010年底,数据应用场景越来越多,2010年底发布了量子统计(淘宝官方版),2011年4月1日淘宝发布了数据魔方,将数据对外进行开放,广告和搜索团队也大量将数据应用到业务系统中,对内的淘数据产品也越来越成熟,数据的大量应用,带来的一个问题是如何保证数据的准确性和稳定性,需要从数据采集到数据加工及最终的数据应用全流程的保障;这时第一个环节就碰到了问题,数据同步,业务系统有各种各样的数据源,oracle、mysql、日志系统、爬虫数据,当时有多种同步的方式,有通过shell脚本的、也有通过jdbcdump的、还有别的方式,当时负责数据同步的同学,最痛苦的事情莫过于,业务系统进行数据库变更时,各种同步任务需要不断的调整,每次调整几百个任务极其容易出错,当时为了解决数据同步的问题,数据工具团队开始研发专门的同步工具datax,也就是现在同步中心的前身,同时还研发了针对db的实时同步工具dbsync和针对日志的tt,现在统一叫tt,如图5:图5 云梯1数据同步工具天网调度系统也不断进行完善,开始支持小时调度、甚至分钟调度,并且集成了自动告警等一系统功能,升级为在云端,相关的dqc系统、数据地图、血缘分析等周边系统在这个时期不断推出,数据团队也不在断壮大。
在这期间,双十一网购狂欢节的影响力不断放大,已成为中国电子商务行业的年度盛事,并且逐渐影响到国际电子商务行业,不断刷新的成交记录刺激着所有人的神经。
这时为了直观的提供第一线的数据给到决策层,产生了数据直播间的数据应用,需要活动当天及统计相关的数据,2013年前,采用的方式都是基于hadoop一个小时计算一次的方式进行数据计算,数据存在一定的延迟性,从2013年开始,数据团队开始投入研发实时计算平台,也就是现在的galaxy,并在当年的双11上线了第一个应用,双11数据直播间实时版本。
第三个阶段:maxcompute(原odps)时代就在hadoop大量应用的同时,另外一个项目正在悄悄进行,那就是阿里云团队自主研发的odps系统,odps所有的代码都由阿里自己完成,在统一、安全、可管理、能开放方面相比于hadoop做了大量的完善,odps系统命名为云梯二,从2010年开始,在很长一段时间内,一直处于云梯一和云梯二并存的状态;这期间,集团为更好的打造数据生态,成立了cdo,统一数据平台事业群,专门投入研发大数据平台的相关工具,包含计算存储平台、周边的调度系统、元数据血缘系统、数据质量管理系统、还有dqc 等;这个状态持续到2013年4月,这时出现了一个新的挑战,hadoop集群的上限是5000个节点,按照当时数据增长数据的推算,集群存储即将撞墙,但是基于当时的状况,odps无法完全替代hadoop,于是当时启动了一个规模非常庞大的项目,叫做 5k项目,同时进行云梯一和云梯二的跨机房集群项目,当时世界上没有任何一家公司具备跨机房的能力,存在非常大的技术挑战,最后项目历经近5个月的周期,攻克大量技术难点,项目取得了成功;在 5k项目成功的同时,odps架构逐步成熟,于是全集团又启动了一个规模更庞大的项目,叫做登月项目,将全集团的数据加工应用全部搬移到odps,项目一直持续到2015年,hadoop正式下线,淘宝大数据彻底进入odps时代,整个数据的生态圈也越来越丰富,同时,阿里云开始对外提供云服务,其中大数据解决方案作为其中重要的组成部分,也开始对外提供;时间回到2013年时,当时淘宝数据团队的每个成员都在忙于应对各类需求,每天都有做不完的各类报表,当时为了解救自己,数据团队开始摸索探索新的数据服务模式,思考如何解决数据冗余、口径统一、数据交换、用户自助等一系统问题,最终通过一段时间思考和摸索,开始研发孔明灯产品,针对不同的数据角色形成了一套完整的数据解决方案,如下:图6 孔明灯解决方案孔明灯产品的出现,对传统的开发模式做了个升级,对整个大数据建设也起到了非常好的管理作用,当时在淘宝内部,覆盖了大部分的业务bu,对数据使用成本的降低,释放了大量的人力,同时也吸引了外部用户高德地图、阿里健康基于这套体系进行大数据建设; 2014年,集团公共层项目启动,集团内的各个数据团队,开始进行数据内容重构和整合,同时,cco正式成立,七公来到cco带领技术团队,薛奎来到cco带领数据仓库团队,cco也基于odps启动公共层建设项目,集成了包括淘系、1688、icbu、ae相关的服务数据,公共层建设的同时完成了登月项目,并且与dic团队、rdc团队协同建设了服务数据门户digo产品;今天,数据在阿里巴巴已经深入到每个角落,阿里云有强大的算法团队、大批的数据接口人、分析师,每天的工作都与数据产生关联,随着人工智能的不断深入使用,业务系统的不断创新迭代,对数据的采集、加工、应用又提出了新的要求,如何更好的提供数据服务,面对未来我们需要思考更多,数据将进入一个新的时代-数据智能时代。