淘宝海量数据产品技术架构

合集下载

金融科技的五大应用领域

金融科技的五大应用领域

金融科技的五大应用领域金融科技(Fintech),顾名思义指的是金融与科技的结合。

具体来讲,一方面包含传统金融机构利用科技手段推动创新提高效率以及提升用户体验;另一方面,也指新型创业公司利用科技手段推出全新的金融产品或者为传统金融机构提供技术服务,也就是我们通常所说的金融科技公司。

按照金融理事会(FSB)的最新定义,金融科技是指技术带来的金融创新,它能创造新的业务模式、应用、流程或产品,从而对金融市场、金融机构或金融服务的提供方式造成重大影响。

Fintech 行业关键的科技进步主要有五个:移动支付、P2P应用科技、大数据分析、数字货币和数据区块链科技、智能交易与理财。

1、移动支付移动支付包括近距支付和远程支付两种方式。

其中近距支付包括 NFC手机支付和RF-SIM 支付两种方式,远程支付主要是基于移动互联网的在线支付方式,属于第三方电子支付的一个分支,实现方式分为短信、WAP、手机客户端等方式。

移动支付已成为趋势:进入互联网时代,第三方支付公司应运而生,美国的 Paypal 和中国的支付宝等运用数字化技术和安全保障技术,脱离传统的信用卡公司与银行,形成第三方支付平台,由此掀起一场支付革命。

如今,随着智能手机的普及,移动支付领域也成为众多金融科技公司的主要业务。

在 KPMG 和 H2 联合发布的最新 TOP50 金融科技公司的排名中,有 5 家支付行业公司入围,排名第四。

中国央行的统计数据显示,2015 年移动支付业务 138.37 亿笔,金额 108.22 万亿元,同比分别增长 205.86%和 379.06%。

未来随着移动设备渗透率的上升,移动支付有望成为人们日常消费中重要的一环。

国内第三方移动支付规模及增速(亿元)国内手机出货量及增速(亿部)资料来源:wind,方正证券研究所目前在中国的移动支付市场上,主要有三大参与方:以银联为代表的金融机构、运营商和以支付宝为代表的第三方支付机构。

在商业模式上出现了银联、运营商和第三方支付各自主导的局面。

淘宝大数据

淘宝大数据

淘宝大数据淘宝大数据是指淘宝平台通过收集、分析和利用海量数据所得出的相关信息和洞察力。

作为中国最大的电子商务平台之一,淘宝拥有数亿的用户和数百万的商家,每天都有数以亿计的交易数据产生。

如何有效地利用这些数据,发现消费者需求和市场趋势,为用户和商家提供更好的体验和服务,成为淘宝大数据所要解决的问题。

淘宝大数据的应用涵盖了多个方面。

首先,淘宝通过对用户行为和购买历史的分析,可以准确判断用户的兴趣和偏好,推荐符合用户口味的商品,提升用户的购物体验。

其次,淘宝可以通过分析用户的消费行为和趋势,预测市场的需求和走势,对商品的供应链进行调整和优化,提高销售效率和降低成本。

此外,淘宝还可以分析用户评论和评价,发现商品的优缺点,提供反馈给商家,帮助商家改进产品和服务,增强消费者满意度。

淘宝大数据的核心是数据分析。

淘宝通过自主研发的数据挖掘与分析系统,可以收集和存储用户的浏览、搜索、购买等行为数据,并通过机器学习和人工智能算法进行处理和分析。

这些算法可以从庞杂的数据中提取特征,识别用户需求和行为模式,形成用户画像和用户群体的分类。

通过对不同用户群体的特征和行为进行比较和分析,淘宝可以对用户进行个性化推荐和精准营销,提高商品的曝光和销售率。

淘宝大数据的应用场景非常广泛。

首先,淘宝可以通过对商品销售数据的分析,帮助商家进行库存管理和销售预测。

商家可以根据淘宝的数据分析结果,及时调整库存和供应链,避免滞销和缺货的情况发生。

其次,淘宝可以通过对用户购物车和浏览历史的分析,提供实时的个性化推荐,引导用户进行购买。

再次,淘宝可以通过对物流数据的分析,优化配送路线和配送时效,提供更快速、更准确的物流服务。

此外,淘宝还可以通过对用户评论和评价的分析,为商家提供反馈和改进建议,提升产品和服务的质量。

淘宝大数据的发展离不开技术的支持和人才的培养。

淘宝通过自主研发和吸纳相关技术人才,建立起了强大的大数据团队和技术平台。

淘宝的数据分析师和算法工程师,负责对海量的数据进行识别、处理和分析,挖掘其中的价值。

淘宝网技术架构

淘宝网技术架构

淘宝网的开源架构淘宝网,是一个在线商品数量突破一亿,日均成交额超过两亿元人民币,注册用户接近八千万的大型电子商务网站,是亚洲最大的购物网站。

那么对于淘宝网这样大规模的一个网站,我猜想大家一定会非常关心整个网站都采用了什么样的技术、产品和架构,也会很想了解在淘宝网中是否采用了开源的软件或者是完全采用的商业软件。

那么下面我就简单的介绍一下淘宝网中应用的开源软件。

对于规模稍大的网站来说,其IT必然是一个服务器集群来提供网站服务,数据库也必然要和应用服务分开,有单独的数据库服务器。

对于像淘宝网这样规模的网站而言,就是应用也分成很多组。

那么下面,我就从应用服务器操作系统、应用服务器软件、Web Server、数据库、开发框架等几个方面来介绍一下淘宝网中开源软件的应用。

操作系统我们首先就从应用服务器的操作系统说起。

一个应用服务器,从软件的角度来说他的最底层首先是操作系统。

要先选择操作系统,然后才是操作系统基础上的应用软件。

在淘宝网,我们的应用服务器上采用的是Linux操作系统。

Linux 操作系统从1991年第一次正式被公布到现在已经走过了十七个年头,在PC Server上有广泛的应用。

硬件上我们选择PC Server而不是小型机,那么Server 的操作系统供我们选择的一般也就是Linux,FreeBSD, windows 2000 Server或者Windows Server 2003。

如果不准备采用微软的一系列产品构建应用,并且有能力维护Linux或者FreeBSD,再加上成本的考虑,那么还是应该在Linux和FreeBSD之间进行选择。

可以说,现在Linux和FreeBSD这两个系统难分伯仲,很难说哪个一定比另外一个要优秀很多、能够全面的超越对手,应该是各有所长。

那么在选择的时候有一个因素就是企业的技术人员对于哪种系统更加的熟悉,这个熟悉一方面是系统管理方面,另外一方面是对于内核的熟悉,对内核的熟悉对于性能调优和对操作系统进行定制剪裁会有很大的帮助。

淘宝技术架构介绍, 了解淘宝,了解淘宝的架构需求

淘宝技术架构介绍, 了解淘宝,了解淘宝的架构需求
car
pipeline 页面布局
Screen Layout Control
多模板引擎
Jsp Velocity FreeMarker
V2.0 淘宝项目管理工具 AntX
类似maven 脚本编程语言 AutoConfig 依赖管理,冲突检测
V2.1 的需求
提高性能 增加开发效率 降低成本
V2.1 2004.10 – 2007.01
TBStore
Read/Write
Oracle Oracle Oracle Oracle
dump
Search
Read/Write
Node Node
1
2 ……
Node n
V2.1逻辑结构
表示层
Service
业务请求转发
Framework
S
UC
UC 业务流程处理 UC
UC
P
R
AO
AO
AO
AO
I
业务逻辑层
Node 1
Node 2
Node n
V2.1 TaobaoCDN
squid apache+php lighttpd 静态页面(包括php页面)、图片、描述 最初只有杭州和上海两个站点 现在发展到北京、广州、西安、天津、武
汉、济南等近10个站点 现在每天高峰期30G流量/秒
V2.1 session框架
Put/Get Data
Node 1
Node 2
Node n
V2.2 搜索引擎
垂直/水平 分割
AAPPPP
AAPPPP
Merge
Node1
Node2 ……
Node n
Col1
Node 1

手机淘宝App技术架构

手机淘宝App技术架构

真机实验室
发布之前,通过线下自动化驱动测试保障基本稳定性和性能。 SDK在运行阶段自动收集性能、稳定性问题
1
• • •
核心SDK 能力
检测组件 Galileo
• • • •

移动日志 tLog
安全模式 SafeMode 安全气垫 热修复 Hotfix 开关服务 Orange
测试完毕后,进行灰度发布。通过SDK和大数 据体系评估APP的质量,性能和用户的体验, 以及在多种机型,环境上问题的暴露。
2
多次灰度达到发布标准后,进行正式的全量发布 大数据体系进行线上问题的实时监控状态
M
大数据 分析&运维 稳定性
度量 组体系
3
检测体系 线上发现问题后,数据体系及时报警 通过排查等手段发现根因,通过patch等手段 修复问题
用户体验
用户舆情
远程排查
• •


低侵入、精准度高的客户端SDK 海量数据的实时处理分析能力 远程问题排查和检测能力 测试环境自动化保障体系
超级App“淘宝”诞生之路
手机淘宝App技术架构
淘宝的移动互联网演进史
企业级移动开发平台EMAS
阿里巴巴移动场景最佳实践
手机淘宝演进历史(2008 - )
手淘早期的技术架构
技术限制业务发展
手机淘宝泛质量管理体系
线下 自动化保障

自动化驱动 性能度量: OnlineMonotor 稳定性度量: CrashReport 自定义事件度量: AppMonitor
37.5
Weex开发框架
手淘Android发布频次
客户端团队
>30天 7天
2013 2014

淘宝网简介

淘宝网简介

电子商务淘宝网简介案例分析报告学院学生姓名专业学号年级指导教师二Ο一一年十二月一日淘宝网简介淘宝网是国内领先的个人交易网上平台。

淘宝网是隶属于阿里巴巴旗下的网站,是阿里巴巴推出的一个个人交易C2C网站,致力于成就全球最大的个人交易网站。

一、简介淘宝网是亚洲第一大网络零售商圈,致力于成就全球最大的个人交易网站,由阿里巴巴集团于2003年5月10日投资创办。

自成立以来,淘宝网相继推出个人网上商铺、支付宝、阿里软件、雅虎直通车、阿里妈妈等产品和增值服务。

淘宝网目前业务跨越C2C(消费者间)、B2C(商家对个人)两大部分。

2010年4月28日淘宝网CFO兼淘宝商城负责人张勇在北京中国B2C电子商务峰会上首次对外透露,淘宝网每日独立访问IP数已经超过4000万,这意味着每天有超过4000万人在淘宝网上购物,目前已经超越亚马逊。

另外,目前淘宝已经拥有注册会员1.9亿,占到中国网民数量的一半,覆盖了中国绝大部分网购人群;2008年交易额为999.6亿元,占网购市场80%市场。

目前,淘宝网已经发展成为一个以C2C业务为主,兼顾B2C业务的一个综合性网络交易平台。

淘宝网提倡诚信、活跃、快速的网络交易文化,坚持“宝可不淘,信不能弃。

”在为淘宝会员打造更安全高效的网络交易平台的同时,为广大的网民提供网上开店网上创业和以商会友的机会。

二、淘宝网的功能架构1、频道。

淘宝网作为超大的网上商城,商品云集,因此将产品分类列了如下频道:淘宝集市、品牌商城、二手闲置、促销、全球购、手机数码、女人、男人、运动、居家、母婴、影视书籍、游戏、彩票、机票等。

2、我要买。

在我要买里面可以淘自己喜欢的宝贝,简单,方便。

将所有宝贝按虚拟、数码、护肤、服饰、家居、文体、收藏和其他的类别进行了详细的分类陈列展示。

3、我要卖。

我要卖是在淘宝上体验开设店铺,这是免费的。

①发布方式。

可以选择一口价、拍卖和团购。

②开设店铺。

发布10件宝贝,就可以开店了。

包括个人认证、开店铺、店铺管理。

章文嵩:Taobao海量图片存储与CDN系统-v2-系统架构师

19
淘宝CDN系统
CDN服务的图片规模
–约250T容量的原图 + 250T容量的缩略图 –约286亿左右的图片数,平均图片大小是17.45K –8K以下图片占图片数总量的61%,占存储容量的11%
CDN部署规模
–22个节点,部署在网民相当密集的中心城市(7月初) –每个节点目前处理能力在10G或以上 –CDN部署的总处理能力已到220G以上 –目前承载淘宝流量高峰时119G,含一些集团子公司的 流量
SnapShot
SnapShot
FAS980C C: Online Image D: Online Image
SnapShot
杭州网通 IDC
注:红框中设备是2006年的新增设备, 5 明年还得在原有的 NetApp 980C/R200 存储上增加 20TB 左右新的硬盘容量。
商用产品无法满足需求
本地缓存对象文件系统
文件定位
–内存hash做索引 –最多一次读盘
写盘方式
–Append方式写 –淘汰策略FIFO,主要考虑降低硬盘的写操作,没有必 要进一步提高Cache命中率,因为Image Server和 TFS在同一个数据中心
议程
一、系统全貌
二、Taobao图片存储系统--TFS 三、Image Server与Cache 四、CDN系统 五、低功耗服务器平台 六、经验
图片处理
从TFS存储中读取文件 将文件根据需要的尺寸进行缩放
–灵活,应用可以制定一些尺寸规则决定 –动态计算的成本大概是存储缩略图的十分之一
可根据需要将缩略图按一定质量压缩保存(75% ~94%)和锐化处理,通过配置文件设定
–权衡图片的效果与CDN传输的带宽 –低损压缩降低缩略图的体积(30~70%)

OceanBase:淘宝开源海量数据库


也部 分避免了 个或者 多个Up a e e v r 点之间漂 移 , 低 架构 、不同的软 件架构进行支持 , d t S r e节 降 这些问题的影响。相对来说, 这两个架构可以各自 U d tSre单点故障的影响 。 p ae ev r
为 了消 除 U d tS re内存 大小 对 更 新 数 据 量 的 p ae ev r 限制 , 们实现了数据转储机 制, en ae 我 Oc a B s 在 增 量 更 新 数 据 达 到 一 定 量 时 会 启 动 后 台 工 作 将
O AP L 功能,因此 , ca B sS 其他 系统相比更 O e n ae M 加轻量级,通常也能提 供更高的性能。下面具体
描 述 一 下 O e n ae 用了 何 种 技 术 架 构 来实 现 ca B s 采 成 本 、 能 和功 能 的 平衡 。 性
架构特点
首先, e n a e Oc a B s将数据拆分 为基准和修改增量 两个部分。 基准数据在一个业务周期内保持不做 变更, 有的修改 增量做集中处理,每次数据查 所 询将按照应用需求决定是否需要合并最新的修改
o e t r 封面报道 I我们的开源 v rS o y
Oc an s 淘宝开源海量数据库 e e Ba
● ●
文, 李震
世 界 上 充斥 着 各 种 各 样 的轮 子 , 句 话 在 I技 术 到类S 及数 据分析,涵盖了互联网的大部 分应 这 T NS
界有特定 的意义 , 我们用重复造轮 子来形容那些 用类型 , 这些应用有一个共性 ,短时间内变化的 投入大量 时间 、 精力和金钱实现 已有技术方案可 数 据总是 远小 于随 着时间 积累下 来的数 据 , 通
以提 供 的 功 能 的行 为 。 大 量 开 源No QL 统发 常有两到三个 , 在 S 系 甚至更 多的数量级差距 , 大部 而 展得 如 火如 荼 ,以O a l、My QL 代 表 的 传统 分 数 据 架 构 的 复 杂 性 ,主要 体 现 在 对 短 时 间 内 变 rce S 为

淘宝运营管理体系架构是什么

淘宝运营管理体系架构是什么引言随着电子商务的迅猛发展,淘宝作为中国最大的在线购物平台之一,在市场中扮演着重要的角色。

淘宝的成功不仅仅依靠其庞大的用户群体和海量的商品,还有其精细的运营管理体系架构。

本文将探讨淘宝运营管理体系架构的含义以及其具体构成。

定义淘宝运营管理体系架构,简称淘宝运营架构,是指在淘宝运营活动中所建立的一套组织结构、策略规划、流程管理等框架,以支持淘宝平台的日常运营和持续发展。

该架构包括了对淘宝运营各个方面的管理和组织,如商品管理、营销活动、客户服务等。

淘宝运营管理体系架构的核心淘宝运营管理体系架构的核心是以用户为中心。

淘宝平台的发展离不开用户的支持和参与,因此,为了满足用户需求和提升用户体验,淘宝运营管理体系架构应该以用户为核心,围绕用户设计各个环节。

用户研究与分析淘宝平台采集了大量用户数据,包括用户行为、消费习惯、兴趣爱好等。

基于这些数据,淘宝进行用户研究和分析,以了解用户需求和行为模式,进而提供个性化的服务和推荐,提升用户满意度。

商品管理淘宝平台上存在大量的商品,商品管理是淘宝运营管理体系架构的重要组成部分。

淘宝通过商品分类、标签、搜索等方式,对商品进行管理和展示,使用户能够方便地找到自己想要的商品。

营销活动淘宝平台经常进行各种促销和营销活动,如双11购物节、618年中大促等。

这些活动是淘宝吸引用户和促进交易的重要手段。

淘宝运营管理体系架构需要对这些活动进行策划、执行和评估,确保其有效性和效果。

客户服务淘宝拥有庞大的用户群体,客户服务是淘宝运营管理体系架构的关键环节。

淘宝提供在线客服、投诉维权、退换货等服务,以满足用户的各种需求和问题,维护用户的权益并提升用户满意度。

淘宝运营管理体系架构的优势淘宝运营管理体系架构的建立和实施带来了许多优势,为淘宝在激烈的竞争中保持领先地位提供了强大的支持。

高效运营淘宝运营管理体系架构将运营活动规范化和标准化,通过流程管理和自动化工具,提高了运营效率。

淘宝高并发解决方案

概述淘宝是中国最大的电商网站之一,每天有数以亿计的用户访问淘宝平台。

在高并发的访问环境下,如何保证淘宝的稳定性和可用性是一个重要的挑战。

本文将介绍淘宝高并发解决方案,包括架构设计、缓存优化、数据库优化以及负载均衡。

架构设计淘宝采用了分布式架构来应对高并发的访问压力。

整个系统被划分为多个服务模块,每个模块独立运行,并通过消息队列进行通信。

这种架构设计可以有效地提高系统的可伸缩性和可扩展性。

缓存优化为了减轻数据库的压力,淘宝采用了大量的缓存来加速数据访问。

其中,最核心的缓存技术是利用Redis来缓存热点数据。

通过将频繁访问的数据放入Redis缓存中,可以大大提高系统的响应速度和吞吐量。

淘宝还利用CDN(内容分发网络)来缓存静态资源,例如商品图片、CSS文件和JavaScript文件。

CDN可以将这些静态资源缓存在全球各地的节点上,用户可以就近访问这些缓存节点,从而提高访问速度。

数据库优化淘宝使用了分布式数据库来处理海量的数据。

数据库采用主从复制的方式,将读写操作分散到多个数据库节点上,从而提高数据库的并发处理能力。

为了减少数据库查询的负载,淘宝采用了数据库分库分表的技术。

将数据按照一定的规则分散到多个数据库和表中,从而均衡数据库的负载,并且降低了单个数据库的数据量和并发访问量。

此外,淘宝还采用了数据库的读写分离技术。

将读操作和写操作分别路由到不同的数据库节点上,从而提高数据库的读写性能。

负载均衡淘宝使用了负载均衡技术来分发用户的请求,以实现高并发的访问。

主要的负载均衡技术包括DNS负载均衡和反向代理负载均衡。

DNS负载均衡将用户的请求解析到多个服务器的IP地址上,从而使得用户的请求被均衡地分发到不同的服务器上。

反向代理负载均衡则是通过将用户的请求发送到多个反向代理服务器上,由反向代理服务器再将请求分发给后端的多个应用服务器。

这样可以均衡地分担用户的请求压力,提高系统的并发处理能力。

总结淘宝面临着海量用户的高并发访问压力,为了保证系统的稳定性和可用性,需要在架构设计、缓存优化、数据库优化和负载均衡等方面进行优化。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

节点2
1, 2, 3, 4, 5, 6, 7
求交集
节点2
地SUM运算(Hbase扩展)
Prom—数据冗余
□ 明细数据大量冗余 □ 牺牲磁盘容量,以得到:
• 避免明细数据网络传输 • 变大量随机读为顺序读
小结
□ NoSQL是SQL的有益补充 □ “预算”与“现算”的权衡 □ “本地”与“集中”的协同
NoSQL
计算场所
集中 冷 数据存储 热
谢谢
其他的数据来源
□ Prom的其他应用(淘词、指数等) □ 从isearch获取实时的庖铺、商品描述 □ 从主站搜索获取实时的商品数 □…
异构数据源如何整合统一?
用中间层隔离前后端
[pengchun]$ tail ~/logs/glider-rt2.log
127.0.0.1 [14/Jun/2011:14:54:29 +0800] "GET /glider/db/brand/brandinfo_d/get_hot_brand_top/where… HTTP/1.1" 200 17 0.065
SELECT IF(INSTR(f.keyword,' ') > 0, UPPER(TRIM(f.keyword)), CONCAT(b.brand_name,' ',UPPER(TRIM(f.keyword)))) AS f0, SUM(f.search_num) AS f1, ROUND(SUM(f.search_num) / AVG(f.uv), 2) AS f3 FROM dm_fact_keyword_brand_d f INNER JOIN dim_brand b ON f.keyword_brand_id = b.brand_id WHERE keyword_cat_id IN ('50002535') AND thedate <= '2011-07-09' AND thedate >= '2011-07-07' GROUP BY f0 ORDER BY SUM(f.search_num) DESC LIMIT 0, 100
□ 存储
• 存储是为了更方便地查询 • 硬盘、内存的成本
□ 查询
• “大海捞针”
• 全“表”扫描
架构总览
数 据 源 计 算 层 存 储 层 查 询 层 产 品 主站备库 RAC
DataX / DbSync / TimeTunnel
主站日志
Hadoop集群 / 云梯
1500节点,每日40000 JOB,处理数据1.5PB,凌晨2点结束,结果20T
字段改写
计算规则
缓存
取分片数据(异步并发)
缓存
X
结果合并(表达式求值)
MyFOX-节点结构
MyFOX
路由表 新增热数据 30天无访问的冷数据
热节点(MySQL)
15k SAS盘,300G * 12,raid10 内存:24G 成本:4.5W / T
冷节点(MySQL)
7.2k SATA盘,1T * 12,raid10 内存:24G 成本:1.6W / T
小结
□ 根据业务特点分库分表 □ 冷热数据分离
• 降低成本,好钢用在刀刃上 • 更有效地使用内存
SQL虽牛,但是…
如果继续用MySQL来存储数据,你怎么建索引?
NoSQL是SQL的有益补充
全属性交叉运算
□ 不同类目的商品有不同的属性 □ 同一商品的属性对有很多 □ 用户查询所选择的属性对不确定
□ Prometheus
• 定制化的存储 • 实时计算
Prom—数据装载
Prom
Hbase
Hbase
属 性 对
……
索引:交易id列表
交易1(二进制,定长) 交易2
Hbase
Prom—数据查询
求SUM(alipay) 属性 笔记本尺寸 笔记本定位 属性值 13寸 商务定位
查索引
节点1
1, 2, 3, 4, 5, 6, 7, 8, 9
□ 数据产品的本质
• 拉关系 • 做计算
存储在DB中的数据
0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 2010/8/10
十亿
2010/9/29
2010/11/18
2011/1/7
2011/2/26
2011/4/17
2011/6/6
2011/7/26
分布式MySQL集群
□ 字段+条目数分片 □ MyISAM引擎 □ 离线批量装载 □ 跨机房互备
数据
淘宝网
淘宝卖家
供应商 消费者
用户
产品
一些数字
□ 淘宝主站:
• 30亿庖铺、宝贝浏览 • 10亿计的在线宝贝数 • 千万量级交易笔数
□ 数据产品:
• 50G统计汇总结果 • 千万量级数据查询请求 • 平均20.8ms的响应时间(6月1日)
海量数据带来的挑战
□ 计算
• 计算的速度 • 处理吞吐量
Prom
二级缓存
UNION
缓存是系统化的工程
缓存系统
URL请求,nocache? data etag, http header
前端产品
nocache? glider ttl, http header
一级缓存
nocache? Min (ttl)
二级缓存
小结
□ 用中间层隔离前后端
• 底层架构对前端透明 • 水平可扩展性
云梯
数据装载
MyFOX
数据查询
APP
MySQL 集群
透明的集群中间层—MyFOX
□ 透明查询
• 基于NodeJS,1200QPS
□ 数据装载
• 路由计算 • 数据装入 • 一致性校验
□ 集群管理
• 配置信息维护
• 监控报警
MyFOX-数据查询
路 由 APC SQL解析 语义理解
查询路由
分片SQL 取 分 片 合 并 计 算
数据中间层—Glider
□ 多数据源整合
• UNION • JOIN
□ 输出格式化
• PERCENT / RANK OVER … • JSON输出
Glider架构
Dispatcher Controller
datasource
请求解析
配置解析
MyFOX
一级缓存 action filter JOIN
实时流数据
MyFOX 数据中间层 / glider 数据魔方 淘宝指数
Prom
开放API
今天的话题
□ 关系型数据库仍然是王道 □ NoSQL是SQL的有益补充 □ 用中间层隔离前后端 □ 缓存是系统化的工程
关系型数据库仍然是王道
关系型数据库
□ 有成熟稳定的开源产品 □ SQL有较强的表达能力
• 只存储中间状态的数据 • 查询时过滤、计算、排序
□ 缓存是把双刃剑
• 降低后端存储压力 • 数据一致性问题 • 缓存穿透与失效
回顾
□ 关系型数据库仍然是王道 分库分表、冷热分离 □ NoSQL是SQL的有益补充 用冗余避免网络传输和随机读 □ 用中间层隔离前后端 异构数据源的整合
□ 缓存是系统化的工程
数据一致性、穿透与雪崩
矛盾乊美
SQL
“预算” Hadoop / 实时计算引擎 计算时机 “现算” MySQL + 中间层 本地 MySQL单机 MyFOX中间层 7200 SATA盘 15000 SAS盘 + 缓存 Hbase + 中间层 Hbase Region Server Prom中间层 HDFS HDFS + 缓存
淘宝海量数据产品技术架构
张轩丞(朊春)
淘宝网-数据平台与产品部
关于
□ 张轩丞(朊春)
• 淘宝数据平台与产品部(杭州) • vi党,脚本语言爱好者 • 关注NodeJS,cnode社区组织者乊一 • pengchun@ • :我是aleafs
数据平台与产品
搜索、浏览、收藏、交易、评价...
相关文档
最新文档