tair存储系统在淘宝的大规模应用实践

合集下载

淘宝技术架构分享

可以看看HSF 的源码, 需要的可以联系我！
，HSF 使用的时候需要单独的下载一个hsf.sar 文件放置到jboss 的
；弊端也很明显：增加了环境的复杂度，需要往jboss 下扔sar
设计的主要原因。HSF 工作原理如下图：
HSF SAR 文件到Jboss 的Deploy 目录。
大型分布式的基础支撑。使开发人员无需过多的关注应用是集中式的，还是分布式的，可以更加专注于应用的业务需求的实现，这些纯技术
的需求都由HSF 来解决。
（2）HSF 的系统架构
I. HSF 交互场景图
客户端（消费端）从配置中心获取服务端地址列表—>和服务端建立连接开始远程调用—>服务端更新通过notify（类似B2B 的naplio）
系统通知客户端。服务端和客户端都有对应的监控中心，实时监控服务状态。客户端，配置中心，服务端，notify，之间的通信都是通过TB Remotion
API 去搞定的。
II. TB Remoting 架构图
底层基于分布式框架Mina，主要的代码都是通过
B2B 的Dubbo 也是基于这个NIO 框架的。Mina
商品，付款，确认，退款，评价，社区互动等。
产品：淘宝对产品定义和B2B 有差别，淘宝的业务拆分较细，服务化做的较成熟，所以前台应用对应的业务非常纯粹，如Detail 系统可
能就一个detail 页面，无数据库连接，所有数据来自底层的各种服务化中心，功能专一逻辑清晰纯粹，不过也正因为这样，淘宝的一个产品
淘宝前端应用
HSF接口
UIC IC SC TC
PC
Forest 推送给“淘宝前端应用”
淘宝共享服务

淘宝开源KV结构数据存储系统Tair技术分析

淘宝开源KV结构数据存储系统Tair技术分析作者: 日期:淘宝开源KV结构数据存储系统Tair技术分析-电子商务论文淘宝开源KV结构数据存储系统Tair技术分析文/刘磊摘要：Tair是淘宝开源的KV数据存取系统，也是成功的NoSql型数据库产品，具有咼性能、分布式、可扩展、咼可靠的特点，已在淘宝、天猫有成熟的大规模应用。

本文从Tair的系统架构、存储引擎、接口API等方面进行浅析，详细介绍了Tair的技术结构和接口API，对于选用Tair系统有一定的参考意义。

关键词：Tair；存储引擎；接口API1、系统架构理论上，一个Tair系统可以由4个模块构成，包括3个必选模块：ConfigServer （配置服务器）、DataServer （数据服务器）、Client （客户端），一个可选模块：In valid Server （维护服务器）。

实践中，一个典型Tair集群包含两台ConfigServer 及多台DataServer。

两台ConfigServer 互为主备关系，并通过维护和DataServer之间的心跳，获知集群中存活可用的存储服务器，构建数据在集群中的分布信息（对照表）。

多台DataServer则负责数据的实际存取，并按照ConfigServer的指示完成数据的复制和迁移工作。

Client在启动的时候，首先从ConfigServer获取数据分布信息，根据数据分布信息，再和相应的DataServer交互完成用户的请求。

In valid Server主要负责对等集群的删除和隐藏操作，保证对等集群的数据一致。

一个Tair系统典型架构如图1所示：从架构上看，ConfigServer的角色与传统应用系统的中心节点作用类似，整个集群服务依赖于ConfigServer 的正常工作。

但Tair的优点是，它的Con figServer是非常轻量级的，当正在工作的配置服务器宕机时，另外一台会在秒级别时间内自动接管；即使出现两台配置服务器同时宕机的最恶劣情况，只要数据服务器没有新的变化，Tair依然服务正常。

hbase+hive应用场景

hbase+hive应⽤场景⼀.Hive应⽤场景本⽂主要讲述使⽤ Hive 的实践，业务不是关键，简要介绍业务场景，本次的任务是对搜索⽇志数据进⾏统计分析。

集团搜索刚上线不久，⽇志量并不⼤。

这些⽇志分布在 5 台前端机，按⼩时保存，并以⼩时为周期定时将上⼀⼩时产⽣的数据同步到⽇志分析机，统计数据要求按⼩时更新。

这些统计项，包括关键词搜索量 pv ，类别访问量，每秒访问量 tps 等等。

基于 Hive ，我们将这些数据按天为单位建表，每天⼀个表，后台脚本根据时间戳将每⼩时同步过来的 5 台前端机的⽇志数据合并成⼀个⽇志⽂件，导⼊ Hive 系统，每⼩时同步的⽇志数据被追加到当天数据表中，导⼊完成后，当天各项统计项将被重新计算并输出统计结果。

以上需求若直接基于 hadoop 开发，需要⾃⾏管理数据，针对多个统计需求开发不同的 map/reduce 运算任务，对合并、排序等多项操作进⾏定制，并检测任务运⾏状态，⼯作量并不⼩。

但使⽤ Hive ，从导⼊到分析、排序、去重、结果输出，这些操作都可以运⽤ hql 语句来解决，⼀条语句经过处理被解析成⼏个任务来运⾏，即使是关键词访问量增量这种需要同时访问多天数据的较为复杂的需求也能通过表关联这样的语句⾃动完成，节省了⼤量⼯作量。

⼆.hbase应⽤场景1、爬⾍⽹站URL的写⼊。

2、淘宝在2011年之前所有的后端持久化存储基本上都是在mysql上进⾏的(不排除少量oracle/bdb/tair/mongdb等)，mysql由于开源，并且⽣态系统良好，本⾝拥有分库分表等多种解决⽅案，因此很长⼀段时间内都满⾜淘宝⼤量业务的需求。

但是由于业务的多样化发展，有越来越多的业务系统的需求开始发⽣了变化。

⼀般来说有以下⼏类变化：数据量变得越来越多，事实上现在淘宝⼏乎任何⼀个与⽤户相关的在线业务的数据量都在亿级别，每⽇系统调⽤次数从亿到百亿都有，且历史数据不能轻易删除。

这需要有⼀个海量分布式⽂件系统，能对TB级甚⾄PB级别的数据提供在线服务数据量的增长很快且不⼀定能准确预计，⼤多数应⽤系统从上线起在⼀段时间内数据量都呈很快的上升趋势，因此从成本的⾓度考虑对系统⽔平扩展能⼒有⽐较强烈的需求，且不希望存在单点制约只需要简单的kv读取，没有复杂的join等需求。

Tair的使用

Tair作为原子计数器计数的加减重置（incr/decr/setCount) put数据的不可加减
怎么用.基本概念
9. C client 与Java client的数据格式
Java key/value encode的类型/压缩标记
二者的兼容使用
怎么用.接口
1. 基本功能
get put invalid /delelte
效果如何.问题改进
3. hitratio很低？
访问的数据是否都是存在的？
evictCount很大，quota用光？
4. quota尚有余量，evictCount还是出现？
内部处理策略（发生概率小）
五．常见问题
常见问题
1. 启动就失败？
版本及配置确认
2.
3.
自己area内的数据可以一次清空吗？
value是复合结构（rdb）
想用
2. 申请
应用场景：决定适合的存储引擎数据量：quota配置以及集群容量规划的参考依据访问量/增长量：集群规模规划的参考依据
3ቤተ መጻሕፍቲ ባይዱ 配置
client 版本 configserver address list group name area(namespace)
Tair的使用
核心系统研发 – 存储 – 那岩
目录
一．client端看Tair的使用
二．想用？
三．怎么用？
四．效果如何？
五．常见问题
client端看Tair的使用
Tair init() :
configserver_address_list group_name
Master
Slave

阿里巴巴的10款开源项目

阿里巴巴的10款开源项目一、框架react-web：Readt Web是为那些使用React Native兼容的API构建的Web应用而提供的一个框架。

React Web的目的及意义非常明确: 让React Native代码跑在Web上让一套代码运行在各个移动终端，对前端及业务来说，这是开发效率中一个质的提升。

Jstrom：JStorm是参考storm的实时流式计算框架，在网络IO、线程模型、资源调度、可用性及稳定性上做了持续改进，已被越来越多企业使用。

经过4年发展，阿里巴巴JStorm 集群已经成为世界上最大的集群之一，基于JStorm的应用数量超过1000个。

数据显示，JStorm集群每天处理的消息数量达到1.5PB。

在2015年，JStorm正式成为Apache Storm里的子项目。

JStorm将在Apache Storm里孵化，孵化成功后会成为Apache Storm主干。

Apache基金会官方表示，非常高兴JStorm能够成为Apache Storm社区的一员。

Dubbo：高性能优秀的服务框架，使得应用可通过高性能的RPC 实现服务的输出和输入功能，可以和Spring框架无缝集成。

Dubbo is a distributed, high performance RPC framework enpowering applications with service import/export capabilities.Kissy：KISSY 是一款跨终端、模块化、高性能、使用简单的JavaScript 框架。

除了完备的工具集合如DOM、Event、Ajax、Anim 等，它还提供了经典的面向对象、动态加载、性能优化解决方案。

作为一款全终端支持的JavaScript 框架，KISSY 为移动终端做了大量适配和优化，使用户的程序在全终端均能流畅运行。

Dexposed：Dexposed是面向Android应用开发的一个强大的非侵入式的运行时AOP框架。

tair数据库的介绍和描述

Tair数据库介绍与描述1. 引言Tair数据库是一种高性能、高可用、分布式的内存数据库，由阿里巴巴集团自主研发。

它以其出色的性能和可靠性，在大规模互联网应用中得到了广泛应用。

本文将对Tair数据库进行全面详细的介绍和描述，包括其特点、架构、功能以及优势。

2. 特点Tair数据库具有以下几个重要特点：2.1 高性能Tair数据库采用了多种高效的技术手段来提升性能。

首先，它使用了内存作为主要存储介质，大大提高了数据访问速度。

其次，Tair采用了分布式架构，可以通过横向扩展来增加服务器节点数量，从而提升系统的整体处理能力。

此外，Tair还支持多种数据结构和算法优化，如哈希算法、位图索引等，进一步提升了查询和计算效率。

2.2 高可用Tair数据库通过数据冗余备份和故障转移等机制来保证数据的高可用性。

它将数据分布在多个节点上，并实时备份数据到其他节点上，一旦某个节点发生故障，系统可以自动切换到备用节点，保证数据的连续性和可靠性。

此外，Tair还支持主从复制和多活架构，可以在不同地域之间实现数据的异地备份和容灾。

2.3 分布式架构Tair数据库采用了分布式架构，将数据分散存储在多个节点上。

这种架构可以通过增加节点数量来提高系统的整体处理能力，同时也提供了更好的负载均衡和容错能力。

Tair使用一致性哈希算法来进行数据分片和路由，确保数据在各个节点之间的均匀分布，并且能够快速定位到具体的节点。

3. 架构Tair数据库采用了主从复制和多活架构，在整体上分为三层：客户端、中间件和存储层。

3.1 客户端客户端是与用户直接交互的部分，它提供了一系列API供用户调用。

这些API包括数据读写、事务管理、索引操作等功能。

客户端可以通过网络连接到中间件，并发送请求给中间件执行。

3.2 中间件中间件是Tair数据库的核心组件，它负责接收客户端请求，并将其转发给存储层进行处理。

中间件还负责数据的分片和路由，将数据按照一致性哈希算法分配到不同的存储节点上。

tair 方法

tair 方法
Tair是一种开源的分布式缓存系统，它提供了高可用、高性能的缓存服务，主要用于提高系统的性能和稳定性。

以下是使用Tair的常见方法：
1. 数据存储：Tair提供了多种存储引擎，如MDB、FDB等，可以根据实际需求选择合适的存储引擎。

使用Tair可以缓存常用的数据和热点数据，减
少对数据库的访问次数，提高系统的响应速度和吞吐量。

2. 数据同步：Tair支持多级缓存同步，可以将数据同步到多个节点或多个机房，保证数据的一致性和可靠性。

通过数据同步，可以在多个节点之间分担负载，提高系统的可用性和容错性。

3. 数据过期：Tair支持设置数据的过期时间，过期后数据会自动删除或失效。

通过设置合理的过期时间，可以避免缓存雪崩和热点问题，保证系统的稳定性和可靠性。

4. 数据备份：Tair支持配置数据的备份数，可以设置备份数为3，则每个数据都会写在不同的3台机器上。

这样可以增强数据的安全性，避免单点故障和数据丢失。

5. 数据压缩：Tair支持对数据进行压缩存储，可以减少存储空间和提高数据的加载速度。

通过数据压缩，可以降低缓存的容量和带宽消耗，提高系统的性能和效率。

6. 数据监控：Tair提供了丰富的监控工具和日志记录功能，可以实时监控缓存系统的运行状态和数据访问情况。

通过数据监控，可以及时发现和解决潜在的问题，保证系统的正常运行。

总之，使用Tair可以提高系统的性能和稳定性，减少对数据库的访问次数和带宽消耗，降低系统的成本和维护成本。

tair数据库的介绍和描述

tair数据库的介绍和描述Tair数据库，全名为Tair(淘宝内部实时存储系统)，是阿里巴巴集团自主研发的一款高性能、可伸缩的分布式实时存储系统。

作为阿里巴巴内部存储系统的核心组件之一，Tair数据库被广泛应用于阿里巴巴旗下的电商平台以及其他金融、物流和云计算等领域。

Tair数据库以提供高性能、高可用性、高扩展性和高一致性为目标，通过将数据进行切片和分布式存储，实现了分布式读写能力，同时提供了自动数据缓存、事务支持、复制机制和数据一致性保证。

Tair数据库具备高性能的特点。

它在读写性能上有着很强的表现，能够支持高并发的读写请求，满足用户在大规模电商平台上的实时存储需求。

Tair数据库采用了数据切片和分布式存储的方式，将数据分散存储在多个节点上，并通过一致性哈希算法进行数据的路由和查找，从而提高了数据的访问效率。

Tair数据库具备高可用性的特点。

在构建Tair数据库的分布式存储系统时，阿里巴巴采用了主从复制机制，即每一个数据切片都会备份到多个节点上，当节点出现故障时，其他节点可以接管工作，保证整个系统的可用性。

此外，Tair数据库还支持数据的持久化存储，将数据写入磁盘，以防止数据丢失。

Tair数据库具备高扩展性的特点。

Tair数据库采用了分布式存储的架构，可以支持线性的扩展，即随着业务的增长，可以动态地添加新的节点，从而增加存储容量和吞吐量。

同时，Tair数据库还支持数据的自动切片和负载均衡，保证数据在多个节点上的平衡分布，确保整个系统的稳定性和可扩展性。

Tair数据库具备高一致性的特点。

在多个节点之间进行数据复制时，Tair数据库采用了基于Paxos算法的一致性协议，保证了数据的强一致性。

当进行写操作时，Tair数据库会进行数据同步和复制，只有在多个节点上的数据一致后，才会返回写操作的成功标识，这样可以保证数据的完整性和一致性。

除了以上的特点之外，Tair数据库还提供了丰富的功能和API接口，支持事务操作、数据缓存、数据回滚、数据备份和恢复等功能，满足了不同业务场景的需求。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 并发量大于集群磁盘数量 • Key 按Range划分 • 多memtable，每memtable对应一Range
– 去oplog
3.2.3 FastDump Service
• 两组集群互切换
– 一组online，负责提供对外服务 – 一组offline，接收dump数据 – Offline提供数据容灾备份
• 100台->6台 • 每台TairServer提供 120w tps导入 • 24min
3.3 快照信息存储
交易快照
3.3.1 淘宝交易快照
• 单条数据小，条数多，KV模型
– 适合NoSQL – 需要持久化
• 无覆盖，不能丢
• 持续的增长
– 扩容难题
• 只读取近期数据
– 老数据价值降低
3.3.2 交易快照 on LDB
Tair存储引擎之LDB
• 基于LevelDB定制化开发
– Namespace – 多实例 – Range – Cache – FastDump – BloomFilter
3.2.1 BloomFilter
• 查找不可怕，可怕的是每次都找不到
– 检索大量文件，无效的随机IO
• BloomFilter Patch
– 需要足够大的内存，将BloomFilter放在内存中
3.2.2 FastDump
• 广告，推荐系统，数据仓库
– 定点批量导入 – 老数据无效
• 现有系统，导入时间过长
– 24小时都不够？ – 消耗大量机器资源
3.2.3 FastDump 优化数据结构
• LDB优化
– Kernel调优，最大化SSD性能 – 多实例，每实例一块SSD – 数据源提前排序 – 既能并发，写入又有序
– 跨机房失效远程集群数据
常见问题
• 数据丢失
– 序列化方式 – 配额不够 – 过期
• 响应缓慢，超时
– Server压力大 – Client 机器压力大
– 网络异常
• /index.ph p/CS_RD/tair • Tair答疑 • :9999/
Tair存储系统在淘宝大规模应用实践
2009-8-22
淘宝-核心系统-存储叶翔（杨成虎）
1. 初看Tair 2. 原理解析
1. 2. 3. 4.
目录
整体架构与模块介绍 ConfigServer DataServer Storage
3. 实施案例分享
1. 产品信息缓存/用户信息缓存（高并发访问网站） 2. 定制化的改造（搜索, 广告） 3. 快照信息存储（电子商务）
• 认清需求，根据业务特点部署 • 特性的解决方案扩展到通用方案
开始使用Tair
STEP 1 评估数据模型
• 持久化或者缓存
• 单条大小（key + value） × 总条目 == 数据容量
– 先尝试压缩 – 空间够用即可，避免浪费
• 读写访问压力，ops
STEP 2 填写申请表
• /chanpin/Lists/Tai r%20namespace/AllItems.aspx
• 46个集群
• 80%的是cache，承载了90%请求 • 百亿级别的记录
双11，双12是平时流量的3～4倍
2. 原理解析
数据路由与节点管理
2.1 模块介绍
• ConfigServer • DataServer • Storage
– 存储接口 – API C++/JAVA/Restful – localcache – 控制节点，路由信息 – 数据处理与管理
• Client 缓存访问量特别多的请求 • 本地缓冲极高的热点 • 拦截掉部分攻击 • 脏数据
– 极短的过期时间 – 级别可配置(PUT GET)
3.2 定制化的改造
LDB针对性优化
LevelDB 1分钟
特性 • KV Database • Bigtable Chrome • Memtable -> SSTable • LSM(log-structuredmerge) 场景 • Key基本有序 • 更新少 • 小数据 • 读取随机（SSD）
• Client
Master
Slave
ConfigServer
Client
heartbeat
A
B
C
D
E
DataServer
2.2 ConfigServer
• 管理数据路由信息
• 主备
• 轻量级，足够简单 • 短时间的故障不会影响服务
2.2.1 对照表
• 数据划分成Bucket
– bucketid = hash(key) % n
Tair Backup Server
DB
3.1.2 用户信息Cache-运维
• 流量恢复前，要预热cache
– 保证命中率
• 分批恢复流量 • 异常发生时，自动切换流量，恢复时需要人工检查。
其他问题
• 个别Key过热访问
– 活动 – 恶意攻击
• 消息体过大，容易撑满网卡
3.1.3 LocalCache
杭州2
Clients
青岛
Clients
R
W
R
R
Tair Cluster
Invalid Server
Tair Cluster
Tair Cluster
DB
DB
但是，Tair 宕机时，请求还是会穿透到DB上！
3.1.2 用户信息Cache-需求
• 高性能，且稳定
– 压缩数据可以调高性能 – Tair机器不能宕机
谢谢 Q&A
2.3 DataServer
Request
Request Plugins Response Plugins
Respons
TairServer
Migrate Duplicator
Storage Engine
Mdb
Kdb
Bdb
Ldb
Rdb
2.4 Storage
• MDB
– 共享内存，高性能，Cache系统
• 数据模型对LDB友好，写入性能高
– 无修改，只增加
• 大内存，近期数据在内存中留存一份
– 磁盘只有顺序写
• 数据量大，SSD不合适，SATA
– 降低成本
• 扩容以集群为单位，老集群只读，Merge到更廉价的设备
Clients
Range[20110101-20120101] Old Tair Cluster Old Tair Cluster Old Tair Cluster Range[20120101-]
• 等待审批结果，1个工作日
STEP 3 查询审批输出
• • • • Namespace configID 日常环境 configID 生产（预发）环境监控地址
• 注意事项
STEP 4 使用
• /index.ph p/QuickStartWithMcClient • 缓存集群，数据变更使用invalid接口
Tair New Cluster
Merge
总结与未来
总结 • 分布式KV框架 • 支持LDB RDB MDB • Client Java/C++/Restful
未来 • 继续开源，且所有的优化都开源 • 扩大交流与支持 • • • • • 服务化流量权限控制完善插件脚本兼容memcached协议 ……….
• 每个Bucket 只属于一台Server • 一台Server包含n个Bucket
2.2.1 对照表
2个节点 2个节点扩展到3个节点
2.2.2 对照表的同步
• 客户端缓存 • 版本号机制来同步
Client
version
request
table
request
DataServer
ConfigServer
4. 总结与未来
1. 初看tair
Tair在淘宝的现状
Tair 诞生
1. 请求太慢了，要读IO，那就做个Apache Module，数据放内存里 2. 需要提高命中率，集中存放，弄个简单的分布式--Tdbm 3. 业务太多了，需要管理机器和资源--Tair
2012年Tair部署规模
• 600台机器
• 访问量相对商品信息大一个数量级
• 可靠性要求高
– 双备份？数据同步代价？成本问题，不能每个机房都2份
– 需要快速恢复
• Tair 宕机给数据库带来巨大压力
杭州1
Clients
杭州2
R
W
Tair Server
Tair Server
Tair Server
Tair Server
Invalid Server
• LDB
– 持久化，Leveldb改造，定制化修改
• RDB
– 数据结构丰富，使用了Redis的数据结构
Client
TairManager ConfigServer DataServers Packet MINA / NETTY TairManagerImpl
Diamond Address, GroupName
TairManagerImpl
R P C Tair
Flow Controller
3. 实施案例分享
Tair在淘宝应用
3.1 产品信息/用户信息缓存商品/用户3.1.1 产品信息Cache需求
• 高性能，且稳定
– 内存，MDB
• 容灾，机房容灾，地域容灾
– 多集群，多地域部署
杭州1
Clients