分布式数据库设计方案
系统设计分布式数据库的设计与实现

系统设计分布式数据库的设计与实现分布式数据库是当今大数据时代的必备工具,它可以将数据存储和处理分布到多个节点上,提高了系统的容错性、可扩展性和性能。
本文将探讨分布式数据库的设计与实现,重点讨论系统架构、数据分片、一致性和容错机制等方面。
一、系统架构设计分布式数据库的系统架构设计是保证整个系统高效运作的基础。
首先,需要确定适合业务需求的分布式数据库模型,如主从模型、多主模型或者分片模型。
在模型选择的基础上,进行节点划分和角色分配,确定各个节点的功能和任务。
此外,还需要考虑系统的互操作性,如与其他分布式系统之间的数据通信和共享。
二、数据分片策略数据分片是分布式数据库的核心问题之一。
在设计数据分片策略时,需要综合考虑数据的量级、性质和访问模式等因素。
常见的数据分片策略有哈希分片、范围分片和一致性哈希算法等。
通过适当的数据分片策略,可以使数据均匀地分布在各个节点上,提高系统的负载均衡性和并行处理能力。
三、一致性与容错机制在分布式数据库中,一致性和容错是系统设计的关键问题。
一致性指的是在多个节点之间保持数据的一致性,如副本复制机制、分布式事务和一致性协议等。
容错指的是在节点故障和网络问题发生时,系统能够自动进行故障转移和数据恢复,如心跳检测、故障检测和容错恢复算法等。
合理设计一致性和容错机制,可以保证数据的可靠性和系统的可用性。
四、数据安全与隐私保护在设计分布式数据库时,数据安全和隐私保护是不可忽视的问题。
需要采取一系列的措施来确保数据在传输和存储过程中的安全性,如数据加密、身份认证和权限管理等。
同时,还需要考虑用户隐私的保护,如敏感数据的脱敏和匿名化处理等。
五、性能优化与扩展性对于分布式数据库来说,性能优化和扩展性是持续关注的问题。
通过合理的数据划分和负载均衡策略,可以提高系统的吞吐量和响应速度。
此外,还可以采用缓存技术、索引优化和查询优化等手段来提高系统的性能。
同时,设计具有良好扩展性的系统架构,可以随着数据规模的增加而灵活扩展。
第2讲 分布式数据库设计

混合分片:通过交替水平分片与垂直分片,可以产生混合 分片。建立混合分片最简单的方法包括:把水平分片应用 到垂直分片中或把垂直分片应用到水平分片中。
21
本次您浏览到是第二十2一0页2,2共/1八/3十0六页。
数据分片规则
R = {R1, R2, …, Rn}, 则 R满足
24
本次您浏览到是第二十四页20,2共2八/1十/3六0 页。
初级分片中执行选择操作的条件(或称谓词)叫做限定语。 如Sex=‘F’和SEX=‘M’是限定语。
水平分片正确性原则的三个条件可以这样来实现:
✓ 完整性条件。各片段定义中的限定语集合必须是完整的,即至
少是它们允许值的集合。如SEX={‘M’,‘F’},季节 ={春,夏,秋,冬}
型和统计分布。
很难获知
6
本次您浏览到是第六页20,2共2/八1十/3六0 页。
§2 分布式数据库设计目标
影响分布式数据库性能的因素内容
数据的分布情况设计会影响系统的总体性能。 ✓ 访问多个数据对象所需的时间和费用。会因为这些数据对 象是存放在同一站点,还是分布在多个站点有很大区别。 因为如果分布在多个站点上,就要进行站点与站点之间的 通信。
§4 自顶向下设计分布式数据库
集中式数据库自顶向下设计过程
需求分析
✓ 收集用户数据库应用的非结构规格说明,并产生一种无 歧义的定义和在设计数据库中要考虑的元素分类。这些 信息被收集在设计数据字典中。
概念设计
✓ 有时进一步分成视图设计和视图综合,产生全局、综合数据库
模式的一种概念规格说明和在此模式上执行应用的概念规格说
12
本次您浏览到是第十二页20,2共2/八1十/3六0 页。
分布式系统设计一个高可用的分布式数据库

分布式系统设计一个高可用的分布式数据库在现代计算机科学领域中,分布式系统已经成为一种重要的技术架构,其具有高可用性和可扩展性的特点正在被越来越多的应用所采纳。
而分布式数据库作为其中的核心组件,是支持大规模数据存储和访问的关键。
本文将探讨如何设计一个高可用的分布式数据库系统。
一、引言分布式数据库是指将数据存储于多个不同的物理节点上,并且这些节点之间通过网络相互连接,共同为用户提供数据服务的系统。
与传统的集中式数据库相比,分布式数据库能够充分利用多台机器的资源,提高系统的可用性和性能。
二、数据分片与复制为了实现高可用,我们首先需要将数据划分成多个片段,并将这些片段分布在不同的节点上。
这样一来,即使某个节点出现故障,系统依然可以通过其他节点继续对外提供服务。
同时,为了避免单点故障,我们还需要将每个数据片段进行多次复制,存储在不同的节点上。
三、选举机制在分布式系统中,为了保持数据的一致性,通常会选择一台节点作为“主节点”,负责接收并处理用户的写请求。
而其他节点则充当“从节点”,负责接收并处理用户的读请求。
当主节点出现故障时,系统需要通过选举机制选出新的主节点,保证系统的正常运行。
四、数据一致性数据一致性是保证分布式系统正确运行的关键要素之一。
为了实现数据的一致性,我们可以使用分布式一致性协议,如Paxos或Raft。
这些协议通过在节点之间进行消息传递和状态同步,确保数据在多个节点之间的复制是同步和一致的。
五、容错与恢复在分布式系统中,节点的故障是不可避免的。
为了保证系统的可用性,我们需要实施容错机制。
一种常用的方式是引入冗余节点,当某个节点发生故障时,系统可以自动将故障节点从数据库集群中剔除,并将其上的数据迁移到其他正常节点上。
同时,系统还需要实施自动恢复机制,确保故障节点恢复后能够重新加入数据库集群。
六、性能优化在设计分布式数据库时,为了提高系统的性能,我们可以采用一些优化策略。
其中,常用的策略包括缓存技术、负载均衡策略和并发控制机制等。
分布式数据库设计方案

分布式数据库设计方案1.引言分布式数据库是一种将数据存储在多个节点上,并通过网络相互连接和通信的数据库系统。
它具备高可用性、高性能和可扩展性的特点,可以应对大规模数据存储和高并发访问的需求。
本文将介绍分布式数据库设计的一般步骤和具体方案。
2.设计步骤在设计分布式数据库时,需要进行以下几个步骤:2.1数据需求分析首先,需要对数据需求进行分析和建模。
这包括确定数据的类型、结构、大小和访问模式等。
通过分析数据的特点,可以选择适当的分布式数据库模型,如关系型、面向对象、文档型或键值型等。
2.2数据划分2.3数据复制为了提高系统的可用性和容错性,需要对数据进行复制。
数据复制的方式可以是主备复制、多备份复制或异步复制等。
同时,需要制定一致性协议来保证数据的一致性。
2.4数据路由和负载均衡设计合理的路由策略可以提高系统的查询性能和吞吐量。
可以通过数据分片或数据分区来实现路由,并使用负载均衡算法来将访问请求分配到不同的节点上。
2.5安全性和权限控制对于分布式数据库系统来说,数据的安全性是一个重要的考虑因素。
需要设计合适的安全策略,包括身份认证、访问控制和数据加密等,以保护数据的机密性和完整性。
2.6故障处理和恢复由于分布式数据库拥有多个节点,其中任何一个节点出现故障都可能影响整个系统的可用性。
所以,需要设计合适的故障处理和恢复机制,包括故障检测、故障转移和数据恢复等。
3.具体方案在设计分布式数据库时,可以基于开源的分布式数据库系统进行扩展和定制。
以下是一个基于Apache Cassandra的具体方案:3.1数据划分和复制基于Cassandra的环形数据划分方法,将数据根据主键哈希值划分到不同的节点上。
每个节点负责一部分数据的存储和处理。
为了提高系统的可用性和容错性,可以设置多个节点作为数据的备份节点。
3.2数据路由和负载均衡Cassandra使用一致性哈希算法来进行数据路由和负载均衡。
每个节点都有一个哈希值范围,负责处理哈希值在该范围内的数据。
分布式数据库设计方案

1.大型分布式数据库解决方案企业数据库的数据量很大时候,即使服务器在没有任何压力的情况下,某些复杂的查询操作都会非常缓慢,影响最终用户的体验;当数据量很大的时候,对数据库的装载与导出,备份与恢复,结构的调整,索引的调整等都会让数据库停止服务或者高负荷运转很长时间,影响数据库的可用性和易管理性。
分区表技术让用户能够把数据分散存放到不同的物理磁盘中,提高这些磁盘的并行处理能力,达到优化查询性能的目的。
但是分区表只能把数据分散到同一机器的不同磁盘中,也就是还是依赖于一个机器的硬件资源,不能从根本上解决问题。
分布式分区视图分布式分区视图允许用户将大型表中的数据分散到不同机器的数据库上,用户不需要知道直接访问哪个基础表而是通过视图访问数据,在开发上有一定的透明性。
但是并没有简化分区数据集的管理、设计。
用户使用分区视图时,必须单独创建、管理每个基础表(在其中定义视图的表),而且必须单独为每个表管理数据完整性约束,管理工作变得非常复杂。
而且还有一些限制,比如不能使用自增列,不能有大数据对象。
对于全局查询并不是并行计算,有时还不如不分区的响应快。
库表散列在开发基于库表散列的数据库架构,经过数次数据库升级,最终采用按照用户进行的库表散列,但是这些都是基于自己业务逻辑进行的,没有一个通用的实现。
客户在实际应用中要投入很大的研发成本,面临很大的风险。
面对海量数据库在高并发的应用环境下,仅仅靠提升服务器的硬件配置是不能从根本上解决问题的,分布式网格集群通过数据分区把数据拆分成更小的部分,分配到不同的服务器中。
查询可以由多个服务器上的CPU、I/O来共同负载,通过各节点并行处理数据来提高性能;写入时,可以在多个分区数据库中并行写入,显著提升数据库的写入速度。
价值所在∙通过分区把数据放到不同的机器中,每次查询可以由多个机器上的CPU,I/O来共同负载,通过各节点并行处理数据来提高性能。
∙冗余的数据结构(矩阵列)消除了单点故障,任何一个机器出现故障后都不会影响系统的正常运行,数据库集群能提供不中断的服务。
分布式数据库系统的设计与实现

分布式数据库系统的设计与实现随着互联网的发展,数据量越来越大,单一的数据库系统已经无法满足大规模数据的处理需求。
在这种情况下,分布式数据库系统成为了一个受欢迎的解决方案。
分布式数据库系统通过多个数据库之间的数据分区和分散存储,实现了数据的高可用性、可扩展性和容错性。
本文将探讨分布式数据库系统的设计和实现。
1. 分布式数据库系统的架构分布式数据库系统的架构可以分为两种类型:客户端-服务器型架构和对等型架构。
1.1. 客户端-服务器型架构在客户端-服务器型架构中,客户端向服务器发送请求,并从服务器接收数据。
服务器处理请求,并返回结果。
客户端-服务器型架构可以分为两种类型:中心服务器型和分布式服务器型。
中心服务器型架构是指系统中有一个主服务器,所有的客户端都与该服务器通信。
所有的数据都存储在该主服务器中。
这种架构适用于小规模系统。
但如果主服务器出现性能瓶颈或故障,整个系统的可用性将受到影响。
分布式服务器型架构是指系统中有多个服务器,每个服务器都存储一部分数据。
所有的客户端可以同时与这些服务器通信。
这种架构适用于大规模系统,可以提高系统可用性和性能。
1.2. 对等型架构在对等型架构中,每个节点都可以同时充当客户端和服务器。
数据分布在各个节点之间,每个节点都可以进行数据读写操作。
对等型架构可以分为两种类型:完全对等型和不完全对等型。
完全对等型架构是指各个节点之间没有等级和优先级之分,每个节点的功能相同。
这种架构适用于小规模系统。
不完全对等型架构是指各个节点之间有等级和优先级之分,有些节点承担更多的任务和负责更多的数据。
这种架构适用于大规模系统。
2. 分布式数据库的数据分区在分布式数据库系统中,数据分区是非常重要的。
数据分区决定了如何将数据存储在不同的节点中,以及如何将数据访问请求路由到正确的节点。
2.1. 水平分区水平分区是指按行进行分区。
每个节点存储一部分数据行。
这种分区方式适用于数据行比较独立的场景,如电商网站订单信息的存储。
分布式数据库的设计与实现

分布式数据库的设计与实现分布式数据库是一种将数据存储在不同的物理节点上的数据库系统。
它通过将数据分散存储在多个服务器上,以实现高可用性、高性能和横向扩展等优势。
本文将介绍分布式数据库的设计与实现的方法和原则。
一、概述分布式数据库设计的目标是实现数据的分布式存储和访问,同时保证数据的一致性、可靠性和性能。
它通常可以分为两个部分:分布式数据库管理系统(Distributed Database Management System,简称DDMS)和数据分布策略。
二、DDMS设计与实现1. 数据切分在设计分布式数据库时,首先需要将数据按照一定的规则进行切分,将其分散存储在多个节点上。
常见的数据切分方法有垂直切分和水平切分两种。
- 垂直切分:按照业务模块将数据库表进行切分,使得每个节点只存储一部分表的数据。
这样可以减少单一节点的负载,提高系统性能和可用性。
- 水平切分:按照某个列或一组列的数值范围将表的数据划分成多个部分,分别存储在不同的节点上。
这样可以实现数据的负载均衡和横向扩展。
2. 数据复制在分布式数据库中,为了保证数据的可靠性和高可用性,一般会对数据进行复制存储。
常见的数据复制方法有主从复制和多主复制两种。
- 主从复制:一个节点作为主节点负责接收和处理所有的写入请求,其他节点作为从节点负责复制主节点的数据,并处理读取请求。
这样可以提高系统的读取性能和可用性。
- 多主复制:多个节点都可以处理读写请求,并相互之间进行数据同步。
这样可以提高系统的写入性能和可用性。
3. 数据一致性在分布式数据库中,由于数据的复制和分布式存储,会导致数据的一致性问题。
为了解决这个问题,可以采用一致性哈希算法来确定数据存储的位置和复制的节点。
同时,可以使用副本一致性协议来实现数据的一致性。
- 一致性哈希算法:将数据的键值通过哈希函数映射到一个统一的Hash环上,根据节点在环上的位置确定数据的存储节点。
这样可以实现动态添加和删除节点时的数据迁移。
分布式数据库设计与优化

分布式数据库设计与优化随着互联网的发展和数据量的不断增长,传统的单机数据库已经无法满足大规模的数据存储和访问需求。
为了解决这一问题,分布式数据库被广泛采用。
本文将着重介绍分布式数据库的设计和优化策略。
一、分布式数据库设计1. 数据划分在分布式数据库中,数据划分是非常重要的一步。
好的数据划分可以提高系统的并发性能和可伸缩性。
其思路是将数据按照某种规则分散到不同的节点上,实现负载均衡和数据的并行处理。
常见的数据划分策略有两种,即垂直划分和水平划分。
垂直划分指的是将一个表按照列进行拆分,将不同的列存储在不同的节点上。
水平划分则是根据某个条件将表中的数据分散到不同的节点上。
2. 数据复制为了保证分布式数据库的高可用性和容错能力,数据复制是必不可少的。
通过将数据复制到多个节点上,可以避免单点故障,提高系统的可靠性。
数据复制有两种方式,即主备复制和多库复制。
主备复制是将一个节点作为主节点,其他节点作为备节点。
主节点负责处理用户的读写请求,备节点则负责同步主节点的数据。
当主节点发生故障时,可以通过自动切换备节点来保证系统的正常运行。
多库复制是将数据复制到多个节点上,每个节点都可以处理用户的读写请求。
通过多库复制可以提高系统的读取性能,但写入操作需要同步到所有节点,对于写入性能有一定的影响。
3. 数据一致性在分布式数据库中,数据一致性是一个复杂而重要的问题。
由于数据被分散存储在不同的节点上,数据的一致性需要得到保证。
在设计分布式数据库时,需要考虑如何解决数据一致性的问题。
常见的保证数据一致性的方法有两种,即强一致性和最终一致性。
强一致性要求所有节点在同一时刻看到的数据是一致的,但会影响系统的性能和可伸缩性。
最终一致性则允许在一段时间内存在数据不一致的情况,但能够保证最终数据的一致性。
二、分布式数据库优化1. 查询优化查询优化是提高分布式数据库性能的关键。
在设计查询时,应尽量减少数据的传输和节点间的通信开销。
可以通过以下方法来进行查询优化:- 使用索引:在查询中使用索引可以加快数据的查找速度,降低系统的负载。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.大型分布式数据库解决方案
企业数据库的数据量很大时候,即使服务器在没有任何压力的情况下,某些复杂的查询操作都会非常缓慢,影响最终用户的体验;当数据量很大的时候,对数据库的装载与导出,备份与恢复,结构的调整,索引的调整等都会让数据库停止服务或者高负荷运转很长时间,影响数据库的可用性和易管理性。
分区表技术
让用户能够把数据分散存放到不同的物理磁盘中,提高这些磁盘的并行处理能力,达到优化查询性能的目的。
但是分区表只能把数据分散到同一机器的不同磁盘中,也就是还是依赖于一个机器的硬件资源,不能从根本上解决问题。
分布式分区视图
分布式分区视图允许用户将大型表中的数据分散到不同机器的数据库上,用户不需要知道直接访问哪个基础表而是通过视图访问数据,在开发上有一定的透明性。
但是并没有简化分区数据集的管理、设计。
用户使用分区视图时,必须单独创建、管理每个基础表(在其中定义视图的表),而且必须单独为每个表管理数
据完整性约束,管理工作变得非常复杂。
而且还有一些限制,比如不能使用自增列,不能有大数据对象。
对于全局查询并不是并行计算,有时还不如不分区的响应快。
库表散列
在开发基于库表散列的数据库架构,经过数次数据库升级,最终采用按照用户进行的库表散列,但是这些都是基于自己业务逻辑进行的,没有一个通用的实现。
客户在实际应用中要投入很大的研发成本,面临很大的风险。
面对海量数据库在高并发的应用环境下,仅仅靠提升服务器的硬件配置是不能从根本上解决问题的,分布式网格集群通过数据分区把数据拆分成更小的部分,分配到不同的服务器中。
查询可以由多个服务器上的CPU、I/O来共同负载,通过各节点并行处理数据来提高性能;写入时,可以在多个分区数据库中并行写入,显著提升数据库的写入速度。
价值所在
∙通过分区把数据放到不同的机器中,每次查询可以由多个机器上的CPU,I/O来共同负载,通过各节点并行处理数据来提高性能。
∙冗余的数据结构(矩阵列)消除了单点故障,任何一个机器出现故障后都不会影响系统的正常运行,数据库集群能提供不中断的服务。
∙无共享磁盘架构节省了硬件,利用中小型的服务器取代大型服务器大幅降低了硬件的成本,系统中不再有闲置的资源,降低了系统TCO(总体拥有成本)。
∙分区把数据分成更小的部分,提高了数据库的可用性和可管理性。
∙根据业务的需要,访问层和数据层都可以增加,集群具有良好的扩展性。
∙中间件宿主在数据库中的创新使集群变得更透明,数据库的管理成本,以及面向数据库的开发成本都最小化。
2.数据实时复制解决方案
经过分析,大多数应用系统以查询操作为主,造成数据库压力迅速增加的主要因素也是复杂的查询操作,为了能够得到同一份数据的多个副本来响应用户的查询,SQL Server 提供了复制技术(Replication),主要有合并复制、事务复制、快照复制等,这些技术可以有效缓解查询的压力。
伴随着企业发展的需要,企业对信息实时性要求越来越高,如股票、航空票务、连锁店甚至是一些服务系统等等,这些系统的用户希望更新的数据马上就可以查询到。
SQL Server数据库的复制/订阅技术
复制/订阅数技术可以实现读、写分离,数据先写到中心数据库上,写成功即返回给应用程序;通过复制将数据复制到只读服务器,查询时从只读服务器查。
意味着订阅端的数据和中心数据库的数据不同步,是个异步的过程,所以数据滞后严重,数据同步的实时性得不到保障,中心数据库在正常的压力下10秒左右。
当访问负荷很高或者中心数据库在整理数据时,将出现大量DML操作延迟时间比较长或者出现堵塞的情况;
某些修改操作需要重新建立复制关系并初始化,这期间需要停止数据库的读取服务,规模越大的应用停止的时间越长,严重影响了数据库的可用性。
结论:复制订阅技术的实时性差,初始化时对系统的影响非常大;在数据复制过程中没有采用智能的策略,数据的复制速度慢;中心数据库仍然为失败转移集群模式。
构建数据库集群,节点间数据同步都是实时的,数据是一致性的,可以部署为读、写分离,也可以部署为所有节点可读可写;中间件监测到数据库变化并同步数据,数据同步完成后客户端才会得到响应,同步过程是并发完成的,所以同步到多个数据库和同步到一个数据库的时间基本相等;另外同步的过程是在事务的环境下完成的,保证了多份数据在任何时刻数据的一致性。
中间件在同步数据时采用了多项智能同步策略,满足了不同类型的应用模式,可以同步数据,同步SQL语句,并行执行SQL语句,升级数据库的锁,启用数据压缩等。
同步过程是在SQL Server的执行环境中进行的,整个操作是在事务的环境下完成的,解决了数据实时性问题,满足了用户对数据实时性的要求。
中间件在同步数据时采取了智能同步策略,同步速度更快;提供了多种人工干预的机制,对数据库表结构的调整、批量更改数据等操的时间大幅缩减。
无需搭建失败转移集群,中心数据库Cluster中闲置的一台机器被利用起来,提高了整个系统的使用率;系统支持无共享磁盘架构,可以节省共享的存储设备。
连接数据库,提供专门针对数据库系统的负载均衡软件,无需使用昂贵的均衡硬件,无需程序员自己实现。
提供故障检测及失败转移功能。
3.数据库选择
在SQL中使用Oracle链接服务器,因为是异地数据,在SQL中的更新,删除等是隐式事务,而在Oracle 中是显示的,所以直接调用速度是很慢的.并且很容易崩掉。
4.数据查询
1秒钟时间,在几千亿条话单数据中找到用户想要的数据,在分区、并行查询、列存、集群等技术统统粉墨登场仍无法满足响应要求时,数据压缩和索引技术成为了致胜的关键。
无论是使用传统的B树索引,或通用的压缩算法,都不是问题的正解,在如此大的数据量下,需要使用更加专业高效的技术方法。
基于特定条件(产品型号、产品名称、起止时间等)组合的详单查询,绝大多数查询只会返回少量的结果
压缩总体结构
压缩的主要目的不是减少空间占用,而是提高查询性能
CPU平均处理带宽3.6GB/秒(7000万行/秒/核),I/O平均处理带宽300MB/秒,通过压缩提升I/O带宽,实现CPU与I/O处理均衡,提高查询性能
列内规则
使用通用压缩算法
LZMA:CPU处理带宽太低
压缩比18.9:1,解码速度171MB/秒/核
(折算后)CPU处理带宽991MB/秒,I/O处理带宽5.7GB/秒LZOP:压缩率太低
压缩比7.2:1,解码速度891Mb/秒/核
(折算后)CPU处理带宽2.4GB/秒,I/O处理带宽2.2GB/秒
列内规则
对压缩的要求
压缩率不低于15:1
CPU处理带宽不低于5GB/秒
索引
查询高选择率的特点适合选择索引
传统索引
空间占用大
维护成本高,对装载速度影响大
对索引的要求
占用空间对压缩率贡献可忽略不计
维护开销对装载速度无明显影响
选择率接近于数据的实际选择率,远快于表扫描
列内规则
传统索引的不足
维护成本高
对数据装载速度影响极大
先建模式下:索引需要同步维护,随机插入影响性能,插入过程中无法引入压缩
后建模式下:需要大规模的排序,创建成本高
空间占用大
以B树为例,<键值,ROWID>二元组,按照键值顺序排列,按列压缩
ROWID随机性强,难以被压缩,整体空间成本> 6字节/
分片索引
技术要点:
将表按照一定行数据分成多个数据包
为每个压缩包建立其中各列的摘要信息(如最大值、最小值),所有数据包上的属于特定列的全部摘要信息,构成该列的分片索引
利用摘要信息,来判定对应的数据包中是否包含满足特定的查询条件的行,如确定不存在这样的行,则整个数据包无须被解压
主要优点:
索引在每个数据包生成之后即自动生成,无后续维护成本
摘要信息空间占用小,通常不足被索引的数据的1/10
采用合适的摘要信息,可以实现接近于传统索引的过滤效果
最后达到的数据要求是:
高压缩比、高性能,对应用完全透明
支持行列混合存储
...
.. 水平分区
支持多种方式的分区策略,支持二级分区
支持并行查询和智能化分区过滤
高可靠性
支持多粒度备份恢复,提供在线并行备份恢复支持。