分布式数据库第08章复习要点整理

合集下载

08第八章计算机集散控制系统

但是集中型计算机控制存在三个主要问题：
①.集中的脆弱性:集中控制使危险也集中，一旦计算机系统发生故障，将导致生产过程的全面瘫痪； ②.计算机的负荷：由于计算机控制回路多，计算机的负荷过重，导致控制性能降低； ③ .系统开发周期和人才利用：由于计算机控制的应用面越来越广，计算机控制系统的规模和复杂性越来越大，造成开发周期增加，人力资源难以组织。
进入20世纪70年代后，随着大规模集成电路的问世，微处理器诞生，以及控制技术﹑显示技术﹑计算机技术﹑通信技术等进一步发展，产生了新型的计算机控制系统——集散控制系统，它按控制功能或按区域分散配置若干个控制站，每个控制站可控制几个﹑十几个或几十个回路，从而实现了控制功能分散，使得危险也得以分散。系统中使用多台屏幕显示器进行监视﹑操作和管理，系统中各控制站通过完全双重化的数据通信系统连接起来。
这一阶段的代表产品有美国Honeywell公司的TDC2000，它是一个具有许多微处理器的分级控制系统，以分散的控制设备来适应分散的过程对象，并将它们通过数据高速公路与基于CRT的操作站相连接，互相协调，实现对工业过程的控制和监视，达到掌握全局的目的。系统克服了集中型计算机控制系统的致命弱点，实现了控制系统的功能分散﹑负荷分散，从而危险也分散。这个阶段比较著名的产品还有 Bailey公司的NetWork90，Foxboro公司的 Spectrum，日本横河的CENTUM 等。
1975年，美国 Honeywell公司首次向世界范围推出TDC2000系统，随之世界各大仪表制造公司也推出各自的集散控制系统，从而使过程控制进入集散控制系统时期。集散控制系统的发展大体可分为三个阶段，每个阶段的技术重点表现如下：
第一阶段：1975～1980年，以微处理器为基础的过程控制单元，实现多种控制功能算法，并实现分散控制：采用带显示器的操作站，与过程控制单元分离，实现集中监视﹑集中操作﹑信息综合管理；采用较先进的冗余通信系统﹑用同轴电缆做传输媒质，实现控制单元与操作站的通信。

分布式数据库复习要点

分布式数据库复习要点第一章1、分布式数据库的定义（P4）物理上分散而逻辑上集中的系统，它使用计算机网络将地理位置分散而管理和控制又需要不同程度集中的多个逻辑单位（通常是集中式数据库系统）连接起来，共同组成一个统一的数据库系统。

分布式数据库系统可以看成是计算机网络和数据库系统的有机结合。

2、分布式数据库的两种分类方法（P7）●按局部DBMS的数据模型分同构型DDBS：各个站点上数据库使用同一数据模型同构同质型-数据模型相同，且是同一种DBMS（同一厂家）同构异质型-数据模型相同，不是同一种DBMS异构型DDBS ：各站点上数据库的数据模型类型不同全局控制集中型DDBS：全局控制机制和全局数据词典位于中心站点全局控制分散型DDBS：全局控制机制和全局数据词典分散在网络的各个站点上。

全局控制可变型DDBS：也称主从型DDBS。

分成两组站点，一组包含全局控制机制和全局控制词典，另外一组不包含。

3、分布式数据库的组成成分（两部分）（P9）●数据：分布式数据库的主体，包括局部数据和全局数据。

●数据目录：数据结构的定义、全局数据的分片、分布、授权、事务恢复等描述，包括局部和全局数据目录。

4、分布式数据库的数据分片的定义和类型（3种）（P10）数据分片：又称数据分割、数据分段，局部数据库是由全局数据库分割而成。

三种类型：●水平分片：按特定条件把全局关系的所有元组划分成若干个互不相交的子集，对全局关系施加选择运算。

●垂直分片：把全局关系的属性集分成若干个子集，对全局关系施加投影运算。

●混合分片：以上两种方法的混合。

5、分布式数据库的分布策略（4条）（P11）数据分布：根据某种策略把数据分片所得的逻辑片断分散地存储在各个站点上.●集中式：所有数据都安排在同一站点上●分割式：所有数据只有一份，被分割成若干个逻辑片段，每个片段被放置在特定的站点●复制式：所有数据有多个副本，每个站点都有一个完整的数据副本●混合式：分割式和复制式的混合6、分布式数据库的模式结构（P13）分四层：●全局外层：全局外模式---全局应用的用户视图。

分布式数据库系统_复习

分布式数据库系统_复习本页仅作为文档封面，使用时可以删除This document is for reference only-rar21year.March一、填空分布式数据库系统按局部数据库管理系统的数据模型分类，可以分为和两类。

同构型DDBS 异构型DDBS分布式数据库系统按全避控制系统类型分类，可以分为、和三类。

全局控制集中型DDBS 全局控制分散型DDBS 全局控制可变型DDBS分布式数据库是分布式数据库系统中各站点上数据库的逻辑集合，它由和组成。

应用数据库描述数据库数据分片的三种基本方法是：、和三类。

水平分片垂直分片混合分片分布式数据库中的数据分布策略有：、、和四层。

集中式分割式复制式混合式分布式数据库是多层模式结构，一般划分为、、和四层。

全局外层全局概念层局部概念层局部内层一个分布式数据库管理系统一般应包括、、和四个基本功能模块。

查询处理模块完整性处理模块调度处理模块可靠性处理模块分布透明性包括、和三个层次。

分片透明性位置透明性局部数据模型透明性分布式数据库系统的创建方法，大致可分为和两种。

组合法重构法集中式数据库设计一般包括：需求分析，概念设计，逻辑设计和物理设计四个阶段，分布式数据库设计除了上述四个阶段外，还需增加一些个新的阶段，它位于和之间。

分布设计逻辑设计物理设计水平分片的方法可归为和两种。

初级分片导出分片DATAID-D相对于DATAID-1增加了和两个阶段。

分布要求分析分布设计DATAID-D中的分布设计分成、、和四个阶段。

分片设计非冗余分配冗余分配局部模式的重新构造分布式查询优化的准则是。

通信费用和响应时间最短在分布式系统中，查询代价QC＝。

I/O代价+CPU代价+通信代价在分布式环境下，查询可分为、和三种类型。

局部查询远程查询全局查询分布式查询处理可以分为、、和四层。

查询分解数据本地化全局优化局部优化一个分布式事务通常是由和组成。

主事务子事务事务的四个特性是：、、和。

分布式数据库系统复习材料

分布式数据库系统复习材料在学习和复习分布式数据库系统时，需要掌握以下几个关键知识点：1.分布式数据库架构：分布式数据库系统可以采用集中式架构、两层架构、三层架构等不同的架构模式。

其中集中式架构通过一个中央服务器管理所有的数据，两层架构将数据分为客户端和服务器两部分进行管理，三层架构引入中间层服务器来协调不同的功能和数据层。

2.分布式数据库一致性：分布式数据库系统需要保证数据的一致性。

数据的一致性可以通过ACID原则来保证，即原子性、一致性、隔离性和持久性。

此外，还可以使用分布式事务来保证数据的一致性，分布式事务可以通过两阶段提交（2PC）或者三阶段提交（3PC）来实现。

3.分布式数据库的查询：分布式数据库系统可以进行分布式查询，即将查询请求分发给不同的节点进行处理。

常用的查询分发策略包括哈希分发、范围分发和复制分发。

哈希分发根据查询内容的哈希值将查询请求分发到对应的节点上，范围分发根据数据的范围将查询请求分发到对应节点上，复制分发将查询请求分发到多个节点上进行处理。

4.分布式数据库的数据复制：分布式数据库系统可以通过数据复制来提高数据的可靠性和性能。

数据复制可以采用同步复制或者异步复制方式。

同步复制要求数据在所有节点上都写入成功后才算成功，而异步复制则可以先将数据写入一个节点，然后再异步地将数据复制到其他节点上。

5.分布式数据库的容错与恢复：分布式数据库系统需要具备容错和恢复机制，以应对节点故障或者网络故障等异常情况。

常用的容错机制包括故障检测、容错存储和故障恢复。

故障检测可以通过心跳机制或者节点监视来实现，容错存储可以通过数据备份或者数据冗余来实现，故障恢复可以通过副本恢复或者数据迁移来实现。

6.分布式数据库的性能优化：分布式数据库系统可以通过多种方式来优化性能。

常用的性能优化方法包括数据分片、负载均衡和缓存机制。

数据分片可以将数据分散到不同的节点上，以减轻节点的负载；负载均衡可以将查询请求均匀地分发到各个节点上，以提高查询的响应速度；缓存机制可以将频繁查询的数据缓存在节点上，以减少磁盘访问，提高查询性能。

《分布式数据库原理及应用》知识总结

《分布式数据库原理及应⽤》知识总结《分布式数据库原理及应⽤》知识总结⽬录1 描述关系数据库的相关概念： (3)1）关系数据的数据模型 (3)2）⽀持的数据类型 (4)3）关系数据库的性能瓶颈 (4)4）ACID与事务 (4)2 描述NoSQL数据库的相关概念： (5)1）NoSQL数据库的分类 (5)2）NoSQL数据库的特点 (5)3）CAP与BASE理论 (6)3 MongoDB相关 (6)1）MongoDB的简介 (6)2）MongoDB的数据模型 (6)3）MongoDB的存储结构 (7)4）MongoDB⽀持的数据类型 (7)5）MongoDB数据库操作的基本命令 (7)6）MongoDB集合操作的基本命令 (7)7）MongoDB⽂档操作的基本命令 (8)save() ⽅法 (10)8）Java连接MongoDB的流程 (13)9）MongoDB的索引原理 (13)10）MongoDB⽀持的索引类型 (13)11）MongoDB的聚合操作 (14)12）MongDB⽀持的聚合类别 (14)13）MongoDB复制集相关： (14)14）MongoDB分⽚集相关： (16)15）数据库编程 (17)4 Neo4j相关 (18)1）描述Neo4j的基本组成 (18)2）Neo4j的基本操作命令 (18)3）描述对github等⽹站的理解与使⽤ (18)5 内存数据库 (19)1）Memcache (19)2）Redis (19)3）Memcache与redis的对⽐ (22)6 Hbase列族数据库 (22)1）HBase的特点 (22)2）HBase的成员组成及作⽤ (22)3）HBase的数据模型 (23)4）HBase的⽀持的数据类型 (23)5）HBase常⽤操作命令 (24)6）HBase的存储 (24)7）HBase的寻址 (25)8）HBase的读写操作 (25)9）HBase的store的合并和分裂 (26)10）HBase的region的拆分和合并 (26)11）HBase的负载均衡策略 (27)12）布隆过滤器 (27)13）Rowkey在HBase中应该如何设计 (28)7 NoSQL数据库汇总 (29)1 描述关系数据库的相关概念：1）关系数据的数据模型包括三个⽅⾯：a.关系数据结构b.关系完整性原则c.有关系运算a.关系数据结构1)域（Domain）域是⼀组具有相同数据类型的值的集合。

分布式数据库考试总结要点-可靠性

分布式数据库考试总结要点-可靠性1、可靠性（reliability）… 指数据库在⼀给定时间间隔内不产⽣任何失败的概率。

… 强调正确性，要求数据库正确运⾏，即符合某种规格化要求。

… 通常⽤来描述不可修复的系统。

可⽤性（availability）… 强调的是当需要访问数据库时，它是可⽤的。

… 指在给定的时间点系统可以正常运⾏的概率。

… 通常⽤于描述那些可以修复的系统。

两者关系… 通常认为构建⾼可⽤性的系统⽐⾼可靠性的系统容易… 两者是统⼀的，可靠性⾼的系统可⽤性⾃然是好的… 两者⼜是⽭盾的，增加错误风险的情况下，可提⾼可⽤性2、分布式可靠性协议组成… 提交协议：保证分布式事务的原⼦性… 恢复协议：失效站点重新启动后，如何处理失效事件带来的影响。

… 终结协议：若⼀个站点失效，其它未失效站点如何处理失效事件的协议。

… ⾮阻断协议：允许事务在⾮失效的站点终结，⽽不必等待失效站点的恢复。

可改进事务的响应时间。

… 独⽴的恢复协议：规定如何在发⽣失效时终结事务，⽽不必求助于其它站点。

可以减少恢复时需要交换的信息3、两阶段提交协议(2PC)的要点… 允许参与者单⽅⾯撤销事务，直到做出肯定性的建议… 参与者⼀旦做出提交或者撤销建议，它就不能再更改… 当参与者处于就绪状态，它可根据协调者发来的消息类别，转换为相应的提交或者撤销状态… 协调者依据全局提交规则作出全局终结决定… 在发⽣故障的情况下，协调者和参与者可能会进⼊互相等待的状态，⼀般采⽤定时器来解决这种问题4、事务阻断（阻断即等待）… 某个站点上可以终结（提交或撤销）的⼦事务，由于DDBS故障，⽽必须等待到故障恢复后，收到必要的信息才能结束的事务状态。

… 处于阻断状态的事务不会释放占有的资源。

两阶段提交协议是阻断协议事务阻断降低了系统的可⽤性5、终结协议… 允许事务在有故障情况下仍能正确结束的协议… 在⾮⽹络分割故障时，2PC协议的某些情况可以设计为终结协议，使⽆故障的站点终结⼦事务，即当协调者站点在第⼆阶段发⽣故障时，做如下处理：… ⾄少有⼀个站点已收到结果命令，则该站点可以告知其它参与者关于该事务的结果，并由它们来终结该事务。

分布式数据库复习重点

DBMS1
DBMS2
DBMSm
4.
网络
1 1.1
分布式数据库设计概述 DDBS创建方法
重构法
根据实现环境和用户需求
1.
用户1
用户2
用户n
2.
按照DDBS的设计思想和方法
从总体设计做起，包括 LDBS,重新建立一个DDBS 可有效解决数据一致性、完整性和可靠性问题。通常是同构异质或同构同质 DDBS
2 自顶向下设计DDB
2.2 数据的分片设计
小项谓词选择
(1) A<10 (2) A<10 (3) A<10 (4) A<10 (5) A<10 (6) A<10 (7) A<10 (8) A<10
A>5 Loc=SA Loc=SB A>5 Loc=SA ¬(Loc=SB) A>5 ¬(Loc=SA) Loc=SB A>5 ¬(Loc=SA) ¬(Loc=SB) ¬(A>5) Loc=SA Loc=SB ¬(A>5) Loc=SA ¬(Loc=SB) ¬(A>5) ¬(Loc=SA) Loc=SB ¬(A>5) ¬(Loc=SA) ¬(Loc=SB)
5 分布式数据库系统的体系结构和组成成分 5.3 DDBS中数据的分片与分布
1. 数据分片（P.10）又称数据分割、数据分段，局部数据库是由全局数据库分割而成 • • • 水平分片（对全局关系施加选择运算）垂直分片（对全局关系施加投影运算）混合分片（两种方法的混合）
数据分片要准守的原则：
• • • 完备性原则：要把所有的数据映射到各个片断中可重构原则：关系分片后的各个片断可重构整个关系不相交原则：关系分片后的各个片断不能重叠

db08

DataSet

Windows Forms
Web Services
数据库系统及应用
20
金培权（jpq@）
Data Provider
Data Provider提供了DataSet和数据库之间的
联系，同时也包含了存取数据库的一系列接口
SQL Server .NET Data Provider
ExecuteNonQuery
适用于存储过程、Insert、Update、Delete语句，返回操作所影响的记录数
数据库系统及应用
29
金培权（jpq@）
Command对象
示例1：Select查询
OleDBConnection Cnn = new OleDBConnection() Cnn.Connectstring= "data source=mydb;User Id=scott;Password=scott;" Cnn.Open string sql = "SELECT * FROM Student";
数据库系统及应用
17
金培权（jpq@）
三、数据访问编程
应用程序
ADO/DAO/BDE/ODBC…… 数据库访问中间件
Database
数据库系统及应用
18
金培权（jpq@）
对象模型
ADO（ActiveX Data Object）
微软提出的通用数据库访问模型功能强大
23
金培权（jpq@）
对象结构
.NET应用程序
将数据保存在缓存中
提供了对只读数据的高效访问
DataSet DataAdapter
在数据库和数据集之间交换数据

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

并发执行：同一时刻有多个活动事务同时运行。

并发控制问题：更新丢失、不可重读、读脏数据。

冲突操作(动作)：R1(A)-W2(A)、W2(A)- R1(A)、W1(A)- W2(A)，即除了读读不冲突外。

串行调度：一个事务的第一个动作是在另一个事务的最后一个动作完成后开始。

即调度中事务的各个操作不会交叉,，每个事务相继执行。

串行调度是正确调度。

冲突可串：一个调度冲突等价于某个串行调度。

也就是说，该调度可以通过一系列非冲突动
作的交换操作使其成为串行调度。

可串性理论：调度S冲突可串，当且仅当其先序图P(S)是无环图。

例如：S={W2(x),W2(y),R2(z),C2,R1(x),W1(x),C1,R3(x),R3(y),R3(z),C3}
先序图：T2→T1→T3，无环，S是串行调度。

并发控制算法：乐观法(锁、时间戳、混合法)、悲观法(锁、时序排序法)
锁模型：互斥模式、共享模式。

互斥(X)模式：如果数据项既可以读也可以写，则要用lock-X申请X模式锁。

共享(S)模式：如果数据项只可以读，则要用lock-S申请S模式锁。

锁相容性矩阵：
数据项上，可以多个事务申请S锁，但一个事务已经有互斥锁，其他事务不允许再获取任何锁。

基本2PL(2-phase locking protocol)协议：事务执行中Lock的管理分成两个阶段：①上升阶段，获取Lock阶段。

②收缩阶段，释放Lock阶段。

2PL可以保证事务执行的可串性。

锁点：第一个收缩阶段。

2PL能保证事务可串，但不能保证事务独立性。

但是使用S2PL可以。

多副本的情况下，使用：ROWA、多数Locking、仅向主副本发Lock原语。

以上3种技术比较：
无网络分割：多数Locking < ROWA
只考虑数据报文时：多数Locking = ROWA
Lock方式：直接Lock、分层Lock
锁粒度：DB、段、关系、元祖
问题：分层Lock时，T1对元组t加s-Lock，T2对t上的段S加x-Lock，则隐含地也要对t加x-Lock，所以冲突。

解决办法：意向锁。

意向锁：如果对一个节点加意向Lock, 则说明该节点的下层节点也正在被加Lock。

对任一节点加Lock时, 必须先对它的上层节点加意向Lock。

死锁发生的条件：互斥条件、等待条件、非抢占条件、循环等待条件。

局部死锁：仅在一个站点上发生的死锁。

全局死锁：涉及多个站点的死锁。

等待图：一种用来表示事务之间相互等待关系的有向图, 是分析死锁的有用工具。

分为局部等待图（LWFD）、全局等待图（GWFD）。

解死锁的方法：
1.预防：①预先占据所有需要的全部资源；②所有资源排序, 按资源序列申请；③预先确定
存取, 将所有并发事务排序, 按需存取数据；④事务退出已占有的资源。

2.死锁检测：集中式死锁检测、层次式死锁检测、分布式死锁检测。

分布式死锁检测算法：（重点：见第七次作业）寻找不含EX的Loop，若存在，则检测到死锁。

时间戳调度：基本时间戳、保守时间戳、多版本时间戳。

基本时间戳（重点：见第七次作业）：
①读X的时候，若TS<WTM(x)，则拒绝。

否则RTM(x)=max{RTM(x), TS}。

②写X的时候，若TS<RTM(x)或TS<WTM(x)，则拒绝。

否则WTM(x) = max{WTM(x), TS}。

保守时间戳：每个事务的操作都被缓存起来，并建立起有序的队列，然后，按照顺序执行操作。

且要保证缓冲队列中至少有一个缓冲读/写，否则会死锁。

多版本时间戳：记录所有Ti对x的读时，即有RTM(Ti, x)。

记录所有Ti对x的写时，同时新写入
的值也被记录，WTM(Ti ,x, vi)。

多版本时间戳的规则：读草操作永不拒绝。

假定读操作的时间戳是TS, 于是在WTM(Ti, x, vi)
中找所有< TS的{ WTM(Ti, x, vi)}中的最大WTM(Tj, x, vj),即WTM( Tj, x, vj)= max{ WTM(Ti, x, vi)},
将vj给读的事务。

写操作，一般不拒绝。

记录下新的WTM( TS(Tk), x, vk) 即可。

但是, 若在TS(Tk)
与下一个比TS(Tk)大的最小时间戳TS(Tj)之间有读操作发生时，则拒绝TS(Tk)的写。

2PL与时间戳技术的比较：2PL：最通用的技术；有用于分布式系统；可能有死锁。

T.O.：适
宜于多版本；夭折多；无死锁；有用于分布式系统。

乐观方法：对Trans运行时发生的存取冲突不处理，待事务结束时再进行检验。

事务的三个阶段：读段、验证段、写段。

验证：使用数据项和事务时间戳(更新表验证)；只使用事务时间戳(读/写集验证)。