分布式复习总结 - 360文档中心

分布式系统及云计算复习资料

1．分布式计算是一种把需要进行大量计算的工程数据分割成小块，由多台计算机分别计算，在上传运算结果够，将结果统一合并得出数据结论的科学。

2．分布式系统的关键目标:用户可以方便的访问资源;对用户隐藏资源再多台计算机上分布的情况;分布式系统是开放的;分布式系统是可扩展的3．资源可访问性：是用户可以方便的访问远程资源，并且以一种受控的方式与其他用户共享这些资源。

4．透明性;指分布系统是一个整体，而不是独立的组件的组合，系统对用户和应用程序屏蔽其组件的分离性。

5．云计算：由一系列可以动态升级和被虚拟化的资源组成，这些资源被所有云计算的用户所共享并且可以方便的通过网络访问，用户无需掌握与计算技术，只需要按照个人或者团体的需要租赁与计算的资源。

6．云计算的优缺点;优点（1.数据的可移性2.轻松维护个人应用程序和个人文件 3.对计算机的要求低4.给多人协作带来了机会5.资源整合使用率高6.节电省能，降低成本）缺点（1.对网络的高依赖性2.数据的安全问题3.数据的存活能力7．集群运算与网格运算的区别：1在集群中，资源位于单个的管理区中由单个实体进行管理；而在网格系统中，资源分布在不同的管理区。

每个管理区都有其策略和目标2应用程序的调度安排，集群系统中的调度器着眼于提高整个系统性能；而在网格系统中调度器被称为资源代理着眼于提升特定应用的表现来满足终端用户的服务质量需求。

8．分布式系统：是一组自治的计算机集合，通过通信网络和相互链接，实现资源共享和协同工作，而呈现给用户的是单个完整的计算机系统。

9．分布式与集中式区别：1.分布式各组件和进程行为是物理并发的，没有统一时钟，而集中式系统的时间是明确的，同步机制实行起来相对容易 2.分布式系统各组件必须实现可靠安全的相互作用，当一部分出现故障时，系统大部分工作仍可进行。

而集中式系统出现鼓掌则不能继续工作 3.分布式系统的异构性。

4与集中式系统相比，分布式系统响应时间较短。

分布式数据库复习要点

分布式数据库复习要点分布式数据库复习要点第一章1、分布式数据库的定义（P4）物理上分散而逻辑上集中的系统，它使用计算机网络将地理位置分散而管理和控制又需要不同程度集中的多个逻辑单位（通常是集中式数据库系统）连接起来，共同组成一个统一的数据库系统。

分布式数据库系统可以看成是计算机网络和数据库系统的有机结合。

2、分布式数据库的两种分类方法（P7）●按局部DBMS的数据模型分同构型DDBS：各个站点上数据库使用同一数据模型同构同质型-数据模型相同，且是同一种DBMS（同一厂家）同构异质型-数据模型相同，不是同一种DBMS异构型DDBS ：各站点上数据库的数据模型类型不同全局控制集中型DDBS：全局控制机制和全局数据词典位于中心站点全局控制分散型DDBS：全局控制机制和全局数据词典分散在网络的各个站点上。

全局控制可变型DDBS：也称主从型DDBS。

分成两组站点，一组包含全局控制机制和全局控制词典，另外一组不包含。

3、分布式数据库的组成成分（两部分）（P9）●数据：分布式数据库的主体，包括局部数据和全局数据。

●数据目录：数据结构的定义、全局数据的分片、分布、授权、事务恢复等描述，包括局部和全局数据目录。

4、分布式数据库的数据分片的定义和类型（3种）（P10）数据分片：又称数据分割、数据分段，局部数据库是由全局数据库分割而成。

三种类型：●水平分片：按特定条件把全局关系的所有元组划分成若干个互不相交的子集，对全局关系施加选择运算。

●垂直分片：把全局关系的属性集分成若干个子集，对全局关系施加投影运算。

●混合分片：以上两种方法的混合。

5、分布式数据库的分布策略（4条）（P11）数据分布：根据某种策略把数据分片所得的逻辑片断分散地存储在各个站点上.●集中式：所有数据都安排在同一站点上●分割式：所有数据只有一份，被分割成若干个逻辑片段，每个片段被放置在特定的站点●复制式：所有数据有多个副本，每个站点都有一个完整的数据副本●混合式：分割式和复制式的混合6、分布式数据库的模式结构（P13）分四层：●全局外层：全局外模式---全局应用的用户视图。

分布式数据库系统复习材料

分布式数据库系统复习材料在学习和复习分布式数据库系统时，需要掌握以下几个关键知识点：1.分布式数据库架构：分布式数据库系统可以采用集中式架构、两层架构、三层架构等不同的架构模式。

其中集中式架构通过一个中央服务器管理所有的数据，两层架构将数据分为客户端和服务器两部分进行管理，三层架构引入中间层服务器来协调不同的功能和数据层。

2.分布式数据库一致性：分布式数据库系统需要保证数据的一致性。

数据的一致性可以通过ACID原则来保证，即原子性、一致性、隔离性和持久性。

此外，还可以使用分布式事务来保证数据的一致性，分布式事务可以通过两阶段提交（2PC）或者三阶段提交（3PC）来实现。

3.分布式数据库的查询：分布式数据库系统可以进行分布式查询，即将查询请求分发给不同的节点进行处理。

常用的查询分发策略包括哈希分发、范围分发和复制分发。

哈希分发根据查询内容的哈希值将查询请求分发到对应的节点上，范围分发根据数据的范围将查询请求分发到对应节点上，复制分发将查询请求分发到多个节点上进行处理。

4.分布式数据库的数据复制：分布式数据库系统可以通过数据复制来提高数据的可靠性和性能。

数据复制可以采用同步复制或者异步复制方式。

同步复制要求数据在所有节点上都写入成功后才算成功，而异步复制则可以先将数据写入一个节点，然后再异步地将数据复制到其他节点上。

5.分布式数据库的容错与恢复：分布式数据库系统需要具备容错和恢复机制，以应对节点故障或者网络故障等异常情况。

常用的容错机制包括故障检测、容错存储和故障恢复。

故障检测可以通过心跳机制或者节点监视来实现，容错存储可以通过数据备份或者数据冗余来实现，故障恢复可以通过副本恢复或者数据迁移来实现。

6.分布式数据库的性能优化：分布式数据库系统可以通过多种方式来优化性能。

常用的性能优化方法包括数据分片、负载均衡和缓存机制。

数据分片可以将数据分散到不同的节点上，以减轻节点的负载；负载均衡可以将查询请求均匀地分发到各个节点上，以提高查询的响应速度；缓存机制可以将频繁查询的数据缓存在节点上，以减少磁盘访问，提高查询性能。

《分布式数据库原理及应用》知识总结

《分布式数据库原理及应⽤》知识总结《分布式数据库原理及应⽤》知识总结⽬录1 描述关系数据库的相关概念： (3)1）关系数据的数据模型 (3)2）⽀持的数据类型 (4)3）关系数据库的性能瓶颈 (4)4）ACID与事务 (4)2 描述NoSQL数据库的相关概念： (5)1）NoSQL数据库的分类 (5)2）NoSQL数据库的特点 (5)3）CAP与BASE理论 (6)3 MongoDB相关 (6)1）MongoDB的简介 (6)2）MongoDB的数据模型 (6)3）MongoDB的存储结构 (7)4）MongoDB⽀持的数据类型 (7)5）MongoDB数据库操作的基本命令 (7)6）MongoDB集合操作的基本命令 (7)7）MongoDB⽂档操作的基本命令 (8)save() ⽅法 (10)8）Java连接MongoDB的流程 (13)9）MongoDB的索引原理 (13)10）MongoDB⽀持的索引类型 (13)11）MongoDB的聚合操作 (14)12）MongDB⽀持的聚合类别 (14)13）MongoDB复制集相关： (14)14）MongoDB分⽚集相关： (16)15）数据库编程 (17)4 Neo4j相关 (18)1）描述Neo4j的基本组成 (18)2）Neo4j的基本操作命令 (18)3）描述对github等⽹站的理解与使⽤ (18)5 内存数据库 (19)1）Memcache (19)2）Redis (19)3）Memcache与redis的对⽐ (22)6 Hbase列族数据库 (22)1）HBase的特点 (22)2）HBase的成员组成及作⽤ (22)3）HBase的数据模型 (23)4）HBase的⽀持的数据类型 (23)5）HBase常⽤操作命令 (24)6）HBase的存储 (24)7）HBase的寻址 (25)8）HBase的读写操作 (25)9）HBase的store的合并和分裂 (26)10）HBase的region的拆分和合并 (26)11）HBase的负载均衡策略 (27)12）布隆过滤器 (27)13）Rowkey在HBase中应该如何设计 (28)7 NoSQL数据库汇总 (29)1 描述关系数据库的相关概念：1）关系数据的数据模型包括三个⽅⾯：a.关系数据结构b.关系完整性原则c.有关系运算a.关系数据结构1)域（Domain）域是⼀组具有相同数据类型的值的集合。

分布式考点整理

分布式知识点总结：1.并发编程（1.5）线程：并发线程导致竞争情况的发生，因此在代码段中提供互斥机制，互斥机制可以保证代码段在同一时间只被一个线程所访问，这样的区域称为临界区。

Java线程：实现方法：extends Thread, implements Runnable2.HTTP（HyperText Transmission Protocol）超文本传输协议3.网络体系结构(1.6)物理层：提供数字信号传输功能。

网络层：实现网络协议。

传输层：提供向远程计算机上运行进程的数据报文传送功能。

应用层：具体应用中程序间的信息交换提供支持。

4.面向连接（TCP）与无连接（UDP）的对比：5.网络资源可被分布式计算机社区的参与者使用的资源。

6.主机识别和ip地址。

从域名到当前IP的映射及反向映射，可以通过名字解析DNS网络服务来完成。

通过协议端口识别进程：（1）pid（2）协议端口port电子邮箱地址：指定域名的IP主机上的一个邮件程序将把邮件发到该系统上的指定用户的邮箱。

URL（统一资源标识符）：表示web资源的一个缩写串。

URL通用格式：名字解析：每个Internet主机转换成数字地址。

该转换过程称为名字解析。

7.进程间通信（IPC）（2.1）当一个进程与另一个进程通信时，IPC被称为单播（unicast）。

当一个进程与另外的一组进程通信时，IPC被称为组播（multicast）。

1.IPC接口原型发送（sender）：由发送进程发起。

向接收进程传输数据。

接收（Receive）：由接收进程发起。

接收发送进程发送的数据。

连接（Connect）：对面向连接的IPC要有建立逻辑连接操作：请求连接和接收连接。

断开（Disconnect）：对面向连接的IPC，关闭建立起来的连接。

8.事件同步（2.2）实现同步的最简单的方法为阻塞。

挂起某一进程直到发起进程的某个操作结束。

当且仅当操作结束后，阻塞才可随后终止。

1.同步send，同步receive进程2 receive操作的发出导致进程2的挂起。

分布式系统知识点积累总结

分布式系统知识点积累总结一、分布式系统概述分布式系统是一个由多台计算机组成的系统，这些计算机通过网络进行通信和协作，共同完成某个任务。

分布式系统的设计目标是提高系统的可靠性、可扩展性和性能。

二、分布式系统的特点1. 系统中的计算资源是分布在不同的计算节点上的，节点之间通过网络连接。

2. 节点之间相互独立，没有全局时钟，只能通过消息传递的方式进行协调。

3. 分布式系统需要解决数据一致性、并发控制和通信延迟等问题。

三、分布式系统的关键技术1. 通信技术：分布式系统中的节点通过网络通信进行信息交换，通信技术是分布式系统的基础。

2. 数据复制技术：为了提高系统的可靠性和可用性，分布式系统通常会采用数据复制技术。

3. 一致性协议：分布式系统中的数据一致性是一个重要的问题，一致性协议可以保证系统中的数据一致性。

4. 分布式事务：分布式系统中的多个节点可能需要协同完成一个复杂的任务，分布式事务可以确保系统执行的原子性和一致性。

5. 负载均衡：分布式系统中的节点需要协同处理大量的请求，负载均衡技术可以使得系统的负载得到均衡，提高系统性能和可用性。

四、分布式系统的常见问题及解决方案1. 数据一致性问题：分布式系统中的数据一致性是一个常见问题，解决方案包括使用一致性协议、版本控制和事务管理等技术。

2. 并发控制问题：分布式系统中的并发控制是一个重要问题，解决方案包括使用锁、分布式事务和分布式共享内存等技术。

3. 通信延迟问题：分布式系统中的通信延迟可能导致性能下降，解决方案包括使用消息队列、异步通信和缓存等技术。

4. 节点故障问题：分布式系统中的节点故障可能导致系统的不可用，解决方案包括使用容错技术、数据备份和自动故障转移等技术。

五、分布式系统的一些经典算法1. Paxos算法：Paxos算法是一种用于分布式系统中的一致性协议，它可以确保多个节点对某个值达成一致。

2. Raft算法：Raft算法是一种分布式一致性算法，相比Paxos算法更容易理解和实现。

分布式计算基础知识点

分布式计算基础知识点分布式计算Hadoop分布式存储与处理1.HDFS（分布式数据存储系统）实现数据存储⾼容错性数据备份机制。

当⼀个节点出现故障，HDFS可以从其他节点获取数据。

强的⽔平拓展性通过增加节点来扩展处理的数据量和性能，⽀持万以上的节点规模。

通过数据块的⾃动多份复制策略。

HDFS 的基本结构数据节点：存储数据块名字节点：维护数据块的备份存储位置等信息读取：名字节点——>数据节点下载：名字节点——>数据节点总结：HDFS不适合处理⼤规模的⼩⽂件的存取。

⼤规模的⼩⽂件会占⽤名字节点的⼤量内存。

在HDFS中，⼀个数据⽂件同时只能有⼀个写⼊操作；对于⽂件的修改，也仅⽀持⽂件追加操作，⽽不能随意修改⽂件内容。

2.MapReduce(分布式数据处理框架)key-value对MapReduce作业过程Input-Splitting-Mapping-Shuffling-Reducing-Finalresult核⼼Map阶段和Reduce阶段在MapReduce中，以上通过发送状态信息进⾏容错的机制称为⼼跳机制。

Spark：分布式数据分析MapReduce的每⼀次作业都需要从磁盘加载数据。

1.Hadoop相⽐，Spark的主要优势包括：Spark的数据分析作业中间输出和结果可以保存在内存中，可以不需要再读写HDFS，极⼤提⾼MapReduce的效率。

Spark提供更多的数据集操作的⽅法，给数据分析⼈员带来更多灵活性，Hadoop只提供了map和reduce操作。

对于机器学习算法、图算法有很好的⽀持。

2.RDD(弹性分布式数据集)将物理上分布再多个节点的数据集抽象成逻辑上的⼀个完整的数据集，可以像处理单击书籍⼀样处理海量数据。

在计算处理的过程中，将数据分布在集群存储节点的内存中，当节点的内存不够⽤时，可以将数据存储在硬盘中。

创建RDD的三种⽅式：3.Spark运⾏流程驱动程序和⼯作程序。

分布式总结

分布式总结分布式系统是由多个独立的计算机节点组成的，这些节点通过网络进行通信和协调，共同完成复杂的任务。

分布式系统具有高性能、高可用性和可扩展性等优势，已经广泛应用于云计算、大数据处理、物联网等领域。

在本文中，将对分布式系统的基本概念、架构和关键技术进行总结和介绍。

一、分布式系统的基本概念分布式系统是由多个自治的计算机节点组成，这些节点通过网络进行通信和协调，共同完成任务。

分布式系统具有以下基本概念：1. 节点：分布式系统中的每个计算机都是一个节点，可以独立运行和处理任务。

2. 通信：节点之间通过网络进行通信，可以传输数据和协调任务。

3. 协调：分布式系统中的节点通过协调机制实现任务的划分和调度。

4. 一致性：分布式系统中的节点需要保持一致性，即对于相同的请求，节点返回的结果应该是一致的。

5. 容错性：分布式系统需要具备容错能力，即当部分节点发生故障时，系统仍然能够正常运行。

6. 可扩展性：分布式系统应该具备可扩展性，即可以根据需求动态增加或减少节点，以适应不同规模的任务。

二、分布式系统的架构分布式系统的架构包括两种常见的模式：客户端-服务器模式和对等网络模式。

1. 客户端-服务器模式：客户端-服务器模式是最常见的分布式系统架构，其中客户端发送请求给服务器，服务器处理请求并返回结果。

这种模式可以实现任务的划分和协调，适用于各种规模的系统。

2. 对等网络模式：对等网络模式是指分布式系统中的节点之间是对等关系，没有主从之分。

节点之间可以相互通信和协调，共同完成任务。

这种模式通常用于小规模的系统，如文件共享和即时通信等。

三、分布式系统的关键技术分布式系统的实现离不开以下关键技术：1. 通信协议：分布式系统中的节点通过通信协议进行数据传输和协调。

常见的通信协议有TCP/IP、HTTP、RPC等。

2. 数据一致性：在分布式系统中，节点之间需要保持数据的一致性，即对于相同的请求，节点返回的结果应该是一致的。