zookeeper分布式锁避免羊群效应(HerdEffect)

南开大学20秋学期《大数据开发技术(一)》在线作业-2

1.Storm框架在处理()上比MapReduce更有优势。

A.静态数据B.流数据C.批量数据D.网络数据答案：B2.以下亚马逊的产品中哪个是分布式内存缓存()A.ElastiCacheB.RDSC.DynamoDBD.Redshift答案：A3.Timetoast是哪种可视化工具()A.信息图表B.地图工具C.时间线工具D.分析工具答案：C4.HDFS中()记录了每个文件中各个块所在的数据节点的位置信息NodeB.SecondaryNameNodeC.DataNodeD.Block答案：A5.Modest Maps是哪种可视化工具()A.信息图表B.地图工具C.时间线工具D.分析工具6.应用于涉及频繁读写、拥有简单数据模型的应用，内容缓存，比如会话的数据库是哪种()A.列族数据库B.键值数据库C.图数据库D.文档数据库答案：B7.Storm中如果要随机分发Stream中的Tuple，保证每个Bolt的Task接收Tuple 数量大致一致，应该采用哪种Stream Groupings()。

A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping答案：A8.以下哪个命令是Ubuntu中创建系统用户的命令()。

A.addusereraddC.sudoD.sudo user答案：A9.以下说法不正确的是()。

A.MapReduce的核心思想就是“分面治之”B.HDFS是对GFS的开源实现C.MapReduce是一种分布式计算模型D.HDFS采用HBase作为其底层数据存储答案：D10.hadoop fs - ()命令可以将指定的文件的内容输出到标准输出B.appendC.addD.write答案：A11.MapReduce处理关系的()运算时，Map过程需要记录元组的信息及该元组来源。

A.投影B.差C.交D.并答案：B12.关于Hadoop集群，以下说法错误的是()。

从众心理羊群效应课件

文档仅供参考，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。
1. Definition 2.Origin of the phrase e in politics 4. Use in science e in microeconomics
文档仅供参考，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本请勿模仿；如有不当之处，请联系网站或本人删除。
3. Use in politics
The bandwagon effect occurs in voting: some people vote for those candidates or parties who are likely to succeed (or are proclaimed as such by the media), hoping to be on the "winner's side" in the end.The bandwagon effect has been applied to situations involving majority opinion, such as political outcomes, where people alter their opinions to the majority view (McAllister and Studlar 721). Such a shift in opinion can occur because individuals draw inferences from the decisions of others, as in an informational cascade.
文档仅供参考，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。

数据库工程师面试题及答案(全)

数据库工程师面试题及答案1.请简要介绍你对数据库的理解以及你的数据库工作经验？答：数据库是一种可以存储、管理和检索数据的软件系统。

作为一名数据库工程师，我的主要工作职责包括设计和管理数据库系统、调优和优化数据库性能、实现数据备份和恢复、确保数据安全和隐私保护等。

我拥有多年的数据库工作经验，擅长使用MySQL、Oracle、SQL Server等数据库管理系统，对SQL语言和数据库优化有深入的了解。

2.请介绍一下数据库索引的原理和常用类型？答：数据库索引是一种数据结构，可以加速数据检索的速度和效率。

常见的索引类型包括B+树索引、哈希索引、全文索引等。

其中，B+树索引是最常用的索引类型，它采用平衡树结构来存储数据，可以支持快速的范围查找和排序操作。

哈希索引是一种使用哈希函数将数据映射到索引中的索引类型，可以支持快速的精确查找操作。

全文索引是一种可以在文本中进行模糊匹配的索引类型，可以支持全文搜索和关键词查询。

3.请介绍一下数据库事务的概念和ACID特性？答：数据库事务是一组需要被看作为一个单独的操作执行的SQL语句集合。

为了确保数据的完整性和一致性，事务需要满足ACID特性。

ACID是指原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）和持久性（Durability）。

⏹原子性：事务中的所有操作要么全部执行成功，要么全部失败，不存在中间状态。

⏹一致性：事务执行前后，数据库中的数据保持一致性状态。

⏹隔离性：事务之间的操作互相隔离，一个事务的执行不应该影响其他事务。

⏹持久性：事务执行成功后，其所做的修改应该被持久化存储，不会因为系统故障等原因丢失。

4.请简述一下数据库优化的方法和技巧？答：数据库优化是提高数据库性能和响应速度的重要手段，常用的方法和技巧包括：⏹合理设计和优化数据库结构，避免冗余和无用数据。

⏹创建适当的索引，加快数据检索速度。

⏹使用分区表，优化大数据表的查询速度。

zookeeper原理

1 ．选举线程由当前Sｅrver发起选举的线程担任,其主要功能是对投票结果进行统计,并选出推荐的Servｅr；
2 .选举线程首先向所有Server发起一次询问(包括自己)；
3 ．选举线程收到回复后,验证是否是自己发起的询问（验证ｚｘｉd是否一致)，然后获取对方的ｉd(myiｄ）,并存储到当前询问对象列表中,最后获取对方提议的leadｅr相关信息(ｉd,zxid),并将这些信息存储到当次选举的投票记录表中；
通过流程分析我们可以得出:要使Ｌeader获得多数SeБайду номын сангаасｖer的支持,则Servｅr总数必须是奇数2n+１,且存活的Server的数目不得少于n+1.
每个Server启动后都会重复以上流程。在恢复模式下,如果是刚从崩溃状态恢复的或者刚启动的serveｒ还会从磁盘快照中恢复数据和会话信息,zk会记录事务日志并定期进行快照,方便在恢复时进行状态恢复。选主的具体流程图如下所示：
fasｔ pａxos流程是在选举过程中,某Ｓerｖeｒ首先向所有Seｒｖer提议自己要成为lｅadｅr，当其它Ｓerver收到提议以后,解决ｅpｏｃh和ｚxiｄ的冲突,并接受对方的提议，然后向对方发送接受提议完成的消息，重复这个流程,最后一定能选举出Ｌeadｅr。其流程图如下所示:
２．２同步流程
选完leadｅｒ以后，zk就进入状态同步过程。
5.原子性:更新只能成功或者失败，没有中间状态。
6 .顺序性：包括全局有序和偏序两种:全局有序是指如果在一台服务器上消息a在消息b前发布，则在所有Sｅrver上消息a都将在消息b前被发布；偏序是指如果一个消息b在消息a后被同一个发送者发布，ａ必将排在ｂ前面。
２ ZooKeepｅｒ的工作原理
Zooｋeeｐer的核心是原子广播，这个机制保证了各个Serｖer之间的同步。实现这个机制的协议叫做Zab协议。Zａb协议有两种模式，它们分别是恢复模式（选主）和广播模式（同步）。当服务启动或者在领导者崩溃后，Zａb就进入了恢复模式,当领导者被选举出来,且大多数Ｓerveｒ完成了和ｌeａdeｒ的状态同步以后，恢复模式就结束了。状态同步保证了lｅａder和Serｖｅr具有相同的系统状态。

zookeeper概念原理

zookeeper概念原理ZooKeeper是一个开源的分布式协调服务，用于管理和协调分布式系统中的各种任务。

它提供了一个简单而可靠的分布式协作框架，用于解决一些分布式系统中的共享资源、命名服务、配置管理等问题。

以下是 ZooKeeper 的一些关键概念和原理：1.集群模式：ZooKeeper以集群模式运行，由多个服务器节点组成。

其中一个节点充当Leader（领导者），负责协调和处理客户端请求，其他节点充当Follower（跟随者），用于备份和复制数据。

2.数据模型：ZooKeeper采用类似文件系统的数据模型，组织数据结构以树形结构展示。

每个节点称为znode，具有唯一的路径标识。

znode可以存储一定量的数据，并且可以与监视器（watcher）相关联，以便在数据发生更改时通知客户端。

3.原子性操作：ZooKeeper提供一些原子性操作，例如创建、读取、更新和删除znode。

这些操作保证了数据的一致性和可靠性，任何对数据的修改要么全部成功，要么全部失败。

4.顺序性保证：ZooKeeper通过为每个写操作分配递增的事务ID，保证了所有写操作的全局顺序性。

这使得客户端能够按照相同的顺序观察到更新。

5.触发器机制：ZooKeeper的监视器（watcher）机制允许客户端在节点状态变化时接收通知。

当一个znode被创建、更新或删除时，相关联的监视器将被触发，通知客户端进行相应的处理。

6.一致性协议：ZooKeeper使用ZAB（ZooKeeper AtomicBroadcast）协议来保证分布式数据的一致性。

该协议通过在Leader节点上进行广播操作，并要求Follower节点进行确认和复制，从而确保所有节点上的数据始终保持一致。

ZooKeeper的设计目标是提供高可用性、高性能和强一致性的分布式协调服务。

它在很多分布式系统中被广泛使用，如Hadoop、Kafka等，用于解决分布式环境下的一致性和协调问题。

zookper的工作原理

zookper的工作原理Zookeeper是一个分布式协调服务，用于在分布式系统中管理和协调大规模的集群。

它的工作原理包括以下几个方面：1. 数据模型：Zookeeper以类似文件系统的层次化命名空间结构（称为znode）来存储和管理数据。

每个znode都可以包含数据以及与其他znode的关联关系。

2. 一致性协议：Zookeeper使用ZAB（Zookeeper Atomic Broadcast）协议，该协议确保了在整个集群中的数据一致性。

ZAB协议通过一个主节点（leader）和多个从节点（follower）来实现。

3. 数据访问与监听：Zookeeper提供了一套API，允许客户端对znode进行读写操作，并且可以监听znode的变化。

客户端可以通过创建临时节点和顺序节点来实现分布式锁、选举等功能。

4. 事件通知机制：一旦znode发生变化，Zookeeper会向监听该znode的客户端发送通知。

客户端可以根据这些通知做相应的处理，实现实时的数据同步和事件驱动。

5. 高可用性和容错性：Zookeeper通过在集群中多个机器上复制数据来提供高可用性和容错性。

如果主节点宕机，从节点会发起选举过程，选择一个新的主节点来继续处理客户端请求。

6. 事务日志和快照：Zookeeper将所有的写操作以及相关的元数据记录在事务日志中，以便在节点重启时进行恢复。

同时，它还会定期生成数据快照，以提高系统的恢复性能。

总的来说，Zookeeper通过一致性协议、数据模型、事件通知机制和高可用性策略等多种机制，确保了分布式系统中的数据一致性、节点的高可用性和容错性，为分布式应用提供了可靠的协调服务。

zk 工作原理

ZooKeeper 的工作原理1. 简介ZooKeeper（简称zk）是一个分布式的开源协调服务，它提供了高可用性、高性能、顺序一致性和持久性的数据存储。

它被广泛应用于分布式系统中，用于解决分布式系统中的一致性问题。

ZooKeeper 的基本原理是通过共享状态来实现协调和同步。

它提供了一个类似文件系统的数据模型，可以存储和管理分布式应用程序所需的数据。

ZooKeeper 提供了一组原子操作，可以对这些数据进行读写操作，并且保证这些操作是顺序一致的。

2. 数据模型ZooKeeper 的数据模型类似于一个层次化的文件系统，由多个节点（Node）组成。

每个节点都有一个路径标识符（Path），以斜杠（/）作为路径分隔符。

根节点为“/”，其他节点通过路径标识符来表示其在层次结构中的位置。

每个节点可以存储一个小于1MB大小的数据，以及一些元数据信息。

除了普通节点外，还有两种特殊类型的节点：•持久节点（Persistent Node）：创建后会一直存在，直到被显式删除。

•临时节点（Ephemeral Node）：当创建该节点的客户端会话结束后，该节点会被自动删除。

3. 原子操作ZooKeeper 提供了一组原子操作，用于对数据进行读写和监听：•创建节点（create）：创建一个新节点，并为其设置初始值。

•读取数据（getData）：获取指定节点的数据内容。

•更新数据（setData）：更新指定节点的数据内容。

•删除节点（delete）：删除指定的节点。

•获取子节点列表（getChildren）：获取指定节点的子节点列表。

•监听器（Watcher）：可以为指定的节点设置一个监听器，当该节点发生变化时，客户端会收到通知。

4. 集群架构ZooKeeper 通过将数据存储在多个服务器上来实现高可用性和容错性。

它采用了一种主从复制的方式进行数据复制和同步。

集群中的每个服务器可以承担三种角色中的一种：•Leader（领导者）：负责处理所有客户端请求，并协调其他服务器之间的同步。

面试题：分布式锁的多种实现!=!=未看

⾯试题：分布式锁的多种实现!=!=未看⽬前⼏乎很多⼤型⽹站及应⽤都是分布式部署的，分布式场景中的数据⼀致性问题⼀直是⼀个⽐较重要的话题。

分布式的CAP理论告诉我们“任何⼀个分布式系统都⽆法同时满⾜⼀致性（Consistency）、可⽤性（Availability）和分区容错性（Partition tolerance），最多只能同时满⾜两项。

”所以，很多系统在设计之初就要对这三者做出取舍。

在互联⽹领域的绝⼤多数的场景中，都需要牺牲强⼀致性来换取系统的⾼可⽤性，系统往往只需要保证“最终⼀致性”，只要这个最终时间是在⽤户可以接受的范围内即可。

在很多场景中，我们为了保证数据的最终⼀致性，需要很多的技术⽅案来⽀持，⽐如分布式事务、分布式锁等。

有的时候，我们需要保证⼀个⽅法在同⼀时间内只能被同⼀个线程执⾏。

在单机环境中，Java中其实提供了很多并发处理相关的API，但是这些API在分布式场景中就⽆能为⼒了。

也就是说单纯的Java Api并不能提供分布式锁的能⼒。

所以针对分布式锁的实现⽬前有多种⽅案：基于数据库实现分布式锁基于缓存（redis，memcached）实现分布式锁基于Zookeeper实现分布式锁在分析这⼏种实现⽅案之前我们先来想⼀下，我们需要的分布式锁应该是怎么样的？（这⾥以⽅法锁为例，资源锁同理）可以保证在分布式部署的应⽤集群中，同⼀个⽅法在同⼀时间只能被⼀台机器上的⼀个线程执⾏。

这把锁要是⼀把可重⼊锁（避免死锁）这把锁最好是⼀把阻塞锁（根据业务需求考虑要不要这条）有⾼可⽤的获取锁和释放锁功能获取锁和释放锁的性能要好⼀. 基于数据库实现分布式锁1.1 基于数据库表要实现分布式锁，最简单的⽅式可能就是直接创建⼀张锁表，然后通过操作该表中的数据来实现了。

当我们要锁住某个⽅法或资源时，我们就在该表中增加⼀条记录，想要释放锁的时候就删除这条记录。

创建这样⼀张数据库表：CREATE TABLE `methodLock` (`id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键',`method_name` varchar(64) NOT NULL DEFAULT '' COMMENT '锁定的⽅法名',`desc` varchar(1024) NOT NULL DEFAULT '备注信息',`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '保存数据时间，⾃动⽣成',PRIMARY KEY (`id`),UNIQUE KEY `uidx_method_name` (`method_name `) USING BTREE) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='锁定中的⽅法';当我们想要锁住某个⽅法时，执⾏以下SQL：insert into methodLock(method_name,desc) values (‘method_name’,‘desc’)因为我们对method_name做了唯⼀性约束，这⾥如果有多个请求同时提交到数据库的话，数据库会保证只有⼀个操作可以成功，那么我们就可以认为操作成功的那个线程获得了该⽅法的锁，可以执⾏⽅法体内容。

分布式锁（Zookeeper实现）

分布式锁（Zookeeper实现）分布式锁分布式锁，这个主要得益于 ZooKeeper 为我们保证了数据的强⼀致性。

锁服务可以分为两类，⼀个是保持独占，另⼀个是控制时序。

1. 所谓保持独占，就是所有试图来获取这个锁的客户端，最终只有⼀个可以成功获得这把锁。

通常的做法是把 zk 上的⼀个 znode 看作是⼀把锁，通过 create znode 的⽅式来实现。

所有客户端都去创建 /distribute_lock 节点，最终成功创建的那个客户端也即拥有了这把锁。

2. 控制时序，就是所有视图来获取这个锁的客户端，最终都是会被安排执⾏，只是有个全局时序了。

做法和上⾯基本类似，只是这⾥ /distributelock 已经预先存在，客户端在它下⾯创建临时有序节点（这个可以通过节点的属性控制：CreateMode.EPHEMERALSEQUENTIAL 来指定）。

Zk 的⽗节点（/distribute_lock）维持⼀份 sequence, 保证⼦节点创建的时序性，从⽽也形成了每个客户端的全局时序。

分布式锁单纯的Lock锁或者synchronize只能解决单个jvm线程安全问题分布式 Session ⼀致性问题分布式全局id（也可以使⽤分布式锁）分布式锁，产⽣的原因是集群在单台服务器上如何⽣成订单号（保证唯⼀），⽅案 UUid+时间戳⽅式， redis⽅式⽣成订单号，秒杀抢购时候，⾸先预测100w订单号，⽣成放在redis。

客户端下单，直接redis去获取即可。

因为redis单线程的，多个线程去获取时候，安全呀。

实际150w⽤户。

当redis剩下50w订单号时候，继续⽣成补充之。

如果在集群情况，UUid+时间戳。

不能保证唯⼀性！，原因：如果单台：uuid+时间戳，⽣成的代码逻辑：package com.toov5.Lock;import java.text.SimpleDateFormat;import java.util.Date;//⽣成订单号时间戳public class OrderNumGenerator {//区分不同的订单号private static int count = 0;//单台服务器，多个线程同事⽣成订单号public String getNumber(){try {Thread.sleep(300);} catch (Exception e) {// TODO: handle exception}SimpleDateFormat simpt = new SimpleDateFormat("yyyy-MM-dd-HH-mm-ss");return simpt.format(new Date()) + "-" + ++count; //时间戳后⾯加了 count}}开启100个线程调⽤之：package com.toov5.Lock;public class OrderService implements Runnable {private OrderNumGenerator orderNumGenerator = new OrderNumGenerator(); //定义成全局的public void run() {getNumber();}public void getNumber(){String number = orderNumGenerator.getNumber();System.out.println(Thread.currentThread().getName()+"num"+number);}public static void main(String[] args) {OrderService orderService = new OrderService();for (int i = 0; i <100; i++) { //开启100个线程new Thread(orderService).start();}}}结果：多个线程共享区同⼀个全局变量，线程安全问题！解决⽅案就是加锁嘛！或者使⽤ lock锁也可以public class OrderService implements Runnable {private OrderNumGenerator orderNumGenerator = new OrderNumGenerator();// 使⽤lock锁private java.util.concurrent.locks.Lock lock = new ReentrantLock();public void run() {getNumber();}public void getNumber() {try {// synchronized (this) {lock.lock();String number = orderNumGenerator.getNumber();System.out.println(Thread.currentThread().getName() + ",⽣成订单ID:" + number);// }} catch (Exception e) {} finally {lock.unlock();}}public static void main(String[] args) {System.out.println("####⽣成唯⼀订单号###");OrderService orderService = new OrderService();for (int i = 0; i < 100; i++) {new Thread(orderService).start();}}}如果是集群环境下：每台jvm都有⼀个 count 都有⾃增的代码操作这个 count 三个不同的jvm 独⽴的⽤户请求过来映射到哪个就操作哪个这时候就产⽣分布式锁的问题这时候需要分布式锁：共享⼀个countjvm1 操作时候其他的jvm2 和 jvm3 不可以操作他！分布式锁保证分布式领域中共享数据安全问题1、数据库实现（效率低，不推荐）2、redis实现（使⽤redission实现，但是需要考虑思索，释放问题。

ZooKeeper实现分布式的思路

ZooKeeper实现分布式的思路Hadoop生态系统为开源届提供很多优秀软件，zookeeper便是其中一员。

前段时间项目中用到了zookeeper，主要是用作服务的注册和发现使用方式类似阿里的dubbo。

实际上zookeeper的功能不仅仅只有这些内容，它提供了一系列非常方便使用的功能，后面会提到。

这篇文章仅仅是我个人的一点儿理解，如有错误烦请指正，以免给别人误导。

1、zookeeper是什么zookeeper的名字很有趣被称为动物管理员，这是因为Hadoop生态系统中很多软件的名字都是动物，hadoop本身就是小象的意思，还有hive小蜜蜂，pig。

zookeeper作为一个分布式协调系统在hadhoop中被广泛的应用，其中HBase默认带有zookeeper。

zookeeper主要功能有配置维护、分布式锁、选举、分布式队列等，并且zookeeper本身可以是一个集群，提供了高可用性。

这一切的功能都离不开zookeeper的数据模型。

2、zookeeper数据模型zookeeper提供的命名服务看起来和一个unix的文件系统非常相似，下面是从官网复制的一张图：其中的每个节点称为znode，每个znode节点既可以包含数据又可以包含子节点，由于zookeeper被定位为协调程序因此znode中的数据通常存储的是非常小的数据，比如状态信息，位置信息等等。

znode中有一个很重要的概念——节点类型，znode有两种类型的节点：临时节点，永久节点。

其中这两种节点又分为有序和无序，重点讲一下临时节点，因为zk 中很多基础的功能都是基于临时节点实现的，client在和zookeeper连接的时候两者之间会建立起session，session的状态由zookeeper服务端维护，临时节点的特点是随着session的超时服务端会将client建立的所有临时节点移除，而永久节点即使客户端退出节点也不会消失，同时临时节点不能有子节点但是可以挂载数据。