序贯决策博弈
14 序贯博弈

J
R
J
等 0,10 跑
跑 5,0
华南理工大学经济与贸易学院
5,0
第十四章 序贯博弈
14.1 遏制进入的战略投资者 14.2 序贯博弈的概念 14.3 再看西班牙叛乱 14.4 蜈蚣博弈 14.5 反击
华南理工大学经济与贸易学院
14.5 反击
在冷战时期,美国与西德等几个欧洲国家结盟共同抵抗苏联。苏联在 欧洲部署着更多的陆军,如果攻击,就能很快占领西德。 为了防止苏联攻击,美国在西德境内驻军,然而美国愿意提供给西德 的军队远不能抵抗苏联攻击,“用来战斗人数太少,如果死伤,人数 又太多” 吓退苏联进攻的不是部属在西德的军队,而是美国大规模反击甚至核 武器的威慑,然而,威慑未必都是可信的,就像前面的一些例子 下图是假定美国没有任何驻军时,美苏的博弈情况
J R
等
J
等
R
等 10,10 跑 0,20
跑 5,0
J得到5个椰子就跑
跑 0,10 15,0
跑
华南理工大学经济与贸易学院
14.4 蜈蚣博弈
J
等
R
等
J
等
R
等 10,10 跑
跑 5,0
J
跑 0,10 等
R
跑 15,0 等
J
0,20 等 0,20 跑
跑 5,0 等 0,10
跑 15,0 等 15,0 跑 0,10
华南理工大学经济与贸易学院
第十四章 序贯博弈
14.1 遏制进入的战略投资者 14.2 序贯博弈的概念 14.3 再看西班牙叛乱 14.4 蜈蚣博弈 14.5 反击
华南理工大学经济与贸易学院
14.4 蜈蚣博弈
A和B分坛子里的一笔钱 第1阶段: A选择“抓”坛子里的钱,B得到较少的钱 A选择“传”,坛子中钱的总额增加 第2阶段: B选择“抓”,A得到较少的收益 B选择“传”,坛子中钱的总额进一步增加,最后两人 平分收益
王则柯博弈论4序贯决策博弈

• 试验表明,在分别判断的情况下(也就是人们不能把这两杯冰 淇淋放在一起比较),人们反而愿意为冰淇淋A多付钱。结果 显示,人们愿意花2.26美元买冰淇淋A,却只愿意用1.66美元 买冰淇淋B。 • 说明:人们在作决策的时候,不是象传统经济学那样判断一个 物品的真正价值,而是根据一些比较容易评价的线索来判断。 • 引申:在送礼物的时候,礼物在它所属的类别里面是不是昂贵 很重要。
n人序贯博弈的博弈树的主要特征
• 对于表达有n个局中人P1,P2,…,Pn参与 的一个序贯博弈的博弈树:
1. 在树的每一个非末端节点上,都只有一个局中人 进行决策; 2. 在树的每一个末端节点上,都指派了一个n维的 “支付”向量p(v)=(p1(v),p2(v),…,p3(v)),这 里v是这个末端节点的相应的策略表达.而1, 2,…n是博弈参与人首次决策的自然顺序。
• 博弈树必须说明在每一个决策节点上相应的局中人能够 采取的所有可能的选择。 • 一些博弈树可能包含“不做任何决策”的决策节点。每一个 决策节点都有至少一条棱从它那里出发往后延伸,但是 没有最大延伸数量的限制。 • 对于不是根的每个节点,只能有来自别的节点的唯一的 棱指向它这个节点。
• 博弈树并不要求每个局中人必须在至少一个非末 端节点上进行决策。即,可能会出现某些局中人 并不在任何一个非末端节点上进行决策的情形。
• 策略组合
• 策略组合星号简示法 : ( U ,{ U’ , * } )2 • 策略组合的节点表示法: ( { U / D }, { U’ / D’ , U’’ / D’’ })8
4-4 倒推法(逆向推导法)
• 在序贯博弈中,由于均衡与结果是两个不同的概 念,所以求解纳什均衡的虚线排除确定法,并不适 用于求解序贯博弈的结果。一般使用倒推法(逆向 推导法)求序贯博弈的结果。
序贯博弈纳什均衡

序贯博弈纳什均衡序贯博弈是博弈论中一种重要的博弈形式,也是实际生活中的普遍存在。
在序贯博弈中,参与者的行动是有先后顺序的,并且每个参与者的行动都会对自己和其他参与者的收益产生影响。
其中,纳什均衡是对于序贯博弈的一种重要的分析方法和结果。
序贯博弈可以分成两种情形:完全和不完全信息序贯博弈。
在完全信息的序贯博弈中,参与者可以获得游戏的所有信息,并且可以推导出所有参与者的策略和结果。
而在不完全信息的序贯博弈中,参与者只能知道一部分信息,并且需要进行一定的推断和猜测。
每个参与者的策略和结果都是不确定的。
不过,无论是完全信息还是不完全信息的序贯博弈,都可以利用纳什均衡来求解。
纳什均衡是序贯博弈中确定最优策略的一种方法。
纳什均衡指的是在博弈中所有参与者都遵循自己的最优策略时,达到的均衡状态。
也就是说,任何一方都不能通过单独改变自己的策略来获得更好的结果。
纳什均衡的概念是由约翰·纳什提出的,并且被广泛应用于博弈论中,是对于博弈问题的一种比较普遍的解决方法。
在序贯博弈中,纳什均衡可以通过反复应用最优化原理来求解。
最优化原理指的是,每个参与者都会选择一种最优策略,以尽可能地获得最好的结果。
也就是说,每个参与者都会根据自己的利益来做出决策。
通过比较不同的策略组合的结果,可以对于最终结果进行分析和预测。
如果某个策略组合成为纳什均衡,就意味着这个组合对于所有参与者都是最好的决策。
举一个例子,假设有两个商人X和Y,他们都出售同样的产品,并且都有两种售价可供选择。
如果两个人的售价不同,则会影响另一个商人的收益。
他们在某个时候进行交易,Y先决定自己的售价,然后X再根据Y的售价来决定自己的售价。
如果X的售价高于Y,则X会获得更高的利润,但Y就会失去他的订单,反之亦然。
这是一个典型的不完全信息的序贯博弈。
为了找到最好的策略组合,可以使用最优化原理和纳什均衡。
首先,假设Y选择售价为a,那么X的最优策略是选择一个更低的售价b,这样他就能获得更高的利润。
3-序贯博弈(完全动态静态博弈)

2
E C M N B U A
产量 3单位 1.5单位 得益 4.5 2.25
模型) 如果把第二章静态博弈中的古诺模型改为厂商1先选择 ,厂商2后选择,而非同时选择。可以得到:
B选择产量q2
c1 c2 2
先行优势
例6:劳资博弈(Leontief,1946)
该博弈假设工人的工资水平完全由工会决定,但厂商
开发
A
不开发
E C M N B U A
开发 (-1,-1)
B 开发 (0 , 1) B 不开发 (0 , 0)
开发一栋写字楼。由于市场需求有限,如果他们都开 发,则在同一地段会有两栋写字楼,超过了市场对写 字楼的需求,难以完全出售,空置房太多导致各自亏 损1百万。当只有一家开发商在这个地段开发一栋写字 楼时,它可以全部售出,赚得利润1百万。假定A先决 策,B在看见A的决策后再决策是否开发写字楼。
3、后动优势:网球博弈的演绎
DL
李娜
CC
科维托娃
DL DL K CC
E C M N B U A
DL CC
50 , 50 90,10
80,20 20 , 80
DL (50) (10,90)
(50,50)
L CC DL L CC
(80,20)
DL
K CC DL K CC
(90,10)
L
(20,80)
5
100 0 1
100 0 1 0
98 0
0
1Hale Waihona Puke 02E C M N B U A
案例分析: 美国波音和欧盟 空中客车的补贴案之争
课堂小游戏
E C M N B U A
决策理论与方法多属性决策多目标及序贯决策

决策理论与方法多属性决策多目标及序贯决策多属性决策是指在决策过程中考虑多个属性或指标,通过对这些属性进行量化和比较,找出最优选择的决策方法。
在实际决策中,我们常常需要考虑多个属性因素,而这些因素往往是相互矛盾甚至相互制约的。
多属性决策的关键是建立合理的评价指标体系,将不同属性进行量化,再通过合适的决策模型或方法进行计算和比较。
常用的多属性决策模型包括加权法、层次分析法和灰色关联法等。
多目标决策是指在决策过程中存在多个决策目标,且这些目标往往是相互冲突或无法同时达到的。
多目标决策的目标是找到一个最佳的折衷方案,使得各个决策目标能够得到尽可能满足。
多目标决策的关键是建立合理的决策模型,将各个决策目标进行量化和比较,再通过适当的优化方法或规划方法寻找最优解。
常用的多目标决策方法包括线性规划、整数规划、动态规划和遗传算法等。
序贯决策是指在决策过程中需要根据不完全的信息和不确定的环境进行连续的决策,即通过一系列的决策步骤逐渐完善和调整决策方案。
序贯决策的关键是建立适当的决策模型,将决策过程分解为多个连续的阶段,每个阶段根据已有的信息和条件做出决策,并根据反馈信息不断调整和优化决策方案。
常用的序贯决策方法包括马尔可夫决策过程、博弈论和贝叶斯决策等。
在实际应用中,多属性决策、多目标决策和序贯决策往往会相互结合使用。
例如,在制定企业的发展战略时,需要考虑多个因素,如市场需求、竞争环境和资源能力等,这涉及到多属性决策的内容。
同时,为了实现企业的长远目标,需要考虑多个决策目标,如利润最大化、成本最小化和风险最小化等,这也涉及到多目标决策的内容。
而在制定战略的实施方案时,可能需要根据不断变化的市场和竞争环境进行序贯的决策,这涉及到序贯决策的内容。
综上所述,多属性决策、多目标决策和序贯决策是决策理论与方法中常用的三个重要方法。
它们分别从不同的角度和需求出发,帮助人们在复杂和不确定的决策环境中做出最佳决策。
这些方法在实际应用中相互结合,能够提供更全面和准确的决策支持。
3(2)同时博弈与序贯博弈

也即πi(ti, tj, hi,ei, hj, ej)=
[a-(hi+ej)]hi -chi +
企业i在市场的最优化问题就可拆为一对问题, 在每个市场分别求解
企业的收益为其利润πi: [a-(hj+ei)]ei-cei-tjei
πi(ti, tj, hi,ei, hj, ej)=
[a-(hi+ej)]hi -chi +
企业的收益为其利润πi:
+ [a-(hj+ei)]ei-c(hi+ei)-tjei
πi(ti, tj, hi,ei, hj, ej)= [a-(hi+ej)]hi
ei*必须满足:maxei[a-(ei+hj*)-c]-tjei ei≧0
企业的收益为其利润πi:
+ [a-(hj+ei)]ei-c(hi+ei)-tjei
企业i在市场的最优
化问题就可拆为一对 问题,在每个市场分 别求解
企业的收益为其利润πi:
πi(ti, tj, hi,ei, hj, ej)= [a-(hi+ej)]hi -chi + [a-(hj+ei)]ei-cei-tjei
hi*须满足: max hi[a-(hi+ej*)-c], hi ≧ 0
银行挤兑(1)
王则柯“银行挤兑的成因和预防”
对客户来说,抽回存款的日期也有两种:一是在银行投资 两客户在同一银行各存有100元,银行将 项目到期之前,称日期 1;一是在到期之后,称日期2。 这200元投资于一个长期项目。如果在项
假定如果两客户在日期 1要求抽回资金则各得70元;如果只 目到期前银行要抽回资金,则只能收回 有一个客户在日期1要抽回资金则该客户得100元,另一客 140元;但如果到期后再收回投资,则可 户只能得到剩余的 40元。
同时博弈与序贯博弈(2)

同时博弈与序贯博弈深圳大学中国经济特区研究中心 章平题1•有两个参与人,A和B,他们轮流选择一个介于2和10之间的整数(可以重复)。
A先选。
随着博弈的进行,不断将两个所选的数字合起来累加。
当累计总和达到100的时候,博弈结束。
这时候判所选数字恰好使累计总和达到100的局中人为胜者。
请问:•谁将赢得这场博弈?•完整行动计划是什么?•根据逆推归纳法,当累计接近100时,得到88[100-(3+9)]的人会赢,问题变为抢 88。
•同理,问题可变为抢76,64,52,40,28,16,4,继续逆推(100-12n,当n=8时余4),就是先抢到4的人会赢。
•A,先选4,则A胜出。
•子博弈精炼纳什均衡为上述报法。
•有两个参与人,A和B,他们轮流选择一个介于2和10之间的整数(可以重复)。
A先选。
随着博弈的进行,不断将两个所选的数字合起来累加。
当累计总和达到或者超过100的时候,博弈结束。
这时候判所选数字首先使累计总和达到或者超过100的参与人为输家。
请问:•谁将赢得这场博弈?•完整的行动计划是什么?•根据逆推归纳法,当累计接近100时,得到97[100-3]的人会赢,问题变为抢 97。
•同理,问题可变为抢85,73,61,49,37,25,13,1继续逆推,就是先抢到1,会赢。
•A,先选1,则A胜出。
•子博弈精炼纳什均衡。
博弈树转换成矩阵型表述•确定可供参与人选择的纯策略数目,从而确定表格大小•每个策略组合对应的个子中,按照约定填入收益题2•考虑下面两个超级大国争霸的博弈:有两个超级大国,1和2。
在第一阶段,1首先行动,它可以选择发展核武器或不发展核武器。
在第二阶段,2观察到1的选择后,决定自己是发展核武器还是不发展核武器。
这个博弈的具体支付情况如下:如果双方都发展核武器,则双方都不会获得额外的好处,我们用0和0来表示这种情形。
如果一方发展而另一方不发展,则发展的一方会赢得军备优势,从而称霸世界。
我们用发展的一方得5,不发展的一方的—1来表示这种情形。
第五章 同时博弈与序贯博弈

(给,{不实施,实施}) (不给,{不实施,不实施})
3.用倒推法找到子博弈完美纳什均衡:
(不给,{不实施,不实施}),而(给,{不实施, 实施})这个策略组合里乙在甲不给情况下实施是 个不可信的威胁,所以这个纳什均衡不是子博弈完 美纳什均衡,它的稳定性比子博弈完美纳什均衡要 差一些.
第五节 几个经典动态博弈模型
一、寡占的斯塔克尔博格模型 二、劳资博弈 补充: 三、讨价还价博弈 四、委托-代理博弈
一、寡占的斯塔克尔博格模型
先后选择产量的产量竞争博弈 把古诺模型改为厂商1先选择,厂商2后选 择,而非同时选择即可。 用倒推法,因此从分析厂商2的产量选择开 始,再分析上一阶段的厂商1的产量选择。
A
不仿冒 (5,5)
不制止Leabharlann (2,2)(10,4)
注 意
同时,即使是同一个人在同一时点进行决策,也 不一定构成一个信息集,他还必须满足:在每一 个决策点他的行动选择集合必须是相同的。因为 局中人在做行动选择时并不知道自己位于哪个决 策点,因此,他不可能做出不同的行动选择。
B
A
●
◆
◆ ◆
●
B
◆
● ◆
假设博弈过程是这样的:先由工会决定工资率, 再由厂商根据提出的工资率决定雇佣多少劳动。 我们用倒推法分析这个博弈。第一步先分析第二 阶段厂商的选择,也就是厂商对工会选择的工资 率W的反应函数L(W)。设工会提出的工资率为W, 那么厂商实现自己最大利益的雇佣数L,就是最大 值问题。
max (W , L) max[ R( L) WL ]
二、劳资博弈
里昂惕夫提出的,分别代表劳资双方的工会和厂商 之间的博弈模型。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收回本息2 280 元。 如果等到日期 两客户同时要收回资金,则各得 140元;如 果到日期2还只有一方要求收回资金,则要求收回资金一方 得180元,另一方得100元;如果到日期2没有客户要求收回 资金,则银行还是分给他们各140元。
银行挤兑(3)
日期1
周瑜 抽回 不抽回 100,40
诸葛亮
抽回
70,70
丈夫
足球
妻 子 足球 芭蕾 2, 1
芭蕾
0, 0
0, 0 夫妻之争
1, 2
信息集
根据同时博弈的定义,每个局中人决策时不知道别人的策略,即每个局中人在做自己的行动选择时,并不知道自己处在哪个决策节点上。例如妻子在选芭蕾时,并 不知道丈夫选的是芭蕾还是足球。 局中人不能是别人对方“已经”做出的行动或决策,就等于同时行动或决策。 此时,我们用一个扁椭圆形的虚线的圈,把所论局中人的若干决策节点罩起来,成为他的一个
(0,0)
(0,1)
(0,0)
房地产开发博弈
银行挤兑博弈案例
案例情况: 两个投资者每人存入银行一笔存款D,银行已将这些存 款投入一个长期项目。如果在该项目到期前银行被迫对 投资者变现,共可收回2r,这里D>r>D/2。不过,如果 银行允许投资项目到期,则项目共可取得2R,这里R>D。 有两个时间,投资者可以从银行提款:在银行的投资项目 到期之前或者在到期之后。为使分析简化,假设不存在 贴现。
企业i在市场的最优
化问题就可拆为一对 问题,在每个市场分 别求解
企业的收益为其利润πi:
πi(ti, tj, hi,ei, hj, ej)= [a-(hi+ej)]hi -chi + [a-(hj+ei)]ei-cei-tjei
hi*须满足:
max hi[a-(hi+ej*)-c],
h i≧ 0
hi*=(a-ej*-c)/2 ei*=(a-hj*-c-tj)/2
1 hi (a c ti ) 3
1 ei (a c 2t j ) 3
同理,若政府给定关税税率t1和t2,则第二个 企业j将选择产量(hj*, ej*),即
1 hi (a c ti ) 3
银行挤兑(1)
王则柯“银行挤兑的成因和预防”
对客户来说,抽回存款的日期也有两种:一是在银行投资 两客户在同一银行各存有100元,银行将 项目到期之前,称日期 1;一是在到期之后,称日期2。 这200元投资于一个长期项目。如果在项
假定如果两客户在日期 1要求抽回资金则各得70元;如果只 目到期前银行要抽回资金,则只能收回 有一个客户在日期1要抽回资金则该客户得100元,另一客 140元;但如果到期后再收回投资,则可 户只能得到剩余的 40元。
单点集和非单点集
我们把不被扁椭圆虚线罩住的每个决策节点也给以信 息集的地位,称为单点集。 因此,每一个决策位置都是一个信息集,只有单点集 和非单点集之分。
◆
非单 点集
B
单点 集
◆
● ●
A● B
◆ ● ◆
◆
完美信息博弈和不完美信息博弈
当博弈走到一个单点集的信息集时,面临决策的局中人 对于博弈迄今的历史清清楚楚,他清楚了博弈具体走到 了他的这个决策节点而不是别的决策点。我们把这种历 史清楚的博弈称为完美信息博弈。 但是当博弈走到一个非单点集的信息集时,面临决策的 局中人对于博弈迄今的历史是不清楚的,他不清楚博弈 具体走到了他的这个信息集里面的那个决策点。我们把 这种历史不清楚的博弈称为不完美信息博弈。 如果一个序贯博弈的每个信息集都是一个单点集,那么 该序贯博弈就是完美信息博弈,否则他就是不完美信息 博弈。
(8,0) (-3,-3)
(1,0) (0,8)
(0,0)
(0,1)
(0,0)
房地产开发博弈
B知道自 然的选择; 但不知道A 的选择(或A、 B同时决策)
N
大
A
开发
不开发
N
小
1/2
大
小
1/2
1/2
1/2
B
不开发 开发
B
不开发 开发
B
不开发 开发
B
开发
不开发
(4,4)
(8,0) (-3,-3)
(1,0) (0,8)
考虑两个完全相同的国家(i=1,2),
政府负责确定关税税率(t1,t2); 企业制造产品供给本国(h1,h2)及出口(e1,e2);
两个市场:
Qi=hi+ej, pi(Qi)=a-Qi
考虑两个完全相同的国家(i=1,2),每个 国家有
一个政府负责确定关税税率(t1,t2);
一个企业制造产品供给本国(h1,h2)及出口
两个投资者的提款日期可以有如下可能: A、两个都提前,都得到r B、一个提前提取另一个不动,则第一人得D,另一人得 2r-D. C、两个在到期后提,各得R D、两个都不提,等到投资项目结束,都得到R E、如果一个人在期满后提取,另一人不动则分别得: 2R-D,D。 如下图所示:
[a-(hi+ej)]hi
由于πi (ti,tj,hi,ei,hj*,ej*)可表示为: 企业I 在市场i的利润 + 在市场j的利润 即πi(ti, tj, hi,ei, hj, ej)=
[a-(hi+ej)]hi
+
[a-(hj+ei)]ei-c(hi+ei)-tjei
[a-(hj+ei)]ei-cei-tjei
不抽回
40,100
140,140
前一种结果可以解释为对银行的一次挤提。如果投资者 1相信投资者2将在日期1提款、则投资者1的最优反应 也是去提款,即使他们等到日期2再去提款的话两人的 福利都会提高。 这里的银行挤提博弈在一个很重要的方面不同于第1章 中讨论的囚徒困境:虽然两个博弈都存在一个对整个社会 是低效率的纳什均衡;但在囚徒困境中这一均衡是惟一的 (并且是参与者的严格占优战略),而在这里还同时存在 另一个有效率的均衡。从而,这一模型并不能预侧何时 会发生对银行的挤提,但的确显示出挤提会作为一个均 衡结果而出现。
企业的收益为其利润πi:
+ [a-(hj+ei)]ei-c(hi+ei)-tjei
πi(ti, tj, hi,ei, hj, ej)= [a-(hi+ej)]hi
ei*必须满足:maxei[a-(ei+hj*)-c]-tjei ei≧ 0
企业的收益为其利润πi:
+ [a-(hj+ei)]ei-c(hi+ei)-tjei
信息集举例
情爱博弈的扩展式表述
男
足球
女
芭蕾
足球 芭蕾
女
芭蕾
x
足球
女
芭蕾
x’
男
芭蕾
x
足球
男
芭蕾
x’
(1,2)
(-1,-1)(0,0)
(2,1)
(1,2)
(-1,-1)(0,0)
(2,1)
A
开发
不开发
N
大 小
1/2
N
大
小
1/2 1/2 1/2
B
不开发 开发
B
不开发 开发
B
不开发 开发
B
开发
不开发
(4,4)
序贯决策博弈
第一部分 同时博弈与序贯博弈
主要内容
本章主要介绍: 1、如何用正规型表示和展开型表示来表述 同 一个博弈。 2、博弈论中的两个重要概念:信息集和不完 美信息。 3、考察包含同时决策行动和序贯决策行动的 复合型博弈(混合博弈)的纳什均衡。
第一节 第二节 第三节 第四节 第五节 第六节
πi(ti, tj, hi,ei, hj, ej)= [a-(hi+ej)]hi
hi*须满足: max hi [a - (hi+ej*) - c], h i ≧0 ei*必须满足:max ei [a - (ei+hj*) –c ] - tjei ei ≧ 0
企业的收益为其利润πi:
经典案例之
关税竞争
在国际争端中,关税与贸易争端最为激烈。 由于贸易能增进双方的福利,而关税是阻 碍贸易自由的最大障碍。
在早期,政府自由选择关税税率时将如何 决策?
考虑两个完全相同的国家(i=1,2),
考虑两个完全相同的国家(i=1,2),
政府负责确定关税税率(t1,t2);
考虑两个完全相同的国家(i=1,2),
信息集
。
即局中人知道博弈已经进行到他的这个信息集,但不知道博弈究竟进行到这个信息集中的哪个
决策节点。
信息集
妻子虽然知道博弈已经进行到她的信息集,但不知道 进行到信息集中的那个决策点,即她不知道丈夫会选 什么,因此是同时博弈。
妻子 足球 丈夫
● ●
足球 芭蕾
◆
(2,1) (0,0) (-1,-1)
博弈的正规型表示与展开型表示 同时决策与序贯决策的混合博弈 树形博弈的子博弈 子博弈精炼纳什均衡 完美博弈的库恩定理 动态博弈的运用
第一节 博弈的正规型表示与展开型表示
一、如何将博弈的展开型形式转化为正规型表示
垄断者 进入 进入者
● a ● b
容忍 抵抗
◆
(1,5) (-2,2) (0,10) (0,4)
(e1,e2);