09 动态博弈的经典模型1

合集下载

博弈论第三章完全且完美信息动态博弈

博弈论第三章完全且完美信息动态博弈

➢支付:这样假设支付情况: 若美国“犯我”,中国“不犯人”,则支付向量为(2,-4); 若美国“不犯我”,中国“犯人”,则支付向量为(3,-5); 若美国“犯我”,中国“犯人”,则支付向量为(-2,-2); 若美国“不犯我”,中国“不犯人”,则支付向量为(1,1)。
我国 犯我
犯人 (-2,-2) 不犯人 (2,-4)


1/2 1/2
B
开 发
(4,4)
不开 发
(8,0)
B
开 发
(-3,-3)
B
不开
不开
发开


(1,0) (0,8) (0,0)
B 不开



(0,1) (0,0)
房地产开发博弈
垄断者 容忍
进入
抵抗
(1,5) (-2,2)
进入者 不进入 垄断者
容忍 抵抗
(0,10) (0,10)
静态博弈用扩展式表述
第一,一个博弈可能有不止一个纳什均衡。
第二,在纳什均衡中,参与人在选择自己的战略时,把其他 参与人的战略当作给定的,不考虑自己的选择如何影响对手 的战略。这个假设在研究静态博弈时是成立的,因为静态博 弈下,所有参与人同时行动,无暇反应。但对动态博弈而言, 这个假设就有问题了。当一个人行动在先,另一个人行动在 后时,后者自然会根据前者的选择而调整自己的选择,前者 自然会理性地预期到这一点,所以不可能不考虑自己的选择 对其对手的选择的影响。
第三,与第二个问题相联系,由于不考虑自己选择对别人选 择的影响,纳什均衡允许了不可置信威胁的存在。
根据博弈方是否相互了解得益情况,有“完全信息动态博弈”和“不 完全信息动态博弈”之分;
根据是否所有博弈方都对自己选择前的博弃过程完全了解,有“完美 信息动态博弈”和“不完美信息动态博弈”之分。

(完整)博弈论经典模型全解析(入门级)

(完整)博弈论经典模型全解析(入门级)

博弈论经典模型全解析(入门级)1。

囚徒困境这是博弈论中最最经典的案例了-—囚徒困境,非常耐人寻味。

“囚徒困境"说的是两个囚犯的故事。

这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。

在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作).这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪.但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金.而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。

当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。

那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。

但他们不得不仔细考虑对方可能采取什么选择。

A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。

这种想法的诱惑力实在太大了.但他也意识到,他的同伙也不是傻子,也会这样来设想他。

所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。

而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。

所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。

企业在信息化过程中需要与咨询企业、软件供应商打交道的。

在与这些企业打交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作.在对对方有了足够的信任之后,诚意也是必不可少的,如果没有诚意或者太过贪婪,就可能闹到双方都没有好处的糟糕情况,造成企业之间的双输。

博弈论的几个经典模型ppt课件

博弈论的几个经典模型ppt课件

博弈论的几个经典模型
22
模型二、囚徒困境/非合作博弈
该博弈刻划了两大难题: • 冲突情形下,参与人的目标是什么?是采用(作 为个人 ) 他自己的最好策略,还是采用 ( 作为集 体的一员)他们共同的最好策略?前者导致均衡 策略 ( 坦白,坦白 ) ,支付为 (-8 , -8) ;后者的最 好策略是 ( 抵赖,抵赖 ) ,支付为 (-1 , -1) 。这里 反映了个体理性行为与集体理性行为之间的矛 盾、冲突。 • 此博弈只进行一次还是重复进行?如果博弈只 进行一次,参与人似乎只有坦白才是最好的策 略,因为没有理由相信对手会对你有信心,他 总认为你自己会坦白;因此,双方都采取坦白 策略。然而,若博弈进行多次,则结论将会发 生变化。
第四章 博弈论的几个经典模型
1
引言
博弈论又被称为对策论(Game Theory), 按照2005年因对博弈论的贡献而获得诺贝尔经 济学奖的Robert Aumann教授的说法,博弈论 就是研究互动决策的理论。所谓互动决策, 即各行动方(即局中人[player])的决策是相互 影响的,每个人在决策的时候必须将他人的 决策纳入自己的决策考虑之中,当然也需要 把别人对于自己的考虑也要纳入考虑之 中……在如此迭代考虑情形进行决策,选择 最有利于自己的战略(strategy)。
此外此外还与会计学还与会计学统计学统计学数学基础数学基础社会心理学社会心理学以及诸如认识论与伦理学等哲学分支有重要联以及诸如认识论与伦理学等哲学分支有重要联博弈论的几个经典模型按照按照aumannaumann所撰写的所撰写的新帕尔格雷夫经新帕尔格雷夫经济学大辞典济学大辞典博弈论博弈论辞条的看法辞条的看法标准的标准的博弈论分析出发点是理性的博弈论分析出发点是理性的而不是心理的而不是心理的或社会的角度或社会的角度

第三章 完全信息动态博弈 ppt课件

第三章 完全信息动态博弈  ppt课件

条路径。但每条路径可由不同的策略组合决定。
例如, (开发,(不开发,开发))决定了
A -> 开发 -> B -> 不开发 -> (1,0)
该路径还可由(开发,(不开发,不开发))决定。
事实上,该问题共有4条路径,8种策略组合。
ppt课件
12
§2 子博弈精炼纳什均衡
对于动态博弈,Nash均衡可能并不是一个合理的预测。 如房地产博弈:
又如,上例中,如果进入者先行动,而在位者在 行动前能准确知道前者的行动,那么在位者的信息 集为 {进入}或{不进入}。 反之,若在位者先行动, 则在位者的信息集为{进入,不进入}。
ppt课件
7
三、 动态博弈的相关概念
(3) • 完美信息(Perfect information):一个局中人在行动
时,对之前博弈进程有准确了解,即每一个信息集只包含 一个值,则称该局中人具有完美信息。 • 如果动态博弈的所有局中人都有完美信息,则称为完美信 息的动态博弈。 • 如果动态博弈中,存在部分局中人具有不完美信息,称为 不完美信息的动态博弈。
思考:若进入者真的进入,在位者的最优行动是“默许”。 所以“斗争”是一种不可置信的威胁(即使在位企业摆出 一副“你进入我就斗争”的架势,进入企业不应被吓到)。 而静态博弈承认这种不可置信的威胁,使(不进入,斗争) 成为一个Nash均衡。
动态博弈解决方案:剔除不可置信的威胁策略
ppt课件
3
扩展阅读:不可置信的威胁策略 引出信息经济学重要的概念—— 承诺行动(Commitment)。
ppt课件
18
三、 逆向归纳法求解子博弈精炼Nash均衡
• 从动态博弈的最后一个阶段局中人的行为开始分析

《动态博弈模型》课件

《动态博弈模型》课件

子博弈精炼纳什均 衡
在完全信息动态博弈中,子博 弈精炼纳什均衡是指通过剔除 不可置信威胁和承诺的策略, 得到的均衡结果。
不完全信息动态博弈
不完全信息
在不完全信息动态博弈中,至少有一个参与者不拥有关于博弈 的所有信息,包括其他参与者的类型、策略和支付函数。
贝叶斯纳什均衡
在不完全信息动态博弈中,贝叶斯纳什均衡是一个重要的概念, 它是指所有参与者在给定自己类型和概率分布的条件下,采取的
劳动力市场
经典动态博弈模型用于研究劳动力市场的工 资和就业问题,分析雇主和雇员之间的博弈 关系。
在政治学中的应用
选举博弈
经典动态博弈模型用于分析选举中的竞选策略,如候 选人如何制定竞选纲领、如何进行宣传等。
国际关系
该模型用于研究国家间的外交政策和国际合作,分析 各国在利益冲突下的博弈行为。
立法博弈
触发战略
在重复博弈中,触发战略是指一种报复机制,如果某个参与者在某个阶段采取了不合作 的策略,其他参与者会在未来的阶段采取报复措施。
04
动态博弈模型的求解方法
逆向归纳法
逆向归纳法是一种求解动态博弈的方法,通过逆向推理,从博弈的最后阶段开始分析,逐步向前推导 ,最终得出每个参与者的最优策略。
在求解过程中,逆向归纳法假设每个参与者都了解其他参与者的策略选择,并在此基础上选择自己的最 优策略。
02
经典动态博弈模型介绍
囚徒困境
总结词
描述两个囚犯因相互背叛而导致双方都不利的结果。
详细描述
囚徒困境是一个经典的动态博弈模型,描述了两个囚 犯因被警方逮捕而面临指控的情况。如果两个囚犯都 保持沉默,他们都将得到较轻的刑罚;但如果其中一 个囚犯背叛另一个,他将得到更轻的刑罚,而另一个 囚犯将得到更重的刑罚。然而,如果两个囚犯都背叛 彼此,他们都将得到更重的刑罚。因此,尽管合作是 最佳策略,但每个囚犯都有动机背叛对方,导致双方 都不利的结果。

博弈论3-4经典动态博弈模型

博弈论3-4经典动态博弈模型

3.4 几个经典动态博弈模型453.4.1 寡占的斯塔克博格模型46动态的寡头产量竞争博弈厂商1先选择,厂商2后选择。

21q q Q +=121111112)](8[)(q q q q q c Q P q u -+-=-=221222222)](8[)(q q q q q c Q P q u -+-=-=策略空间:[0,Q max ]中所有实数。

Q max 为不至于使价格降到亏本的最大限度的产量。

Q Q P P -==8)(价格函数:边际生产成本:无固定成本得益函数:221==c c 2121116q q q q u --=2221226q q q q u --=47两阶段动态博弈。

第一阶段,厂商1选择产量;第二阶段,厂商2选择产量。

1 、第二阶段厂商2的选择目标:得益最大化。

求使自己得益最大化下的产量值,即最大化时的一阶条件:得益函数:2221226q q q q u --=用逆推归纳法进行分析:02602122=--⇒=∂∂q q q u 112213)6(21q q q -=-=求出厂商2对厂商1产量的反应函数:48两阶段动态博弈。

第一阶段,厂商1选择产量;第二阶段,厂商2选择产量。

2 、第一阶段厂商1的选择。

用逆推归纳法进行分析:12213q q -=厂商1可直接求出使自己得益最大化时的产量:厂商1知道2的决策思路:直接将上式代入厂商1的得益函数,得到:2112111121*211*211213)213(66),(q q q q q q q q q q q q u -=---=--=3030*1*111=⇒=-⇒=∂∂q q q u厂商1的最佳产量是生产3单位。

将之代入厂商2的反应函数,得到厂商2的最佳产量5.15.13*2=-=q 此时市场价格为3.5,双方的得益别为4.5和2.25单位。

3*1=q 12213q q -=用逆推归纳法分析得出,该动态博弈的唯一的子博弈完美纳什均衡:厂商1在第一阶段生产3单位产量,厂商2第二阶段生产1.5单位产量。

动态博弈经典模型 ppt课件

动态博弈经典模型  ppt课件
1905-1946
PPT课件
4
Stackelberg model —— 产量领先
假设:
两个厂家,行动有先后,leader / follower 产量竞争 ,leader 先行选择产量,follower 观
察到leader 的选择后再作选择
两个厂商都知道市场需求 Q 且 Q=q1+q2
1
21a2cq1
0
1
2
c

0
q1*

1 2
(a
q1c* )
12代(a入:c)
q2*

1 2
(a
q1
c)
q2*

1 4
(a
c)
总产量
Q=3/4 (a-c)
价格: P = a-Q =1/4(a+3c)
利润:
1 p(q1 c) 1 8[ (a c)(a 3c) c] 2 p(q2 c) 1 16[(a c)(a 3c) c]
PPT课件
5
例题1 斯塔伯格均衡求解
假设:
市场的需求函数为: Q=120-P
(反)需求函数为: P=120-Q
边际成本 :
MC1=MC2=0
整个市场的需求量在厂商A和B之间进行分配
Q=q1+q2 P=120-Q=120-(q1+q2 )
PPT课件
6
厂商的利润函数为:
1(q1, q2 ) q1P(Q) q1(120 q1 q2 ) 2 (q1, q2 ) q2P(Q) q2 (120 q1 q2 )
PPT课件
14
斯塔伯格模型与古诺模型的比较

博弈论的几个经典模型

博弈论的几个经典模型

模型二、囚徒困境/非合作博 弈
囚徒困境可以用来说明许多现象。
寡头定价 拍卖出价 推销员的努力 政治上的讨价还价 军备竞赛等(冲突中出现两败俱伤的情况,
往往要考虑到囚徒困境)
*(纯策略)纳什均衡
问题与思考
• 什么是博弈论?试举两个你生活中的例子说明。
• 某年在荷兰召开了一次“合作及社会两难困境研讨 会”,与会者都是博弈论的专家。
基本术语
• 博弈涉及哪些内容呢?
博弈涉及至少两个独立的博弈参与者 (player)。
博弈涉及行动者存在着策略(strategy)选 择的可能,博弈论用策略空间来表示参与 者可以选择的策略。
参与者在不同策略组合下会得到一定的支 付(payoff)。
对于博弈参与者来说,存在着一博弈结果。
对于游戏设计者,这是一个最好的
模型二、囚徒困境/非合作博 弈
在博弈论中,含有占优战略均衡的 一个著名例子是由塔克给出的“囚徒困 境” (prisoners’dilemma)博弈模 型。该模型用一种特别的方式为我们讲 述了一个警察与小偷的故事。
模型二、囚徒困境/非合作博 假设:有两个小偷A弈和B联合犯事、私入
第四章 博弈论的几个经典模 型
讲授人 谭建国
引言
博 弈 论 又 被 称 为 对 策 论 ( Game Theory),按照2005年因对博弈论的贡献 而获得诺贝尔经济学奖的Robert Aumann 教授的说法,博弈论就是研究互动决策 的理论。所谓互动决策,即各行动方 (即局中人[player])的决策是相互影响 的,每个人在决策的时候必须将他人的 决策纳入自己的决策考虑之中,当然也 需要把别人对于自己的考虑也要纳入考 虑之中……在如此迭代考虑情形进行决
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

FOC:
* 1
∂π 1 (q1 , q2 ) = a − 2q1 − 1 a + q1 − 1 c = 0 2 2 ∂q1
q = 1 (a − c) 2
q2 = 1 (a − c) 4
*
代入: q2 = 1 2 (a − q1 − c) 代入:
*
总产量
Q=3/4 (a-c) (a-
价格: P = a-Q =1/4(a+3c) a价格: 利润: 利润:
π 1 = p(q1 − c) = π 2 = p(q2 − c) =
斯塔伯格模型与古诺模型的比较
q2
古诺均衡 点 斯塔伯格均衡 点
1/3(a1/3(a-c) 1/4(a1/4(a-c)
1/2(a1/2(a-c)
q1
斯塔伯格模型与古诺模型的比较
同: 产量竞争 异: 先行优势 firstfirst- mover advantage 总产量高于古诺竞争 价格低于古诺竞争 总利润低于古诺竞争 消费者剩余大于古诺竞争 compete on quantity
Equilibrium ,1934
Stackelberg model —— 产量领先
假设: 假设:
两个厂家,行动有先后, 两个厂家,行动有先后,leader / follower 数量竞争 ,leader 先行选择产量,follower 观 先行选择产量, 察到leader 察到leader 的选择后再作选择 两个厂商都知道市场需求 Q
案例: 案例:运用公布价格策略抢占市场
德克萨斯仪器公司宣布了DRAM 两年内的价格。 德克萨斯仪器公司宣布了DRAM 两年内的价格。 一周后,鲍默公司宣布以低于德克萨斯公司的价格生 一周后, 产这种产品。 产这种产品。 几周后,摩托罗拉也宣称将以比鲍默公司更低的价格 几周后, 生产这种产品。 生产这种产品。 终于在几周后, 终于在几周后,德克萨斯公司宣布其价格比摩托罗拉 公司的价格还要低50% 50%, 公司的价格还要低50%,而其他两家公司则宣称经过慎 重考虑,他们不打算生产这种产品。 重考虑,他们不打算生产这种产品。
第一阶段厂商A的最优选择: 第一阶段厂商A的最优选择:
max π 1 (q1 , q2* ) = q1 (a − q1 − q2* − c)
其中: q2 = 1 2 (a − q1 − c) 其中:
*
即:
max π 1 (q1 , q2* ) = q1[a − q1 − 1 (a − q1 − c) − c] 2
第二阶段厂商B的最优选择: 第二阶段厂商B的最优选择:
max π 2 (q1 , q2 ) = q2 (a − q1 − q2 − c)
FOC: ∂π 2 (q1 , q2 ) = a − q − 2q − c = 0 1 2 ∂q2
q2 = 1 (a − q1 − c) 2
*
q1为厂商A在第一阶 为厂商A 段的实际产量选择
例题1 例题
假设: 假设:
斯塔伯格均衡求解
市场的需求函数为: Q=120市场的需求函数为: Q=120-P (反)需求函数为: 需求函数为: 边际成本 : P=120P=120-Q
MC1=MC2=0
整个市场的需求量在厂商A 整个市场的需求量在厂商A和B之间进行分配 Q=q1+q2 P=120-Q=120P=120-Q=120-(q1+q2 )
厂商A 厂商A先决定产量 q1 厂商B根据厂商1 厂商B根据厂商1的行为再决定 q2
厂商的利润函数为: 厂商的利润函数为:
π 1 (q1 , q2 ) = q1[ P(Q) − MC ] = q1 (a − q1 − q2 − c) π = − = − − − π 2 (q1 , q2 ) = q2 [ P(Q) − MC ] = q2 (a − q1 − q2 − c)
(-1 (-1,0)
§3.2 动态博弈经典模型
Models
“第一个来的人得到了牡蛎,而第二个人只得到 第一个来的人得到了牡蛎, 了贝壳。 了贝壳。” —— 钢铁大王 安德鲁·卡内基 安德鲁·
Stackelberg model (stackelberg , 1934)
德国 经济学家 斯塔伯格 Heinrich von Stackelberg 在1934 年出版的 “Marktform und Gleichgewicht (Market Structure and Equilibrium )” 中被阐述此模型 也称 Stackelberg leadership model
斯塔伯格 斯塔伯格 Stackelberg(1905-1946), Stackelberg(1905-1946), 德国经济学家,其贡献 德国经济学家, 在于博弈论和寡头垄断 理论 oligopoly theory 。 主要著作:Market 主要著作: Structure and
Heinrich Freiherr von Stackelberg 19051905-1946
四类模型的比较
后动的优势
奥先行
麦1
A B A
(10,4) 10, ( 3, 6 ) ( 2, 7 ) ( 9, 5)

B
麦2
A B
后动的优势
麦先行
AБайду номын сангаасB A
(4,10) 10) ( 7, 2 ) ( 6, 3 ) ( 5, 9 )
奥1

B
奥2
A B
现实案例
后动优势
secondsecond- mover advantage
FOC:
q2 = 1 (120 − q1 ) 2
*
第一阶段厂商A的最优选择: 第一阶段厂商A的最优选择:
max π 1 (q1 , q2* ) = q1 (120 − q1 − q2* )
其中: 其中:
*
q2* = 1 (120 − q1 ) 2
即:
max π 1 (q1 , q2 ) = q1[120 − q1 − 1 (120 − q1 )] 2
例:开金矿博弈 —— 三阶段博弈
有法律保障
分 B 借 不分 A A 不借 (1,0) 不打 (0,4) (2, (2,2) 打 (1,0)
威胁可信
例:开金矿博弈 —— 三阶段博弈
法律保障不足
分 B 借 不分 A A 不借 (1,0) 不打 (0,4)
承诺不 可信
(2, (2,2) 打
威胁不 可信
厂商的利润函数为: 厂商的利润函数为:
π 1 (q1 , q2 ) = q1 P (Q) = q1 (120 − q1 − q2 ) π 2 (q1 , q2 ) = q2 P(Q) = q2 (120 − q1 − q2 )
厂商A 先决定产量 厂商A 先决定产量 q1, 厂商B根据厂商1的行为再决定 厂商B根据厂商1的行为再决定产量 q2, 再决定产量 厂商A在决策时会考虑厂商B 反应。 厂商A在决策时会考虑厂商B的反应。
例:开金矿博弈 —— 两阶段博弈
• B在开采价值为4万元的金 在开采价值为4 矿时缺1 矿时缺1万元资金 • A恰好有1万元资金可以投 恰好有1 资 • B向A将1万元,承诺开采到 万元, 金子后,与A对半分成 金子后, • A是否应该将钱借给B? 是否应该将钱借给B
承诺不 可信
分 B 借 不分 A 不借 (1,0) (0,4) (2,2)
思考: 思考: 为什么 Follower 会处于劣势? 会处于劣势?
Too much information hurting a player !
思考: 思考: Leader 如何具有优势? 如何具有优势?
Leader 必须有承诺能力 commitment power 以先动表明承诺! 以先动表明承诺!
FOC:
∂π 1 (q1 , q2 ) = 120 − 2q1 − 60 + q1 = 0 ∂q1
q1* = 60
q2*= 30
* 代入: q2 = 1 2 (120 − q1 ) 代入:
总产量 均衡价格
Q=60+30=90 P=120-90=30 先行优势
firstfirst- mover advantage
求解方法: Backward induction 求解方法: 第二阶段厂商B的最优选择: 第二阶段厂商B的最优选择:
max π 2 (q1 , q2 ) = q2 (120 − q1 − q2 )
∂π 2 (q1 , q2 ) = 120 − q1 − 2q2 = 0 ∂q2
q1为厂商A在第一阶 为厂商A 段的实际产量选择
两个厂商获得的利润
π 1 = p ⋅ q1 = 30 × 60 = 1800 π 2 = p ⋅ q2 = 30 × 30 = 900
思考:先行者是否永远都有优势? 思考:先行者是否永远都有优势?
例题2 例题
假设
斯塔伯格均衡求解
市场的需求函数为: Q=a市场的需求函数为: Q=a-P 反需求函数为: 反需求函数为: 边际成本 : P=aP=a-Q=a-q1-q2 MC1=MC2=c
相关文档
最新文档