动态博弈
博弈演进形态

博弈演进形态
博弈的演进形态是多种多样的,它随着时间、环境、参与者之间的互动关系以及各种不确定性因素的变化而变化。
从博弈论的角度来看,博弈的演进形态大致可以分为以下几种:静态博弈:这是一种参与者同时进行决策的博弈形态,也称为零和博弈。
在静态博弈中,每个参与者的最优策略都取决于对手的策略,参与者之间没有先后行动的选择。
因此,静态博弈是一种较为简单的博弈形态。
动态博弈:动态博弈是指参与者的决策有先后顺序,后行动者可以通过观察先行动者的行为来做出自己的最优决策。
在动态博弈中,参与者需要考虑到对手可能的反应,并据此制定自己的策略。
动态博弈通常比静态博弈更加复杂。
重复博弈:重复博弈是指一系列具有关联性的决策序列。
在重复博弈中,参与者需要在考虑长远利益的同时,也要考虑到短期内的利益。
参与者可能需要与对手建立长期关系,以避免短视的决策带来的负面影响。
不完全信息博弈:在不完全信息博弈中,参与者对对手的策略和偏好等信息并不完全了解。
这种博弈形态需要考虑对手可能的策略和反应,以及对手的偏好和目标。
不完全信息博弈通常比完全信息博弈更加复杂和不确定。
总的来说,博弈的演进形态是多种多样的,每种形态都有其特点和适用场景。
在现实生活中,许多决策问题都可以通过博弈论来描述和解决。
理解不同博弈形态的特点和适用场景,有助于更好地理解和应对各种决策问题。
完全信息动态博弈和演化博弈的关系

完全信息动态博弈和演化博弈的关系在博弈论的研究领域中,完全信息动态博弈和演化博弈是两个重要的分支。
它们分别从不同的角度研究博弈现象,但二者之间也存在一定的联系和关系。
本文将探讨完全信息动态博弈和演化博弈的关系,并对它们的特点和应用进行分析。
1. 完全信息动态博弈的定义和特点完全信息动态博弈是指博弈参与者在博弈过程中具备完全信息的情况下,根据先后顺序依次做出决策,随着时间的推移,博弈过程也在不断变化。
在完全信息动态博弈中,博弈参与者对于其他参与者的行动和策略都有准确的了解,能够全面考虑对手的决策,以此来优化自己的策略选择。
完全信息动态博弈的特点包括:首先,信息对称,每个博弈者都能了解其他博弈者的策略和收益函数;其次,决策按照时间顺序依次进行,每个博弈者的行动会对其他人的决策产生影响;最后,完全信息动态博弈具有策略的时序性,参与者需要根据他们观察到的其他人的决策来选择自己的策略。
2. 演化博弈的定义和特点演化博弈是指博弈参与者根据其在群体中的优势来选择策略,并通过遗传和选择机制在演化过程中逐步改变策略的过程。
演化博弈考虑的不是个体之间的完全信息,而是从整体出发,通过个体之间的相互作用和进化选择来探讨不同策略之间的稳定性和最终结果。
演化博弈的特点包括:首先,演化博弈关注的是群体中不同策略的相对频率和进化趋势,而不是个体行动的绝对收益;其次,演化博弈中存在着演化稳定策略,即一旦某种策略在群体中形成,就会对其他策略形成一种稳定的威胁;最后,演化博弈的结果依赖于演化的时间尺度和环境的改变。
3. 完全信息动态博弈与演化博弈的关系完全信息动态博弈和演化博弈虽然从不同的角度出发,但也存在一定的联系和关系。
首先,完全信息动态博弈可以看作演化博弈的一种特殊情况,即当演化博弈的时间尺度趋于无穷时,完全信息动态博弈的结果可以看作是演化博弈的极限情况。
因此,完全信息动态博弈可以为演化博弈提供一种基础理论框架。
其次,演化博弈可以用来解释完全信息动态博弈中出现的某些稳定策略。
动态博弈案例

动态博弈案例
哎呀呀,今天来给大家讲讲动态博弈案例。
就说那商业战场吧,各个企业之间的竞争那叫一个激烈啊!比如说电商平台吧,甲电商平台搞了个大促活动,哇塞,那优惠力度可大了去了!这时候乙电商平台能坐视不管吗?那肯定不能啊!乙电商平台立马跟进,推出了更厉害的优惠政策,这不是明摆着跟甲电商平台较劲嘛!这就是动态博弈啊,你出招,我接招。
再想想看,体育比赛中不也是这样嘛?篮球比赛里,自己这边球队进了一个球,那对手球队能不着急啊?他们肯定得想办法扳回来呀!两边球队就是在不断地根据对方的行动来调整自己的战术,这多刺激啊!就好像在下一盘大棋,每一步都得小心翼翼,又得果断出击。
好比甲乙两支球队,甲队发现乙队防守有漏洞,马上就专攻那个点,乙队发现后能不改变防守策略吗?肯定得呀!然后甲队又得想新的办法来突破,这不就是一场你来我往的动态博弈嘛!
还有国际关系中呢,国家之间的互动也是如此啊!一个国家采取了某种政策,其他国家也得跟着调整自己的态度和行动,就像一场复杂的博弈游戏。
在这些动态博弈中,每一方都得时刻保持清醒的头脑,得快速反应,还得有长远的眼光。
这可不是一件容易的事儿啊,但正因为这样,才让整个过程充满了挑战和乐趣。
这就是动态博弈的魅力啊,就像一场永不停歇的战斗,你永远不知道下一刻会发生什么,难道不是特别让人兴奋吗?在这些各种各样的动态博弈中,可以看到智慧的交锋、策略的较量,这就是人类社会精彩的一面啊!我们都身在其中,要么是参与者,要么是旁观者,但无论怎样,都能深刻感受到这种动态博弈带来的震撼和影响力。
所以说啊,动态博弈无处不在,它影响着我们生活的方方面面,真的是太有意思啦!。
博弈模型汇总

博弈模型汇总如下:
1.合作博弈与非合作博弈:这是根据参与者之间是否可以达成具
有约束力的协议来划分的。
合作博弈强调团队合作和协作,目标是达成共赢;而非合作博弈则强调个人利益最大化,不考虑其他参与者的利益。
2.静态博弈与动态博弈:这是根据参与者做出决策的时间顺序来
划分的。
静态博弈是指所有参与者同时做出决策,或者决策顺序没有影响;动态博弈是指参与者的决策有先后顺序,后行动者可以观察到先行动者的决策。
3.完全信息博弈与不完全信息博弈:这是根据参与者对其他参与
者的偏好、策略和支付函数了解的程度来划分的。
完全信息博弈是指所有参与者都拥有完全的信息,能够准确判断其他参与者的策略和支付函数;不完全信息博弈则是指参与者只拥有部分信息,无法准确判断其他参与者的策略和支付函数。
4.零和博弈与非零和博弈:这是根据所有参与者的总收益是否为
零来划分的。
零和博弈是指所有参与者的总收益为零,一方的收益等于另一方的损失;非零和博弈则是指所有参与者的总收益不为零,各方的收益和损失不一定相关。
5.竞争博弈与合作博弈:这是根据参与者之间是否存在竞争或合
作关系来划分的。
竞争博弈是指参与者之间存在竞争关系,目标是追求个人利益最大化;合作博弈则是指参与者之间存在合作关系,目标是追求共同利益最大化。
6.微分博弈与离散博弈:这是根据决策变量的连续性来划分的。
微分博弈是指决策变量是连续变化的,需要考虑时间、速度等因素;离散博弈则是指决策变量只有有限个可能的取值,通常只考虑状态的变化而不考虑时间、速度等因素。
动态博弈理论与应用

动态博弈理论与应用第一章:引言动态博弈理论是博弈论的一种重要分支,研究的是受到时间和信息约束的博弈问题。
它从时间顺序和信息公开程度等维度对博弈过程进行建模和分析,是理论经济学、管理学、计算机科学等众多学科领域中的重要研究内容之一。
本文将从动态博弈理论的基本概念、模型和方法入手,介绍动态博弈理论的主要内容和应用情况。
第二章:动态博弈理论的基本概念动态博弈理论建立在静态博弈理论之上,它的最主要的特点在于参与者的决策与结果之间存在时间上的关联关系,即决策是按照时间顺序轮流做出的。
而参与者在做出决策前,只能知道自己的信息和其他参与者之前做的决策,不能预知未来的结果。
在这个基础上,动态博弈理论提供了一系列的模型和方法来分析博弈的结果及实现方式。
第三章:动态博弈理论的模型动态博弈理论的模型可以基于信息不完备、不确定性、策略可见性等多个方面进行分类。
其中,信息不完备的模型是最基础的,最经济学家最常使用的。
信息不完备模型中,博弈参与者的行动必须基于自己已知的信息,而不知道其他参与者的信息。
而在不确定性模型中,参与者不知道结果将会如何。
策略可见性模型则是最具有实际应用的模型,这种模型中,每个参与者知道所有的实际结果及其影响,即支配条件。
第四章:动态博弈理论的方法动态博弈理论中有许多方法,常用的包括完美均衡、子博弈完美均衡、可重复博弈、概率博弈等。
典型的完美均衡策略就是一个序列,每一项都是一个单步博弈策略,游戏结果取决于序列的每一步策略。
子博弈完美均衡则是针对复杂的大型博弈进行分析的一种方法。
若子博弈具有完备信息,则必须使用完全搜索算法来处理该问题。
而可重复博弈和概率博弈则是针对直接博弈不适合的情境,如合谋的情境、局部信息的分布等,而设计的两种不同类型的博弈方法。
第五章:动态博弈理论的主要应用动态博弈理论具有广泛的应用领域,例如竞争激烈的高科技行业、公共政策设计、外交谈判和金融衍生品等领域。
例如在金融衍生品市场中,动态博弈理论可以通过构建模型分析衍生品价格,为股票、债券和外汇等市场提供更完善的竞争分析和风险管理策略。
第四讲 动态博弈

R (0,0)
2
U
1
L (3,1) (2,2)
D
修改的市场进入博弈
试说明上述不可置信的威胁是什么? 现实生活中的例子:父亲坚决不同意女儿 的婚事,威胁说,如果女儿不与相爱的人 断绝关系,他就与女儿断绝父女关系。
逆向归纳法
逆向归纳法可以排除不可置信的威胁。之 所以可以如此,根本原因在于采用了一种 分析动态博弈的有效方法——逆向归纳法, 即从动态博弈的最后一个阶段博弈方的行 为开始分析,逐步倒推回前一个阶段相应 博弈方的行为选择,一直到第一个阶段的 分析方法。一般方法是:从最后一阶段开 始分析,每一次确定出所分析阶段博弈方 的选择和路径,然后再确定前一阶段的博 弈方选择和路径。
(L/L,L/S) (L/L,S/S) (S/L,L/S) (S/L,S/S)
(若史密斯选择大则选择大;若其选择小则选择大) (若史密斯选择大则选择大;若其选择小则选择小) (若史密斯选择大则选择小;若其选择小则选择大) (若史密斯选择大则选择小;若其选择小则选择小)
跟随领头羊Ⅰ表明只要添加一点复杂性,就 使得策略式表述变得晦涩难懂,几无用武之 地。策略式如下。
威胁是指一个参与人承诺一旦其他参与人 偏离均衡,他将采取的某种行动,威胁是 有 一定影响力的,尽管可能它从未被实施 过。
在位者
默许 斗争 进入 40,50 -10,0 进入者 不进入 0,300 0,300 市场进入博弈中,如若进入者真的进入,在位者的最优行 动显然是默许而不是斗争,因为默许带来50的利润,所以 斗争就是一种不可置信的威胁。但纳什均衡概念承认了这 种不可置信的威胁,所以(不进入,斗争)就成为一个纳 什均衡。
例如,一个模型不能在一开始就说德国相信它打 赢一场与法国的战争的概率是0.8,而法国相信这 一概率只有0.4,因此它们急欲一战。恰恰相反, 它必须假定信念(先验概率)开始时是一致的, 随后因为私人信息而产生分歧。例如两个参与人 都认为德国获胜的概率是0.4,但若德国的将军是 个军事天才,则这一概率就是0.8,而且随后德国 人发现德国的将军确实是个天才。如果是法国抢 先宣战,那么法国的错误信念可能会导致一场战 争,而若德国能令人信服它对德国将军天才的私 人信息,则这场战争本可避免。
完全信息动态博弈模型

完全信息动态博弈模型完全信息动态博弈模型是博弈论中一种重要的博弈模型,它描述了一组参与者在了解所有相关信息的情况下,通过一系列决策和行动来实现最优化的结果。
下面将详细介绍完全信息动态博弈模型的相关内容。
一、博弈的参与者:完全信息动态博弈模型中,通常包括两个或多个参与者,每个参与者都可以做出自己的决策和行动。
参与者可以是个人、组织、公司等,他们之间存在着相互竞争和合作的关系。
二、博弈的信息:完全信息动态博弈模型中的参与者拥有完全信息,即每个参与者都能够获得关于其他参与者的决策和行动的完整信息。
通过完全信息,参与者能够准确地评估自己的决策和行动对其他参与者的影响,并作出最优化的决策。
三、博弈的行动和策略:在完全信息动态博弈中,参与者可以选择不同的行动和策略来达到自己的目标。
每个参与者根据自己对其他参与者行动和策略的评估,以及自己的目标和利益,选择最优化的行动和策略。
四、博弈的时间顺序:完全信息动态博弈是一个时间序列上的博弈模型,参与者的决策和行动是有序进行的。
参与者按照一定的时间顺序依次进行决策和行动,每个参与者都会考虑前面参与者的行动和决策对自己的影响,进而作出自己的决策。
五、博弈的结果和收益:完全信息动态博弈模型的结果是参与者的收益和利益。
通过多轮反复的博弈过程,参与者根据自己的决策和行动可以获得不同的结果和收益。
每个参与者的最终目标是通过优化自己的决策和行动,获得最大的收益和利益。
完全信息动态博弈模型是博弈论中一种重要的模型,它能够帮助我们分析和理解多方参与者在了解所有相关信息的情况下,通过一系列决策和行动来实现最优化的结果。
通过对博弈的参与者、信息、行动和策略、时间顺序以及结果和收益的分析,可以更好地理解和应用完全信息动态博弈模型。
动态博弈

“战术勾结”
寡头之间的“不回避竞争法则”,是指至 少有几个寡头厂商保证(通常以做广告的 方式)自己的索价不高于其他任何竞争者。 这样的许诺对于消费者来说似乎是件很好 的事,但事实上这样的做法会提高价格。
寡占的斯塔克博格(stackberg)模型—— 动态的寡头市场产量博弈模型
u1=q1P(Q)-c1q1 =q1[8-(q1+q2)]-2q1 =6q1- q1q2-q12
最后,实施上述策略组合的最终结果,即 路径终端处得益数组中的数字。
可信性和纳什均衡问题
相机选择和策略中的可信性问题 动态博弈中博弈方的策略并没有强制力,
而且实施起来有一个过程,只要符合博弈 方自己的利益,他们完全可以在博弈过程 中改变计划。我们称这种问题为动态博弈 中的“相机选择”(Contingent Play)。
逆推归纳法(backwards induction)
逻辑基础:动态博弈中先行动的理性的博弈方, 在前面阶段选择行为时必然会考虑后行为博弈 方在后面阶段中将会怎样选择行动,只有在博 弈的最后一个阶段不再有后续阶段牵制的博弈 方,才能做出明确的选择。而当后面阶段博弈 方的选择确定以后,前一阶段博弈方的行为也 就容易确定了。
q2应满足: 6-q1-2 q2 = 0 q2 =3-q1/2
厂商1 知道厂商2的这种决策思路,因此在选择产量水平 q直1时接就将知上道式厂代商入2自的己产的量得q2益*会函根数据,上这式样确厂定商,1的所得以益他函可数以 实际上转化成了他自己产量的一元函数:
u1(q1,q2*) = 6q1-q1q2*-q12 = 6q1-q1(3-q1/2)-q12 = 3q1-0.5q12
乙讨价还价的筹码就是可以跟甲托时间
(当然拖延对乙的收益也有影响),拖延
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8 1 1 1
完全信息动态博弈
15721546 马广庆
E F
扩展式博弈
Lorem ipsum dolor sit amet, consectetur
扩展式博弈纳什均衡
Lorem ipsum dolor sit amet, consectetur
子博弈精炼纳什均衡
Lorem ipsum dolor sit amet, consectetur
逆向归纳法
Lorem ipsum dolor sit amet, consectetur
动态博弈实例分析
Lorem ipsum dolor sit amet, consectetur
重复博弈
Lorem ipsum dolor sit amet, consectetur
前言
• 智猪博弈 • 囚徒困境 • 古诺模型 • 市场进入阻扰模型 • 房地产开发博弈 • 田忌赛马
max u 2 (a1 , a 2 )
a 2 A2
2016
动态博弈模型
Stackelberg博弈模型 两个企业进行先后确定产量水平的两阶段动态博弈 第一阶段,作为领导者的企业1首先制定产量;第二阶段,作为跟随者的企业 2观察到企业1制定的产量水平后,按照利润最大化原则制定其产量。 假设两个企业的边际成本相等,c1 c 2 c - q1 q 2)其中a>0为常数, 市场需求函数为 p a ( 企业的战略选择,市场需求是共同知识。
• 动态博弈指的是参与人的行动有先后顺序,且后行动者能够观察到先行动者
•
所选择的行动。 注:也就是说在动态博弈中的参与人不仅要考虑自己策略对自己的影响,也 要考虑自己策略对他人的影响。
扩展式博弈
博弈
静态博弈 (参与人同时采取行动) 战略式表述 1)参与人集合;(2)每个参与人的战略集合; (3)有战略组合决定的每个参与人的支付
的行动选择决定随后的子博弈的结构,因此,此后一个决策结开始的子博弈 不同于从前一个决策结开始的子博弈,或者说,同样结构的子博弈只出现一 次。这样的动态博弈称为“序贯博弈” 动态博弈另一种重要的类型就是“重复博弈”,即同样结构的博弈重复多次, 其中的每次博弈称为“阶段博弈”。
•
阶段博弈之间没有“物质上”的联系(前 一阶段博弈不改变后一阶段博弈的结构)
动态博弈模型
利用逆向归纳法求解 首先考虑第 2阶段。给定企业 1 的产量q 1, 企业2的最优产量为 q2
* *
q 2 argmax ( (a ( - q 1 q 2) - c) q2 2 q 1 , q 2) 由一阶条件,得到企业 2的最优反应函数 q 2 R2 (q 1 ) a - q1 - c 2 a - q1 - c * 再考虑第 1阶段,预见到企业 2的反应函数q 2 R2 (q 1 ) 2 * 企业1 的最优产量q 1 argmax ( (a ( - q 1 R2 (q 1 )) - c) q1 1 q 1 , q 2)
• 无限次重复博弈
给定一个标准博弈G,如果G将无限 次重复进行下去,且博弈方的贴现因 子都为 ,每次重复G之前,以前阶 段博弈的博弈结果各博弈方都能观察 到,这样的博弈过程称为“G的无限次 重复博弈”,记为 ( - ,) ,而G称 为 G( - ,) 的“原博弈”
有限次重复博弈
• 囚徒困境”式博弈的有限次重复(假设重复两次)
• 房地产开发博弈
开发商A和开发商B各自决定是否决定投入1亿元开发一栋新的写字楼 假定,如果市场上有两栋楼出售,需求大时,每栋售价1.4亿元,需求小时, 售价为7000万元;如果市场上只有一栋楼出售,需求大时售价为1.8亿元,需 求小时为1.1亿元。
(a)高需求时 开发商B 开发 开发商A 开发 4,4 0,8 不开发 8,0 0,0
•
子博弈精炼纳什均衡
子博弈: (a)始于单结信息集的决策结n;(不包括博弈的第一个决策结) (b)包含博弈树中n之下所有的决策结和终点结; (c)没有对任何信息集形成分割。(即如果博弈树中n之下有一个决策结n', 则和n'处于同一信息集的其他决策结也必须在n之下,从而也必须包含于子博 弈中。)
子博弈精炼纳什均衡
不开发
(b)低需求时
开发商B 开发 开发商A 开发 -3,-3 不开发 1,0
不开发
0,1
0,0
• 将上述博弈做如下修改:
(1)开发商A首先行动,选择开发或者不开发; (2)在A决策之后,自然选择市场需求的大小; (3)开发商B在观测到A和市场需求后,决定开发或不开发
对于这样的博弈,我们该如何定义?
•
结是博弈行动路径的终点。 2.枝:在博弈树上,枝是从一个决策结到它的直接后续结的连线,每一个枝 代表参与人的一个行动选择。 3.信息集:博弈树上的所有决策结分割成不同的信息集。每一个信息集是决 策结集合的一个子集,该子集包括所有满足下列条件的决策结:(1)每一 个决策结都是同一参与人的决策结;(2)该参与人知道博弈进入该集合的 某一个决策结,但不知道自己究竟处于哪一个决策结。
房地产开发博弈1
• 注解:
(1)在上例中,决策结包括空心圆和所有6个实心圆,终点结包括对应8个支 付向量的点。 (2)开发商A有两个选择,分别用标有“开发”、“不开发”的两个枝表示。 (3)a》假定开发商B是在知道开发商A和自然的选择之后决策的,此时,博 弈树的7个决策结分割成7个信息集,其中一个(初始结)属于A,两个属于N, 四个属于B。每个信息集只包含一个决策结, b》假定行动顺序如前,但B在决策时并不确切地知道自然的选择。此时, B的信息集由原来的四个变成两个,每个信息集包含两个决策结。如果用虚线 将属于同一信息集的两个决策结连接起来,就得到了如下博弈树:
• 扩展式表述博弈的战略组合s*=(s)是一个子博弈精炼纳什均衡,如果:
(1)它是原博弈的纳什均衡 (2)它在每一个子博弈上给出纳什均衡 简单地说,一个战略组合式子博弈精炼纳什均衡,当且仅当它在每一个子博 弈(包括原博弈)上都构成一个纳什均衡。 注:如果整个博弈是唯一的子博弈,纳什均衡与子博弈精炼纳什均衡是相同 的。
*
[ a (q 1
a - q1 - c ) c] q 1 2
*
由一阶条件,得到企业 1 的最有产量q 1 因此,St ackelberg 博弈的结果为 a -c a -c * * q1 ,q 2 2 4
a -c 2
重复博弈
• 在前面讨论的动态博弈基本上都有一个特征,这就是,参与人在前一个阶段
不坦白
0,-10 -1,-1
• 回到第一阶段,由于理性的博弈方在第一阶段知道第二阶段的结果必然是
(坦白,坦白),因此不管第一阶段的博弈结果是什么,双方在整个重复博 弈中的最终得益,都是在第一阶段得益的基础上各加-8,结果如下:
囚徒2 坦白
囚徒1 坦白 不坦白 -16,-16 -18,-8
不坦白
-8,-18 -9,-9
方选择了坦白,然后永远选择坦白。 • 我们首先证明冷酷战略是一个纳什均衡。假定囚徒j选择上述冷酷战略,冷 酷战略是不是囚徒i的最优战略呢? 如果i在博弈的某个阶段首先选择了坦白,他应该在该阶段得到0单位的支 付,而不是-1单位的支付,因此他的当前净得1单位。但他的这个机会主义行 为将触发囚徒j的“永远坦白”的惩罚,因此i随后的每个阶段的支付都是-8.因此, 如果下列条件满足,给定j没有选择坦白,i将不会选择坦白:
房地产开发博弈2
扩展式表述博弈的纳什均衡
• 在引入博弈的扩展式表述后,让我们讨论扩展式表述博弈的纳什均衡。
注“行动”与”策略”的区别 第一步,将博弈的扩展式表述和战略式表述联系起来。 以房地产开发博弈为例。假定在博弈开始之前自然选择了“低需求”,并且已成 为参与人的共同知识,开发商A先决策,开发商B在观察到A的选择后决策。
• A只有一个信息集,两个可选行动,因而A的行动空间也即策略空间(开发, •
不开发)。 B有两个信息集,每个信息集上有两个可选行动,因而B有四个纯策略:(1) 不论A开发还是不开发,我开发;(2)A开发我开发,A不开发我不开发; (3)A开发我不开发,A不开发我开发;(4)不论A开发还是不开发,我不 开发。简记为:{开发,开发},{开发,不开发},{不开发,开发},{不开发, 不开发}。
用逆向归纳法分析该重复博弈,
先分析第二阶段,由于前一阶段已成事实,对本阶段不再有任何的影响,因 此实现自身当前的最大利益是两博弈方在该阶段决策中的唯一原则。此时, 第二阶段两囚徒的唯一的结果就是原博弈唯一的纳什均衡(坦白,坦白), 双方得益(-8,-8).
囚徒2
坦白
囚徒1 坦白 不坦白 -8,-8 -10,0
• 设原博弈G有唯一的纯策略纳什均衡,令G重复进行T次的有限次博弈,重
复博弈G(T)有唯一的子博弈精炼纳什均衡,各博弈方每个阶段都采用G的纳 什均衡策略。
无限次重复博弈
• 考虑囚徒困境博弈
假定博弈重复无穷次
囚徒2
坦白
囚徒1 坦白 不坦白 -8,-8 -10,0
不坦白
0,-10 -1,-1
• 考虑下列所谓的“冷酷战略”:(1)开始选择抵赖;(2)选择抵赖直到有一
逆向归纳法求解子博弈精炼纳什均衡
• 从动态博弈的最后一个阶段博弈方的行为开始分析,逐步倒推回前一个阶段
相应博弈方的行为选择,一直到第一个阶段的分析方法,这种分析方法称为 “逆向归纳法”,又称倒推法。
• 假定博弈有两个阶段,第一阶段参与人1行动,第二阶段参与人2行动,并且
2在行动前观察到1的选择。令 A1 是参与人1的行动空间, A2 是参与人2的 行动空间。当博弈进入第二阶段,给定参与人1在第一阶段的选择 a1 A1 , 参与人2面临的问题是: