第二章扩展式博弈

合集下载

博弈论与信息经济学第二章完全信息动态博弈

（0，0）
21 22 23 24
S1 {开发，开发}—威胁战略 S 2 {开发，不开发}—跟随战略 S 3 {不开发，开发}—差异化战略 S 4 {不开发，不开发}—放弃战略
扩展式表达博弈的纳什均衡
则：
21 22 23 24 21 23 22 24
（即如果A开发，B不开发；如果A不开发，B开发），因此（开发，{不开
x’
开发不开发
发，开发}）是这个博弈的唯一的子博
弈精炼纳什均衡。
（0，1）
（0，0）
子博弈(c)
子博弈精炼纳什均衡
用逆向归纳法求解子博弈精炼纳什均衡：假定博弈有两个阶段，第一阶段参与人1行动，第二阶段参与人2行动，并且2在行动前观测到1的选择。令A1是参与人1的行动空间，A2是参与人2的行动空间。
（0，0）
子博弈精炼纳什均衡
例：
U (2,0) L 1 D 2 R 1 D’ (0,2)
Step1：参与人1（第二次行动）——U’ Step2：参与人2——L Step3：参与人1——U 所以，精炼均衡（{U,U’}，L）
(1,1) U’ (3,0)
用逆向归纳法求解子博弈精炼纳什均衡的过程，实质是重复剔除劣战略过程在扩展式表述博弈上的扩展：从最后一个决策结开始依次剔除掉每一个子博弈的劣战略，最后生存下来的战略构成精炼纳什均衡。
在扩展式表述博弈中，所有n个参与人的一个纯战略组合s= （si,…,sn）决定了博弈树上的一个路径。每一个战略组合（即博弈树的路径）决定了一个支付向量u=（u1,…,un）。战略组合si*是扩展式博弈的一个纳什均衡，如果对于所有的i，si*最大化 u ( s s ) ，即 i i i

博弈的扩展式表述

即:在扩展式表述中,战略对应于参与人的相机在扩展式表述中, 行动规则:什么情况下选择什么行动,而不是简单的, 行动规则:什么情况下选择什么行动,而不是简单的, 与环境无关的行动选择. 与环境无关的行动选择. 一般,扩展式表述用博弈树表示. (2)一般,扩展式表述用博弈树表示.
03:23:30 经济管理学院曹正勇 1
03:23:30 经济管理学院曹正勇 10
RECALL) 5,完美回忆(PERFECT RECALL) 完美回忆( 指没有参与人会忘记自己以前知道的事情, 事情,所有参与人都知道自己以前的选择. 见下例: 见下例:
03:23:30
经济管理学院曹正勇
11
参与人不具完美回忆的两个例子
03:23:30 经济管理学院曹正勇 12
�
6
03:23:30
经济管理学院曹正勇
7
以下按理对信息集进行直观的解释: 以下按理对信息集进行直观的解释:
03:23:30
经济管理学院曹正勇
8
下例中: 下例中:B有2个信息集 ,每个信息集对应两个决策结
03:23:30
经济管理学院曹正勇
9
4,完全且完美信息博弈单结信息集. 只包含一个决策结的信息集称为单结信息集. 如果博弈树的所有信息集都是单结的, 如果博弈树的所有信息集都是单结的,该博弈称为完美信息博弈. 注意:完美信息博弈意味着博弈中没有任何两注意: 个参与人同时行动,并且所有后行动者能确切确切地知个参与人同时行动,并且所有后行动者能确切地知道前行动者选择了什么行动,所有参与人都观测都观测到道前行动者选择了什么行动,所有参与人都观测到自然的行动. 自然的行动.
完美信息博弈意味着博弈中没有任何两个参与人同时行动并且所有后行动者能确切地知道前行Байду номын сангаас者选择了什么行动所有参与人都观测到自然的行动

博弈论的extensive form

博弈论的extensive form博弈论是研究具有相互冲突和合作元素的情境下的决策制定的数学理论。

在博弈论中，一个游戏（博弈）可以被表示为扩展式（extensive form）或标准式（normal form）。

扩展式博弈也被称为树形结构，它详细地描述了游戏的所有可能的决策过程和时间顺序。

在扩展式博弈中，每个玩家根据游戏的历史（从根节点到当前决策点的路径）做出选择。

这种表示方法允许捕捉到玩家之间的行动顺序和信息传递，非常适合描述具有时间序列和信息不完全的动态决策过程。

扩展式博弈的主要组成部分包括：1. 历史（History）：历史是一个有序集合，表示从博弈的开始到当前决策点所采取的行动序列。

在扩展式博弈的树形结构中，历史从根节点开始，每个节点代表一个决策点，节点之间的路径代表了行动的历史。

2. 玩家函数（Player Function）：玩家函数P(h) 定义了在历史h 之后做出决策的玩家。

在扩展式博弈中，玩家函数确保了在每一个决策点，只有一个玩家负责做出选择。

3. 纯策略（Pure Strategy）：纯策略是玩家在每个决策点上可能采取的行动集合。

一个玩家在扩展式博弈中的纯策略可以被表示为一个函数，该函数将历史映射到一个具体的选择上。

4. 博弈长度（Length of the Game）：博弈长度l(G) 是指从根节点到叶节点的最长路径长度，它代表了博弈的持续时间。

扩展式博弈的优点在于它能够精确地描述玩家之间的决策顺序和信息结构，但它也有可能变得非常复杂，尤其是在参与者数量多或者决策序列长的情况下。

尽管如此，扩展式博弈是分析具有时序特征和信息不完全的决策问题的有力工具，特别是在经济学、政治学、心理学和人工智能等领域。

4.3博弈扩展式向策略式表述的转化

博弈扩展式表述转化为策略式表述有时为了理论研究，借助策略式表述博弈的结果分析扩展式博弈，需要将扩展式博弈转化为策略式表述博弈。

扩展式博弈的策略定义是：参与人在其每一个信息集上都要给出一个行动方案。

扩展式博弈分析的重要工作内容就是确定每个参与人在其每个信息集上如何进行行动选择。

策略一般地，若参与人i 的信息集集合为H i ，信息集i ∈H i 上的行动集为A i (i ),该行动集上的行动为a i (i )∈A i (i ),则参与人i 的策略则可表示为h i k i ∈ Hi {a i (i )}若参与人在每个信息集上的行动可以随机化，则称该策略为行为策略（behavioral strategy ），可记为h i k i ∈ Hi {i (i )}，其中，i (i )∈（A i (i )）策略——一个例子请写出右图所示的博弈树双方各自的策略。

1有2个信息集，第一个信息集有三个行动，第二个信息集有2个行动。

因此共有六个策略。

可记参与人1的策略集为S 1={Aa ,Ab ,Ba ,Bb ,Ca ,Cb }。

这样表示的含义，以策略Bb 为例，表示的是参与人1在第一个信息集选行动B ，第二个信息集选行动b 。

同理，参与人2有两个信息集的策略集可以表示为S 2={lL ,lR ,rL ,rR }支付函数的确定确定了一个策略组合，就确定了相关路径。

通过对相关路径结果的分析，就可以确定参与人在该策略组合下的支付值。

以Aa VS lL 为例，这个策略组合确定的路径为所以在策略组合{Aa , lL }对应的支付向量为（4，1）参与人1的策略集为S 1={Aa ,Ab ,Ba ,Bb ,Ca ,Cb }，参与人2的策略集为S 2={lL ,lR ,rL ,rR }支付函数的确定分析策略组合{Ca , lL }对应的博弈路径。

参与人在博弈开始首先选择行动C ，然后到达虚拟参与人结点Chance 。

在Chance 点，两条路径出现的概率分别为1/4和3/4，对应的支付向量分别为(0, 0)和(8, 8)。

上海财经大学《高级微观经济学I》扩展式博弈

0
13
A 扩展式博弈
• 例：约会博弈
d1.1
– H 1={d1.1 ,d1.2} – H 2={d2 .1, d2.2} – 信息集
Reading 2
Concert
d1.2
• I 11={d1.1 }; I 12={ d1.2}
2B
S
• I 2={d2 .1, d2.2}
d2.1
d2.2
B
S
B
S
3
High See
d1.1
raise
d2.1
Pass
Meet
Low
d1.2
raise
-1 See
1
d2.2
Pass
Meet
1
2
-1
-2
1
-2
-1
2
A 扩展式博弈
• 连续行动集：货币政策
– 第一阶段：中央银行宣布政策目标 π0 – 第二阶段：居民/企业形成通货膨胀预期πe – 第三阶段：中央银行决定实际政策 π
0
– a(I1.1)∈ A(I1.1) , a(I1.2)∈ A(I1.2)
– 2的信息集I2 ={d2}
– 策略： s2 =a(I2)
d1.1
C
d2
S
C
d1.2
1
S
C
3
4
3
2
5
18
A 扩展式博弈
• 策略（一般定义）
– 是参与者信息集Ii到行动集A(Ii)的函数
– s1 =a(I1)
d1
• a(I1)∈ A(I1)
• 例：三阶段蜈蚣博弈
1.1
S
C
2
2

博弈模型扩展式 -回复

博弈模型扩展式-回复什么是博弈模型扩展式？博弈模型扩展式是指在传统的博弈模型基础上，通过增加相关规则、参与者或策略等因素，对博弈模型进行扩展和延伸的一种理论框架。

扩展式的博弈模型可以更好地描述现实世界中的复杂决策场景，使得博弈论在经济学、管理学、政治学等领域的应用更为广泛。

一、基础的博弈模型在介绍博弈模型扩展式之前，我们先简要回顾一下基础的博弈模型。

基础的博弈模型主要由参与者、策略和收益函数构成。

参与者根据收益函数和其他参与者的策略来选择自己的策略，并且最终根据收益函数来分配收益。

传统的博弈模型包括纳什均衡、博弈矩阵和博弈树等。

但是这些模型在描述现实中一些复杂情况时存在局限性。

二、增加的参与者在博弈模型中，我们可以通过增加参与者的数量来扩展博弈模型。

通常，博弈模型中的参与者被视为独立决策实体，他们根据自己的利益来选择策略。

然而，在现实生活中，存在许多博弈模型中没有考虑到的共同利益或合作关系。

因此，将更多的参与者纳入博弈模型可以更好地反映出现实情况中的决策情景。

例如，在环境保护领域的博弈中，传统模型只考虑了公司在追求利润最大化的同时对环境的影响。

然而，在现实中，政府和非政府组织等参与者对环境保护同样关注。

因此，我们可以通过增加政府和非政府组织等参与者，构建一个多参与者博弈模型，以更好地分析环境保护政策的制定和实施。

三、引入动态策略除了增加参与者，我们还可以通过引入动态策略来扩展博弈模型。

在传统的博弈模型中，参与者只能在某个时刻选择自己的策略，并且这个选择是一次性的，不可更改的。

然而，在现实生活中，很多决策是连续的，参与者可以根据其他参与者的策略变化来调整自己的策略。

例如，在股市投资中，投资者的决策往往是连续的，他们会根据市场走势和其他投资者的行为来调整自己的投资策略。

因此，我们可以通过引入动态策略，构建一个连续时间博弈模型，以更好地分析股市中的投资决策。

四、考虑不完全信息博弈模型扩展式还可以考虑参与者之间的信息不对称问题。

扩展式博弈

扩展式博弈
扩展式博弈用来描述谁在何时行动在该时点上它能做什么，它行动时知道哪些信息，以及与参与人行动相联系的最终支付。

对于扩展式博弈，一般采用博弈树的方式进行描述，博弈树的构成要素主要有结、枝、路径、信息集。

教材414页的扩展式博弈中，B有四种策略：
（1）策略（L,L）：代表无论A选择L还是选择S，B都会选择L；（即如果A选择L，B会选择L；当A选择S，B也会选择L；）
（2）策略（L,S）：代表如果A选择L，B会选择L；当A选择S，B会选择S；
（3）策略（S，L）：代表如果A选择L，B会选择S；当A选择S，B也会选择L；
（4）策略（S,S）：代表无论A选择L还是选择S，B都会选择S；（即如果A选择L，B会选择S；当A选择S，B也会选择S；）
表15.4中的支付组合都是从413页图15.3中得到的。

此内容可以参阅张维迎《博弈论与信息经济学》89-90、95-96页。

第二章扩展式博弈

第二章
扩展式博弈
本章的主要内容
博弈论的启示实际模型与虚拟模型扩展式博弈：完美信息扩展式博弈：不完美信息策略是什么

第一节

博弈论的启示
博弈论主要在两个方面给我们帮助： 1、模型它提供了一个研究复杂社会现象的框架，可将其简化为可供分析的模型 2、方法它提供了从这些与人们如何采取行动及人们该如何采取行动相关的模型中，总结命题的方法。
博弈论提供了对于人们行为背后逻辑的洞察，还处于发展中。
第二节实际模型与虚拟模型
实际模型实际模型旨在呈现真实世界，是对真实世界的准确描述，实际模型可能很复杂。虚拟模型虚拟模型是对真实模型的简化，并不一定是对真实模型的准确描述。我们使用虚拟模型尽可能从本质上模仿真实世界，并非复制真实世界。构建虚拟模型决定将哪些因素加入到虚拟模型中，就如同打包行李去大学，你没有办法把所有需要的东西都塞进行李箱。从本质上模仿，就是把最关键的因素加入模型，忽略次要因素。有些时候，忽略次要因素更有助于研究关键因素之间的关系。

扩展式博弈：不完美信息——信息集
在左图中，盖伊在决定杀死还是释放奥兰多之前，知道薇薇卡是否交纳了赎金。信息集都是单节点，是一个完美信息博弈（左图）如果盖伊在决定杀死还是释放奥兰多之前，不知道薇薇卡是否交纳了赎金。节点3和4共同构成一个信息集，这个信息集中包含了两个节点，是一个不完美信息博弈（右图）
特征1：每一个节点都是初始节点的后续节点，同时，初始节点是唯一具有这一特征的节点。特征2：除初始节点之外的任何一个节点都只有一个直接前臵节点。初始节点没有前臵节点。特征3：从一个节点引出的不同分枝具有不同的行动标签。特征4：每一个信息集只包含一个参与人的节点。特征5：每个信息集中所有节点必须具有相同数量的直接后继节点，而且其中的所有节点是通过具有相同集合行动标签的分枝而到达这些后继节点的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第二章扩展式博弈
精品PPT
本章的主要内容
博弈论的启示实际模型与虚拟模型扩展式博弈：完美信息扩展式博弈：不完美信息策略是什么
精品PPT
第一节博弈论的启示
博弈论主要在两个方面给我们帮助： 1、模型它提供了一个研究复杂社会现象的框架，
可将其简化为可供分析的模型 2、方法它提供了从这些与人们如何采取行动及人
5 1 3
2
扩展式博弈：完美信息——博弈树
分析博弈树是自上而下的（也
盖伊
可以是自左而右的），每一个
点被称为决策点，代表在博弈不绑架
绑架
中在某个点某人需要做出选择。从决策点延伸出来的线是一系盖伊 3
薇薇卡
列分枝，每个分枝代表可供决薇薇卡 5
策者选择的一种行动方案。选
支付赎金
不支付赎金
择一个分枝就等于选择了一种
博弈论提供了对于人们行为背后逻辑的洞察，还处于发展中。
精品PPT
第二节实际模型与虚拟模型
实际模型实际模型旨在呈现真实世界，是对真实世界的准确描
述，实际模型可能很复杂。虚拟模型虚拟模型是对真实模型的简化，并不一定是对真实模
型的准确描述。我们使用虚拟模型尽可能从本质上模仿真实世界，并非复制真实世界。构建虚拟模型决定将哪些因素加入到虚拟模型中，就如同打包行李去大学，你没有办法把所有需要的东西都塞进行李箱。从本质上模仿，就是把最关键的因素加入模型，忽略次要因素。有些时候，忽略次要因素更有助于研究关键因素之间的关系。
盖伊
不绑架
盖伊 3
薇薇卡 5 支付赎金
盖伊
绑架
薇薇卡
不支付赎金盖伊
杀害
释放杀害
释放
4
52
1
1
32
4
绑架案
精品PPT
扩展式博弈：完美信息——绑架案
这个博弈有五种结果：每种结果对应博弈树的一个路径，或者说一系列行动方案。如果盖伊没实施绑架，产生一个结果；如果盖伊实施绑架，产生四种结果。这四种结果分别取决于薇薇卡是否交付赎金与盖伊撕票还是释放。
行动方案。
盖伊
盖伊
每一个节点为首节点，对应博杀害弈结束的节点为终端节点。在
终端节点下列出所有参与者的
支付（收益）。
4
一个博弈树只能有一个首节点。 1
释放杀害
52
1
32
4
精品PPT
扩展式博弈：完美信息——棒球赛
在棒球赛中，有一个众所周知的事实，如右表。
现在将要进行比赛的第九局，O队与Y队第八局打成平局。 Y队的MR 是右投球手， O队的JL是右击球手。 O队的教练正在考虑是否将JL（右击）替换为左击球手JG。他当然希望JG（左击）对阵MR （右投）。但是Y队的教练也可以为了对阵JG （左击），将MR （右投）替换为左投球手RJ（左投）。
精品PPT
虚拟模型的优势——举例
a有空气管，b牛顿管(真空) 现实中五米高扔铁球和纸片，落地时间不一样。忽略空气阻力，才找到速度和重力之间的关系。忽略空气阻力帮助我们揭示出本质。
神九与天宫一号进行交会对接：研究设计的轨道时要考虑长度、宽度（否），要研究卡口就不能不考虑。根据研究问题决定选择哪些因素，好的模型根据研究的问题选择一些因素加入模型中问题不同，选择的因素也不同。博弈分析中都是虚拟模型，不是真实模型
精品PPT
第三节扩展式博弈：完美信息
因为博弈论的目的在于推导人们行为的后果，所以一个模型就应该重点关注能够做出决策的个体。
在一个关于绑架的例子中，我们重点关注绑架者盖伊和被绑架者奥兰多的妻子薇薇卡，薇薇卡被通知交付赎金。
思考问题：① 盖伊与薇薇卡什么时候采取行动？② 当他们行动时有哪些可供选择的行动方案？③当他们采取行动时知道的信息是什么？
假设盖伊认为如果奥兰多被杀死，他被逮捕的机会很小，所以倾向于杀掉奥兰多。分析盖伊的处境。
假设薇薇卡关心丈夫胜过关心金钱。分析她的处境。
结果
不绑架绑架, 支付赎金, 奥兰多被杀绑架,支付赎金, 奥兰多被释放绑架,不支付赎金, 奥兰多被
盖伊
3 4 5
暴力盖伊
3 5 4
2
2
精品PPT
薇薇卡
五种结果中盖伊和薇薇卡的偏好不同：表
结果
不绑架绑架, 支付赎金, 奥兰多被杀绑架,支付赎金, 奥兰多被释放绑架,不支付赎金, 奥兰多被杀
盖伊
3 4 5
暴力盖伊
3 5 4
2
2
精品PPT
薇薇卡
5 1 3
2
扩展式博弈：完美信息——绑架案
假设盖伊仅仅只是想要得到一笔钱，如果拿不到赎金，出于报复，他会杀害奥兰多。分析盖伊的处境。
击球手
右右左左
投球手
右左右左
击中的平均概率 0.255 0.274 0.291 0.266
O队
JG
JL
Y队 2 O队
RJ
MR 2 Y队
1
3
3
1
精品PPT
扩展式博弈：完美信息—审讯伽利略
天主教主乌尔班八世决定是否把伽利略带到宗教法庭进行审问，如果决定要审问伽利略，那么伽利略决定是否承认，而审讯者需要决定采取什么行动。
们该如何采取行动相关的模型中，总结命题的方法。
精品PPT
博弈论的四个问题
参与人是理性的，存在行为的交互作用。
帮助我们理解人们行为的交互作用，及这种作用对结果的影响。
适用范围
主要作用
反对者声音支持者反驳
（1）人们并不总是理性的。（2）人们不总是利己的。也存在理他行为。
（1）有限理性可以被引入博弈模型中。（2）支付函数并不只是以金钱衡量，包含了人们心理的主观因素。
精品PPT
扩展式博弈：完美信息——买车还价
上述扩展式博弈等同于以下所示的扩展式博弈
马库斯
马库斯
精品PPT
扩展式博弈：完美信息——小练习
思考一个包含两个参与者的博弈。在博弈中，父亲可以选择是、否与可能；女儿随后做出选择，她的选择方案有：待在家里和去超市。他们各自的收益如下表所示。以扩展式写出这个博弈。
乌尔班八世
不提交法庭
乌尔班八世 3 伽利略 5 审讯者 3
提交给法庭
伽利略
认罪
不认罪
5
3 4 用刑
审讯者不用刑
伽利略
2
认罪
不认罪 4
2
4
1
1
2
5
1
精品PPT
扩展式博弈：完美信息——买车还价
Macrus为售车老板， Donna为顾客。
且PH>PM>PL
如Hale Waihona Puke 交易失败，双方收益均为0.如果以价格P 成交，Donna 的收益为PMP，Macrus的收益为2(P-PL)

第二章扩展式博弈

博弈论与信息经济学 第二章 完全信息动态博弈

博弈的扩展式表述

博弈论的extensive form

4.3博弈扩展式向策略式表述的转化

上海财经大学《高级微观经济学I》扩展式博弈

博弈模型扩展式 -回复

扩展式博弈

第二章扩展式博弈

博弈论与信息经济学第二章完全信息动态博弈