2扩展式博弈与标准式博弈

合集下载

博弈类型及其表述形式

1博弈的分类博弈模型一般分为合作博弈( cooperative game )和非合作博弈( non- cooperativegame),如图。

合作博弈是以单个参与者的可能行动集合为基本元素，而非合作博弈是以参与人群的可能联合行动集合为基本元素( Martin and Ariel Rub in stein ，2000, P2),也就是说，在合作博弈中，博弈中所有参与者都独立行动，不存在有约束力的合作、联合或联盟的关系，而在非合作博弈中，在一些参与者之间存在着有约束力的合作、联合或联盟的关系，并因为这种关系影响到博弈的结局。

合作博弈强调的是团体理性( collectiverati on ality )、效率、公正和公平；非合作博弈强调的是个人理性、个人最优决策，其结果可能是有效率的，也可能是低效率或无效率的(张维迎，1996，P5)。

20世纪50年代，合作博弈的研究达到鼎盛期，同时开始出现对非合作博弈的研究，此后，博弈论的研究主流逐步转向在非合作博弈领域。

有些人认为非合作博弈模型比合作博弈更“基本”，但有些人认为两者不相上下(Martin and Ariel Rubinstein ，2000，P2)。

合作博弈，有时也叫做联盟博弈( coalitional game )，一般根据有无转移支付而分为两类：可转移支付联盟博弈( coalitio nal game with tran sferable payoff )和不可转移支付联盟博弈(coalitional game with non-transferable payoff )。

可转移支付也叫有旁支付(side payment )，可转移支付联盟博弈假设博弈中各参与者都用相同的尺度来衡量他们的赢得，且各联盟的赢得可以按任意方式在联盟成员中分摊；否则，就是不可转移支付联盟博弈。

可转移支付合作博弈合作博弈不可转移支付合作博、非合作博弈非合作博弈的分类主要从两个角度进行划分。

博弈论策略的扩展式和战略式表述

博弈论策略的扩展式和战略式表述下载温馨提示:该文档是我店铺精心编制而成，希望大家下载以后，能够帮助大家解决实际的问题。

文档下载后可定制随意修改，请根据实际需要进行相应的调整和使用，谢谢!并且，本店铺为大家提供各种各样类型的实用资料，如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等，如想了解不同资料格式和写法，敬请关注!Download tips: This document is carefully compiled by theeditor.I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!博弈论策略的扩展式与战略式表述：深度解析博弈论，作为经济学、社会学、心理学等领域的核心理论工具，主要研究决策者在相互影响的环境下如何做出选择。

博弈的扩展式表述

即:在扩展式表述中,战略对应于参与人的相机在扩展式表述中, 行动规则:什么情况下选择什么行动,而不是简单的, 行动规则:什么情况下选择什么行动,而不是简单的, 与环境无关的行动选择. 与环境无关的行动选择. 一般,扩展式表述用博弈树表示. (2)一般,扩展式表述用博弈树表示.
03:23:30 经济管理学院曹正勇 1
03:23:30 经济管理学院曹正勇 10
RECALL) 5,完美回忆(PERFECT RECALL) 完美回忆( 指没有参与人会忘记自己以前知道的事情, 事情,所有参与人都知道自己以前的选择. 见下例: 见下例:
03:23:30
经济管理学院曹正勇
11
参与人不具完美回忆的两个例子
03:23:30 经济管理学院曹正勇 12
�
6
03:23:30
经济管理学院曹正勇
7
以下按理对信息集进行直观的解释: 以下按理对信息集进行直观的解释:
03:23:30
经济管理学院曹正勇
8
下例中: 下例中:B有2个信息集 ,每个信息集对应两个决策结
03:23:30
经济管理学院曹正勇
9
4,完全且完美信息博弈单结信息集. 只包含一个决策结的信息集称为单结信息集. 如果博弈树的所有信息集都是单结的, 如果博弈树的所有信息集都是单结的,该博弈称为完美信息博弈. 注意:完美信息博弈意味着博弈中没有任何两注意: 个参与人同时行动,并且所有后行动者能确切确切地知个参与人同时行动,并且所有后行动者能确切地知道前行动者选择了什么行动,所有参与人都观测都观测到道前行动者选择了什么行动,所有参与人都观测到自然的行动. 自然的行动.
完美信息博弈意味着博弈中没有任何两个参与人同时行动并且所有后行动者能确切地知道前行Байду номын сангаас者选择了什么行动所有参与人都观测到自然的行动

博弈论的发展历程

博弈论的发展历程虽然早在18世纪初以前便开始了对具有策略依存特点的决策问题的零星研究，但博弈论真正的发展还是在20世纪。

20世纪初期是博弈论的萌芽阶段，其研究对象主要是从竞赛与游戏中引申出来的严格竞争博弈，即二人零和博弈。

这类博弈中不存在合作或联合行为，对弈两方的利益严格对立，一方所得必意味着存在另一方的等量损失。

这符合下棋等二人室内游戏的情形，但应用在经济与政治上，则大多数情况并不合适。

此时，关于二人零和博弈理论有丰硕的研究成果，尤其是提出了博弈扩展型策略、混合策略等重要概念，为日后研究对象范围的拓展与研究的深化奠定了基础。

这一阶段最重要的成就是泽梅罗定理（1913）与冯·诺伊曼的最小最大定理（1928），后者为二人零和博弈提供了解法，同时对博弈论的发展产生了重大影响，例如非合作几人博弈中的基本概念——纳什均衡就是最小最大定理的延伸与推广。

1944年，美国数学家冯·诺伊曼（Von Neumann）和摩根斯坦（Morgensien）合著的《博弈论与经济行为》一书的出版，标志着系统的博弈理论的初步形成。

该巨著汇集了当时博弈论的研究成果，将其框架首次完整而清晰地表述出来，使其作为一门学科获得了应有的地位。

同时身为经济学家的摩根斯顿首先清楚而全面地确认，经济行为者在决策时应考虑到经济学上的利益冲突性质。

该书详尽地讨论了二人零和博弈，并对合作博弈作了深入探讨，开辟了一些新的研究领域。

更重要的是将博弈论加以空前广泛的应用，尤其是在经济学上，由于博弈论数学上的严整性与经济学应用上的广泛性，一些经济学家将该巨著的出版视为数理经济学确立的里程碑。

接下来的一段时期对合作博弈的研究有了长足进步。

按豪尔绍尼（1966）的观点，如果一博弈中意愿表示——协议、承诺、威胁——具有完全的约束力并可强制执行，则该博弈是合作的。

如意愿表示不可强制执行，则为非合作博弈。

非合作博弈随后发展起来，纳什、泽尔滕和豪尔绍尼因此而获奖，但当时注意力主要集中在合作博弈上。

博弈论的extensive form

博弈论的extensive form博弈论是研究具有相互冲突和合作元素的情境下的决策制定的数学理论。

在博弈论中，一个游戏（博弈）可以被表示为扩展式（extensive form）或标准式（normal form）。

扩展式博弈也被称为树形结构，它详细地描述了游戏的所有可能的决策过程和时间顺序。

在扩展式博弈中，每个玩家根据游戏的历史（从根节点到当前决策点的路径）做出选择。

这种表示方法允许捕捉到玩家之间的行动顺序和信息传递，非常适合描述具有时间序列和信息不完全的动态决策过程。

扩展式博弈的主要组成部分包括：1. 历史（History）：历史是一个有序集合，表示从博弈的开始到当前决策点所采取的行动序列。

在扩展式博弈的树形结构中，历史从根节点开始，每个节点代表一个决策点，节点之间的路径代表了行动的历史。

2. 玩家函数（Player Function）：玩家函数P(h) 定义了在历史h 之后做出决策的玩家。

在扩展式博弈中，玩家函数确保了在每一个决策点，只有一个玩家负责做出选择。

3. 纯策略（Pure Strategy）：纯策略是玩家在每个决策点上可能采取的行动集合。

一个玩家在扩展式博弈中的纯策略可以被表示为一个函数，该函数将历史映射到一个具体的选择上。

4. 博弈长度（Length of the Game）：博弈长度l(G) 是指从根节点到叶节点的最长路径长度，它代表了博弈的持续时间。

扩展式博弈的优点在于它能够精确地描述玩家之间的决策顺序和信息结构，但它也有可能变得非常复杂，尤其是在参与者数量多或者决策序列长的情况下。

尽管如此，扩展式博弈是分析具有时序特征和信息不完全的决策问题的有力工具，特别是在经济学、政治学、心理学和人工智能等领域。

博弈论复习

第2章扩展式博弈与标准式博弈标准式：博弈过程以数字矩阵表示，矩阵两侧为参与者的不同的战略选择扩展式：博弈过程以树形图表示，树形图的每一树枝节代表了一种战略选择不确定事件：可能发生也可能不发生的事件相机战略：仅在不确定事件发生时才会采取的战略。

在扩展式博弈中，只要博弈的一方在不知情的情况下决策，或者同时决策，我们就将其所有的选择都列在从一个节点出发的分支中，以此表示信息的不充分（标准式：博弈过程以数字矩阵表示，矩阵两侧为参与者的不同的战略选择，往往用于表达静态博弈表达动态博弈）第3章占优战略与社会两难占优战略：无论其他参与人选择什么战略，参与人的某一种战略均是最优的。

占优战略均衡：如果博弈中的每位参与者都有占优战略，并且也实施其占优战略，我们就可以获得一个占优战略均衡。

合作解：不管是通过协议还是其他形式的强制手段，只要博弈中的参与者能够保证自己履行协调后的战略，那么他们选择的战略及其收益就被称作合作解非合作解：占优战略均衡是一种非合作解，也就是说每位参与者都独立行动，而不是一起协商其战略。

在非合作解中，每位参与者都会根据对方的战略选择自己的最优战略假定所有人都这样做那么每一位参方的战略选择自己的最优战略，假定所有人都这样做，那么每位参与者所选的战略就都是针对他人最优战略的最优反应。

（参与者在行动选择时无法达成约束性的协议的解集。

）社会两难：社会两难是一种存在占优战略均衡的博弈，并且参与者采用这种均衡的战略收益比采用非均衡战略的收益要差。

（当一个博弈存在占优战略时，人们就会理所当然地选择该战略而不是另一个。

囚徒困境与垃圾处理博弈非常相似这些博弈都属于社会两难理博弈非常相似，这些博弈都属于社会两难。

）第4章纳什均衡纳什均衡：给定你的策略，我的策略是最好的策略；给定我的策略，你的策略也是最好的策略，即双方在给定的战略上不愿意改变自己的策略。

纳什均衡战略：如果有两个战略（或者更一般的，有多个战略，每个战略都对应着一个参与者），并且每个战略都是另一个战略（或者其他参与者的战略）的最优反应，我们就称这一战略组合为纳什均衡战略。

博弈论知识点的总结

博弈论知识总结博弈论概述：1、博弈论概念：博弈论：就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。

博弈论研究的假设：1、决策主体是理性的，最大化自己的收益。

2、完全理性是共同知识3、每个参与人被假定为可以对所处环境以及其他参与者的行为形成正确的信念与预期2、和博弈有关的变量：博弈参与人：博弈中选择行动以最大化自己受益的决策主体。

行动：参与人的决策选择战略：参与人的行动规则，即事件与决策主体行动之间的映射，也是参与人行动的规则。

信息：参与人在博弈中的知识，尤其是其他决策主体的战略、收益、类型（不完全信息）等的信息。

完全信息：每个参与人对其他参与人的支付函数有准确的了解；完美信息：在博弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动，否则为不完美信息。

不完全信息：参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信息，即存在着有关其他参与人的不确定性因素。

支付：决策主体在博弈中的收益。

在博弈中支付是所有决策主题所选择的行动的函数。

从经济学的角度讲，博弈是决策主体之间的相互作用，因此和传统个人决策存在着区别：3、博弈论与传统决策的区别：1、传统微观经济学的个人决策就是在给定市场价格、消费者收入条件下，最大化自己效用，研究工具是无差异曲线。

可表示为：maxU(P,I)，其中P为市场价格，I为消费者可支配收入。

2、其他消费者对个人的综合影响表示为一个参数——市场价格，所以在市场价格既定下，消费者效用只依赖于自己的收入和偏好，不用考虑其他消费者的影响。

但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。

4、博弈的表示形式：战略式博弈和扩展式博弈战略式博弈：是博弈问题的一种规范性描述，有时亦称标准式博弈。

战略式博弈是一种假设每个参与人仅选择一次行动或战略，并且参与人同时进行选择的决策模型，因此，从本质上来讲战略式博弈是一种静态模型，一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。

博弈模型扩展式 -回复

博弈模型扩展式-回复什么是博弈模型扩展式？博弈模型扩展式是指在传统的博弈模型基础上，通过增加相关规则、参与者或策略等因素，对博弈模型进行扩展和延伸的一种理论框架。

扩展式的博弈模型可以更好地描述现实世界中的复杂决策场景，使得博弈论在经济学、管理学、政治学等领域的应用更为广泛。

一、基础的博弈模型在介绍博弈模型扩展式之前，我们先简要回顾一下基础的博弈模型。

基础的博弈模型主要由参与者、策略和收益函数构成。

参与者根据收益函数和其他参与者的策略来选择自己的策略，并且最终根据收益函数来分配收益。

传统的博弈模型包括纳什均衡、博弈矩阵和博弈树等。

但是这些模型在描述现实中一些复杂情况时存在局限性。

二、增加的参与者在博弈模型中，我们可以通过增加参与者的数量来扩展博弈模型。

通常，博弈模型中的参与者被视为独立决策实体，他们根据自己的利益来选择策略。

然而，在现实生活中，存在许多博弈模型中没有考虑到的共同利益或合作关系。

因此，将更多的参与者纳入博弈模型可以更好地反映出现实情况中的决策情景。

例如，在环境保护领域的博弈中，传统模型只考虑了公司在追求利润最大化的同时对环境的影响。

然而，在现实中，政府和非政府组织等参与者对环境保护同样关注。

因此，我们可以通过增加政府和非政府组织等参与者，构建一个多参与者博弈模型，以更好地分析环境保护政策的制定和实施。

三、引入动态策略除了增加参与者，我们还可以通过引入动态策略来扩展博弈模型。

在传统的博弈模型中，参与者只能在某个时刻选择自己的策略，并且这个选择是一次性的，不可更改的。

然而，在现实生活中，很多决策是连续的，参与者可以根据其他参与者的策略变化来调整自己的策略。

例如，在股市投资中，投资者的决策往往是连续的，他们会根据市场走势和其他投资者的行为来调整自己的投资策略。

因此，我们可以通过引入动态策略，构建一个连续时间博弈模型，以更好地分析股市中的投资决策。

四、考虑不完全信息博弈模型扩展式还可以考虑参与者之间的信息不对称问题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2020/6/6
博弈树结构
• 结点（node）：表明由谁行动 • 分枝（branch）：表明参与人可选择的
行动 • 收益（payoff）：在最后的结点上，做为
博弈的结果，每种博弈的路径给参与人带来的收益
2020/6/6
博弈树结构：分钱博弈
结点
分枝
接受
B
给B90
A
拒绝
给B10
接受 B
拒绝
2020/6/6
• 联盟博弈是合作博弈
2020/6/6
练习与思考1：田忌赛马
故事情节博弈描述
参与人战略（用静态博弈方法）结果与收益
2020/6/6
田忌赛马
上中下
田忌
上下中中上下中下上
下上中
下中上
上中下 1，-1
1，-1
1，-1
上下中
1，-1
1，-1
齐中上下王中下上
1，-1 1，-1 1，-1 1，-1
• 联盟：相互协调行动的一组博弈参与人 • 联盟价值：一个联盟的产出（收益）
2020/6/6
2-4 几种著名的博弈例子
囚徒困境
警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：（1）若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。（2）若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。（3）若二人都互相检举（相关术语称互相“背叛”），则二人同样判监8年。
– 在上例中，可将乙放在甲的位置上，则甲的两个结点属于同一信息集
2020/6/6
信息集的特点
• 如果两个结点同属一个信息集，意味着参与人在两个（或两个以上）结点处知道相同的信息，因此，参与人在这两个（或两个以上）结点必然有同样的行动集。
2020/6/6
（2）标准式博弈转换为扩展式博弈
ultimatum bargaining game(分配100元钱)
扩展式博弈中的战略
• 战略是行动计划，具体到扩展式博弈中，这是由每个参与人在它的每个行动结点上对应的行动方案的组合。
• 例如：在最后通牒博弈中，A只有一个行动结点，所以A的战略为{给B90；给 B10}；B有两个行动结点，每个行动结点都是接受或拒绝，于是B的战略为：
2020/6/6
{（给90接受，给10接受），（给90 拒绝，给10接受），（给90接受，给10拒绝），（给90拒绝，给10拒绝）}
A 10 B 90
A0
结
B0
点
A 90 B 10
A0 B0
扩展式博弈的基本思维方式
• 向前展望，向后推理
– 向前展望：如果我给他留90，他会怎么做？ – 向后推理：如果他拒绝（接受），我该给他
留多少？
2020/6/6
2-3 两种形式的转换
• 描述扩展式博弈的博弈树与描述标准式博弈的支付矩阵可以相互转换。
猜硬币游戏/包袱剪子锤最后通牒博弈
2020/6/6
小结
• 博弈有两种形式：标准式（也称战略式）和扩展式
– 标准式博弈描述的是同时行动（静态） – 扩展式博弈描述的是序贯行动（动态）
• 标准式和扩展式可以相互转化
– 动态博弈中将行动描述为相机战略，也可以用标准式表示
– 标准式博弈使用信息集也可以用扩展式来表达
下上中
1，-1
1，-1
2020/6/6
下中上 1，-1
-1，1
1，-1
强齐王中
弱
2020/6/6
博弈描述的复杂性
——再谈田忌赛马
强
中
田中
田忌弱
忌弱
强
中
强
齐王
弱
田忌弱强
田忌
田忌
中弱
强中
齐王强弱
齐王强
弱
田忌弱
田忌强
弱
田忌
强中
田忌强
中
弱
2020/6/6
2-0 如何描述博弈
• 要分析博弈问题，首先要找到便于进行博弈分析的表达方式
• 标准式和扩展式是描述博弈的两种方式：
– 支付矩阵（Payoff Matrix）（主要用于二人博弈）
– 博弈树（game tree）
2020/6/6
2-1 标准式博弈（ normal form game
如果1-9分，接受如果9-1分，拒绝；
如果1-9分，拒绝
A
无论B是否接受，无论B是否接受，
给B90（ 9-1分给B10（ 1-9分
）
）
10
90
90
10
10
0
90
0
0
90
0
10
0
0
0
0
2020/6/6
2-4 联盟博弈
– 吴、蜀之间存在利益冲突，并多次兵戎相见，但两国为什么在赤壁之战中能结为联盟？
同时行动博弈的基本思维方式
• 我认为他认为我认为…………
– 诸葛亮：认为曹操见到小路上的烟火会认为是自己实行的“实则虚之”的战略，故在小路放火、小路伏兵
– 曹操：认为小路烟火是诸葛亮“实则虚之” 的战略，故走小路
• 却不知道：诸葛亮知道自己知道“实则虚之”的用兵之道
2020/6/6
2-2 扩展式博弈
– 计划里“如果”这一假设条件成为现实时，该相机战略才会被执行
• 如果将战略视为相机战略, 则所有的博弈都可以用标准式博弈(2×2博弈)的支付矩阵表示
2020/6/6
分钱博弈中A、B的相机战略
• A：{无论B接受还是拒绝，给10；无论B接受还是拒绝，给90}
• B: { 若给10接受, 若给90接受；战略1 若给10接受, 若给90拒绝；战略
） • 标准式博弈的描述工具是支付矩阵（
payoff matrix）
– 参与人多于两个时，这种描述便产生困难（见下图）
2020/6/6
支付矩阵的一个简单例子
硬币游戏（零和博弈的一个例子）
Payoff Matrix
乙
正面朝上
反面朝上
正面
1
-1
甲朝上 -1
1
反面
-1
1
朝上 1
-1
2020/6/6
每参与人存在有限个更多的战略
性别战懦夫博弈（斗鸡博弈）
– 鹰鸽博弈
智猪博弈
假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会首先付出2个单位的成本，若大猪先到槽边，大小猪吃到食物的收益比是9∶1；同时到槽边，收益比是7∶3；小猪先到槽边，收益比是 6∶4。那么，在两头猪都有智慧的前提下，最终结果是小猪选择等待。
• 扩展式博弈（extensive form game）： • 描述工具是博弈树
2020/6/6
Game tree: ultimatum bargaining game(分配100元钱)
接受
B
A 10 B 90
给B90
A
A0
拒绝
B0
给B10
2020/6/6
接受 B
拒绝
A 90 B 10
A0 B0
2020/6/6
（1）标准式博弈转换为扩展式博弈硬币游戏（零和博弈6/6
正面朝上
乙
反面朝上正面朝上
乙反面朝上
甲1 乙 -1
甲 -1 乙1 甲 -1 乙1
甲1 乙 -1
• 信息集：当参与人轮到自己行动时所了解的信息
• 在同时行动的博弈中，即使用扩展式博弈来描述，甲、乙的行动也是不分先后的
乙 B1 B2 B3 … A1 甲 A2 A3 …
2020/6/6
思考：若每人有无限个战略如何描述？
• 例如：在“西班牙叛乱”例子中，叛军可以往任何一个方向出击。
• 尽管此例中以这样的战略描述叛军有点可笑，但如果将叛军的处境想像为四面受敌而准备突围，这样的战略描述就是贴近现实的。
2020/6/6
2
若给10拒绝, 若给90接受；战略
3
若给10拒绝, 若给90拒绝} 战略4
2020/6/6
扩展式博弈与标准式博弈在描述的相互转换（2 ）
ultimatum bargaining game(分配100元钱)
如果9-1分，接受；
如果1-9分，接受如果9-1分，接受；
B
如果1-9分，拒绝如果9-1分，拒绝；
Payoff Matrix
给B90
A 给B10
10
90
接受 90
10
B
0
0
拒绝 0
0
2020/6/6
相机战略
• 这种表达意味着A、B同时行动 • 正确的表达应该使用每个人的战略（而
不是行动） • 这里的战略是相机战略
– 相机战略: 仅在不确定性事件发生时才会采取的战略
2020/6/6
• 只有对方实施了某种战略时，相机战略才会生效