第五章 有限理性和进化博弈
有限理性条件下的进化博弈理论

有限理性条件下的进化博弈理论进化博弈理论在解释生物和人类行为的演化方面具有重要作用。
传统进化博弈理论假设行为者完全理性,然而在现实生活中,由于信息不完全、认知限制和情感等因素的影响,行为者的决策往往受到有限理性的约束。
近年来,有限理性条件下的进化博弈理论受到广泛,为理解有限理性对行为和策略选择的影响提供了有益框架。
本文将回顾有限理性条件下的进化博弈理论的相关研究,总结其研究进展,并提出未来研究方向。
有限理性条件下的进化博弈理论主要有限理性个体在博弈中的行为和策略选择。
现有研究主要集中在以下几个方面:有限理性个体的行为模拟、有限理性条件下的演化稳定策略、以及有限理性对博弈结果的影响等。
尽管这些研究取得了显著成果,但仍存在一些不足之处,如对有限理性的刻画不够准确、缺乏对动态演化过程的考虑等。
本研究采用文献综述和理论分析的方法,对有限理性条件下的进化博弈理论进行综合评价和分析。
还将结合实验经济学的方法,通过设计有限理性条件下的人类博弈实验,深入探讨有限理性对行为和策略选择的影响。
通过对有限理性条件下的进化博弈理论的文献进行综述,发现有限理性个体的行为和策略选择受到多种因素的影响,如个体的学习能力和记忆力、群体规模和结构、以及博弈环境和规则等。
其中,个体的学习能力和记忆力会影响其策略调整的速度和方向,群体规模和结构会对演化稳定策略产生影响,而博弈环境和规则则会决定策略的相对优势和演化稳定性。
本研究发现,有限理性条件下的进化博弈理论为理解有限理性对行为和策略选择的影响提供了有益框架。
未来研究可以进一步探讨以下几个方面:如何更准确地刻画有限理性个体的行为和策略选择,例如考虑个体的不完全理性、偏好和情绪等因素;如何将动态演化过程纳入理论模型,以更好地模拟真实世界的演化过程;如何将有限理性条件下的进化博弈理论应用于更广泛的研究领域,例如社会心理学、经济学和生态学等。
本文对有限理性条件下的进化博弈理论进行了系统性的回顾和分析,发现该理论在解释有限理性对行为和策略选择的影响方面具有重要价值。
博弈论判断题

博弈论判断题第一章导论(1)单人博弈就是个人最优化决策,与典型的博弈问题有本质区别。
(2)博弈方的策略空问必须是数量空间,博弈的结果必须是数量或者能够数量化。
(3)囚徒的困境博弈中两个因徒之所以会处于困境,无法得到较理想的结果,是因为两囚徒都不在乎坐牢时间长短本身,只在乎不能比对方坐牢的时间更长。
(4)因为零和博弈中博奔方之间的关系都是竞争性的、对立的,因此零和博弈就是非合作博弈。
(5)凡是博弈方的选择、行为有先后次序的一定是动态博弈。
(6)多人博弈中的“破坏者”会对所有博弈方的利益产生不利影响。
(7)合作博弈就是博弈方采取相互合作态度的博弈。
参考答案:(1)正确。
因为单人博弈只有一个博弈方,因此不可能存在博弈方之间行为和利益的交互作用和制约.因此实际上就是个人最优化决策,与存在博弈方之间行为和利益交互作用和制约的典型博弈问题有本质的区别。
(2)前半句错误,后半句正确。
博弈方的策略空间不一定是数量空间,因为博弈方的策略除了可以是数量水平(如产量、价格等)以外,也可以是各种定性的行为取舍和方向选择,甚至也可能是各种函数或者其他更复杂的内容。
但一个博弈的结果必须是数量或者可以数量化,因为博弈分析只能以数量关系的比较为基础。
(3)错误。
结论恰恰相反,也就是囚徒的困境博弈中两囚徒之所以处于困境,根源正是因为两囚徒很在乎坐牢的绝对时间长短。
此外,我们一开始就假设两囚徒都是理性经济人,而理性经济人都是以自身的(绝对)利益,而不是相对利益为决策目标的。
(4)错误。
虽然零和博弈中博弈方的利益确实是对立的.但非合作博弈的含义并不是博弈力之间的关系是竞争性的、对立的,而是指博弈方是以个体理性、个体利益最大化为行为的逻辑和依据,是指博弈中不能包含有约束力的协议。
(5)错误。
其实并不是所有选择、行为有先后次序的博弈问题都是动态博弈。
例如两个厂商先后确定自己的产量,但只要后确定产量的厂商在定产之前不知道另一厂商定的产量是多少,就是静态博弈问题而非动态博弈问题。
《经济博弈论》期末考试复习资料

《经济博弈论》期末考试复习资料第一章导论1.博弈的概念:博弈即一些个人、队组或其他组织,面对一定的环境条件,在一定的规则下,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,并从中各自取得相应结果的过程。
它包括四个要素:参与者,策略,次序和得益。
2.一个博弈的构成要素:博弈模型有下列要素:(1)博弈方。
即博弈中决策并承但结果的参与者.包括个人或组织等:(2)策略。
即博弈方决策、选择的内容,包括行为取舍、经济活动水平或多种行为的特定组合等。
各博弈方的策略选择范围称策略空间。
每个博弈方各选一个策略构成一个策略组合。
(3)进行博弈的次序:次序不同一般就是不同的博弈,即使博弈的其他方面都相同。
(4)得益。
各策略组合对应的各博弈方获得的数值结果,可以是经济利益,也可以是非经济利益折算的效用等。
3.合作博弈和非合作博弈的区别:合作博弈:允许存在有约束力协议的博弈;非合作博弈:不允许存在有约束力协议的博弈。
主要区别:人们的行为互相作用时,当事人能否达成一个具有约束力的协议。
假设博弈方是两个寡头企业,如果他们之间达成一个协议,联合最大化垄断利润,并且各自按这个协议生产,就是合作博弈。
如果达不成协议,或不遵守协议,每个企业都只选择自己的最优产品(价格),则是非合作博弈。
合作博弈:团体理性(效率高,公正,公平)非合作博弈:个人理性,个人最优决策(可能有效率,可能无效率)4.完全理性和有限理性:完全理性:有完美的分析判断能力和不会犯选择行为的错误。
有限理性:博弈方的判断选择能力有缺陷。
区分两者的重要性在于如果决策者是有限理性的,那么他们的策略行为和博弈结果通常与在博弈方有完全理想假设的基础上的预测有很大差距,以完全理性为基础的博弈分析可能会失效。
所以不能简单地假设各博弈方都完全理性。
5.个体理性和集体理性:个体理性:以个体利益最大为目标;集体理性:追求集体利益最大化。
第一章课后题:2、4、52.设定一个博弈模型必须确定哪几个方面?设定一个博弈必须确定的方面包括:(1)博弈方,即博弈中进行决策并承担结果的参与者;(2)策略(空间),即博弈方选择的内容,可以是方向、取舍选择,也可以是连续的数量水平等;(3)得益或得益函数,即博弈方行为、策略选择的相应后果、结果,必须是数量或者能够折算成数量;(4)博弈次序,即博弈方行为、选择的先后次序或者重复次数等;(5)信息结构,即博弈方相互对其他博弈方行为或最终利益的了解程度;(6)行为逻辑和理性程度,即博弈方是依据个体理性还是集体理性行为,以及理性的程度等。
第五章有限理性和进化博弈ppt课件

在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
演化博弈的关注内容
❖ 演化博弈强调经济变迁过程中以个体多样 性变异机制和偏好选择机制为代表的种群 研究。
❖ 它探讨种群选择的策略是否获得最佳的收 益,并消除任何小的突变群体的扰动。
5.3 复制动态和进化稳定性: 两人对称博弈
5.3.1 签协议博弈的复制动态和进化稳定策略 5.3.2一般两人对称博弈复制动态和进化稳定
策略 5.3.3 协调博弈的复制动态和进化稳定博弈
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
❖ 在演化博弈中,认为参与人的选择行为可以 依据前人的经验、学习与模仿他人行为、受 遗传因素的决定等。
❖ 因而演化博弈把具有主观选择行为的参与人 扩展为包括动物、植物在内的有机体,动植 物参与者的支付可被理解为为某种适应程度。
经济学与生物学
经济学 企业 最优化 策略 利润 扩张 倒闭 创新
生物学 物种(或个体)
适应 基因 适应性(fitness) 繁殖 灭绝 变异
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
自然界中的博弈
❖ 吸血蝙蝠夜间去大型哺乳动物那里吸血,有些个 体偶尔会空腹而归,此时吸饱血的个体就会吐出 胃内的血液喂给饥饿的个体,尽管它们之间并没 有直接血缘关系。
博弈13:演化博弈

博弈方的学习速度很慢,理性层次较低,
而且成员组数目众多,博弈是动态、多次的。
5.3 复制动态和演化稳定性:两人对称博弈
演化博弈的动态模型:
演化博弈基本的选择动态(selection dynamics)表述为:
(t ) (t ) g ( ) i i i
其中θi(t)表示在t时刻选择策略i的个体在群体中所占比例;函数 gi(θ )表示某种具体选择过程,不同学习机制对应不同函数。
1973年,他和乔治·普瑞
斯一起在著名的《自然》 杂志上发表题为《动物冲 突的逻辑》一文。 与博弈论》,被公认为演 化博弈论之父。
1982年出版了著作《演化
•2003年出版了他最后一本著作 ——《动物信号发射》 (与大卫哈珀尔合著),为其学术生涯画上了一个圆 满的句号。
•2004年4月19日,梅纳德· 史密斯在他的书桌前 溘然长逝。
选择动态的基本特征:当初始状态下没有人采取某一纯策略i时 ,则永远不会被采用;参与者只能模仿那些已经存在的策略,即没 有反映出突变机制。
i (t ) 0 i (t ) 0
博弈方策略类型比例动态变化是演化博弈分析的 核心,其关键是动态变化的速度(方向可以用速度的 正负号来反映)。动态变化的速度取决于博弈方学习 模仿的速度。一般情况下,学习速度取决于两个因素 :一是模仿对象的数量大小(可以用相应类型博弈方 的比例表示),这关系到观察和模仿的难易程度;二 是模仿对象的程度(可以用模仿对象策略得益超过平 均得益的大小来表示),这关系到判断差异难易程度 和对模仿激励的大小。
5.2最优反应动态
假定博弈方具有相当快的学习能力,虽然在复杂局面下准 确判断分析和运用预见性的能力稍差,但它们能对不同策 略的结果作出比较正确的事后评估,并相应调整策略。 因此给定前期的经验(博弈结果),各个博弈方在本期才 能找到和采用针对前斯其他博弈方策略的最佳反应策略。 最适合描述这种理性层次博弈方的策略调整的动态机制, 这就是所谓的“最优反应动态”。
有限理性条件下的进化博弈理论

有限理性条件下的进化博弈理论一、本文概述在探讨进化博弈理论的过程中,理性假设一直占据着核心地位。
然而,现实生活中的决策过程往往受到各种限制,使得决策者难以达到完全理性。
因此,本文旨在探讨有限理性条件下的进化博弈理论,分析有限理性对博弈结果的影响,并揭示进化博弈理论在有限理性条件下的新特点和新规律。
本文首先将对有限理性进行界定,明确其内涵和特征。
在此基础上,本文将介绍进化博弈理论的基本框架和核心思想,为后续分析提供理论基础。
接着,本文将通过数学模型和案例分析,深入探究有限理性条件下进化博弈的动态演化过程,揭示有限理性对博弈策略选择、均衡状态以及博弈结果的影响。
本文还将探讨有限理性条件下进化博弈理论的实践应用。
通过分析现实生活中的经济、社会等问题,本文将展示进化博弈理论在有限理性条件下的解释力和预测力,为解决实际问题提供新的视角和方法。
本文将对有限理性条件下的进化博弈理论进行总结和展望,指出当前研究的不足和未来研究的方向,为相关领域的研究提供参考和借鉴。
二、有限理性条件下的博弈行为分析在经典博弈理论中,参与者通常被假设为完全理性的,能够完全预测和应对所有可能的情况。
然而,在现实世界中,这种完全理性状态是难以达到的。
有限理性条件下的博弈行为分析,旨在探讨在参与者决策能力受限的情况下,博弈过程和结果的变化。
有限理性意味着参与者在决策时可能无法获取全部信息,或者即使获取了全部信息,也可能由于处理信息的能力限制而无法做出最优决策。
这种局限性可能导致参与者采取简单的规则或启发式方法来指导他们的决策,而不是进行复杂的计算和推理。
在有限理性的条件下,博弈的动态性和复杂性可能会增加。
参与者可能需要在不完全了解对手策略的情况下做出反应,或者需要在不确定的环境中不断调整自己的策略。
有限理性还可能导致参与者出现认知偏差和错误,从而影响博弈的结果。
为了分析有限理性条件下的博弈行为,研究者通常采用一些数学模型和方法,如进化博弈论、适应性博弈论等。
演化博弈

Taylor和Jonker提出了演化博弈理论的基本动态概念——复制动态
• 经济学家把演化博弈理论引入到经济学领域,用于分析社会制度变迁、产业演化以及股票 市场等,同时对演化博弈理论的研究也开始由对称博弈向非对称博弈深入,并取得了一定
1980s
的成果
演化博弈的产生与发展
• 演化博弈理论的发展进入了一个新的阶段。Weibull(1995)比较系统、完整地总结了演 1990s 化博弈理论,其中包含了一些最新的理论研究成果。
则竞争者群体的复制动态方程F1(x):
dx/dt dx/dt 1 x y=1/2 y>1/2 1 dx/dt
x 1 x
y<1/2
复制动态中的非对称博弈
对于博弈方2: 博弈方2 打击 博 弈 方 1 容忍
进入
不进
0, 0
1, 5
2, 2
1, 5
则在位者群体的复制动态方程F2(y):dy/dt 1 x演化博弈的基本分析过程
一般的演化博弈模型的建立主要基于两个方面:选择(Selection)和突变 (Mutation)。 选择是指能够获得较高支付的策略在以后将被更多的参与者采用;突变 是指部分个体以随机的方式选择不同于群体的策略(可能是能够获得高支付的 策略,也可能是获得较低支付的策略)。 突变其实也是一种选择,但只有好的策略才能生存下来。突变是一种不 断试错的过程,也是一种学习与模仿的过程,这个过程是适应性且是不断改进 的。
目录页
PART TWO
最优反应动态
协调博弈的有限博弈方快速学习模型
模型: 博 弈 A 方 B 1 博弈方2 A B 50,50 49,0 0,49 60,60 协调博弈
1 5 4 3 2
5个博弈方,相邻者彼此博弈,初始策略组合为32种。
演化博弈论__谢识予答案

dy/dt dy/dt
x=0
1
x
x=0
1
x
两群体复制动态的关系和稳定性
y 1
1/2
0
1
x
5.4.2 非对称鹰鸽博弈的进化分析
博弈方2
鹰
鸽
鹰博 鸽弈 方 1
非对称鹰鸽博弈博弈方1群体复制动态相位图
dx/dt dx/dt
dx/dt
1
x
y>5/6
y=5/6
x 1
y<5/6
1x
非对称鹰鸽博弈博弈方2群体复制动态相位图
第五章 有限理性和进化博弈
本章介绍有限理性基础上的进化博弈分析。 完全理性在现实中很难满足,当社会经济环境 和决策问题较复杂时,人们必须存在很大的理 性局限。有限理性对人们的决策、行为选择方 式有很大影响,有限理性基础上的博弈分析与 完全理性博弈分析也有很大区别。进化博弈分 析是有限理性博弈分析的基本框架。本章介绍 以最优反应动态和复制动态为核心,以进化稳 定策略为基本均衡概念的进化博弈分析,包括 基本方法、概念和各种经典模型等。
x——鸣叫雄蛙比例 复制动态方程
可能的不动点: x*=0 x*=1 x*=(m-z)/(1-p)
蛙鸣博弈复制动态相位图
dx/dt
dx/dt
1
x
dx/dt
(m-z)/(1-P)<0
(m-z)/(1-P)
1x
0<(m-z)/(1-P)<1
(m-z)/(1-P)>1
1x
5.4 复制动态和进化稳定性: 两人非对称博弈
A
B
A
B
BA
AB
B
B
B
B
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最优反应动态模拟:初次博弈1个A
A
B
A
B
BA
AB
B
B
B
B
B
A
A
A
B
A
A
A
A
A
A
A
A
初次博弈相邻2个A
B
A
A
B
AB
AA
A
B
A
A
A
A
A
初次博弈相连3个A
A
B
A
B
A
A
A
A
A
A
5.2.2 古诺调整过程
古诺模型反应函数
q1
3
q2 2
最优反应动态模拟
q2
3
q1 2
1 博弈方1 2.5 博弈方2 3
2 1.5 1.75
❖ 它探讨种群选择的策略是否获得最佳的收 益,并消除任何小的突变群体的扰动。
一个例子:对称博弈演化博弈
❖ 首先假定群体中的参与人都是完全相同的 (对称博弈) 。
❖ 其次,假定每个参与人只能机械地选择某种 策略(而无法改变自己的策略)。如果某种 策略获得了成功,采用这种策略的参与人将 越来越多,反之如果某种策略不成功,采用 这种策略的参与人就越来越少。
问题2:此博弈是否存在演化稳定策略
AB
A 0,0 2,1
B 1,2 0,0
混合策略下演化稳定策略的定义
在二人对称博弈中,混合策略P*是演化稳定策略,如果 以下两式成立:
1U P*, P* U P ', P* 2若U P*, P* =U P ', P*,则U P*, P ' U P ', P '
❖ 这个领域的开创性工作是由英国生物学家约翰·梅 纳德·史密斯(John Maynard Smith)和G.R. 普莱斯(G.R.Price)1973年进行的。
❖ 演化博弈现在正逐渐被广泛应用于社会经济学领域。
演化博弈的关注内容
❖ 演化博弈强调经济变迁过程中以个体多样 性变异机制和偏好选择机制为代表的种群 研究。
❖ 二是人对环境的计算能力和认识能力是有限 的,人不可能无所不知;
❖ 20世纪40年代,西蒙详尽而深刻地指出了 新古典经济学理论的不现实之处,分析了它 的两个致命弱点:
❖ (1)假定目前状况与未来变化具有必然的一致 性;
❖ (2)假定全部可供选择的“备选方案”和“策 略”的可能结果都是已知的。
❖ 而事实上这些都是不可能的。
适应 基因 适应性(fitness) 繁殖 灭绝 变异
自然界中的博弈
❖ 吸血蝙蝠夜间去大型哺乳动物那里吸血,有些个 体偶尔会空腹而归,此时吸饱血的个体就会吐出 胃内的血液喂给饥饿的个体,尽管它们之间并没 有直接血缘关系。
❖ 吸血蝙蝠更有可能回吐血液给以前曾经回吐过血 液的蝙蝠,而骗子(拒绝分享的蝙蝠)将被蝙蝠 群体记住,并且被排除在这种协作之外。
❖ 在演化博弈中,认为参与人的选择行为可以 依据前人的经验、学习与模仿他人行为、受 遗传因素的决定等。
❖ 因而演化博弈把具有主观选择行为的参与人 扩展为包括动物、植物在内的有机体,动植 物参与者的支付可被理解为为某种适应程度。
❖ 把博弈论的分析与应用从研究人类的竞争行为扩展 为研究有机体的策略互动关系。
❖ 西蒙的分析结论使整个新古典经济学理论和 管理学理论失去了存在的基础。
❖ 西蒙指出传统经济理论假定了一种“经济 人”。
❖ 他们具有一个很有条理的、稳定的偏好体 系,并拥有很强的计算能力,靠此能计算 出在他们的备选行动方案中,哪个可以达 到尺寸上的最高点。
❖ 西蒙认为人们在决定过程中寻找的并非是 “最大”或“最优”的标准,而只是“满 意”的标准。
❖ 进化稳定策略(ESS)
5.2 最优反应动态
5.2.1 协调博弈的有限博弈方 快速学习模型
5.2.2 古诺调整过程
5.2.1 协调博弈的有限博弈方快速学习模型
模型:
1 博弈方2
A
B
2
A
50,50 49,0
5
B
0,49 60,60
4
3
协调博弈
反应、策略调整规则推导
xi (t) t时刻博弈方i的邻居中采用A策略的数量, xi (t) 0,1,2 2 xi (t) t时刻博弈方i的邻居中采用B策略的数量, 采用A的得益:xi (t) 50 [2 xi (t)] 49 采用B的得益:xi (t) 0 [2 xi (t)] 60 当xi (t) 22 / 61时,博弈方i在t 1时刻采用A; 当xi (t) 22 / 61时,博弈方i在t 1时刻采用B
❖ 假定在每个时期dt,每个个体i都以α dt的概率发现某个随 机个体j的收益,如果i发现j的收益比自己高,就以pijt的概 率转变为j的策略。
pitj
(
t j
0
t i
)
当
t j
t i
当
t j
t i
此时在t+dt期使用si策略的局中人所占比例的期望 值Epit+dt为:
n
i
Epitdt pit dtpit
经济学与生物学
❖ 经济学和生物学的历史从来就交织在一起。
❖ 二者研究的都是个体在给定环境下的最优策 略。它们包含的内在逻辑相当一致:所有生 命体的行为看上去总好像设法使其基因的遗 传频率最大化,正如企业最大化其利润一样。
经济学与生物学
经济学 企业 最优化 策略 利润 扩张 倒闭 创新
生物学 物种(或个体)
(2)(2/3,1/3)是否是一个严格纳什均衡? (3)(2/3,1/3)是否是ESS?
鹰鸽博弈
H
D
H
(v-c)/2,(v-c)/2
v,0
D
0,v
v/2,v/2
博弈的演化稳定策略是什么?
当v>c时,(H,H)是严格纳什均衡,因此H是演化稳定策 略。
当v=c时,(H,H)是弱纳什均衡,因为U(H,D)>U(D,D), 因此H是演化稳定策略 当v<c时,不存在纯策略演化稳定策略。 此时是否存在混合策略ESS? 首先找出混合策略纳什均衡(v/c,1-v/c), 其次验证其是否为ESS。
3
4………
2.125 1.875
2.25 1.9375
收敛条件
| dr1 || dr2 | 1 dq2 dq1
问题:两寡头始终假设对方产量不变
5.3 复制动态和进化稳定性: 两人对称博弈
5.3.1 签协议博弈的复制动态和进化稳定策略 5.3.2一般两人对称博弈复制动态和进化稳定
策略 5.3.3 协调博弈的复制动态和进化稳定博弈
un x 0 (1 x) 0 0 u x u y (1 x) un x2
❖ 博弈方策略类型比例动态变化是有限理性博 弈分析的核心,其关键是动态变化的速度
❖ 以采用“同意”策略类型博弈方的比例为例, 其动态变化速度可用下列微分方程反映(复 制动态方程)
dx dt
x(u y
u)
本章分四节
5.1有限理性博弈及其分析框架 5.2最优反应动态 5.3复制动态和进化稳定性:
两人对称博弈 5.4复制动态和进化稳定性:
两人非对称博弈
5.1 有限理性博弈及其分析框架
5.1.1 有限理性及其对博弈的影响 5.1.2 有限理性博弈分析框架
5.1.1 有限理性及其对博弈的影响
❖ 有限理性意味着一般至少有部分博弈方不会采 用完全理性博弈的均衡策略
❖ 有限理性意味着均衡是不断调整和改进而不是 一次性选择的结果,而且即使到达了均衡也可 能再次偏离
❖ 有限理性博弈方会在博弈过程中学习博弈通过 试错寻找较好的策略
5.1.2 有限理性博弈分析框架
❖ 最优反应动态:有快速学习能力的小群体 成员的反复博弈
❖ 复制动态:学习速度很慢的成员组成的大 群体随机配对的反复博弈
演化稳定策略是
C
D
什么呢?
C 2,2 0,3
D 3,0 1,1
假定一个群体由背叛者构成,由于基因变异出现 了比例为ε的合作者。 此时背叛者的收益为:(1-ε)*1+ε*3=1+2ε
合作者的收益为:(1-ε)*0+ε*2=2ε 由于合作者的收益低于背叛者的收益,合作者会 逐渐消亡,因此背叛是一个演化稳定策略。
找出以下博弈的混合策略ESS
AB
A 0,0 2,1
B 1,2 0,0
(1)找出博弈的混合策略纳什均衡。 由于博弈的对称性,双方的混合策略纳什均衡必然是相同
的,设为(p,1-p) 给定局中人1的策略(p,1-p) 局中人2选择A的收益:p*0+(1-p)*2=2-2p 局中人2选择B的收益:p*1+(1-p)*0=p 根据2-p=p,解出p=2/3
pit
(
t i
t )
这个式子称为复制者动态(replicator dynamic)方程
5.3.1 签协议博弈的复制动态和进化稳定策略
签协议博弈:
假设群体中采用“同意” 比例x(t)
同意 不同意
博弈方2 同意 不同意
1,1 0,0 0,0 0,0
则不同策略期望得益和 平均得益为:
uy x 1 (1 x) 0 x
p
t j
(
t j
t i
)
dtpit
ptj
(
t i
t j
)
j i 1
j 1
n
pit dtpit
p
t j
(
t i
t j
)
j 1
pit
Hale Waihona Puke dtpit(t i
t)
其中 t
1t p1t