7-演化博弈详解

合集下载

演化博弈论PPT课件

演化博弈论PPT课件
纳什均衡指的是这样一种战略组合,这种策略组合由所有参与 人最优策略组成。即在给定别人策略的情况下,没有人有足够 理由打破这种均衡。
纳什均衡可以通过划线法得出
13
纳什均衡和演化稳定(1)
a
X b
a 0,0
Y b
1,1
1,1
0,0
策略b是否是演化稳定的? 有一个规模为E的策略a入侵
策略b的平均适应度: (1 E)*0 E *1 E 策略a的平均适应度: (1 E)*1 E*0 1 E
Y/q(1p)2p0
p1/3
18
N-群体的演化稳定策略
定义1:策略组合 x{x1,x2,..x.n,}是纳什均衡, 如果x是演化稳定策略,如果对于任意的策 略组合 yx 存在某个 (0,1) 使得对于所有的
(0,
)
和y(1)x,有
ui(xi, i) ui(yi, i)
i I
i I
定义2:策略组合x是演化稳定策略,当且 仅当x是一个严格的纳什均衡。
:是一个与突变策略y有关的常数,称之为侵入界限; εy + (1 − ε)x:表示选择进化稳定策略群体与选择突变策略群
体所组成的混合群体。
16
演化稳定策略的定义(2)
Definition 2: 对任意的s'∈S×S,满足
(i) f(s,s)≥f(s',s); (ii)如果f(s,s)=f(s',s),那么对任意的s≠s'有 f(s,s)>f(s',s'); 则s是演化稳定策略
➢ 自演化博弈论诞生之日起,它就逐渐的被人们用 来分析生物、经济等领域的问题。
1. Selten Reinhard.A Note on Evolutionary Stable Strategies in Asymmetric Animal Conflicts [J]. Journal of Theoretical Biology, 1980,(84).

演示文稿第八章演化博弈理论及其应用

演示文稿第八章演化博弈理论及其应用
第七章 演化博弈理论及其应用
本节课程内容概述:
第一节 传统博弈理性假设的局限 第二节 演化博弈理论的兴起
第三节 演化博弈理论的有限理性假设和基本分析过程 第四节 演化博弈理论的不同动态模仿模型
第五节 演化博弈理论的均衡分析方法 第六节 演化博弈理论的最新进展和局限性
——这是人类思想史上最气势磅礴的名言之一,它刻在康德的墓碑上,出自康 德的《实践理性批判》最后一章。
2
第2页,共70页。
恒星的演化
新恒星的诞生
主序星(太阳)
红巨星
一颗恒星从诞生到死亡,要经过几百万年甚至上百亿年的时间。
恒星是太空星云在引力作用下坍缩而成,坍缩使内部变热,温度升高直到发生核聚变反 应,释放热能并产生向外的压力以支持恒星对抗进一步坍缩。一颗恒星一旦开始燃烧核
19
第19页,共70页。
[资料夹] 社会学家格拉诺威特(Mark Granovetter)
中国象棋大师许银川 PK
浪潮天梭服务器
16
2006年08月15日,浪潮杯”中国象棋人机大战再次展开,两场对决中,均战成平局。
第16页,共70页。
第七章 演化博弈理论及其应用
第一节 传统博弈理性假设的局限性
作为一种数学分析方法,传统博弈对参与者的“理性”要求非常苛刻: 目标理性(主观理性):参与者追求自身利益的最大化(经济学理性的内涵)
70年代他与彭罗斯一起证明了著名的奇性定理,为此他们共同获得了
1988年的沃尔夫物理奖。
9
第9页,共70页。
[资料夹]生命的演化 ——达尔文进化论
伟大的生物学家、进化论的创 立者查理·达尔文,生于1809年, 英国人。达尔文在剑桥大学获得学 位后年仅22岁便乘“贝格尔”号随 船考察。1859年,达尔文出版10《物 种起源》 。

第三章-第五节-演化博弈模型

第三章-第五节-演化博弈模型

A
20
进入 A
不进
B 打击
0 ,0
1 ,5
不打击
2 ,2 1 ,5
A:“进入”的群体比例为x “不进”的群体比例为1-x
B:“打击”的群体比例为y “不打击”的群体比例为1-y
在位者群体的复制动态方程: F B y d d y t y U B s U B y 1 y 2 x
在位者的群体复制动态相位图为:
A
18
进入 A
不进
B 打击
0 ,0
1 ,5
不打击
2 ,2 1 ,5
A:“进入”的群体比例为x “不进”的群体比例为1-x
B:“打击”的群体比例为y “不打击”的群体比例为1-y
竞争者群体的复制动态方程: F A x d d x t x U A e U A x 1 x 1 2 y
竞争者的群体复制动态相位图为:
m-z ,1-m
1-m,m-z
0 ,0
➢ m、P为求偶成功的概率 ➢ z为机会成本(体力消耗、危险性等)
满足:m ∈ (0.5,1],m<P≤1
令x为采用“鸣”策略的群体比例,1-x为采用“不鸣”策略的群体 比例 则复制动态方程F(x):
F xd d x tx1 x m z 1 P x
稳定状态:x*=0,x*=1,x*=(m-z)/(1-P)
则: dx x2 x3
dx dt
xUY
U
dt
当x=0时,稳定;
复制动态A方程
当x>0时,最终稳定于x*6=1
dx/dt
dx x2 x3
dt
甲Y
N

Y
N
1,1
0 ,0
0, 0

演化博弈论__谢识予__ppt

演化博弈论__谢识予__ppt

一般2*2对称博弈
dx/dt
复制动态进化博弈的结果 常常取决与带有很大偶然 性的初始状态。
1 x
11/16
5.3.4 鹰鸽博弈的复制动态 和进化稳定策略
博弈方2 鹰
vc 2
鸽 v, 0
v 2
鹰 鸽
, vc
2
0, v
,
v 2
鹰鸽博弈
复制动态方程和相位图
dx x(v c) (1 x)v F ( x) x(1 x)[ ] dt 2 2
(m-z)/(1-P) 1
x
(m-z)/(1-P)<0 0<(m-z)/(1-P)<1
dx/dt
1
x
(m-z)/(1-P)>1
5.4 复制动态和进化稳定性: 两人非对称博弈
5.4.1 市场阻入博弈的复制动态 和进化稳定策略 5.4.2 非对称鹰鸽博弈的进化分析
5.4.1 市场阻入博弈的复制动态和进化稳定策略
最优反应动态模拟
博弈方1 博弈方2
1 2.5 3 2 1.5 1.75
1 2 收敛条件 | dr || dr | 1
dq2
dq1
问题:两寡头始终假设对方产量不变
5.3 复制动态和进化稳定性: 两人对称博弈
5.3.1 签协议博弈的复制动态和进化稳定策略 5.3.2一般两人对称博弈复制动态和进化稳定策略 5.3.3 协调博弈的复制动态和进化稳定博弈 5.3.4 鹰鸽博弈的复制动态和进化稳定策略 5.3.5 蛙鸣博弈的复制动态和进化稳定策略
dy/dt
1 x
x=0
dy/dt
1
x
x=0
两群体复制动态的关系和稳定性
y 1

演化博弈

演化博弈


ቤተ መጻሕፍቲ ባይዱ
预先规定好的要素博弈如何确定?既然大家 都是有限理性,那由谁来规定要素博弈的结 构和规则(是人为设计的,还是自发演化形 成的) 现有的一些学习模型是否与现实中群体的理 性水平相符? 对于超出2维空间的动态系统以及非线性系 统难于进行稳定性分析(恰好体现了人的认 知能力有限理性)。
我们以一个简单的“签协议博弈” 为例,说明学习速度很慢、理性层次较 低的有限理性博弈方通过模仿学习博弈 和调整策略的复制动态和策略稳定性。
经济活动中的各种合作都可以用签协 议来代表,因为一旦签订协议,那么重 要的经济合作就有了保证。下图中得益 矩阵表示的就是一个关于签协议的博弈。
博弈方2
同意 博 弈 方 1 同意 不同意 不同意



有限理论博弈的有限分析框架是有限理论博弈方构成的, 一定规模的特定群体内成员的某种反复博弈。 例如某个由缺乏足够预见性的个体组成的小群体,其成 员都对当前局面做出反应,或者相互学习、模仿邻居的 优势策略的情况。也可以是在大量博弈方组成的群体中 成员之间随机配对的反复博弈,相当于现实经济中对象 或伙伴不固定的,多个或大量个体之间的较长经济关系。 这些分析框架通常假设博弈方有一定的统计分析能力和 对不同策略效果的判断能力,但没有事先的预见能力和 预测能力。这种分析框架和人们在享受决策活动中的实 际行为模式是比较接近的。

有限理性意味着博弈方往往不会一开始就找到 最优策略,会在博弈过程中学习博弈,必须通 过试错寻找较好的策略;有限理性也意味着均 衡是不断调整和改进而不是一次性选择的结果, 而且即使达到了均衡也可能再次偏离。
三、有限理性下的博弈分析
1、有限理性博弈分析的目标


A.放宽参与者严格的理性要求,分析有限理性 的参与者通过各种学习过程,如何达到稳定的 均衡状态。 B.有限理性博弈分析主要解决:不同条件下具 体的学习过程(构建的学习模型体现了理性的 不同要求)、学习调整过程中均衡的稳定性 (运用稳定性理论,分析原Nash均衡是否收 敛)。

演化博弈

演化博弈

Taylor和Jonker提出了演化博弈理论的基本动态概念——复制动态
• 经济学家把演化博弈理论引入到经济学领域,用于分析社会制度变迁、产业演化以及股票 市场等,同时对演化博弈理论的研究也开始由对称博弈向非对称博弈深入,并取得了一定
1980s
的成果
演化博弈的产生与发展
• 演化博弈理论的发展进入了一个新的阶段。Weibull(1995)比较系统、完整地总结了演 1990s 化博弈理论,其中包含了一些最新的理论研究成果。
则竞争者群体的复制动态方程F1(x):
dx/dt dx/dt 1 x y=1/2 y>1/2 1 dx/dt
x 1 x
y<1/2
复制动态中的非对称博弈
对于博弈方2: 博弈方2 打击 博 弈 方 1 容忍
进入
不进
0, 0
1, 5
2, 2
1, 5
则在位者群体的复制动态方程F2(y):dy/dt 1 x演化博弈的基本分析过程
一般的演化博弈模型的建立主要基于两个方面:选择(Selection)和突变 (Mutation)。 选择是指能够获得较高支付的策略在以后将被更多的参与者采用;突变 是指部分个体以随机的方式选择不同于群体的策略(可能是能够获得高支付的 策略,也可能是获得较低支付的策略)。 突变其实也是一种选择,但只有好的策略才能生存下来。突变是一种不 断试错的过程,也是一种学习与模仿的过程,这个过程是适应性且是不断改进 的。
目录页
PART TWO
最优反应动态
协调博弈的有限博弈方快速学习模型
模型: 博 弈 A 方 B 1 博弈方2 A B 50,50 49,0 0,49 60,60 协调博弈
1 5 4 3 2
5个博弈方,相邻者彼此博弈,初始策略组合为32种。

演化博弈论

演化博弈论

演化博弈论演化博弈论(evolutionary stable strategy)整合了理性经济学与演化生物学的思想,不再将人模型化为超级理性的博弈方,认为人类通常是通过试错的方法达到博弈均衡的,与生物演化具有共性,所选择的均衡是达到均衡的均衡过程的函数,因而历史、制度因素以及均衡过程的某些细节均会对博弈的多重均衡的选择产生影响。

在理论应符合现实意义上,该理论对于生物学以及各种社会科学尤其是经济学,均大有用场。

演化博弈理论最早源于Fisher,Hamilton,Tfive~等遗传生态学家对动物和植物的冲突与合作行为的博弈分析,他们研究发现动植物演化结果在多数情况下都可以在不依赖任何理性假设的前提下用博弈论方法来解释。

但直到Smith andPrice(1973)在他们发表的创造性论文中首次提出演化稳定策略(evolutionary stable strategy)概念以后,才标志着演化博弈理论的正式诞生。

生态学家Taylor and Jonker(1978)在考察生态演化现象时首次提出了演化博弈理论的基本动态概念——模仿者动态(replicator dy—namic),这是演化博弈理论的又一次突破性发展。

模仿者动态与演化稳定策略(RD&ESS)一起构成了演化博弈理论最核心的一对基本概念,它们分别表征演化博弈的稳定状态和向这种稳定状态的动态收敛过程,ESS概念的拓展和动态化构成了演化博弈论发展的主要内容。

编辑本段主要应用领域演化证券学:演化证券学是运用生物进化原理系统阐释股市运行机理的新兴交叉学科,是证券投资研究的一个具有生命力和丰富内涵的新领域。

与现代金融学的“理性人”、“有效市场”相关假设不同,演化证券学重视对“生物本能”和“竞争与适应”的研究,强调人性和市场环境在股市演化中的重要地位,是揭示股市生存法则最有潜力的前沿科学。

其开山之作《股市真面目》颠覆了股市运行机理的传统理论,可称为达尔文式的范式革命。

演化博弈模型流程

演化博弈模型流程

演化博弈模型流程Evolutionary game theory is a branch of game theory that studies behavioral strategies in evolutionary settings. It aims to understand how individuals act and interact in social environments, considering factors such as selection, mutation, and reproduction. By modeling these dynamics, researchers can gain insights into the evolution of cooperation, competition, and other social behaviors among species.演化博弈理论是博弈论的一个分支,研究在演化环境中的行为策略。

它旨在了解个体在社会环境中的行为和互动方式,考虑到选择、突变和繁殖等因素。

通过对这些动态的建模,研究人员可以更深入地了解合作、竞争以及其他物种之间的社会行为的演化。

One of the fundamental concepts in evolutionary game theory is the idea of a strategy, which represents a rule or plan of action that an individual follows in a given situation. These strategies can be classified as either pure strategies, where a player chooses a specific action with certainty, or mixed strategies, where a player randomizes among different actions according to probabilities. The interaction ofdifferent strategies in a population can lead to emergent behaviors and outcomes that shape the evolutionary dynamics of the system.演化博弈理论中一个基本的概念是策略,它代表了一个个体在特定情况下所遵循的规则或行动计划。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

从习惯到规范
习惯是已经建立起来的行为规则; 如果人们认为每个人都应该按照这样的
规则行动,习惯就变成了规范(norms); 转换机制:对别人认可的渴望,与对物
质的渴望同样重要。
产权规则
产权规则一旦建立,每个人都会预期其他人会遵守这 个规则;给定这样的预期,遵守它是每个人的利益所 在。
哪一个习惯(convention)
演化过程将给出习惯。 习惯可以是演化稳定的,即使他们是非
帕累托效率的。
习惯如何开始演化?
一旦大部分人开始遵守一个习惯,这个习惯就 会自我加强;在没有习惯的地方建立的行为规 则最容易成为习惯;
最初的信念何来?一种可能是能使人们在一次 博弈中无须交流就可以相互协调的力量;
单元均衡与多元均衡
演化稳定状态可能只有一个策略(行为 方式),也可能包含多个具有同样适应 性的行为方式;
前者称为单元均衡; 后者称为多元均衡。
协调博弈:左撇子与右撇子
设想总人口中有两类人:一类人是左撇 子;另一类人是右撇子;
任意挑选其中的一对进行博弈; 支付矩阵如下图所示; 注意:策略是先天决定的,参与者并不
随波逐流。
锁定与路径依赖
演化均衡意味着技术、社会制度都可能 长时间锁定在非帕累托最优的状态;
但不同制度之间的竞争可能打破非帕累 托最优均衡;
如全球化对公司治理结构以及其他制度 的影响。
囚徒困境
合作
合作
4,4
不合作 6,-1
不合作 -1,6 0,0
一次性博弈
“不合作”为演化稳定均衡; 一般地,如果存在占优策略(dominant
理性并有一定经验和想象力的人们可以 协调他们的行为。
信号与身份
如果两人完全一样,就没有办法选择特定的均 衡;
假定存在某种显性的标记机制:在博弈开始之 前,每个人收到一个信号:A或B;概率是1/3; 信号完全负相关;标记是共同知识;
规则:如果A,选择“鹰”;如果B,选择 “鸽”;
每个人都有积极性遵守这个习惯(规则);
Milinski 和Dugatkin独立地发现,鱼类确实在 使用TFT:当一对鱼接近入侵者时,如果一条 想尾随在后,走在前面的鱼转身向后,等待另 一条跟上,然后再并行前进。日复一日,孔雀 鱼甚至可以记住其他同伙过去的表现。如果一 次试验中一方背叛,另一方在第二天的试验中 也会背叛。
孔雀鱼倾向于与过去表现出更具合作精神的鱼 结伴而行。
给定自己遵守,每个人希望其他人也遵守;任何违反 规则的行为都会被认为是一个威胁,引起愤怒和不满。
规则的其他受益者也会间接地感到威胁,因为他们也 期待着靠这些规则保护自己的利益,所以会同情直接 的受害者。
重男轻女
为什么妇女也“重男轻女”?
规范创造者
尽管习惯和规范是自然演化而来的,而非集体 理性选择的结果,因而也不一定是帕累托有效 的,但规范创造者在规范的演化中具有重要的 作用 ;
的,如果它的种群不能被变异所成功侵入;或者 说,任何偏离行为的个体具有更低的生存能力, 种群将会恢复到原来的状态; 动态: 假定初始状态存在多样的行为方式, 随着 时间的推移,如果某个特定的行为方式能逐步主 导整个种群, 这个特定的行为方式就是ESS;
ESS与纳什均衡
ESS一定是纳什均衡,但并非所有的纳什 均衡都是ESS;
生存能力
1
右撇子
1 左撇子
0
1/2
X=1
与理性人博弈比较
如果策略是理性人选择的结果,这个博弈也有 三个均衡:(左撇子,左撇子);(右撇子, 右撇子);(1/2左,1/2右);
所以,并非所有的纳什均衡都是演化稳定均衡; 但与“混合策略均衡”解释不同:每个人都是
纯策略,只是一半人用左手,另一半人用右手;
均衡
如果x>2/3, 物质型更适合生存,将演化 成稳定均衡;
如果x<2/3, 感情型更适合有同样的适应性,但 这一(二元)均衡是非稳定的;
演化均衡不一定是帕累托最优均衡。
图示
生存能力
2
感情型
1 物质型
0
2/3
X=1
婚姻的习俗
婚姻的主流模式影响个体的行为。 物质主义盛行的社会,任何人都难以不
x>(1-x)
x>1/2
三个均衡
如果x>1/2,左撇子更具生存能力,他们 的比例将增加,直到100%;单元均衡;
如果x<1/2, 右撇子更具有生存能力,他 们的比例将增加,直到100%;单元均衡;
如果x=1/2, 两类人的生存能力相同;二 元均衡。
但只有前两个均衡是ESS。
图示
strategy),该占优策略是ESS;
博弈重复两次
ALL-C TFT ALL-D
ALL-C 8,8 8,8
TFT ALL-D
8,8 12,-2
8,8 6,-1
-2,12 -1,6 0,0
谁将生存?
首先注意到,幼稚的合作型生存能力最差:如 果遇到ALL-C和TFT,与TFT得到相同的支付, 但如果遇到ALL-D,则比TFT更差;
演化过程可以帮助选择特定的纳什均衡;
生物进化与社会演化
策略:
生物行为是基因决定的,个体没有选择性; 社会行为并不完全取决于基因,而是与社会环境、文化、教
育、以及个体的经验等因素等有关,个体有选择性。
适应性(fitness):基因的繁殖能力;总的或平均的报酬 (payoff)。
传递性:基因遗传;成功的人将信息传输给朋友、同 事;好的行为方式会被学习、模仿。人们也会有意识 地通过“试错”的办法寻找好的策略。所以社会和教 育机制更为重要。
演化稳定性为选择特定的纳什均衡提供 了新的依据;
父母怎样教育孩子?
一旦使用右手成为主导习惯,少数左撇 子并不能改变结果;
所以为了孩子的利益,父母会教育孩子 用右手;
用手的习惯既有基因的遗传,也有后天 的训练。
这可能是社会行为的典型特征。
交通博弈
靠左行 靠左行 1,1 靠右行 -1,-1
生存和繁殖由自然选择决定。最适合生 存的基因不断繁衍,而不适合生存的基因 被淘汰。 生物进化是一个自然选择的过程;最后可 能导致一个稳定状态。
演化稳定策略
ESS: evolutionary stable strategies: 种群中可以持续存在的行为方式; 静态: 一个特定的行为方式被称为是演化稳定
社会秩序是所有人行为选择的结果,但 不是集中设计的,而是自发演化的结果;
产权制度:先占原则; 教室、图书馆占座位;
鹰-鸽博弈
B



-1,-1
1,0
A

0,1
0.5,0.5
三个纳什均衡
两个纯策略均衡:
(A-鹰,B-鸽); (A-鸽,B-鹰);
一个混合策略均衡:(1/3,2/3) 仅仅“理性”不足以决定均衡。但有限
规范创造者的收益依赖于接受其推荐的规范的 人数;遵守的人越多,说明越成功;
创造社会规范是一种风险活动,只有少数人愿 意冒险行事。
典型人物:孔子。
所以TFT比ALL-C更适应生存; 如果初始人口由ALL-C和ALL-D组成,TFT将可
以成功的侵入; 如果初始人口全是ALL-C或由ALL-C和TFT组成,
ALL-D将可以成功入侵; 所以ALL-C不是ESS。
两类:ALL-D和TFT
TFT
TFT
8,8
ALL-D 6,-1
ALL-D -1,6 0,0
图示
生存能力
1
鹰派:1-2x
8
x=1
1/3 鸽派:0.5(1-X) -1
0
二元均衡
鹰派和鸽派同时并存; 如果初始人口由单一类型构成,另一类
型可以成功入侵,直到均衡;
自发秩序与产权制度
人类的行为并非完全由基因唯一决定; 即使并非总是完全理性地计算,人们也 必然要在不同的策略之间选择;
Eg. 在某些国家容易行骗
TFT:动物界的合作
当一条大鱼进入一群小鱼的池塘时,一条或更 多的小鱼将接近它侦探它是否有危险。这种掠 夺侦察活动对这些侦探者是有风险的,但整个 鱼群是有好处的:如果侵入者不是掠夺者或者 不是特别饥饿,小鱼无须疏散。
每个个体都有很强的动机背叛,让其他鱼完成 侦察;但是如果所有的鱼都背叛,就不可能获 得侵入者的信息。而完全的合作可以最小化总 的风险,因为如果不能集中与单个目标,入侵 者将被迷惑。
靠右行 -1,-1 1,1
协调博弈:婚姻
物质型 物质型 1,1 感情型 0,0
感情型 0,0 2,2
谁将生存?
假定总人口中,物质型的比例为x,感情型 的比例为(1-x);
那么,对任何一个个体而言,物质型的预期 支付:x1+(1-x)0=x;
感情型的预期支付:x0+(1-x)2=2(1-x); x=2/3
谁将生存?
假定初始人口中TFT的比例为x,ALL-D的 比例为(1-x);
TFT的预期支付:8x-(1-x)=9x-1; ALL-D的预期支付:6x+0(1-x)=6x; 9x-1>6x x>1/3
均衡
如果x>1/3, TFT生存;稳定均衡; 如果x<1/3, ALL-D生存;稳定均衡; 如果x=1/3,二者同样生存,但不是稳定
X与N的关系
x 1/3
TFT均衡
ALL-D均衡
n=2
n
Robert Axelrod
Axelrod(1981,1984)著名的实验证明,在 14种策略中,TFT是最成功的;
相关文档
最新文档