随机演化博弈的算法研究

合集下载

第五章演化博弈

第五章演化博弈

传统博弈中的理性要求
1目标理性(主观理性):参与者追求自身利益的最大化(经济学理 性的内涵);
2 具有理性的能力:参与者具有计算推理、预见、记忆、分析判断 的能力(例如:求解动态博弈均衡的递推归纳法),不会犯错误 (例如:颤抖手均衡要求犯错误时仍具有稳健性);
3 认知理性:参与者了解博弈的结构和规则、以及理性的“共同知 识”(递推归纳法的基础)、作为不完全信息博弈均衡求解基础 的贝叶斯理性(参与者对不确定性事物具有事前概率分布的判断, 在动态过程中进行更新的贝叶斯决策)。
x 0不是进化稳定策略
5.3.2一般两人对称博弈复制动态和进化稳定策略
一般模型
策略1 策略2
博弈方2 策略1 策略2 a, a b, c c, b d, d
一般2X2对称博弈
进化博弈设定是在一个大群体的成员中进行随机配对 的反复博弈。
基本模型是两个博弈方之间的对称博弈。含义是两个 博弈位置是无差异的。
(1 x)u2 ]
x(1 x)[ x(a c) (1 x)(b d )]
x
1
x
5.3.3 协调博弈的复制动态和进化稳定博 弈
博弈方2 策略1 策略2 策略1 50,50 49,0 策略2 0,49 60,60
一般2*2对称博弈
dx/dt
dx F (x) x(1 x)[x(a c) (1 x)(b d )] dt
dx dt

x[u1e
u1]

x(1
x)(1
2 y)
dx/dt
1
x
y>1/2
dx/dt
x 1
y=1/2
y<1/2
1x
博弈方2位置博弈群体复制动态相位图

演化博弈论——精选推荐

演化博弈论——精选推荐

演化博弈论我们这里讲演化博弈(evolutionary game theory),它显然有2条理论来源,一是演化理论,一是博弈论。

先来看演化理论,我首先要纠正一个常见的误解,即演化均衡是帕累托最优的,或者说最大化整个社群的福利。

我们要注意到,演化均衡不等于一般均衡,等会我会给出一些严格的定义。

从福利经济学第一定理可以得知,一般均衡必然是帕累托最优的,即所谓的看不见的手的含义,但是演化均衡并没有类似的定理。

我们用常识来分析,如果演化均衡最大化社群的福利,那么什么是社群的福利呢?是个体的总数最大吗,是个体的多样性最多吗,抑或是个体预期存活概率最大?即使我们能为适应性(fitness)找出合适的测量方法,我们也无法保证演化是朝向个体适应性最大的方向演化。

我这里用演化,避免用演进,可以减少误解。

演化理论中有两条最重要的机制。

一个叫自然选择,即不是每种生物都有相同的概率在下一期存活。

在这个世界上,有些生物个体(或者人)特别幸运,他们能活下去,但还有些个体就倒霉了,他们会被淘汰。

我们今天都活着,可见我们的祖先都还是幸运的,他们有后代继承了他们的基因。

我特别要强调自然选择,对于我们来说是被选择(be selected),我们能决定我们的行为和策略,但不能决定我们是否被选择,那是上帝的事情。

严复说物竞天择,就是这个意思。

另一种机制叫突变机制(mutant),这保证了种群的变化。

如果没有突变,那么这个世界上存活下来的物种就会越来越少,最后只剩下一种。

对于突变机制,我也要强调它是没有方向性的,可能会提高个体的适应性,但更有可能降低个体的适应性。

突变同样是上帝的选择,微观个体无能为力。

接下来,我们就可以回顾演化经济学的思想史了。

我在幻灯片里给出了一长串人的名字,他们都可以看作是具有演化思想的经济学家,都是演化经济学的先驱。

斯密,马克思,门格尔,马歇尔,凡勃仑,熊彼特,直到哈耶克。

我尤其要强调雄彼特的贡献,他研究经济发展和经济周期,提出了著名的"创新"思想。

7 演化博弈详解

7 演化博弈详解

谁将生存?
? 假定初始人口中TFT的比例为x,ALL-D的 比例为(1-x);
? TFT的预期支付:8x-(1-x)=9x-1; ? ALL-D的预期支付:6x+0(1-x)=6x; ? 9x-1>6x ? x>1/3
均衡
? 如果x>1/3, TFT生存;稳定均衡; ? 如果x<1/3, ALL-D生存;稳定均衡; ? 如果x=1/3,二者同样生存,但不是稳定
strategy),该占优策略是ESS;
博弈重复两次
ALL-C TFT ALL-D
ALL-C 8,8
8,8
TFT ALL-D
8,8 12,-2
8,8 6,-1
-2,12 -1,6 0,0
谁将生存?
? 首先注意到,幼稚的合作型生存能力最差:如 果遇到 ALL-C 和TFT,与 TFT 得到相同的支付, 但如果遇到 ALL-D ,则比 TFT更差;
在两种策略之间选择。
左撇子与右撇子
左撇子 左撇子 1,1 右撇子 0,0
右撇子 0,0 1,1
谁最适合生存?
? 答案依赖于初始的人口分布。
? 假定总人口中有x的比例是左撇子,1-x 的比例是右撇子。那么,左撇子的预期 支付为:x·1+(1-x)·0=x;
? 右撇子的预期支付:x·0+(1-x)·1=1-x;
? 社会秩序是所有人行为选择的结果,但 不是集中设计的,而是自发演化的结果;
? 产权制度:先占原则; ? 教室、图书馆占座位;
鹰-鸽博弈
B



-1,-1
1,0
A

0,1
0.5,0.5
三个纳什均衡

演化博弈

演化博弈


ቤተ መጻሕፍቲ ባይዱ
预先规定好的要素博弈如何确定?既然大家 都是有限理性,那由谁来规定要素博弈的结 构和规则(是人为设计的,还是自发演化形 成的) 现有的一些学习模型是否与现实中群体的理 性水平相符? 对于超出2维空间的动态系统以及非线性系 统难于进行稳定性分析(恰好体现了人的认 知能力有限理性)。
我们以一个简单的“签协议博弈” 为例,说明学习速度很慢、理性层次较 低的有限理性博弈方通过模仿学习博弈 和调整策略的复制动态和策略稳定性。
经济活动中的各种合作都可以用签协 议来代表,因为一旦签订协议,那么重 要的经济合作就有了保证。下图中得益 矩阵表示的就是一个关于签协议的博弈。
博弈方2
同意 博 弈 方 1 同意 不同意 不同意



有限理论博弈的有限分析框架是有限理论博弈方构成的, 一定规模的特定群体内成员的某种反复博弈。 例如某个由缺乏足够预见性的个体组成的小群体,其成 员都对当前局面做出反应,或者相互学习、模仿邻居的 优势策略的情况。也可以是在大量博弈方组成的群体中 成员之间随机配对的反复博弈,相当于现实经济中对象 或伙伴不固定的,多个或大量个体之间的较长经济关系。 这些分析框架通常假设博弈方有一定的统计分析能力和 对不同策略效果的判断能力,但没有事先的预见能力和 预测能力。这种分析框架和人们在享受决策活动中的实 际行为模式是比较接近的。

有限理性意味着博弈方往往不会一开始就找到 最优策略,会在博弈过程中学习博弈,必须通 过试错寻找较好的策略;有限理性也意味着均 衡是不断调整和改进而不是一次性选择的结果, 而且即使达到了均衡也可能再次偏离。
三、有限理性下的博弈分析
1、有限理性博弈分析的目标


A.放宽参与者严格的理性要求,分析有限理性 的参与者通过各种学习过程,如何达到稳定的 均衡状态。 B.有限理性博弈分析主要解决:不同条件下具 体的学习过程(构建的学习模型体现了理性的 不同要求)、学习调整过程中均衡的稳定性 (运用稳定性理论,分析原Nash均衡是否收 敛)。

演化博弈

演化博弈

基于历史记忆的雪堆博弈
1、模型规则 将N个个体放置与某种网络的节点上 每一轮相互连接的个体同时博弈 个体的总收益是根据收益矩阵与所有邻居
博弈收益之和 一轮博弈结束后个体选择最佳策略更新 个体对于最佳策略具有记忆性,选择某个
策略取决于该策略在记忆中的数量
假设个体的记忆长度有限,长度为M,即上 一时刻到M时刻以前的历史最佳策略,个体 依据自身的历史记忆进行决策:
其中,pc为选择策略c的概率,NC和ND分别为策略C和D的数量 个体不断更新记忆,不断重复博弈,整个系统就会演化下去。
2、二维网格上的演化博弈
(1)主要研究变量
合作频率 fc
记忆长度M 收益参数r
(2)二维网格模拟
网络规模为1000,初始策略C和D各占50%, 并且在网络中随机分配
每个个体的初始记忆随机分配,并且个体 记忆对系统最终稳定行为没有任何影响
2、雪堆博弈
假设铲雪的代价为c, 每个人的好处量化为b,b>c,那么双 方收益矩阵为:
合作
B 背叛
合作 A
背叛
b-c/2, b-c/2 b-c ,b
b ,b-堆博弈中,遇到背叛时选择合作的收益大于 双方都背叛的收益,遇到背叛则选择合作; 个体的最佳策略取决于对手的策略; 相比囚徒困境,合作在雪堆博弈中更容易涌现。
复杂网络上的演化博弈
主要内容
1、群体博弈简介 2、基于历史记忆的雪堆博弈 3、演化博弈动力学与网络结构的共同演化
群体博弈简介
1、囚徒困境
囚徒的选择策略有:合作(坦白)、欺骗(抵赖)
我们可以得到的博弈矩阵为:
囚徒b
T>R>P>S
合作
欺骗
2R>T+S合作

演化博弈论

演化博弈论

演化博弈论演化博弈论(evolutionary stable strategy)整合了理性经济学与演化生物学的思想,不再将人模型化为超级理性的博弈方,认为人类通常是通过试错的方法达到博弈均衡的,与生物演化具有共性,所选择的均衡是达到均衡的均衡过程的函数,因而历史、制度因素以及均衡过程的某些细节均会对博弈的多重均衡的选择产生影响。

在理论应符合现实意义上,该理论对于生物学以及各种社会科学尤其是经济学,均大有用场。

演化博弈理论最早源于Fisher,Hamilton,Tfive~等遗传生态学家对动物和植物的冲突与合作行为的博弈分析,他们研究发现动植物演化结果在多数情况下都可以在不依赖任何理性假设的前提下用博弈论方法来解释。

但直到Smith andPrice(1973)在他们发表的创造性论文中首次提出演化稳定策略(evolutionary stable strategy)概念以后,才标志着演化博弈理论的正式诞生。

生态学家Taylor and Jonker(1978)在考察生态演化现象时首次提出了演化博弈理论的基本动态概念——模仿者动态(replicator dy—namic),这是演化博弈理论的又一次突破性发展。

模仿者动态与演化稳定策略(RD&ESS)一起构成了演化博弈理论最核心的一对基本概念,它们分别表征演化博弈的稳定状态和向这种稳定状态的动态收敛过程,ESS概念的拓展和动态化构成了演化博弈论发展的主要内容。

编辑本段主要应用领域演化证券学:演化证券学是运用生物进化原理系统阐释股市运行机理的新兴交叉学科,是证券投资研究的一个具有生命力和丰富内涵的新领域。

与现代金融学的“理性人”、“有效市场”相关假设不同,演化证券学重视对“生物本能”和“竞争与适应”的研究,强调人性和市场环境在股市演化中的重要地位,是揭示股市生存法则最有潜力的前沿科学。

其开山之作《股市真面目》颠覆了股市运行机理的传统理论,可称为达尔文式的范式革命。

演化博弈理论

演化博弈理论

演化博弈理论综述班级:国贸112班姓名:***学号:**********第一部分概述演化博弈理论至少自Lewontin(1960)用于解释生态现象就已经产生了,并被广泛应用于生态学、社会学及经济学等领域来研究群体行为的演化过程及其结果。

进化博弈理论从有限理性的个体出发,以群体为研究对象,认为现实中个体并不是行为最优化者,个体的决策是通过个体之间模仿、学习和突变等动态过程来实现的。

进化博弈理论强调系统达到均衡的动态调整过程,认为系统的均衡是达到均衡过程的函数,也就说均衡依赖于达到均衡的路径。

动态概念在进化博弈理论中占有相当重要的地位,许多博弈理论家对群体行为调整过程进行了广泛而深入的研究,根据他们考虑问题的角度不同而提出了不同的动态模型,如Weibull(1995) 提出的模仿动态(Imitation Dynamics)模型;Börgers and Sarin(1995,1997)等提出的强化动态1(Reinforcement Dynamics)模型等等。

但到目前为止,在进化博弈理论中应用最多的还是由Taylor and Jonke r(1978)提出的模仿者动态(Replicator Dynamics)模型。

模仿者动态是进化博弈理论的基本动态,它能较好地描绘出有限理性个体的群体行为变化趋势,由之得出的结论能够比较准确地预测个体的群体行为,因而倍受博弈论理论家们的重视。

本文集中介绍确定性模仿者动态概念、模型及其与经典博弈动态概念的区别。

在传统博弈理论中,常常假定参与人是完全理性的,且参与人在完全信息条件下进行的,但在现实的经济生活中的参与人来讲,参与人的完全理性与完全信息的条件是很难实现的。

在企业的合作竞争中,参与人之间是有差别的,经济环境与博弈问题本身的复杂性所导致的信息不完全和参与人的有限理性问题是显而易见的。

与传统博弈理论不同,演化博弈理论并不要求参与人是完全理性的,也不要求完全信息的条件。

第五章演化博弈

第五章演化博弈
b. 传统博弈主要解决:Nash均衡的选择(例如子博弈Nash均衡)和多重Nash均衡的精练(例如颤抖手均衡) 问题。 有限理性博弈分析主要解决:针对不同条件下具体的学习过程(构建的学习模型体现了理性的不同 要求)、学习调整过程中均衡的稳定性(运用稳定性理论,分析原Nash均衡是否收敛)。
5
2020/12/13
1
2020/12/13
第一页,共41页。
5.1 有限理性博弈及其分析框架
问题的提出:Nash在其博士论文“Non-cooperative games”(1950年)给出Nash均衡的两种解释, 一种是完全理性的解释——均衡是通过理性的参与者进行严密的逻辑演绎推理得到的,对参与者的理
性能力有较高要求。
x(1x)x [(ac)(1x)b (d)]
x
2020/12/13
第二十二页,共41页。
1
x
5.3.3 协调博弈的复制动态和进化稳定博弈
策略1 策略2
博弈方2 策略1 策略2 50,50 49,0 0,49 60,60
一般2*2对称博弈
dx/dt
d x F (x ) x ( 1 x )x [ (a c ) ( 1 x )b ( d )] dt
A
A
B
A
A
A
B
A
A
A
所 有 博 弈 方 都 采 用 A 的 均 衡 状 态 具 有 稳 健 性 。 而 所 有 博 弈 方 都 采 用 B 的 均 衡 状 态 不 具 有 稳 健 性 。
1133
2020/12/13
第十三页,共41页。
5.2.2 古诺调整过程
古诺模型反应函数
最优反应动态模拟
q1
3
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。




演化博弈论的文献综述

溯源 1798,Malthus的“人口论”; 1887,Darwin的“物种起源”;

当代演化博弈论在生物学上的起源 Lewontin (1961) 物种与生存环境 Smith与Price(1973)生物之间的有限战争 Smith(1982) 专著; Taylor和Jonker(1978)
0 A0 ( ) 1 A1 ( ) 2 A2 ( ) 1 A0 ( )
A12 ( )
A02 ( ) A2M 2 ( ) A1M 2 ( ) A2M 1 ( ) A0M 2 ( ) A1M 1 ( ) A2M ( )
. A0M 1 ( ) A1M ( )
* k lim k .
0
两个独立群体的演化博弈

假设前提:
假设1:参与人采用近似最优反应机制规定的决策模式,即参
与人对市场的认知程度是有局限性的; 假设2:参与人的决策是“近视”的,其决策基于参与人对当 前市场结构的认识; 假设3:参与人的决策具有不确定性,统称为“变异”。
a1 (k , 0) 2 (0) 2 2 (1) a ( k ,1) (1) 1 2 2 (2) a1 (k , 2) (2) A1k ( ) , 2 2 ( N 1) a1 (k , N 1) ( N 1) 2 ( N ) a ( k , N ) 1

严格占优策略:任意给定其他博弈参与人的纯策略选择组合,如果某 一个特定的纯策略满足如下条件,则称这个纯策略为严格占优策略:
si , si' si* , ui (si* , si ) ui (si' , si )
演化博弈论的产生背景

实证缺陷
经典博弈论
二十世纪八十年代之后,研究工作围 绕着修正经典博弈论中的完全理性假 设展开研究,并试图为纳什均衡的概 念寻找动态结构下的解释。研究表明: 经典博弈论在应用中遇到困难,主要 是存在三种缺陷:假设缺陷、方法缺 陷、实证缺陷。
ESS可以是纯策略,也可以是混合策略。
相关研究的文献综述

确定性的演化博弈模型(微分方程): Friedman(1991,1998); Hofbauer和Sigmund(1988, 1998); Weibull(1995).

随机性的演化博弈模型: 扰动的生灭过程:Fudenberg和Imhof(2006); Fudenberg等人(2006)。 扰动的拟生灭过程:Tadja和Touzene(2003); Q.L. Li(2008)。 扰动图的马氏链:Young(1993)
我们的研究工作

针对策略状态空间是离散的、群体的人口规模是有限的、决策具有随机性 的演化博弈模型。
对两个群体的演化博弈问题,研究了两类模型: 两个群体间接相关,博弈只在每个群体内部进行,但是两个群体通过策略 相关性因子互相影响; 两个群体直接相关,博弈的双方每次分别从两个不同的群体中随机抽取。
Quan-Lin Li
Constructive Computation in Stochastic Models with Applications: The RG-Factorizations
Springer
Chapter 11 Sensitivity Analysis and Evolutionary Games
为了解决经典博弈论的以上三种缺陷, 从二十世纪九十年代发展了演化博弈 论的研究工作。
方法缺陷

假设缺陷
演化博弈论的产生背景



假设缺陷:完全理性假设,即假定参与人完全了解其对手 的策略集合以及使用每个策略的概率,同时也了解博弈规 则与收益结构。参与人也具有通过精确计算推理得到最优 策略的能力。但现实中的参与人只具有有限理性(Bounded Rationality)。 方法缺陷:经典博弈论关注的重点是如何求解博弈的平衡 结构,但不能解释博弈的各参与方是如何通过参与博弈而 趋向于这些均衡状态的(H.P. Young)。 实证缺陷:多数解析型博弈论的预测都是基于理想的假设 和精确的数学推导,需要实证的经验规律来充实经典博弈 论(Colin Camerer)。
c1 z1 (t ) d1 ( M z1 (t )) . M
f s2 ( z (t )) 22

定义参与人选择其第一类策略的转移率为:
11 12
c2 z2 (t ) d 2 ( N z2 (t )) . N
1 (i) 1 max{ fs1 (i) fs1 (i),0}, i {0,1,...M 1}. 1 (i) 1 max{ f s1 (i) f s1 (i),0}, i {1, 2,...M}.
演化博弈的基本要素
1
有限人口-无限人
2
同质群体的对称二
3
自然选择机制(复
口:
离散的策略-连续
人博弈;
不同质群体的非对
制子动态);
模仿机制;
强化学习机制; 最优反应机制; 几种机制的混合:
的策略:
参与人的匹配方式:
称二人博弈。
单对模型、总体统 计模型、随机匹配 模型
12 11
2 ( j) 2 max{ fs2 ( j) f s2 ( j),0}, j {0,1,...N 1}.
21 22
2 ( j) 2 max{ fs2 ( j) fs2 ( j),0}, j {1,2,...N}.

定义拟生灭过程的状态空间为:
演化博弈论的研究意义

演化博弈研究具有普遍意义的有限理性的参与人:惰性、 近视、遗传、突变、变异。Kandori, Mailath和Rob (1993) 演化博弈不仅关注博弈的稳定结构,还通过引入不同的动 态机制研究博弈系统的稳定结构和演化过程之间的关系; 演化博弈模型可以和个人学习机制相结合,可以探讨微观 层面上参与人的互动和宏观层面上群体的均衡现象之间的 关系; 演化博弈的假设条件与建模方法更加有利于进行模拟实验 来获得实证数据。
பைடு நூலகம்
针对任意多个群体的演化博弈问题,研究了三类模型:间接相关、直接相 关、混合相关。 多个群体演化博弈问题的建模及其求解演化稳定策略,为演化博弈论在经 济学、运筹学领域的广泛应用提供了一定的理论基础;同时,通过一系列 数值算例,定性与定量相结合地研究不同建模参数对演化稳定策略分布的 影响,为设计实验、提供实验数据的实证支持打下了基础。

模型描述:
参与人只具有两个纯策略,则两个群体的策略集分别为:
S1 {s11 , s12 } 和:S2 {s21 , s22 }
两个互相独立的群体P1、P2,人口规模分别为M, N. 设每一个
群体P1、P2 内部的博弈方式是“随机匹配”,阶段博弈矩阵
为:
a b a A1 1 1 , A2 2 c1 d1 c2
标准式博弈

标准式博弈由三种元素组成:参与人、纯策略、收益函数
纯策略; 混合策略是在纯策略上的概率分布。

纳什均衡:如果博弈中的任意一个参与人选择的纯策略,都是对其他人 选择的纯策略的最优反应,那么这样的纯策略组合为一个标准式博弈的 纯策略纳什均衡:
* * si si* , ui (si* , s ) u ( s , s i i i i ).
S1 {s11 , s12 } 和:S2 {s21 , s22 }
两个互相独立的群体P1、P2,人口规模分别为M, N. 设每一个
群体P1、P2 内部的博弈方式是“随机匹配”,阶段博弈矩阵
为:
a b a c A1 , A 2 b d c d
2009年随机图与复杂网络学术会议
随机演化博弈的算法研究 及其在复杂网络中的应用
李泉林 博士
汇报提纲
2
进化博弈的基本内容 我们的研究工作 随机进化博弈所面临的理论困难 在计算机网络中的应用 在复杂网络中的应用 我们的未来研究工作

演化博弈论的产生背景

1944, J. von. Neumann和Oskar. Morgenstern奠定了经典博弈理论的基础。
其中:
1 (m) 1 ( m ) , A0m ( ) 1 ( m )
1 (n) 1 ( n ) n . A2 ( ) 1 ( n )
两个独立群体的演化博弈
个体相互作用内涵的转变
策略内涵的转变
均衡内涵的转变
演化稳定策略(ESS)
用J(p, q)来表示一个物种的策略p遇到策略q时 的收益函数。
策略p* 被称为是一个ESS,如果
J(p*, p* ) 〉 J(p, p* )
微分方程的稳定性
或者当J(p*, p* ) = J(p, p* )时,
J(p*, p ) 〉 J(p, p )。 马氏链的稳定性
虚拟行动。
对称的(2 2)演化博弈

假设前提:
假设1 :参与人采用近似最优反应机制规定的决策模式,即参与人对市场的
认知程度是有局限性的; 假设2 :参与人的决策是“近视”的,其决策基于参与人对当前市场结构的 认识; 假设3:参与人的决策具有不确定性,统称为“变异”。

模型描述:
参与人只具有两个纯策略,则两个群体的策略集分别为:
(i) max{ fs (i) f s (i),0}, i {1, 2,...M}.
12 11
* 0 1 * 1 Q N *
相关文档
最新文档