第七章 博弈论实验
《博弈论:原理、模型与教程》第07章 子博弈精炼Nash均衡 第02节 子博弈精炼Nash均衡的求解

《博弈论:原理、模型与教程》第二部分完全信息动态博弈第7章子博弈精炼Nash均衡7.2 子博弈精炼Nash均衡的求解(重点!)(已精细订正!)定义7-1虽然给出了子博弈精炼Nash的定义,但没有说明如何求解子博弈精炼均Nash衡。
下面以图6-8 中扩展式博弈为例,介绍一种最常用的求解子博弈精炼Nash均衡的方法—逆向归纳法。
(讲!)考察图6-8中的博弈。
参与人1在博弈开始时(即在信息集}{)(11x I 上面临两种选择—行动A和行动B 。
参与人1此时选择哪种行动呢?对于理性的参与人1来讲,只会选择使自己支付最大化的行动。
从图6-8很容易知道参与人1选择行动B 时所得到的支付为2;但是,如果参与人1选择行动A ,则所得支付就要取决于参与人2在信息集}{)(22x I 上的选择,以及博弈达到决策结3x 时参与人1在信息集}{)(31x I 上的选择。
也就是说,参与人1选择行动A 所得支付,取决于子博弈)(2x Γ的结果。
因此,为了确定参与人1在博弈开始时的选择,就必须确定参与人1选择行动A 的所得支付,而为了确定参与人1选择行动A 的所得支付,就必须先求解子博弈)(2x Γ。
如何求解博弈)(2x Γ呢?可以采用同样的方法来求解子博弈)(2x Γ,即在求解子博弈)(3x Γ的基础上,确定参与人2在信息集}{)(22x I 上的选择,从而求解子博弈)(2x Γ。
由以上分析可以得到图6-8中博弈的求解过程:首先求解博弈树中最底层的子博弈)(3x Γ得到子博弈)(3x Γ的结果为(3,0)(即参与人1选择E );再求解博弈)(2x Γ,容易得到博弈的结果(1,1)(即参与人2选择D ); 最后求解原博弈,即子博弈)(1x Γ,得到博弈的结果为(2,1)(即参与人1选择B )。
(讲!)考察更一般的情形。
对于图7-6中的博弈树,参与人i 在信息集})({i i x I 选择行动L 还是行动R ,取决于选择行动L 和行动R 所带来的后果。
博弈策略模式的模拟实验与应用案例

博弈策略模式的模拟实验与应用案例博弈策略模式是一种应用广泛的模式,在许多领域都有着重要的应用,比如经济学、社会学、心理学、政治学等。
而在计算机科学领域,博弈策略模式也被广泛地应用于设计和开发游戏、人工智能、优化算法等方面。
本文将从博弈策略模式的基本原理、模拟实验以及实际应用案例等方面进行探讨。
一、博弈策略模式的基本原理博弈策略模式是一种重要的设计模式,其依据的是游戏理论和博弈论的基础知识。
在博弈策略模式中,一个问题被抽象成了一个双人博弈的模型,其中两个玩家依据各自的策略来做出决策,并根据决策的结果来获得不同的收益。
博弈策略模式可以分为完全信息博弈和不完全信息博弈两种类型。
在完全信息博弈中,所有的玩家都能够获得对方的决策和状态信息,因此可以做出最优的决策。
而在不完全信息博弈中,某个或某些玩家并不能获取到对方所有的信息,因此他们需要在不断地观察、猜测和推断的基础上做出决策。
在实际应用中,常常采用混合策略来获取更优的收益。
混合策略是指在决策时,玩家有一定的概率采取某一种策略,同时有一定的概率采取其他的策略,从而达到最大化收益的目的。
二、博弈策略模式的模拟实验博弈策略模式在实际应用中需要进行模拟实验来验证策略的正确性和可靠性。
下面我们将通过一个具体的案例来进行介绍。
案例:股票市场中的博弈策略模拟实验在股票市场中,很多交易者采用不同的策略来进行操作,有些交易者可能采取“跟风”策略,即跟随市场的走势来进行交易;有些交易者则采取“逆势”策略,即在市场趋势明显时进行相反的操作。
因此,我们可以将股票市场视为一个博弈模型,交易者和市场之间进行着博弈。
在模拟实验中,我们可以采用Python编程语言来实现一个股票市场模型。
首先,我们需要确定模型的状态空间、行动空间和收益函数。
状态空间指的是模型的状态集合,每个状态对应着模型的一个特定状态。
在股票市场模型中,状态空间可以设置为上涨、下跌和平稳三种状态。
行动空间指的是模型的决策集合,每个决策对应着交易者的一个具体决策,如买入、卖出或持有等。
博弈论 蒋文华 浙江大学

第一讲、博弈论概述献给诸位知人者智,自知者明;胜人者力,自胜者强;小胜者术,大胜者德。
第一章何为“博弈”博:博览全局弈:对弈棋局→谋定而动是指在一定的游戏规则约束下,基于直接相互作用的环境条件,各参与人依据所掌握的信息,选择各自的策略(行动),以实现利益最大化的过程。
第一节从一个简单的故事说起博弈时要搞清楚对手是谁!博弈时要搞清楚和别人比什么!行为选择既跟对手的情况有关,又跟所遇到的外部环境的变化有关。
特别提示:博弈既可以是竞争,也可以是合作!特别提示:博弈,必须学会换位思考!特别提示:博弈,只需领先一步,高人一筹!博弈就是你中有我,我中有你。
由于直接相互作用(互动),每个博弈参与者的得益不仅取决于自己的策略(行动),还取决于其他参与者的策略(行动)。
博弈的核心在于整体思维基础上的理性换位思考,用他人的得益去推测他人的策略(行动),从而选择最有利于自己的策略(行动)。
特别提示:站在别人的立场上想一想,就是为自己未来的遭遇着想。
——米兰·昆德拉特别提示:如果因为对方眼中的你的傻,而让对方更愿意和你合作,何乐而不为呢?(大智若愚)特别提示:请不要在一个充分竞争的市场去追求成功!特别提示:选对市场(对手)比选对策略更重要!特别提示:在博弈之前,博弈就已经开始了!第二节博弈的渊源一、中国的理解博+弈=下围棋略观围棋,法于用兵,怯者无功,贪者先亡。
----汉代刘向,《围棋赋》二、西方的理解game(规则)费厄泼赖(fair play)第三节学习博弈论的收益一、当局者清更有利的选择更快速的反应二、旁观者更清理解历史与现实预测未来的发展三、提出完善游戏规则(制度)的建议第二章发展简史第一节最初的探索和应用一、古诺模型参加博弈的双方以各自在同一时间内相互独立的产量作为决策的变量,是一个产量竞争模型。
二、伯川德模型该模型与古诺模型的不同之处在于,企业把其产品的价格而不是产量作为竞争手段和决策变量,通过制定一个最优的销售价格来实现利润最大化。
第七章 博弈论实验

• 重复博弈:同样结构的博弈重复多次,或者无数 次,其中的每次博弈称为“阶段博弈”。 • 特征:A、重复博弈的阶段,博弈之间没有“物 质”上的联系,即前一个阶段博弈并不改变后一 个阶段的博弈的结构; • B、在重复博弈的每一个阶段,所有参与人都观 测到该博弈过去的历史; • C、参与人的总收益是所有阶段博弈的收益的贴 现值之和或加权平均数。
2(zz)
1/2,1 1,-1
7.2.2.2 囚徒困境博弈实 验
假定有两个潜在的进入新 市场者,决定进入(E) 或者不进入(N)。策略 组合如图所示:
N (参与人000
E (参与人1) 1000,0
350,350
Cooper对此博弈进行了实验,实验中被试者 成对搭配,每个被试者仅碰到其他被试着 一次,被试者之间不能讨论问题和签订协 议。 实验结果:百分比从第一组5个人匹配的43% 下降到最后5个人匹配的20%。可以看出, 参与人有合作的倾向,但当被试着获得经 验后,结果接近于纳什均衡,即不合作。
第二行是Red的收益,第三行为Blue的 收益,最后一行为结果比例。 从上表可以看出,参与人的行为与逆向 归纳法所预测的结果不一致。Mckelvey和 Palfrey的解释是被试者是利他主义的,他 们宁愿在第一阶段选择传递。
7.4不完全信息静态博弈实验
在现实情境中,信息往往是不充分的,人们 在决策时不能了解所有信息。海萨尼提出了处理 不完全信息博弈的方法。即每个参与人的偏好是 一个随机变量,这个随机变量实现的事前概率分 布被假设为所有参与人的共同知识。这就是“海 萨尼转换”。 这种参与人不了解其他参与人选择的完全信 息,但却有其他参与人类型概率分布的完全信息 博弈称为“完全但不完美信息博弈”。
1、被试者A要么等待,要么提出一个叫价与被试者B或C其
博弈论PPT课件

第1个数字表示企业1 的收入, 第2个数字表示企业2的收入。
13
7.2.2合作博弈:建立卡特尔 • 合作是避免囚徒困境的有效方法 • 合作博弈与欺骗者
14
7.2.3重复性博弈:怎样对付欺骗者 • 重复性博弈:反复进行多次博弈 • 重复性博弈的最优策略——针锋相对:模仿上一
次博弈中对手的行为 • 针锋相对是最优策略 • 好的博弈四原则 ☞简单,不易误解 ☞针锋相对不是先搞欺骗 ☞不允许欺骗行为,但要给欺骗行为以处罚 ☞针锋相对是宽大的,允许对方恢复合作
可以采取降价策略,使新的进入者不敢贸然进入 • 投资于剩余生产能力的决策:投资引起的当前的
利润损失低于新企业进入而引起的将来的利润损 失
29
7.3.4先发制人:使市场饱和
• 在各地布点,使新的进入者无法利用高运 输成本的机会
N1 E N2
E1
E2
E4
E3
30
7.3.5 市场渗透定价 •通过制定低价抢占市场份额的策略。 •市场渗透定价是网络外部性明显的产业常用策 略。
的违约问题 • 先合作,第N次违约的收入:
30+30+30+30+······+40
• 现实:不知道N是多少→选择合作策略 • 如何在员工工作的最后一天激励员工? • 有结止日期的有限重复博弈等于一次性博弈
17
•市场中的重复博弈的作用 •市场中的一次性博弈使得生产劣质产品的企业有 利 •市场中的重复博弈促使生产者生产高质量产品
15
重复性博弈下的行为选择
• 合作收入:30+30+30+30+······
• 不合作收入:40+20+20+20 +······
博弈论总结(精选13篇)

博弈论总结第1篇最大化自己最坏情况下的收益。
着眼于自己的收益,保证自己收益,防止风险使得自己的收益变小。
以性别之战为例子:首先你得先得到一个关于妻子和丈夫的一个收益表 1.进行假设:妻子策略:P概率看韩剧、(1-P)概率看体育丈夫策略:Q概率看韩剧、(1-Q)概率看体育 xxx子期望收益(着眼于自己的期望收益): Uw(q,p)=2PQ + 0×P(1-Q) + 0×Q(1-P) +1×(1-P)(1-Q) = 3PQ - P -Q +1 前面的系数参考收益表(妻子收益)3.妻子的最小收益可能为Q=0或Q=1(当丈夫选择Q=0时,意味着丈夫100%想看体育,妻子的收益可能为0;当Q=1时,丈夫100%想看韩剧,如果这时妻子想看体育,收益同样最小)这里只是在讨论妻子收益最小的可能性4.妻子的最坏收益为:minUw(p,q) = min(1-P,2P)5.最大化最坏收益: max(min(1-P,2P))解的:P=1/3则妻子的maxmin策略为:1/3概率选择韩剧,2/3概率选择体育。
同理得丈夫的maxmin策略为:1/3概率选择体育,2/3概率选择韩剧。
minmax策略 1.最小化对手最好情况下的收益。
是着眼于对手的收益。
还是这样的一个收益表 1.进行假设:妻子策略:P概率看韩剧、(1-P)概率看体育丈夫策略:Q概率看韩剧、(1-Q)概率看体育2.丈夫期望收益(着眼于对方的期望收益):(与maxmin不同要注意!!)Uw(q,p)=PQ + 0×P(1-Q) + 0×Q(1-P) +2×(1-P)(1-Q) = 3PQ - 2P -2Q +2前面的系数参考收益表(丈夫收益)3.妻子的最小收益可能为Q=0或Q=1(当丈夫选择Q=0时,意味着丈夫100%想看体育,如果这时妻子也想看体育,丈夫收益到2;当Q=1时,丈夫100%想看韩剧,如果这时妻子想看韩剧,收益同最大1)这里只是在讨论妻子收益最小的可能性xxx夫的最大收益为:maxUw(p,q) = max(2-2P,P) 5.最小化最好收益: min(max(1-P,2P))妻子的minmax策略:2/3概率选择韩剧,1/3概率选择体育同里丈夫为的minmax为…在零和博弈中,maxmin策略和minmax策略是等价的。
博弈论实验报告
实验名称:最后通牒博弈实验目的:通过参与博弈实验进一步认识经济学关于“理性人”假设和竞争的关系,发现经济学中理性人假设、效用函数理论等存在的缺陷和不足之处,加深对竞争及经济人假设等经济思想的认知,检验社会偏好对博弈均衡的影响。
实验准备:在本实验中需要实验者收益记录表、实验者数据汇总表、实验数据统计总表等实验表格若干份。
实验内容:从参加实验的人当中,随机地选出两个人,配对进行博弈。
随机地指定A组一个人先行动,即A有权先选择行动策略,然后B再回应。
这个博弈中,A和B两人共同分配100元,这个100元是无条件地送给两人,但条件是他们必须对分配方案达成一致。
由A提出分配方案,比如说A占百分之60,B占百分之40。
这样的一个方案,B可以接受,也可以不接受,当B 接受了以后,实验者就把这100元按A的方案分配给他们两个人(模拟,最后据得益计算实验成绩,得益高者成绩也高):如果B不接受A提出的方案,AB两个就都什么也得不到。
所以,这里面有一个博弈的过程,因为B可以否决,如果觉得自己分得的太少了,不公平,可以否决A的方案,但否决的结果是自己也什么也得不到。
就是说B惩罚了A,自己也付出了成本,失去了本来可以得到的部分,最后双方都是0了。
实验过程:1.实验人员的选择和分组(1)实验人员的选择。
采用随机数或抽奖软件随机抽取若干名同学作为实验参与者,选取2名同学作为实验工作人员,负责发放相关表格和统计数据。
(2)分组。
将选定的实验参与者分成A、B两组,A组实验者为提议者,其编号为A1,A2,A3,...;B组实验者为响应者,其编号为B1,B2,B3,...(3)座位调整。
为了避免个人关系等因素的干扰,在实验过程中不能让两组实验参与者坐在一起,应让他们隔离相向坐于教室的左右两端。
2.发放实验材料向A组实验者发放写好编号的实验卡片,向所有实验参与者发放实验收益记录表。
向A组每位实验者发放100元虚拟货币。
3.宣读展示实验说明(1)每一位实验参与者都应收益的最大化为目标。
博弈论的理论和实践应用
博弈论的理论和实践应用博弈论是一种数学工具,研究人类或者其他智能体之间的决策行为。
在游戏、竞争、博弈等各种领域中具有广泛的应用。
本文将介绍博弈论的基本概念和应用,以及它的历史背景和发展现状。
1.博弈论的基本概念博弈论是一种研究行为决策的数学理论,它主要关注游戏中的策略选择、博弈中的双方互动和结果分配等方面。
博弈论的研究对象可以是单个人或多个人同时参与的情况。
在博弈论中,常用的基本概念有参与者、策略、收益、纳什均衡等。
(1)参与者:博弈中所涉及的所有人或团体。
(2)策略:参与者所选择的一种行动方式,博弈论中通常采用策略矩阵或者游戏树来表示各方的策略选择。
(3)收益:参与者选择某个策略后所获得的利益或损失,通常用数字表示。
(4)纳什均衡:指各方在一定策略情况下达到的一个无法再改变的稳定状态,也就是最优策略的一种平衡状态。
2.博弈论的应用博弈论的应用非常广泛,涉及游戏、经济、政治、社会和生物等各个领域。
(1)投标竞争:在招标项目中,供应商们通过博弈论计算出最优的报价,从而获得项目合同。
(2)股票市场:在股票市场中,投资者们可以通过博弈论的方法来预测股票价格走势和风险收益,从而做出更明智的投资决策。
(3)经济决策:博弈论在经济学中的应用非常广泛,例如博弈论可以用来研究价格竞争、寡头垄断、集中交易、卡特尔等经济问题。
(4)电子竞技:在电子竞技中,选手们通过应用博弈论的方法进行战术操作和赛前分析,从而提高比赛的胜率和稳定性。
(5)生物学:在生物学中,博弈论可以被用来研究动物或者群体之间的行为,例如动物的食物选择、交配竞争、同敌的斗争等。
3.博弈论的历史和发展博弈论最早可追溯到19世纪末。
法国数学家普安卡雷发表了关于两人零和博弈的论文,用该论文奠定了博弈论在数学中的地位。
20世纪50年代,博弈论逐渐成为一种重要的研究领域,并逐渐渗透到人文科学中来。
1970年代后期,随着计算机技术和数学方法的快速发展,博弈论得到了更广泛的应用。
《博弈论及竞争战略》-实验教学大纲
《博弈论及竞争战略》课程实验教学大纲一、课程基本信息课程代码:16086603课程名称:博弈论及竞争战略英文名称:Game Theory and Competitive Strategy课程类别:专业课学时:48学分:3适用对象:电子商务等本科专业考核方式:考试先修课程:管理学、高等数学、微观经济学、电子商务战略等相关课程二、实验教学的总体目的和要求《博弈论及竞争战略》实验是用于帮助学生在学习该课程时,了解博弈论相关知识,利用所学的知识进行实际操作,而设置的实验技能和科学研究方法训练的实验教学环节。
其实验目的包括两个层次:第一个层次是理论验证和模拟实践,为此安排了16学时的上机实践活动;第二个层次是设计性、综合性实践,其中在教学课时计划内,为学生进行选题、策划进行指导,然后学生利用课外时间,以课程综合大作业的形式完成一个项目的开发、设计和制作工作。
1、对学生的要求⑴发扬艰苦奋斗的精神,努力学习、勤于实践、勇于创新,保质保量地完成实验规定的任务。
⑵实验前必须进行预习,一丝不苟地明确实验目的、要求和基本原理;在实验过程中,学生要听从实验教师的管理,严格遵守实验室操作规程,认真做好原始实验数据记录,爱护实验设备。
⑶独立完成规定的实验任务,不得弄虚作假,坚守自我,不得抄袭和拷贝别人的工作内容。
否则实验成绩按不及格处理。
⑷学生应认真撰写、独立完成实验报告。
实验报告的格式按教务处网站所规定的格式撰写。
⑸遵守纪律,保证出勤,因事、因病离岗,应事先向老师请假,否则作为缺席处理。
凡随机抽查无故不到,评分降低10分。
累计缺席时间超过4学时者,取消考核资格,成绩按不及格处理。
2、对教师的要求⑴不忘初心,牢记使命!任课教师对其课程所开实验进行全程指导。
⑵在验证型实验教学过程中,教师应向学生简明讲述实验的目的、原理、方法、操作规程及注意事项,抽查学生的预习情况,指导学生实验,做到理论联系实际。
⑶在研究、设计型实验教学过程中,教师应发挥其主导作用,组织好实验教学活动,充分展示学生的主体作用,培养和训练学生独立操作、创新实践、勇于开拓的能力,学以致用,回报社会。
第七章博弈模型与竞争策略(微观经济学-清华大学施祖麟)
-1, 1
-1, 1
1, -1
2021/7/31
博弈模型与竞争策略
不完全信息静态对策
警卫与窃贼的博弈
警卫睡觉,小偷去偷,小偷得 益B,警卫被处分-D。
警卫不睡,小偷去偷,小偷被 抓受惩处-P,警卫不失不 得。
警卫睡觉,小偷不偷,小偷不 失不得,警卫得到休闲R。
警卫不睡,小偷不偷,都不得 不失。
偷 不偷
第七章博弈模型与竞争 策略(微观经济学-清华大
学施祖麟)
2021年7月31日星期六
博弈模型与竞争策略
现代经济学越来越转向研究人与人之 间行为的相互影响和作用,人与人之 间的利益冲突与一致,人与人之间的 竞争和合作。 现代经济学注意到个人理性可能导致 集体非理性(矛盾与冲突)。
2021/7/31
博弈模型与竞争策略
2.静态对策和动态对策(决策时间同时 或有先后秩序,能否多阶段、重复进 行)
3.完全信息对策和不完全信息对策(是 否拥有决策信息)
4.对抗性对策和非对抗性对策(根据收 益冲突的性质)
2021/7/31
博弈模型与竞争策略
博弈分类
静态
动态
完全 信息
完全信息静态对策,完全信息动态对策,
纳什均衡。
子对策完美纳什均衡。
警卫睡觉的期望得益
R
小偷认为警卫不会愿意得益为
负,最多为零,即
R/D= P偷/ ( 1- P偷)
0
小偷偷不偷的概率等于R与D
的比率。
P偷 1
小偷偷 的概率
D
2021/7/31
博弈模型与竞争策略
不完全信息静态对策
同样的道理警卫偷懒(睡觉) 的概率P睡,决定了小偷的得 益为: (-P) ( 1- P睡) + (B) P睡
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7.2.2.4 n人博弈的实验
n人博弈实验的目的是为了观察同一批参与人反复进 行同一博弈的结果。这样可以使得谈判博弈具有 合作性。 G.Kalisch等做了一组n人博弈实验。在3人博弈中, 被试者被蒙住了眼睛,只能通过手势向仲裁人示 意他们的行动。在4人博弈中,每个被试人都坐在 其他人看不到的地方,他将自己的行动写在纸上。 3人博弈规则如下:
后行动者能够观察到先行动者的行为, 但不知道先行动者的类型。因为参与人的 行动是互相依存的,先行动者可以设法对 后行动者传递对自己最有利的信息,后者 可以选择自己的最优行为。所以动态博弈 过程不仅是参与人选择行动的过程,而且 是不断修正信念的过程。
7.5.2蜈蚣博弈实验研究
传递 → 接受↓ 0.4 0.1 8% 传递 → 接受↓ 0.2 0.8 41% 传递 → 接受↓ 1.6 0.4 38% 传递 → 接受↓ 0.8 3.2 10% 传递 → 接受↓ 6.4 1.6 2%
实验结果可以观察到开价者要求的分配额 度集中于12点的有6组,分别分布在三种实 验规则中。而要求14点的有5组,也分布在 三组规则中,而要求平均分配的发生在第 一第二种规则中。
Roth等在美国、以色列、日本、前南 斯拉夫进行了该项实验,并重复进行了该 试验。 结果是所有国家参与人都是各取一半。 具体为美国和前南斯拉夫各取50%,以色 列、日本提议人得60%,后者分取40%。 也就是说公平性在很大程度上影响着分 配结果。
实验结果表明,被试者选择等待策略的比 重只占了33%,而由一个被试者叫价另一 个接受而形成联盟的策略出现的比例较高。 实验结果说明同一批人反复进行同一个博 弈有利于形成合作博弈。
7.3完全信息动态博弈实验
7.3.1基础知识 逆向归纳法:该方法适用于有限次博弈, 并且参与人都是理性的,都清楚的知道博 弈树结构,参与人首先从博弈树的末端开 始,求解末端的子博弈均衡,然后继续向 前求解,直至起点。
7.2.2.3含混和策略纳什 均衡的博弈实验
有两个纯策略纳什均衡 (R1,C2)和(R2,C1)。 还存在一个混合策略纳什 均衡,纳什理论预测选择 R2或C2的可能性是75%。
R1(参与人 1) R2(参与人 1)
C1(参与人 2) 0, 0
C2(参与人2)
200,600
600,200ຫໍສະໝຸດ 0,0Cooper等的试验程序与囚徒困境博弈相同: 20个单期博弈中不同参与人相互被匹配, 使用策略2的被试者所占比重小于混合策略 预测的百分比。 Cooper等调查了允许无约束事前交流来解决 协助问题的可能性。在允许交流的情况下, 选择策略2的百分比变为80%,而被试者中 申明未协调选择的比重只有71%。
支付矩阵如表所示: 纳什均衡策略为(2,1) 如果允许单边支付,冯.诺依 曼-摩根斯坦的非零和博弈 解是策略(1,2)。 Merrill报告了100次实验的结 果,pp得到0.4美元,zz得 到0.65美元。如此看来, 在现实的讨价还价中并没 有达到纳什均衡。
1(zz)
1(pp) 2(pp) -1,2 0,1/2
2(zz)
1/2,1 1,-1
7.2.2.2 囚徒困境博弈实 验
假定有两个潜在的进入新 市场者,决定进入(E) 或者不进入(N)。策略 组合如图所示:
N (参与人2) E (参与人2)
N(参与人1) 800,800
0,1000
E (参与人1) 1000,0
350,350
Cooper对此博弈进行了实验,实验中被试者 成对搭配,每个被试者仅碰到其他被试着 一次,被试者之间不能讨论问题和签订协 议。 实验结果:百分比从第一组5个人匹配的43% 下降到最后5个人匹配的20%。可以看出, 参与人有合作的倾向,但当被试着获得经 验后,结果接近于纳什均衡,即不合作。
• 重复博弈:同样结构的博弈重复多次,或者无数 次,其中的每次博弈称为“阶段博弈”。 • 特征:A、重复博弈的阶段,博弈之间没有“物 质”上的联系,即前一个阶段博弈并不改变后一 个阶段的博弈的结构; • B、在重复博弈的每一个阶段,所有参与人都观 测到该博弈过去的历史; • C、参与人的总收益是所有阶段博弈的收益的贴 现值之和或加权平均数。
第三次实验:埃克斯罗德假设博弈者所组成 的群体是一代一代进化下去的。他把个体 的得分看作个体的后代期望数,谁在第一 轮中的得分高,他在第二轮的群体所占的 比例就高。这样较优的策略就能繁衍更多 的后代,较差的策略就会被抑制,直至灭 绝。结果,“一报还一报”从第二代开始 扩大,在整个过程中一直领先。到1000代, “一报还一报”是最成功的策略,并且增 长的最快。
7.5不完全信息动态博弈实验
蜈蚣博弈:
运用逆向归纳法可以得出,参与人A在 博弈开始时会直接选择D,两人收益都为1. 很显然这种结果是非帕累托最优的。如果 AB合作,则双方都可以获得高收益。由于 A首先选择R而不是D,在随后的子博弈中, 即使B选择了D,A仅遭受1单位损失,但是 如果B选择r,则A的收益永远不会小于1, 而且很有可能获得相当可观的收益。但是B 究竟是一位合作者还是短期利益至上者, 只有B自己知道。因此,B具有完全信息, 而A不具有。
实验结果,得分最高的是“一报还一报”策 略。“弗里德曼”策略得分最低。埃克斯 罗德总结了排名靠前的策略的特点: ① 善 良性,即不做首先的背叛者。②可激怒性, 即针对对方的背叛行为给与报复 ③宽容性, 即不能没完没了的报复。
第二次实验:第二次实验规模更大,共有来 自6个国家63位参赛者,其中包括第一次实 验的所有参赛者。赛前,埃克斯罗德给每 位参赛者寄去了关于第一次比赛的分析报 告。每对策略仍对弈5次。 实验结果是“一报还一报”再次荣获第一名, 并且第二次比赛再次证明第一次比赛的结 论是成立的。
第二行是Red的收益,第三行为Blue的 收益,最后一行为结果比例。 从上表可以看出,参与人的行为与逆向 归纳法所预测的结果不一致。Mckelvey和 Palfrey的解释是被试者是利他主义的,他 们宁愿在第一阶段选择传递。
7.4.2最后通牒式议价谈判博弈实验 最后通牒式议价谈判博弈实验的一般模 式为:博弈双方就一个定数c的份额分配进 行一次讨价还价。一方为开价者,他提出 的分配方案为给对方x,自己留下c-x。如果 被开价者接受方案,则谈判达成一致,否 则就破裂。
为了考察非对称激励机制对议价结果的影响,李竹渝 等分别在三天的实验中设计了由谈判博弈的外部组织者的 干预使得博弈双方的收益/激励呈非对称的3种不同的实验 规则。 第一天的规则定为博弈双方如未能达成一致,除参加试验的 基本支付外,博弈双方谈判破裂的收益都为0。 第二天的规则是在谈判破裂时,开价者的冲突点支付上升为 8点,而接受者仍为0点。 第三天在谈判破裂时,开价者的冲突点支付上升为8点,而 接受者仍为2点。如接受者接受了开价者的报价,判断谈 判达成一致,接受者将分别获得开价者分配的x点,而开 价者得20-x点。
7.4不完全信息静态博弈实验
在现实情境中,信息往往是不充分的,人们 在决策时不能了解所有信息。海萨尼提出了处理 不完全信息博弈的方法。即每个参与人的偏好是 一个随机变量,这个随机变量实现的事前概率分 布被假设为所有参与人的共同知识。这就是“海 萨尼转换”。 这种参与人不了解其他参与人选择的完全信 息,但却有其他参与人类型概率分布的完全信息 博弈称为“完全但不完美信息博弈”。
7.2.2实验研究
7.2.2.1纳什均衡与冯.诺依曼-摩根斯坦博弈解
实验假设:开始的阶段,人们的行为接近均衡点, 然后继续寻找更好的均衡点,最后阶段,参与人 的选择接近冯.诺依曼-摩根斯坦合作博弈解。参与 人之间的社会关系是影响博弈结果的重要因素。 假设有两个被试者PP和ZZ,他们已掌握零和博弈论, 同时知道冯.诺依曼-摩根斯坦非零和博弈论,但他 们不清楚纳什均衡理论。
第七章
博弈论实验
7.1博弈论基础知识
7.1.3博弈论与实验博弈论 实验博弈由以下三个基本要素构成:实验 所要达到的目的;实验必备的信息;游戏 规则。
7.2完全信息静态博弈实验
7.2.1基础理论 占优策略:是指不管竞争对手做什么,参与 人都是最优的策略。 纳什均衡:给定对手的行为,参与人自身的 最优选择。此时,参与人的策略是其他策 略的最优反映。 混合策略纳什均衡:参与人根据一组选定的 概率,在两种或两种以上可能的行动中随 机选择中得到纳什均衡。
7.3.2埃克斯罗德重复博弈实验
支付矩阵如图。
合作A 合作B 3,3 背叛B 0,5
背叛A
5,0
1,1
第一次实验:共有15个策略。将每一策略分别和所有策略对 弈,每对策略对弈5次,每次200步,但对于参赛者而言, 什么时候结束博弈是未知的。参与人可以选择一下策略: ①“一报还一报”:第一回合合作,以后各回合均重复对 方在上一个回合中的策略:对方背叛,自己也背叛,对方 合作,自己也合作。②“弗里德曼策略”:这是一个缺乏 宽容的策略。他不首先背叛,但一旦对方背叛,就永远选 择背叛。③“道宁策略”:第一步背叛,然后每走一步, 估计自己合作或背叛之后对方合作的概率,如果对方似乎 仍然倾向于合作,则选择背叛,反之,则合作。④“乔斯 策略”:试图偶尔背叛而不受惩罚。若对方背叛则马上背 叛,但十次有一次是对方合作之后而背叛。
1、被试者A要么等待,要么提出一个叫价与被试者B或C其
中的一个结成联盟,这一叫价要列明A想得到的在将来联 盟中的份额dA(整数),参与人B和C也进行同样的第一 步——而且三个人要同时和独立地完成自己的选择。
若两个被试者(比如说A和B)彼此提出了叫价,且dA+ dB≤15,则博弈结束,并且支付如下: A得到 dA, B得到 dB,C得到-(dA+ dB)。若 dA+ dB>15,3个人都得到0.若 形成一个联盟,这次博弈结束,3个人都得0. 若某个被试者(比如说A)第一步选择等待,且另一个被试 者向他提出了一个联盟叫价,则他就进行第二步,他要么 接受要么拒绝。两种情况下,这一次博弈都结束。第一种 情况下的支付是: A得到 15-dB, B得到 dB, C得到-15.第 二种情况下,3个参与人都得0.