囚徒困境研究专题

合集下载

囚徒困境专题综述53页PPT

囚徒困境专题综述53页PPT
囚徒困境专题综述
56、极端的法规,就是极端的不公。 ——西 塞罗 57、法律一旦成为人们的需要,人们 就不再 配享受 自由了 。—— 毕达哥 拉斯 58、法律规定的惩罚不是为了私人的 利益, 而是为 了公共 的利益 ;一部 分靠有 害的强 制,一 部分靠 榜样的 效力。 ——格 老秀斯 59、假如没有 就会消 灭。— —洛克
60、人民的幸福是至高无个的法。— —西塞 罗
31、只有永远躺在泥坑里的人,才不会再掉进坑里。——黑格尔 32、希望的灯一旦熄灭,生活刹那间变成了一片黑暗。——普列姆昌德 33、希望是人生的乳母。——科策布 34、形成天才的决定因素应该是勤奋。——郭沫若 35、学到很多东西的诀窍,就是一下子不要学很多。——洛克

囚徒困境专题

囚徒困境专题
第三讲 囚徒困境专题
1
多种情景,一个思想

五一、商场
2
多种情景,一个思想


美国大选 民主党 共和党 中间策略
3
多种情景,一个思想


渔业 物种灭绝
4
囚徒困境
两个小偷甲和乙联手作案,私入民宅被警方逮 住但未获证据。警方将两人分别置于两间房间分 开审讯,政策是若一人招供但另一人未招,则招 者立即被释放,未招者判入狱10年;若二人都招 则两人各判刑8年;若两人都 不招则未获证据但因私入民宅 各拘留1年。


国家法律 梁启超:我国成文法之起源不可确指, 然以数千年之思想往往视法律与命令为 一物 国家法律措施是无效率还是高效率?
13
用法律解决“囚徒困境”
合作 合作 不合作 T,T R-X,S 不合作 S,R-X P,P
满足:X>R-T
14
公共产品(public goods)
提供 提供 不提供 4,4 5,-1 不提供 -1,5 0,0
—Newmark&Lewis公司终身低价保证
38
乍一看,这两家企业在玩命竞争, 根本不可能形成价格联盟,即使形成也 难以维持,因而它们之间似乎是在打价 格战。但是,一种潜在的侦察降低价格 行为的机制阻止了价格战的发生。 若每台录相机的批发价为150美元, 此时两家企业正以每台300美元的价格出 售。“疯狂艾迪”打算降为每台275美元, 从而将对手的顾客拉过来,如那些家住 在对手售货点附近或过去曾买过对手商 品的顾客。
19

例子 2 为什么政府要负责修建公共设施,因 为私人没有积极性出资修建公共设施
设想有两户相居为邻的农家,十分需要 有一条好路从居住地通往公路。修一条路的成 本为 4,每个农家从修好的好路上获得的好处 为 3。如果两户居民共同出资联合修路,并平 均分摊修路成本,则每户居民获得净的好处 (支付)为 3-4/2=1;当只有一户人家单独出 资修路时,修路的居民获得的支付为 3-4=-1 (亏损), “搭便车”不出资但仍然可以使 用修好的路的另一户人家获得支付3-0=3。

博弈论的囚徒困境模型

博弈论的囚徒困境模型

博弈论的囚徒困境模型引言博弈论是研究决策制定者在多方面利益冲突下进行选择的一门学科。

而囚徒困境模型是博弈论中最经典的模型之一,用于描述两个合作者之间存在利益冲突时可能出现的情况。

本文将详细介绍囚徒困境模型的基本概念、策略和解决方法,并探讨其在现实生活中的应用。

1. 囚徒困境模型的基本概念囚徒困境模型最早由美国数学家Melvin Dresher和Merrill Flood于1950年提出。

它是一个非零和博弈模型,意味着合作者之间的利益不完全一致,他们可以选择合作或背叛对方,从而获得不同的收益。

在囚徒困境模型中,通常有两名犯人被关押在不同的牢房里,无法相互沟通。

检察官给每个犯人提供了一个选择:如果两个人都保持沉默(即合作),那么他们将分别被判处较轻的刑期;如果其中一个人背叛(即不合作),而另一个人保持沉默,那么背叛者将被释放,而保持沉默者将被判处重刑;如果两个人都背叛,那么他们将各自被判处较重的刑期。

2. 囚徒困境模型的策略在囚徒困境模型中,每个犯人都有两种基本策略:合作和背叛。

根据对方的选择和自己的选择,可以得出四种不同的结果:互相合作、互相背叛、自己合作对方背叛、自己背叛对方合作。

这些结果对应着不同的收益。

为了量化这些收益,通常使用一个称为支付矩阵的工具。

支付矩阵是一个2x2的矩阵,其中每个元素表示在不同情况下每个合作者获得的收益。

在标准囚徒困境模型中,支付矩阵可以表示为:合作背叛合作R,R S,T背叛T,S P,P其中R表示互相合作时的收益,T表示自己背叛对方合作时的收益,S表示自己合作对方背叛时的收益,P表示互相背叛时的收益。

通常,R > T > P > S。

3. 囚徒困境模型的解决方法在囚徒困境模型中,每个犯人都希望获得最大的个人利益。

然而,如果两个犯人都追求个人利益,那么最终的结果将是两败俱伤。

如何选择合适的策略成为了一个关键问题。

在博弈论中,有许多不同的解决方法可以用于囚徒困境模型。

工程项目管理中的“囚徒困境”博弈研究

工程项目管理中的“囚徒困境”博弈研究

探 爨
■—广 c
磊嚣
的可能性 。其具体特征包括 : 产品的特性被普通使用者了解 的程 度比较高 ; 产品 的使用对环境的要求较低 ; 产品的质量风险对人
体健康与人身 、 财产安全产生的危害程度较轻 。 () 2 重点产品的界定及其特征 。重点产 品包括 电热毯 、 力 压 锅、 燃气热水器 、 低压 电器 、 开关 、 重要计量器 具 、 卫星电视广播 地面接收设备 、 无线广播 电视发射设备 、 安全网 、 安全帽 、 筑扣 建 件等劳动安全保障产品 、 电力铁塔 桥梁支座 、 工业产 品 、 铁路 水 工金 属结构 、 危险化学品及 其包装物 、 容器等 影响生产安 全 、 公 共安全的产品。 重点产品的安全性 能不太稳定 , 且存在对人体健
理组建项 目部 , 由项 目部组织人员进行施 工。这种情况下 , 目 项
经理在和公 司领 导博 弈时仍 有高价和低价两 种策略可供选择 。
f 5 】陈贵 松 、 秀娟 : 林 旅 游 产 品 的 分 类 、 征 及 开 发研 究 U. 黄 森 特 】 林
业 经济 问题 ( 月刊 ) 2 0 ( ) 双 ,0 3 6 .
【】 6 王艳平 : 温泉洗浴旅 游产品的分类及其 开发 方向U. ]中南林业
科 技 大 学学 报 ( 会 科 学版 ) 2 0 ( ) 社 ,07 9 .
的内部竞争机 制 ,也会大幅度地增强全体 员工的竞争意识 , 提 高企业 的业务技术水平 、 整体管理水平和竞争能力。
2 企业和项 目经理的博 弈分析 、
施 工企业在 市场上承接到工程任 务以后 , 可能会交给下设 的工程处 , 由工程 处组织人 员进行施 工 , 也可能 会指定项 目经

囚徒困境拓展实验报告

囚徒困境拓展实验报告

囚徒困境拓展实验报告1. 背景介绍囚徒困境是博弈论中的一个经典问题,讲述了两名罪犯被单独审问,被告诱供出对方的情况。

在此情景下,博弈的最优策略是什么?这个问题引发了学术界广泛的探讨,而囚徒困境拓展实验也是在此背景下展开的。

2. 实验设计为了更好地研究囚徒困境的策略选择,我们设计了一个拓展实验。

实验中参与者以角色扮演的方式,扮演囚徒和警察,通过决策和博弈来模拟真实的囚徒困境。

实验的主要内容如下:2.1 参与者分组我们招募了一百名参与者,将其以随机方式分为囚徒组和警察组。

每组各有五十名参与者。

2.2 游戏规则游戏分为五轮进行。

每个回合的游戏规则如下:- 每个囚徒对每个警察进行一次选择,可以选择合作或背叛。

- 合作表示不揭发对方,获得3分。

- 背叛表示揭发对方,获得1分。

- 如果两个囚徒都选择合作,则每个人获得2分。

- 如果一个囚徒选择背叛,而另一个选择合作,则背叛的囚徒获得5分,合作的囚徒获得0分。

2.3 统计数据在游戏进行的同时,我们记录了每一轮的参与者选择和获得分数情况。

通过统计数据,我们可以分析参与者的策略选择和博弈效果。

3. 实验结果经过五轮的游戏,我们得到了如下实验结果:3.1 囚徒组策略选择分析囚徒组中,参与者的策略选择大致分为两种:- 个体理性:有一部分囚徒参与者在前几轮中选择了背叛,以追求更高的个体收益,但在后续观察到其他囚徒普遍合作后,逐渐倾向于选择合作。

- 合作主义:另一部分囚徒参与者一直坚持选择合作,始终希望通过团队合作获得更高的总体收益。

3.2 警察组策略选择分析警察组中,参与者也有两种策略选择:- 鸽派:一部分警察参与者倾向于选择合作,希望通过与囚徒团结合作,减少犯罪行为,从而获得更好的社会效益。

- 鹰派:另一部分警察参与者更倾向于选择背叛,以对付囚徒的“欺骗”,以自身利益为出发点。

3.3 获得分数统计通过实验记录的数据,我们计算了每个参与者的平均得分。

囚徒组中,个体理性囚徒的平均得分为4.2分,合作主义者的平均得分为2.8分。

囚徒困境

囚徒困境
信息共享:双方共享信息,提高决策的准确性
合作协议:达成合作协议,明确双方的责任和义务
惩罚机制:设立惩罚机制,对背叛行为进行惩罚
01
纳什均衡:在博弈论中,纳什均衡是指一种稳定的策略组合,使得每个参与者都不会因为改变策略而获得更好的结果。
02
合作与竞争:博弈论研究如何在合作与竞争中实现最优策略,以达到最佳结果。
03
应用领域:博弈论在政治、经济、军事、管理等领域都有广泛的应用,可以帮助人们更好地理解和解决实际问题。
04
经济学
博弈论:囚徒困境是博弈论的经典案例,研究参与者在决策过程中如何达到最优解
04
囚徒困境在市场营销中的应用:分析企业在市场竞争中的策略选择和合作竞争关系
囚徒困境在博弈论中的应用:分析博弈双方在决策过程中的策略选择
囚徒困境的破解
合作策略
建立信任:通过沟通和交流,建立双方之间的信任关系
01
信息共享:共享信息,使双方都能了解对方的意图和策略
02
制定规则:制定合作规则,确保双方都能遵守并执行
演讲人
囚徒困境
囚徒困境概述
囚徒困境的破解
囚徒困境的应用
囚徒困境概述
概念解释
囚徒困境:一种博弈论模型,描述两个囚犯在无法沟通的情况下,如何进行决策以获得最佳结果。
01
囚徒困境的决策结果:如果两个囚犯都选择合作,则两人都获得较低的刑罚;如果两个囚犯都选择背叛,则两人都获得较高的刑罚;如果一个囚犯选择合作,另一个选择背叛,则选择合作的囚犯将受到最严重的惩罚,选择背叛的囚犯将获得最轻的惩罚。
市场机制:囚徒困境可以解释市场机制中的合作与竞争关系
企业战略:囚徒困境可以指导企业在市场竞争中制定战略
公共政策:囚徒困境可以应用于公共政策制定,如环境保护、税收政策等

囚徒困境的论文

囚徒困境的论文

走出“囚徒困境”囚徒困境作为博弈论中的一个经典范例,其博弈理论逐渐被经济学、哲学、伦理学、管理学等诸多学科的研究所重视,辩证的看待这一研究现象,是促进人们深入研究相关社会现象的一种特殊的思维路劲和方法。

一、囚徒困境经典案例分析囚徒困境的内容是这样的:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。

若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。

若二人都互相检举(互相“背叛”),则二人同样判监2年。

用表格概述如下:们各自都有“不坦白”和“坦白”两种可选择的策略;因为这两个囚徒被隔离开,其中任何一人在选择策略时都不可能知道另一人的选择是什么,因此不管他们决策的时间是否真正相同,我们都可以把他们的决策看作是同时做出的。

博弈的结果是:由于这两个囚徒之间不能串通,并且各人都追求自己的最大利益而不会顾及同伙的利益,双方又都不敢相信或者说指望对方有合作精神,因此只能实现对他们都不理想的结果(各判2年),并且这个结果具有必然性,很难摆脱,因此这个博弈被称为“囚徒困境”。

“囚徒困境”告诉我们,个人理性和集体理性之间存在矛盾,基于个人理性的正确选择会降低大家的福利,也就是说,基于个人利益最大化的前提下,帕累托改进得不到进行,帕累托最优得不到实现。

但是这样的分析是基于单次博弈的基础之上,而在重复的囚徒困境中,博弈会被反复的进行,因而没个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时,合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量,纳什均衡趋向于帕累托最优。

二、类似囚徒困境的经典案例分析在现实生活当中,信任与合作很少达到如此两难的境地,无论在自然界还是在人类社会,“合作”都是一种随处可见的现象。

博弈论囚徒困境案例

博弈论囚徒困境案例

博弈论囚徒困境案例博弈论囚徒困境案例引言博弈论是研究人类决策行为的一门学科,它探讨的是在多个参与者之间进行决策时,每个参与者的最优策略和最终结果。

其中,囚徒困境是博弈论中比较典型的案例之一。

一、什么是囚徒困境囚徒困境是博弈论中的一个经典问题,它描述了两个犯罪嫌疑人被捕后面临的选择问题。

如果两个嫌疑人都保持沉默,则他们都会获得轻判;如果一个人供出另一个人,则供出者将获得免罪或轻判,而另一个人则会被判重刑;如果两个人都供出对方,则他们都将被判重刑。

这种情况下,每个嫌疑人都会考虑自己的利益和对方可能做出的选择。

二、实际案例分析1. 美苏核武器竞赛美苏核武器竞赛可以看作是一个大规模的囚徒困境问题。

在20世纪50年代和60年代,美国和苏联都在积极研发核武器,这导致了一种军备竞赛的局面。

如果两个国家都不研发核武器,则两国都可以获得和平和安全;如果一个国家研发核武器而另一个国家不研发,则前者可以获得军事优势,后者则会处于劣势;如果两个国家都研发核武器,则两国都将处于危险之中。

这种情况下,每个国家都会考虑自己的利益和对方可能做出的选择。

2. 环保问题环保问题也可以看作是一个囚徒困境问题。

如果每个人都能够积极参与环保行动,那么整个社会将会受益;但是,如果有些人不愿意参与环保行动而其他人却积极参与,那么后者将付出更多的代价。

这种情况下,每个人都要考虑自己的利益和其他人可能做出的选择。

三、如何解决囚徒困境1. 合作合作是解决囚徒困境的最佳策略。

在合作的情况下,两个嫌疑人都会保持沉默,从而都能够获得轻判。

在其他的囚徒困境问题中,合作也可以带来更好的结果。

2. 威慑威慑是解决囚徒困境的另一种策略。

在威慑的情况下,一个嫌疑人会选择供出另一个人,以期望获得免罪或轻判。

这种策略需要有足够的信誉和实力来支持,否则可能会适得其反。

3. 协商协商是解决囚徒困境的另一种策略。

通过协商,两个嫌疑人可以达成共识并保持沉默,从而都能够获得轻判。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第五章囚徒困境研究专题一、囚徒困境为什么被关注?之所以囚徒困境被广泛的关注,不仅仅在于它由强大的解释力,如它可以解释企业竞争,应试教育困境,集体劳动悲剧等等,更重要的在于人们从中看到一个深刻的问题:个体理性与集体理性的冲突。

哈丁的公共地悲剧(1968)如何破解?重复进行!什么是重复博弈?重复博弈指的是参与人之间进行多次相同的博弈,每个人所得收益为每次博弈的收益之和。

注意:(1)这里的收益之和应该考虑贴现率。

(2)重复博弈分为有限次重复和无限次重复有限次重复囚徒困境博弈的特征:(1)完全但不完美信息,(2)重复。

有限次重复囚徒困境的解,每步都“不合作”为纳什均衡。

二、无限次重复囚徒困境中的策略两个参与人无限次地重复囚徒困境,每个人的收益为每次博弈所获收益之和。

在这样的博弈中因无最后一步,我们无法通过逆向归纳法来求解它。

无限次重复囚徒困境博弈及其各种策略分析:触发策略:参与人开始采取合作行动,若发现对方在某步采取“背叛”行动,参与人以后都采取背叛行动。

“永远合作”:在每个囚徒困境博弈中均采取“合作”策略二无论对方采取什么策略。

一旦采取这个策略,对方的最优策略是每步均采取“背叛”策略。

在重复囚徒困境博弈中人们通过策略的变化或偏离进行学习的。

一旦人们的合作行动的偏离——无论这样的偏离是有意还是无意的——得到额外的好处、对方遭受损失,同时这样的偏移没有被“惩罚”,人们将尝试性的进一步偏移。

我们看到,若某个参与人在重复囚徒困境中采取永远“合作”,其结果是对方将通过一步步偏移,直至永远偏离。

因此,理性人应该知道上述这个分析的结论,他不会采取这个永远合作策略。

“永远背叛”策略:在对方第一步采取合作并假定对方以后采取“一报还一报”的情况下,第一步或者某一步主动采取“背叛”的收益为:U=4+2δ+2δ2+……=4+2δ/(1-δ)U’= 3+3δ+3δ2+……=3+3δ/(1-δ)U≥U’δ≤1/2.这里,δ反映的是未来的现实价值,或者说长期利益与短期利益。

人们在教学这样的博弈以及其他博弈中都会在短期利益与长期利益之间进行权衡。

“一报还一报”策略:第一步合作,之后紧跟对方上一步策略。

一个统一的策略模型:“n报还m报”,这里n与m取值为0到无穷大。

一个成功的策略含有:“友善”:第一步“合作”。

“报复”:面对他人的“背叛”要有惩罚。

“宽容”:若他人认识到错误、从“背叛”到“合作”,参与人要给他人机会。

这里的“报复”与“宽容”反映的是对他人的策略变化要有相应的变化,不同的人“报复”与“宽容”的程度能够不同。

能否通过先“背叛”而获得高分?一旦背叛会面临对方的惩罚,因此能否得高分取决于他人的策略。

需要实验研究。

计算机模拟。

这里的策略分析针对的是固定的两个人之间进行固定重复囚徒困境博弈。

第一,如果两个人进行多个囚徒困境博弈,如何进行这样的博弈?第二,如果参与人可更换?如何进行?三、两个参与人之间进行多个囚徒困境博弈。

我们考虑两个人甲和乙进行两个重复性的囚徒困境博弈,这两个囚徒困境博弈的进行存在先后。

怎样的策略才能获得最大的收益?假定甲乙进行两个“不同的”重复的囚徒困境博弈A和B。

要说明的是,囚徒困境是一类博弈的模型,这里甲乙所进行的所谓不同的囚徒困境博弈,指的是两个这样的博弈。

此时存在很多策略,这里列出四种:第一,“极度冷酷策略”。

在A囚徒困境博弈的某个阶段,甲采取“合作”策略,而乙采取了“不合作”策略,甲的收益降低,而乙的收益增加。

甲观察到了乙的不合作策略,甲如何行动呢?甲可采取“冷酷策略”,即在与乙的该博弈中甲永远采取“不合作”策略。

甲也可采取“一报还一报”策略,即在下一步甲也将采取“不合作”,在以后的博弈阶段中,甲采取何种行动,取决于乙是否改正……然而,对于甲,这是可能的,当乙采取了“不合作”策略,甲在该博弈的余下的阶段中,将永远采取“不合作”行动,并且在与乙的“其他的囚徒困境重复博弈”中也将采取“不合作”行动。

甲此时的这种策略是极端的“冷酷”,他对乙的态度是极度的不宽容。

某个参与人与他人进行多个重复囚徒困境博弈中,因对方在某个博弈的某个阶段采取了“不合作”,他在与对方的该博弈中将永远采取“不合作”,并且在与该对方的其他囚徒困境博弈中也毫无例外地采取“不合作”。

我们将这样的策略称为“极度冷酷策略”。

极度冷酷策略是极度不宽容的。

极度冷酷策略,是冷酷策略的拓展。

第二,“一码归一码策略”。

在某个博弈的某个阶段中,乙采取“不合作”,或者由上一阶段的“不合作”转变为“合作”,此时,甲或者采取“一报还一报策略”或者“冷酷策略”,但无论是那种策略,此时乙的行动,不影响甲在与乙的其他的重复的囚徒困境博弈中的策略选择。

也就是说,在与乙的其他的重复性的囚徒困境博弈中,甲的行动,依赖于乙在该博弈中的行动以及自己的策略(“一报还一报策略”或“冷酷策略”)。

此时,甲的策略可称为“一码归一码策略”。

一码归一码策略是宽容中性的。

第三,“主博弈策略”。

博弈参与人在所有的博弈中的行动选择都根据与对方的某一特定的博弈中的策略选择而进行。

如,A博弈是主博弈,甲在A囚徒困境博弈中采取的是“冷酷策略”,一旦乙采取了“不合作”,那么甲在与乙的其他所有博弈中都将采取“不合作”,这个策略的冷酷度比极度冷酷策略要低,因为乙在其他博弈中的“不合作”不必然触发甲在主博弈A中的不合作策略;若甲在A博弈中采取的是“一报还一报策略”,甲在其他博弈中的行动依赖于乙在A博弈中的行动。

主博弈策略是一个比较差的策略,因为若你一旦采取该策略,对方在除了主博弈之外的博弈中均会采取“不合作”,主博弈之外的博弈中你的收益都将很低。

主博弈策略不如一码归一码策略,但是尽管如此,该策略简单,而一码归一码策略相对复杂,现实中的人们往往使用主博弈策略。

主博弈策略也是宽容中性的。

第四,统计策略。

若在所有博弈中对方过去“合作”次数低于某个比例,某个参与人在以后的博弈中一律采取“不合作”策略;或者若在所有博弈中对方过去采取的总的“合作”次数高于某个比例,他将一律采取“合作”策略。

这样的策略可称为“统计策略”。

统计策略是否宽容依赖于参与人对对方的“合作”或“不合作”的比例要求。

这四种策略中除了一码归一码策略外,参与人均因对方在某个博弈中的“不合作”或“合作”行动而影响另外博弈中的行动选择。

结论1:重复的囚徒困境博弈中,最优策略是一码归一码策略。

证明:某个参与人甲若不使用一码归一码策略,那么必定存在某个博弈的某个阶段,甲的行动选择依赖于其他博弈,而不依赖于对方即乙在该博弈中的行动选择。

理性的乙知道这些,他在该博弈中的该阶段将采取“不合作”,此时,乙的收益增加,而甲的收益降低。

因此,甲的策略应当是根据该博弈而不是其他博弈。

在所有的博弈中甲均应采取不依赖于其他博弈的行动而行动。

因此,最优策略是一码归一码策略在每个博弈中分别采取一报还一报策略是一码归一码策略的特例。

结论2:在重复的囚徒困境博弈中,若一报还一报策略是最优的策略安排,那么在多个重复的囚徒困境博弈中,每个博弈均采取一报还一报策略是最优的。

证明:在确定的有n个囚徒困境博弈中,参与人的收益为这n个博弈中的收益之和,若在每个重复性的囚徒困境博弈中一报还一报策略收益最大,那么在总的博弈中该参与人的总收益最大。

这个结论不是说,在与固定的博弈参与人进行多个重复性的囚徒困境博弈中,参与人在每个博弈中均采取一报还一报策略是最优的,而是说,若在每个博弈中一报还一报策略是最优策略,所有博弈中该策略之采取也是最优策略。

因为,博弈论专家只是用计算机进行比赛,一报还一报策略是胜出策略,然而它是否是最优策略并没有得到证明。

是否存在其他的比一报还一报策略还好的策略,人们不得而知。

这是本人分析出的理论上的结论。

在现实中人们并不一定能够做到这一点。

现实中人们往往是如何进行这样的博弈呢?在现实中的博弈参与人,无论是个人,还是组织(如国家),因某种原因而交恶,即在某个博弈中(不一定是囚徒困境博弈)双方永远处于斗争或不合作的状态,这种状态影响到其他领域里的博弈策略。

在其他领域里他们也采取不合作策略。

例如,两国政治上的不合作致使经济上两国也采取不合作,或者经济上的不合作导致政治上的不合作。

这其实不是一个最优选择。

四、可更换参与人的囚徒困境博弈分析进行囚徒困境的两个参与人是确定的:参与人不可选择对手进行囚徒困境博弈,更不可中途中止该博弈而与其他人重新进行该博弈若参与人能够更换与之博弈的参与人,即存在多个备选的囚徒困境博弈参与人,情况将如何?这是可能的:你与他人的博弈中突然主动使用“不合作”即背叛,你的收益将得到提高,并且你终止了与对手的博弈,而选择新的博弈参与人与其博弈,对方的“报复行动”将无法使用,即他人无法对你的不合作行为进行惩罚。

此时我们说,你使用了“永久性背叛”策略。

在与新的博弈参与人的博弈中,你如法炮制。

因你的这种策略是新的对手所不知道的,与新的对手进行博弈时,你的每次收益都会很高……在一个规模较大的群体中,并且这个群体中的绝对多数人都会采取合作策略,或在第一步都会采取合作策略,你采取这样的策略能够获得高收益,因为你能够从背叛中收益并不被惩罚。

在多个备选参与人进行博弈中,某个参与人何时选择“永久性背叛”为“耐心程度”:耐心程度最低的人,在与他人进行重复的博弈中第一次就采取“不合作”;具有一定耐心程度的人会在一定步骤之后采取“不合作”;具有最大耐心程度的人永远不采取“不合作”。

在多个备选参与人进行博弈时,某个参与人何时选择“永久性背叛”策略即他的耐心程度高低取决于:与他进行这样博弈的备选人群数量与信息沟通程度。

若备选人群数量大,并且之间的信息沟通少,他的耐心度低;其中极端情况是,人群数量无限大,或者人群数量尽管不是无限大,但足够大,并且这些人群之间没有信息沟通。

此时,即使他每次均采取不合作,都存在下一个与之博弈并采取合作的“傻瓜”。

若备选人群的人数少,或者备选人群之间的信息沟通程度高,他的耐心度将是高的。

一个极端情况,与之博弈的只有一个博弈参与人,他要顾及到若他采取“不合作”,他将面临对方的不合作行动的惩罚;若他采取“永久性背叛”,对方也将采取永久性背叛。

这便是阿克斯罗德所研究的情况,阿克斯罗德的结论是适用的。

若与之博弈的参与人即使数量比较大,若他们之间的信息沟通充分,该博弈参与人也不敢采取永久性背叛策略,因为此时若他采取永久性背叛策略,并与新的参与人进行博弈,新的参与人知道他国去的“不光彩”行为,该新的对手在第一回合的博弈中会以“不合作”而对之,即新的博弈参与人将延续原来的参与人与之进行博弈。

因此,在信息充分扩散的情况下,博弈参与人不会随意更换博弈参与人的。

4.囚徒困境与文明作为人类群体是如何走出囚徒困境的?文明体现在群体理性。

文明新理解:文明是对不断产生的集体行动悲剧与克服。

相关文档
最新文档