囚徒困境的破解

合集下载

现实中囚徒困境的实例

现实中囚徒困境的实例【实用版】目录1.囚徒困境的定义和概念2.囚徒困境在现实中的实例3.解决囚徒困境的方法和策略正文正文囚徒困境是博弈论中的一个经典模型，它描述了两个罪犯被捕后，警方分别与他们单独进行审讯。

如果两人都保持沉默，那么警方无法证明他们有罪，两人都将获得轻判；如果其中一个人供认，而另一个人保持沉默，那么沉默者将被判重刑，而另一个人则不被惩罚；如果两人都供认，则两人都将被判处较轻的刑期。

这个模型反映了在自私的情况下，合作可能导致更好的结果，而不合作则可能导致更差的结果。

尽管囚徒困境是一个抽象的模型，但在现实生活中，我们可以找到许多类似的实例。

例如，在商业竞争中，两家公司可能会陷入囚徒困境。

如果它们都降低价格，那么双方都将失去利润，但如果它们都保持高价，那么可能会有其他竞争者进入市场。

另一个例子是环境问题。

各国都知道减少排放将有利于全球环境，但如果其他国家不采取行动，那么单个国家采取行动将损害其经济。

这些实例都反映了在现实中，囚徒困境是一种常见的现象。

那么，如何解决囚徒困境呢？一种方法是通过合作。

在商业竞争中，如果两家公司可以达成协议，共同维持价格，那么双方都将受益。

在环境问题中，各国可以通过国际协议来共同减少排放。

然而，建立信任是合作面临的一个挑战。

在警方审讯的例子中，罪犯们很难相信对方会保持沉默。

因此，为了解决囚徒困境，我们需要找到方法来建立信任。

另一种方法是通过惩罚和奖励。

如果警方可以向罪犯们提供奖励，以鼓励他们保持沉默，或者制定严厉的惩罚措施，以阻止他们供认，那么囚徒困境就可以得到解决。

同样，在商业竞争中，如果一家公司可以向另一家公司提供奖励，以鼓励它们保持高价，或者制定严厉的惩罚措施，以阻止它们降低价格，那么囚徒困境也可以得到解决。

总的来说，囚徒困境在现实生活中很常见，而解决囚徒困境的方法包括合作和惩罚奖励。

第三讲囚徒困境和破解之道

分和所利（得）的部分哪个更多。（盗窃与抢劫）
特别提示：
如果有一种制度，在该制度下，每个人都只
能通过利人才能实现利己的目标，这一定是
一种好的制度。（市场的逻辑）
第六章真实世界的囚犯困境
第一节大萧条与凯恩斯革命
一、大萧条
工业产值下降物价下跌平均失业率（1929-1932）（1929-1932）（1930-1938）
美国
英国
50%
10%
30%
25%
18%
15%
德国
法国
40%
30%
30%
40%
20%
10%
第一节大萧条与凯恩斯革命
二、凯恩斯对大萧条的解释
1、消费需求不足 2、投资需求不足
3、ቤተ መጻሕፍቲ ባይዱ格刚性
第二节价格战
第三节独裁与多数人的懦弱
在美国波士顿犹太人屠杀纪念碑上，刻着德国新教牧师马丁·尼莫拉的一段忏悔：“他们先是来抓共产党人，
一、我所记忆的建国后开展的历次运动： (1)土地改革运动 (2)镇压反革命运动 (3)抗美援朝运动 (4)建国后第一次整风运动 (5)连队民主运动 (6)三查运动 (7)忠诚老实政治自觉运动 (8)清理“中层”运动 (9)民主改革运动 (10)电影《武训传》和宣传武训的批判运动 (11)三自革新学习与教会民主改革运动 (12)农业生产互助合作运动 (13)文化教育战线和各种知识分子自我教育和自我改造运动 (14)反贪污、反浪费、反官僚主义的三反运动 (15)文学艺术界整风学习运动 (16)爱国增产节约运动 ----摘录于胡甫臣《对建国后历次政治运动的认识》
对称条件下的囚犯困境
在一个2人双策略对称博弈中，如果满足以下条件：

博弈论（6）：日常生活里的「囚徒困境」，我们如何破解？

博弈论（6）：日常生活里的「囚徒困境」，我们如何破解？文/老余亚当·斯密在《国富论》中说，“当人们在追求个人利益最大化时，往往不自觉会促进社会整体福祉的增加”。

他相信看不见的手能很好的调节资源，优化配置效率。

但博弈论告诉我们，还真不一定，起码在「囚徒困境」下不一定。

怎么说？可能你已经非常熟悉囚徒困境了，为了把道理讲明白，我们一起回顾下。

（一）囚徒困境下个人追求利益最大化时，却把整体福祉推向了深渊两个小偷被警察抓了，但警察手里并没有过硬的证据，于是给了两人一组规则，正是它让两人的最优选择都是招供。

规则是这样的：•如果A招了B没招，那A算是戴罪立功，可以功过相抵立马释放，没招的B判5年；•如果两人都招了，这里就没有立功不立功的问题了，两人都判3年；•当然，两小偷心里明白警察手里没有证据，只要两人死不开口，警察也没办法，最后的结果是因证据有限，两人都只判1年。

文字表达不直观，我们将规则矩阵化后如下：矩阵边上是两人采取的行动，中间四个象限是两人行动带来的后果，我们一眼就能看出，如果把两人作为一个整体，最好的选择就是：右下角的两人都不招——这样两人都获刑一年，总数加起来才2年，而其他任何选项都会高于这个数。

但如果你就是其中之一，不考虑人情世故等因素，你真的会打死都不招吗？不是！恰恰相反，如果你是一个足够理性的人，不管对方怎么着，你的最优选择其实都是招，理由如下：•如果对方招供了，你也招就比不招好，因为你不招的话就是5年的最高刑罚，而招了的话只有3年；•如果对方没招，你招也比不招好，因为你招了就是戴罪立功直接释放了，而不招却要关一年。

这就是博弈论里的压倒性策略：——不管对手怎么做，这个策略对你来说都是最优选择。

而如果双方都是理性人，你是这么想的，对方也是这么想的，结果就是两人都选择了招供。

——你看，两个最理性的选择，却不可避免地把整体的收益推向了最差的境地（两人相加获刑6年）。

虽然不是整体最优的，但对参与其中之的个体却是最优选择，于是没有任何一方愿意单方面改变自己的策略，这就是——纳什均衡。

《囚徒困境》论文

（一）囚徒困境理论在学习和生活中，我们会遇到诸多面临决策，进退两难的问题，那么如何决策呢？不同的策略带来不同的损益，有时当博弈双方都以自己的最大利益为策略博弈时，结果相反，时双方都陷入自己所要逃避的困境，这便是囚徒困境！囚徒困境经典案例①：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。

若二人都互相检Array举（相关术语称互相“背叛”），则二人同样判监8年。

嫌疑人甲、乙双方均不知对方的策略，且都是自私利己之人。

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。

就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。

试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。

若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。

背叛是两种策略之中的支配性策略。

因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑5年。

（二）生活中的囚徒困境博弈在现实生活中不出不在。

博弈双方大到国际贸易国与国之间的竞争，小到个人与个人之间的经济交易；动物之间同样也存在博弈，甚至植物在阳关下吸收养分也存在博弈。

有竞争就有博弈，有交易就有博弈，博弈渗透到生活中的每个角落。

参与博弈的双方或多方如何采取策略，保障自己最大的利益和最小的损失；往往利益最大的也是风险最大的，一旦失败，损失也是最大的，如何决策，这便使得博弈人陷入“囚徒困境”。

博弈的囚徒困境覆盖面极广，涉及军事决策，政治手段，企业经营，市场策略，生活理财等诸多方面。

囚徒困境的推理方法基础

囚徒困境的推理方法基础
囚徒困境的解法：
一、双方达成合作协议：确保公平和正义。

合则两利，分则两伤。

在囚徒困境中，如果双方可以见面交流，达成合作，那么双方就会实现利益最大化。

这可见交流合作，达成协议，是解决囚徒困境的重要条件。

在双方达成合作协议时，一定要确保公平和正义。

不然协议纵使达成，一方不免心怀怨恨，极可能打破合作协议。

二、保证双方不变卦。

害人之心不可有，防人之心不可无。

为保证双方不变卦，双方可以寻找外部的权威人士来促成合作并守护公平。

当农民工遇到不良老板，恶意克扣及延发农民工工资，农民就会寻找劳动部门以解决纠纷。

此时，劳动部门就相当于外部的权威人士，保证了合作协议的进行。

“囚徒困境”的解决办法

一个决策过程：假如我招了, 他也作均衡实际上是陷入僵局的一种招了, 我们都坐5年牢。

我招了, 他均衡, 在这种均衡里, 双方都采取了不合作的态度, 每个人首先想到不招, 我就只坐3个月；他招了, 我的都是自己的利益, 进行的都是有不招, 我就会坐10年牢。

所以不管利于自己的选择决策, 但最后的结他招不招, 对我来说都是招了划果, 不仅没有使自己获利, 而且还算。

两个人都动了这样的脑筋, 最损害了对方的利益, 最后大家共同终都选择了招供, 结果都被判5年损失。

刑。

而原本对两人都有利的策略前些年, 我国彩电市场上, 为（抵赖）和结局（被判1年刑）则了各自利益的最大化, 每一个厂家不会出现。

都像囚徒那样进行了一番选择：我的家乡也有一个类似的故如果我降价, 我可以赢得更大的市事：两个人分别叫黑蛋和白蛋, 在场；如果我不降价, 别人降价了, 一个漆黑的夜晚要共同去装一车别人就会占领更大的市场。

因此粪。

黑蛋带了一把炭锨（加炭用不论别人怎样, 对于我来说, 降价的, 锨头不到巴掌大小）, 反正天都是最优选择。

当每一个厂家都黑看不见, 装作很卖力的样子, 每这样选择的时候, 彩电市场打起了往车上撂一锨粪, 嘴里就发出“嗨国外有一个故事：一天, 一一轮又一轮的价格战。

最后大家吆”的声音, 还把炭锨在车厢上个富翁在家中被杀, 财物被盗。

警都遭受到重大损失。

“咣”的磕一下。

白蛋也很卖力, 方在破案的过程中, 抓到两个嫌疑还有些企业, 为了利润最大嘴里使劲的同时, 车厢也发出很响犯汤姆和彼得, 并从他们的住处搜化, 降低员工待遇；而员工为了获的声音。

黑蛋暗自高兴, 并暗骂白出丢失的财物。

可他们矢口否认得高薪和自身发展, 频频跳槽, 结蛋傻瓜。

过了很长时间, 黑蛋用手曾杀过人, 于是警方将两人隔离审果双方都遭受损失。

去摸车厢, 还差很远。

后来又摸了讯, 分别对他们说, 你们的偷盗罪所以成功不是一个人的事, 几次, 车厢总不见满。

囚徒困境的论文

走出“囚徒困境”囚徒困境作为博弈论中的一个经典范例，其博弈理论逐渐被经济学、哲学、伦理学、管理学等诸多学科的研究所重视，辩证的看待这一研究现象，是促进人们深入研究相关社会现象的一种特殊的思维路劲和方法。

一、囚徒困境经典案例分析囚徒困境的内容是这样的：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检举对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。

若二人都互相检举（互相“背叛”），则二人同样判监2年。

用表格概述如下：们各自都有“不坦白”和“坦白”两种可选择的策略；因为这两个囚徒被隔离开，其中任何一人在选择策略时都不可能知道另一人的选择是什么，因此不管他们决策的时间是否真正相同，我们都可以把他们的决策看作是同时做出的。

博弈的结果是：由于这两个囚徒之间不能串通，并且各人都追求自己的最大利益而不会顾及同伙的利益，双方又都不敢相信或者说指望对方有合作精神，因此只能实现对他们都不理想的结果（各判2年），并且这个结果具有必然性，很难摆脱，因此这个博弈被称为“囚徒困境”。

“囚徒困境”告诉我们，个人理性和集体理性之间存在矛盾，基于个人理性的正确选择会降低大家的福利，也就是说，基于个人利益最大化的前提下，帕累托改进得不到进行，帕累托最优得不到实现。

但是这样的分析是基于单次博弈的基础之上，而在重复的囚徒困境中，博弈会被反复的进行，因而没个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时，合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

二、类似囚徒困境的经典案例分析在现实生活当中，信任与合作很少达到如此两难的境地，无论在自然界还是在人类社会，“合作”都是一种随处可见的现象。

囚徒困境的破解方法

囚徒困境的破解方法囚徒困境囚徒困境是博弈论的一个重要概念；意思是两个合谋犯罪的人被警察抓住，关在两个单独的牢房里，无法互相交流。

警方给了两名嫌疑人三个选择:一是两人都没有交代罪行，根据掌握的证据，各判两年；二是两人都坦白自己的罪行，根据已经掌握的证据和新坦白的罪行，可能判四年；第三，一个什么都没坦白，另一个罪犯选择背叛搭档，坦白自己的罪行。

认罪立功，当庭释放。

另一个将被判六年。

从共同利益出发，两个嫌疑人都守口如瓶，共同掩盖罪行，才是最好的结果。

他们每个人只在里面呆两年。

但从个人利益来说，你肯定是希望自己认罪，而你的同伙什么都不会告诉你，这样你就无罪释放了。

从个人角度来说，这是一个理性的选择。

但是，每个人都会这么想，都会考虑自身利益的最大化。

最终两人都供认了自己的罪行，但都没有被判无罪，加重了罪行，被判了四年。

人性是自私的；每个人都期望自己的利益最大化，但是这些追求自身利益最大化的理性选择，最终的结果是没有人获利。

对个人来说理性的决定对集体来说是不理性的。

在商业上，类似的案例比比皆是；创业，大家激情澎湃，勇往直前，企业利润蒸蒸日上。

不能长久；在利益面前，一些人开始盘算如何让自己的利益最大化。

于是，相互怯懦、荣辱与共的创业激情不再；取而代之的是团队之间的猜忌和内斗。

企业的经营也停滞不前，甚至分崩离析。

最终，短期内可能会有人的利益最大化。

但是集体利益严重受损。

长期来看，即使是那些短期可能盈利的，长期收益也会缩水甚至消失。

个人所谓的理性选择，导致集体利益的损失；如何解决囚徒困境，促使我们选择合作，在集体层面做出理性决策？密歇根大学数学心理学教授拉波波特发明了一个非常简单的策略:以眼还眼，以牙还牙。

具体来说，有两个步骤:1.一开始，选择合作。

2.在后续的沟通中，你要像他上次对待你那样对待他。

这就是所谓的“以眼还眼，以牙还牙”，用这个策略和对方互动几次之后，对方就会开始主动选择合作了，这就是囚徒困境的破解。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

囚徒困境的破解
作者：王健
来源：《商场现代化》2011年第23期
基金项目:国家社会科学基金重点资助项目(10771021);华侨大学引进人才科研启动项目(09Y0163)
[摘要] “囚徒困境”博弈反映出了人类社会中个人理性和集体理性的深层次矛盾。

在囚徒困境博弈中，合作的是以自身利益为代价来提高别人利益的行为，它的存在可以提高整个社会的福利水平。

通过基于Agent的复杂适应系统的计算机仿真，可以刻画出有学习能力和适应性的微观个体之间的互动，并进而反映出系统中合作行为的产生和发展机制。

[关键词] 博弈系统仿真复杂科学
一“囚徒困境”博弈
“囚徒困境”博弈反映了个人理性和集体理性的深层次矛盾，同时也揭示了个人理性本身的内在矛盾——从个人利益出发的行为，往往不仅不能真正实现集体利益的最大化，甚至也无法实现个人利益的最大化。

“囚徒困境”博弈对于人类行为的预测是灰暗的：在个人自由决策的市场经济中，个人利益的最大化往往会导致合作的崩溃。

如果确实如此，人类将陷入彼此为敌的霍布斯丛林而不可自拔，更无法创造出如此辉煌灿烂的文明世界。

放眼周围的世界，生产的专业化分工和对合作的高度依赖已成为现代社会的重要特征。

关于合作行为的产生机制，许多学者都进行了探讨。

其中主要的观点有群体选（Sober&Wilson, 1998）、昂贵信号理论（Zahavi, 1997; Bliege Bird et al., 2001）、驯顺性理论（Simon, 1999）、强互惠理论（Gintis, 2000; Fehr, 2002）等。

然而以上绝大多数的研究都仅仅是纯粹理论上的探讨。

而笔者认为，合作行为不仅是个体之间的行为，还涉及到由个体组成的群体之间的关系，是一个多层次、非线性和不确定性的复杂动态系统。

对此类复杂系统的研究方法目前主要有非线性动力学和计算机系统仿真，以下笔者将试图使用系统仿真的方法来解决这个问题。

二“囚徒困境”的系统仿真
为了分析社会合作水平的演化，我们使用Java语言设计了一个多人“囚徒困境”博弈的仿真模型。

在模型中我们设置了不同合作水平的策略（永远合作的策略、以10%的概率背叛的策略、以20%的概率背叛的策略……依此类推，最后是永远背叛的策略），目的在于分析不同合作水平的局中人在博弈中的收益水平。

博弈的收益矩阵如表1所示：
在本文中，T=5,R=3,P=1,S=0
1.原始模型
博弈共分为100轮，在每轮中各种策略两两配对进行“囚徒困境”博弈。

仿真结果如表2所示：
表2：原始模型中不同合作水平的局中人的平均收益
我们很容易发现，博弈中局中人的收益水平会随着合作水平的提高而降低。

2.加入TFT策略后的模型
艾克斯罗德（Axelrod, 1985）在囚徒困境博弈锦标赛中发现，多人重复“囚徒困境”博弈中，TFT策略的收益水平是最高的。

而以下我们将表明：TFT策略不但自身的收益水平较高，而且可以提高整个社会的收益水平。

不仅如此，由于TFT策略可以与善良的策略合作，同时惩罚非善良的策略，从而有助于整个社会道德水平的提高。

我们在模型中加入采用TFT策略的局中人，结果表明：随着采用TFT策略的局中人数量不断上升，整个社会的平均收益水平会不断提高，而且善良策略的收益水平会逐渐超越非善良策略的收益水平。

3.模型的动态演化
最后我们在模型中加入动态演化机制，即博弈分为n个阶段，每个阶段结束后，每种策略的局中人都以p的概率选择比他的收益水平高一个档次的策略。

对加入动态演化机制后的原始模型（n=20, p=0.5）并进行系统仿真。

程序运行的结果表明，经过20个阶段的博弈后，模型中只剩下了一种策略——“永远背叛”，此时整个社会的平均收益达到了1的最低水平。

这就是霍布斯所描述的世界——“一切人对一切人的战争”。

现在我们在模型中加入采用TFT策略的局中人。

结果表明，博弈中非善良的策略很快就被淘汰了，20个阶段过后，博弈中只剩下了TFT策略。

而且我们发现，非善良策略被淘汰的速度随着采用TFT策略局中人数量的增加而变得越来越快。

4.模型的结论
（１）如果没有惩罚机制，社会中合作与非合作的个体被同等对待。

由于合作行为的成本较高，在“逆向选择”机制的作用下，合作的个体将越来越少。

这就是所谓的“道德悖论”——道德意味着以自身利益为代价来提高别人的利益。

因此在一个社会中道德高尚的人往往处境艰难，而许多道德低劣的人却可以身居高位。

（２）惩罚机制可以有效降低非合作个体的利益水平，促进道德的建立，并提高整个社会的利益水平。

惩罚机制可以导致合作行为的产生，但在很多情况下，惩罚行为本身是需要成本的。

为了保证合作行为在演化中的遗传优势，社会中必须有一些人愿意牺牲自己的部分利益来惩罚不合作者，这就是Bowles和Gintis（2003）提出的强互惠（strong reciprocity）者。

Gintis等人（2003）认为一个群体中只要有一小部分强互惠主义者，就足以使合作行为成为一个进化稳定均衡（ESS）。

三、模型结果的启示
我们的模型表明，通过惩罚机制的引入，可以显著提高群体的合作程度和福利水平。

然而惩罚在很大程度上会降低惩罚者本身的利益，并导致“重新谈判”等情况的出现（参见Rubinstein&Wolinsky , 1992），从而给惩罚机制的实施带来困难。

政府作为社会规则的制定者，应当通过正确的政策引导达到惩恶扬善的作用，为重建社会道德履行自身的责任。

参考文献：
[1]约翰·霍兰，隐秩序[M]．上海：上海科技出版社，2000.
[2]汪丁丁，罗卫东，叶航．人类合作秩序的起源与演化[J]．社会科学战线，2005（4）
[3]罗伯特·阿克塞尔罗德．合作的进化[M]．吴坚忠译，上海：上海世纪出版集团，2007.
[4]黄少安，韦倩．合作行为与合作经济学：一个理论分析框架[J]．经济理论与经济管理，2011（2）。

[5]Bowles, Samuel and Herbert Gintis, The Moral Economy of Communities: Structured Populations and the Evolution of Pro-social Norms[J], Evolution and Human Behavior, 1998(19)。