囚徒困境论文

【摘要】“囚徒困境”模型是博弈论中的经典范例，它是 1950年Tucker提出的，其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握，成为解释生活现象的有力工具。其实“囚徒困境”是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

一、对“囚徒困境理论”的解释

“囚徒困境”是博弈论里最经典的例子之一。其中对于囚徒困境的描述：话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，甲和乙，并从他们的住处搜出被害人家中丢失的财物。但是，他们都否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。由警察分别和每个人单独谈话。警察说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你半年，但你的同伙要被判十年刑。如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判半年。但是，如果你们两人都坦白交代，那么，你们都要被判五年刑。”

囚徒甲和乙该怎么办呢？他们作为本博弈中的两个博弈方，他们

都有两个选择——坦白或抵赖。很显然，最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，根据个体理性原则，两个博弈方的目标都是要实现自身利益最大化。

对于囚徒甲来说，囚徒乙有坦白和抵赖的两种可能的选择，如果囚徒乙选的是抵赖，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益为-1，坦白的得益为-1/2；，如果囚徒乙选的是坦白，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益-10，坦白的得益为-5。因此，在本博弈中，无论囚徒乙选择何种策略，囚徒甲选择坦白给自己带来的收益是最大的；同样的，囚徒乙和囚徒甲的情况一样，因此囚徒乙的选择和囚徒甲一样。因此，该博弈的最终结果是博弈双方同选择坦白策略，同时获益-5，都判五年刑。

囚徒的困境

该理论其中的意义在于：个人理性与集体理性的矛盾，个体追求的利己行为而导致的最终结局是一个“纳什均衡”，也是对所有人都

不利的结局。这由于两人都是在选择策略时首先想到自己，因此他们必然要服长的刑期。

针对这种情况，本文从另外的角度来探讨囚徒理论。

二、囚徒困境的意义

再谈这个问题之前，我们首先要对理性人这一概念进行讨论。

西方经济学家指出，所谓的“理性人”的假设是对在经济社会中从事经济活动的所有人的基本特征的一个一般性的抽象。这个被抽象出来的基本特征就是：每一个从事经济活动的人都是利己的。也可以说，每一个从事经济活动的人所采取的经济行为都是力图以自己的最小经济代价去获得自己的最大经济利益。西方经济学家认为，在任何经济活动中，只有这样的人才是“合乎理性的人”，否则，就是非理性的人。

既然如此，“每一个从事经济活动的人所采取的经济行为都是力图以自己的最小经济代价去获得自己的最大经济利益”中间所说的经济代价和经济利益到底是怎样的经济代价和经济利益呢？是长期的还是短期的呢？因此，本文认为，我们有必要对理性人这一概念做出重新解释。本文认为，理性人是并非是纯粹的理性人，而是有道德因素，任何人在行为过程中无法撇开这一因素而展开行动。

解决了这个问题之后，本文将主要从两个方面来看：

第一种情况：

假设甲乙两个囚徒绝顶聪明，考虑问题都比较周到，颇有战略眼

观，之如孔明等，也就是说是理性的，根据个人理性的原则，囚徒甲乙根据自身利益最大的原则行事，那么在警察所提出的条件中，则会做出与囚徒理论相反的选择。原因在于囚徒甲乙分别对警察说提出的条件充分考虑过后，也就是说，对“囚徒理论”做出了分析，得出如果“坦白”将会都获得五年的徒刑的结论，那么，作为理性人的甲和乙，只有做出“抵赖”的选择才可能获得最小惩罚，即一年的徒刑，得益最大。

第二种情况：

在现实生活中，人是理性的动物，同样也是有感情的，那么在这种情况下，我们做出如下推断：

甲乙囚徒两人的关系坚如磐石，情比金坚，两人价值观都是先义后利，以义制利的思想，在此危难时刻都会作出宁可牺牲自己以成全他人的情操，比如伯夷叔齐等，此时此刻，囚犯甲乙都以使对方获益最大来作为自身利益最大化的选择。

那么，可做以下分析：

对于囚徒甲而言，囚徒乙有坦白和抵赖两种选择，如果囚徒乙坦白，因为坦白则对方获益为-5，抵赖则获益为-1/2，尽量使对方获益最大，因此囚徒甲则选择抵赖；如果囚徒乙选择抵赖，自然囚徒甲选择抵赖同样也是最佳选择，因为对方获益为-1。同样的，因为囚徒乙和囚徒甲的情况完全相同，所以选择抵赖。其最终结果为两人都是选择抵赖，获得最短时间，即一年。

囚徒甲和乙在这两种情况之下出发点尽管有所不同，但是其结果

都是达到了其利益最大化，并且在某种程度上也遵循了个体理性原则。

通过以上的分析，我们不难发现，博弈论中囚徒困境理论也有其不合理之处，大家都知道理论的重要意义在于类似的情况之下给人们社会经济生活带来指导。在经济发展中，我们应该认识到“看不见的手”还有更多内涵，有待我们去发掘。

本文主要通过对该理论的分析，从中发现对企业经营管理活动的有义启示。

第一，在市场竞争过程中，一名优秀的经营者，无论做任何决策还是考虑问题应该有战略眼观，特别是在做出对企业乃至行业今后发展的竞争策略时，从长远出发，做正确的决断。

第二，保存对手就是保存自己。在市场竞争中，让竞争对手发展就是自己发展，本着求同存异的思想，共谋发展，避免恶性竞争，避免两败俱伤的情况。

第三，市场竞争不是纯粹的竞争，在义和利之间应该如何取舍，是一位有战略眼观的企业家该做的第一个选择。

三、现实生活中的例子

1. 房地产市场的例子：不可重复的出卖

著名作家三盅在他的《杂文也疯狂》中有这样一个单篇——《泡沫中的“囚徒困境” 》。记述了2008年房地产领域的囚徒困境。

我们学习宏观经济学的时候必定会学习博弈论，学习博弈论就必定涉及“囚徒困境”模型，而我一直认为，在所有市场博弈模型中，“囚徒困境”是最为接近心理学的一个，也是最能揭示善恶的一个，更是最能体现集体智慧的一个，选择背叛还是合作，始终是它不变的主题……

我们把眼光聚焦到当前的房地产市场中来吧，一个不小的“囚徒困境”已经展现在我们眼前，首先放弃帕累托最优解决方案的是万科，可想而知，在当前的市场环境下，它预期到的博弈的纳什均衡，显然是未来困境下的房地产商之间的普遍相互背叛，也就是说，万科在这场“囚徒困境”中，之所以选择首先动手，出卖所有除它之外的房地产商，是因为它预计在这种困境中，如果不尽早出卖所有同伴，自己将面临被出卖的结局，毕竟，这是一个非零和博弈游戏，出卖行为是可以换取非常大的利益的……

在这里，我为何要刻薄地使用“出卖”二字？我们回顾一下房地产商们过去N年中所缔造出来的“攻守同盟”便可理解，我曾经因为“房地产行业是否存在暴利”及“房地产开发成本是否应该公开”的问题在第一财经频道与反方争得面红耳赤，我从来就认定房地产开发企业存在着的暴利现象（至于在当前市场环境中它是否有存在的合理性，可以阅读笔者的《解读08房地产市场》中的相关描述），而当时几乎所有的开发商都是众口一辞地否认暴利的存在，更有甚者，潘先生羞答答地把成本比喻为自家老婆的奶子，充分论证了成本不可示人是理所当然的，当然，其中也有万科的声音……如今的万科，

则践踏了自己曾经参与的“同盟”，跳出来用实际行动来证明了暴利的存在，它不仅想证明自己存在暴利，也试图揭发所有同伴的暴利，所以，我说他的行为是“出卖”……

通过出卖同伴，万科真的能够获得个体的最大利益吗？理论上说它能够获得，但在实践中，也许它最终是打错了算盘，因为在所有的实践中，“囚徒困境”式的博弈必须是在一个信息极不对称的封闭环境中产生结果，所有囚徒式的自身恐惧与“理性决策”都是被相互隔绝的，而且这种博弈是不可被重复的，而当前的市场环境已经被不止一次重演过了，这种重复博弈最终将令所有参与者脱离困境，“囚徒困境”至此被彻底打破……

另外，最关键的一条是，在这场博弈中，政府也参与其中了，他直接参与的环节在于源头，即土地的供应（租借），这将加速打破“囚徒困境”，因为与所有参与博弈者有着本质不同的是，政府是整个游戏的设计者，是囚禁规则的设计者，也是盖牢房、拆牢房的人，你很难想象一个有着政府参与其中的“囚徒困境”可以被称之为真正意义上的“困境”，再回头看万科，在所有被他出卖的所谓同伴中，正有政府的身影……我这么说也许是不严谨的，毕竟这不是一个理想状态下的“囚徒困境”，囚徒之间并没有相互隔绝，信息最起码在业内并非极度不对称，万科是否背负着某种使命，至今还不得而知……

最后，需求方同样面临“囚徒困境”，从邹涛的“不买房运动”到“万人大团购”中便可管窥一二……

房地产商乃至房地产市场若想最终走出“囚徒困境”，只有两种

可能，一是前文提到的那位最为尊贵的囚徒如何作为，囚禁自己还是大赦天下，二是所有囚徒在重复博弈的过程中明智地选择停止博弈、创建合作，在过去的几年里，他们曾经做到过，如今，也许又到了这样做的时候了，他们需要的仅仅是集体智慧，而那些已经被出卖者窃走的蛋糕，恐怕也只能暂时性地延续出卖者的生命，却最终导致其今后连做囚徒的资格也不会有了……只为两个字，“信任”！

而在此之后，也许“囚徒困境”将演变成另一种新的模型，我姑且称之为“重复博弈结果下的囚徒报复”……

2.军事或政治学例子：军备竞赛

在政治学中，两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。似乎自相矛盾的是，虽然增加军备会是两国的“理性”行为，但结果却显得“非理性”（例如会对经济造成损坏等）。这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。

3.经济学例子：关税战

两个国家，在关税上可以有以两个选择: 提高关税，以保护自己的商品。（背叛）与对方达成关税协定，降低关税以利各自商品流通。（合作）当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。

然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）

4.商业例子：广告战

商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。

两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。

此二公司可以有二选择：互相达成协议，减少广告的开支。（合作）增加广告开支，设法提升广告的质量，压倒对方。（背叛）若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。

5.自行车赛例子

自行车赛事的比赛策略也是一种博弈，而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自由车赛中有以下情况：选手们在到终点前的路程常以大队伍（英文:Peloton）方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。通常会发生这样的情况，大家起先都不愿意向前（共同背叛），这使得全体速度很慢，而后通常会有二或多位选手骑到前面，然后一段时间内互相交换

最前方位置，以分担风的阻力（共同合作），使得全体的速度有所提升，而这时如果前方的其中一人试图一直保持前方位置（背叛），其他选手以及大队伍就会赶上（共同背叛）。而通常的情况是，在最前面次数最多的选手（合作）通常会到最后被落后的选手赶上（背叛），因为后面的选手骑在前面选手的冲流之中，比较不费力。

上述例子可能显得不甚自然，但现实中，无论是人类社会或大自然都可以找到类似囚徒困境的例子，将结果划成同样的支付矩阵。社会科学中的经济学、政治学和社会学，以及自然科学的动物行动学、进化生物学等学科，都可以用囚徒困境分析，模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用，说明这种博弈的重要性。

绩效考核中的“囚徒困境”模型分析

招专业人才，上一览英才绩效考核中的“囚徒困境”模型分析在人力资源管理工作中，绩效考评是最关键的一个环节，既是对员工前期工作情况的总结，也是员工将来薪酬发放、晋级等工作的基础。没有公正、合理的绩效考评，员工的激励、薪酬等都将成为无源之水、无本之木。所以，绩效考评工作的好坏直接关系到人力资源管理工作的成效。员工的工作绩效，是指他们那些经过考评的工作行为、表现及其结果。对组织而言，绩效就是任务在数量、质量及效率等方面完成的情况;对员工个人来说，则是上级和同事对自己的评价。组织通过对员工工作绩效的考评，获得反馈信息，便可据此制定相应的人事决策与措施，调整和改进其效能。因此绩效考评作为人力资源管理工作的一项重要组成部分，历来受到人力资源工作者的重视。在绩效考评中，人力资源部门如果能获得员工及员工所在部门提供的真实可靠的原始资料，绩效考评工作就容易做到公正、合理。作为人力资源工作者，往往希望员工及用人部门能够和人力资源部门友好合作配合工作，尽可能提供客观公正的原始资料。但社会的高度现实性决定了绩效考评运作往往直接挂钩于员工的切身利益，因而，员工倾向于高估自己的工作绩效，以达到个人利益最大化。而直接上级在对本部门员工的绩效考评上，一则为了和本部门员工保持“友好关系”(因为有时主管的考评同样需要员工打分);二则为了保持本部门的良好形象，不想“家丑”外扬;三则为了避免挫伤员工的积极性，使员工永远保持一种优于其他部门的自信，所以更多的喜欢在本部门内部解决问题，不愿给人力资源部门提供真实的原始数据。如果缺乏对员工和主管在配合度上的有效监控，很可能会导致绩效考评信息失真，动摇绩效管理的信度和效度，误导整个人力资源部的绩效管理工作。最终使人力资源部应有的权力制衡作用受到削减，对企业及员工个人发展产生巨大负面影响。博弈论的出现和兴起，为我们解决绩效考评中的难题提供了一种行之有效的工具。绩效考评中的“囚徒困境”模型分析同样绩效考评本身就是一个完整的博弈论问题，博弈的双方分别是企业的员工和相应的各部门主管，博弈的对象为员工的工作绩效，而博弈的收益为人力资源部给予的最终考评结果。相应的员工和主管所采取的策略不是坦白或不坦白，而是和人力资源部门合作还是不合作。员工的合作决策指员工愿意和人力资源部门合作，愿意对自己的工作绩效做出客观的评

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境” 摘要：“囚徒困境”模型是博弈论中的经典范例，它是1950年Tucker提出的，其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握，成为解释生活现象的有力工具。其实“囚徒困境”模型随着博弈论的深入发展，具有各种不同的形式，通常分为：完全信息的静态博弈，完全信息的动态博弈，不完全信息的静态博弈及不完全信息的动态博弈四种形式。本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。关键词：博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。它的基本模型是：警察抓住了两个合伙犯罪的罪犯，由于缺乏足够的证据指证他们的罪行，所以希望这两人中至少有一人供认犯罪，就能确认罪名成立。为此警察将这两个罪犯分别关押以防止他们串供，并告诉他们警方的政策是“坦白从宽，抗拒从严”：如果两人中只有一人坦白认罪，则坦白者立即释放，而另一人则将重判5年徒刑；如果两个同时坦白认罪，则他们将各判3年监禁。当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益，第二个数字是囚徒2的得益) ：囚徒2 囚徒 1 （表1）假定两个罪犯熟悉彼此，这便是一个同时行动的完全信息静态博弈。容易看出，由于对

于每个囚徒而言，无论对方选择什么策略，坦白都是自己的最优策略，所以(坦白，坦白) 是博弈的Nash均衡。二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行，比如犯罪团伙会被警方多次审讯，日常生活中买卖会重复进行，国际间的战争此伏彼起。而且人们也发现基本博弈的重复进行并非基本博弈的简单累加，比如商业中的回头客问题。下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。首先观察“囚徒困境”的有限博弈，以T记基本博弈的重复次数。博弈重复进行所耗时间会比较长，支付的时间价值必须考虑，记r为折现因子。在有限博弈的情况下，可简化在r = l 的情况下讨论，并采用动态博弈的逆向归纳法进行研究：先分析t = T阶段两博弈方的选择，这仍然是一个基本的囚徒困境博弈，此时前一阶段的结果已成为事实，又无后续阶段，因此不难得出结论，这一阶段的结果是(坦白，坦白)，双方得益( -3 ，-3)。现在回到t = T -1阶段，理性的博弈方对于后一阶段的结局非常清楚，其结果必然是(坦白，坦白)，因此不管现阶段的博弈结果是什么，双方在本阶段以后的最终得益都是在本阶段得益的基础上各加上-3，此时的得益矩阵是：囚徒2 囚徒 1 （表2）容易看出，坦白仍是两博弈方的严格优超策略，即(坦白，坦白) 是T - 1阶段的唯一的纯Nash均衡。以此往上类推，每阶段“囚徒困境”博弈的结果都是博弈双方采用坦白，所以T次重复博弈的子博弈精炼Nash均衡是每个博弈阶段双方都采用坦白。再考虑“囚徒困境”博弈重复无数次。因为无限博弈没有最终阶段，所以不能运用逆向归纳法求解。考虑博弈双方都采用“冷酷战略”：( 1 ) 开始阶段选择抵赖；( 2 )选择抵赖直到有一方选择了坦白，为了报复对手的背叛，以后都选择坦白。假定囚徒j 严格执行上述冷酷战略，考察囚徒i 的最优策略是否为冷酷战略：如果i 在博弈的某个阶段首先选择了坦白，他在该阶段得到0，而不是-1，但他的这次背叛会遭到囚徒j的永远惩罚，因此i 在随后每个阶段的支付都是-3 。如果下列条件满足，给定j没有选择坦白，i将不会选择坦白： 22 0+r(-3)+r(3)-1+r(-1)+r(-1) -+≤+ ……，即： 31 11 r r r -≤- -- 解上述不等式得：r≥1／3 (这个条件容易满足)。就是说，如果r ≥1／3，给定j 坚持冷酷战略并且j没有首先坦白，i不会选择首先坦白。进一步假定j首先选择坦白，那么i 是否有积极性坚持冷酷战略以惩罚j的不合作行为？如果i 坚持冷酷战略，他随后每个阶段的支付是-3，但如果他选择其他战略，他在任何单一阶段的支付都不会大于-3，因此，无论r是多大，i都有积极性坚持冷酷战略。在博弈重复无数次的情况下，只要r>1／3，子博

绩效考核中囚徒困境模型分析

绩效考核中囚徒困境模型分析绩效考评作为人力资源管理工作的一项重要组成部分，历来受到人力资源工作者的重视。在绩效考评中，人力资源部门如果能获得员工及员工所在部门提供的真实可靠的原始资料，绩效考评工作就容易做到公正、合理。在人力资源管理工作中，绩效考评是最关键的一个环节，既是对员工前期工作情况的总结，也是员工将来薪酬发放、晋级等工作的基础。没有公正、合理的绩效考评，员工的激励、薪酬等都将成为无源之水、无本之木。所以，绩效考评工作的好坏直接关系到人力资源管理工作的成效。员工的工作绩效，是指他们那些经过考评的工作行为、表现及其结果。对组织而言，绩效就是任务在数量、质量及效率等方面完成的情况；对员工个人来说，则是上级和同事对自己的评价。组织通过对员工工作绩效的考评，获得反馈信息，便可据此制定相应的人事决策与措施，调整和改进其效能。因此绩效考评作为人力资源管理工作的一项重要组成部分，历来受到人力资源工作者的重视。在绩效考评中，人力资源部门如果能获得员工及员工所在部门提供的真实可靠的原始资料，绩效考评工作就容易做到公正、合理。作为人力资源工作者，往往希望员工及用人部门能够和人力资源部门友好合作配合工作，尽可能提供客观公正的原始资料。但社会的高度现实性决定了绩效考评运作往往直接挂钩于员工的切身利益，因而，员工倾向于高估自己的工作绩效，以达到个人利益最大化。而直接上级在对本部门员工的绩效考评上，一则为了和本部门员工保持“友好关系”（因为有时主管的考评同样需要员工打分）；二则为了保持本部门的良好形象，不想“家丑”外扬；三则为了避免挫伤员工的积极性，使员工永远保持一种优于其它部门的自信，所以更多的喜欢在本部门内部解决问题，不愿给人力资源部门提供真实的原始数据。如果缺乏对员工和主管在配合度上的有效监控，很可能会导致绩效考评信息失真，动摇绩效管理的信度和效度，误导整个人力资源部的绩效管理工作。最终使人力资源部应有的权力制衡作用受到削减，对企业及员工个人发展产生巨大负面影响。博弈论的出现和兴起，为我们解决绩效考评中的难题提供了一种行之有效的工具。绩效考评中的“囚徒困境”模型分析同样绩效考评本身就是一个完整的博弈论问题，博弈的双方分别是企业的员

囚徒困境案例分析

囚徒困境解说例子 1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。若二人都互相检举（相关术语称互相“背叛”），则二人同样判监8年。用表格概述如下：解说如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

囚徒困境

囚徒困境（prisoner's dilemma ）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。概念释义囚徒困境（prisoner's dilemma ）：两个被捕的囚徒之间的一种特殊博弈，说明为什么甚至在合作对双方都有利时，保持合作也是困难的。单次和多次重单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。囚徒困境的主旨囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。固定局数的囚徒困境试想像囚徒困境的情况进行十次。我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。相反，如果第一次别人保持沉默，建立了互信的关系，你也会保持沉默，导致帕累托最优。当然，两个囚徒都会有相似的想法，在第一局保持沉默，以期望建立互信关系，所以双方都会保持沉默。第二局时，双方亦应有相似的想法，继续保持沉默，以期继续在互信的情况下进行第三局，以致余下的八局。这种想法合理吗？在第十局时，互信的关系明显是没有意义的，因为十局已经完结，囚徒没有必要为维持互信的关系而沉默(没有第十一局)，所以第十局囚徒一定会背叛对方的，理由和只有一局囚徒困境一样。问题是，既然大家都知道在第十局，无论如何对方都会背叛自己的，你在第九局保持沉默也是没有意思的，要知道，保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。下一个问题是，双方都有相同的想法，明知第九局对方会背叛自己，所以第八局保持沉默也是没有意思的，第七局亦然，如此类推，纳什均衡是十局都会互相背叛，建立互信关系是没有可能的。只有在囚徒困境的局数大家都不肯定的情况下，上述的推论才不会发生，才会出现互相保持沉默的现象。经典的囚徒困境例子 1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获

生活中的囚徒困境

生活中的—“囚徒困境” 摘要：数学源自生活，生活中处处可见数学之美，博弈论—数学的一个分支，无疑在经济、军事、生物、政治等方面发挥了不可替代的作用。博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略，达到取胜的目的。所谓奕者即博者，在中国很早便存在博弈论的思想。如“世事洞明皆学问，人情练达即文章”，更有“画龙画虎难画骨，知人知面不知心”、“逢人且说三分话，未可全抛一片心。”博弈论中著名的“囚徒困境”在生活中最为真实体现，本文即从囚徒困境出发，寻找生活中“囚徒困境”的例子，如学生减负，商业之间的广告战、价格战等等，阐述了生活中的“囚徒困境”。囚徒困境—忠诚还是背叛这是一个问题经典案例：“警察与小偷的故事” 在博弈论中，一个著名例子是由塔克给出的“囚徒困境”博弈模型“警察与小偷的故事”。假设有两个小偷A 和B 联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果两个犯罪嫌疑人都坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪，各被判刑8年；如果只有一个犯罪嫌疑人坦白，另一个人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。表1给出了这个博弈的。表1 囚徒困境博弈 [Prisoner's dilemma] A ╲B 坦白抵赖坦白 -8，-8 0，-10 抵赖 -10，0 -1，-1 我们来看看这个博弈可预测的均衡是什么。对A 来说，尽管他不知道B 作何选择，但他知道无论B 选择什么，他选择“坦白”总是最优的。显然，根据对称性，B 也会选择“坦白”，结果是两人都被判刑8年。但是，倘若他们都选择“抵赖”，每人只被判刑1年。但他们都抵赖并非个人最优选择。不难看出，“坦白”是任一犯罪嫌疑人的占优战略，而（坦白，坦白）是一个占优战略均衡。生活中的“囚徒困境” 学生减负—书包越减越重学生减负的呼声在中国当代教育体制下越来越高，但结果是，辅导班越来越火、学生书包越来越重。表2将清楚的呈现学生各个选择的结果面对表2的结果，孩子和父母会做出怎样的选择呢？从“囚徒困境”中我们知道，所有的学生会选择增负而不是减负，如果所有人选择减负那么皆大欢喜，如果我选择了减负而别人选择了增负，我考试分数肯定会比别人低，那么我便不能考上好的学校接受更好的教育，在未来求职时我赶不上他人；如果我选择了增负，其他人选择减负，那我会在考试中获得优势。其他学生╲我减负增负减负所有人综合素质提高我能考好的大学，找好工作增负我的会比其他人低，考不上好的大学所有人都会拼命学习

浅谈囚徒困境与社会制度建设

中国特色社会主义理论与实践研究：浅谈囚徒困境在社会制度建设中的启示

摘要：博弈论（Game Theory），是研究既定规则下对局各方的策略选择的一门学科，属于数学的一个分支，是生物学、经济学、国际关系学、政治、军事等学科的重要分析工具。博弈论中最基本的博弈模型——囚徒困境，阐述了在参与双方在背叛和合作选择中的策略倾向，在社会各个领域，小到生活，大到国际关系，都广泛的存在。对于假定理性自私的博弈参与者，其策略倾向完全取决于博弈规则的制定，从而达到特定的平衡点。社会制度建设，是为保障和改善民生的社会建设提供相关的管理、分配制度，从而更有效地推动社会事业、维护社会秩序、建设社会和谐，充当着社会“大博弈”系统的规则制定。社会体系错综复杂，涉及群体庞大多样，难以用单一或若干个模型完全地加以精确描述。但是囚徒困境模型因其存在的普遍性，通过对囚徒模型的拓展，可以从某些侧面对社会运作的分析和社会制度建设提供一定参考价值。关键词：社会制度、社会制度建设、博弈论、囚徒困境

1、博弈论与囚徒困境模型 1.1 博弈论概述博弈论（Game Theory），主要研究公式化了的激励结构间的相互作用，是研究具有斗争或竞争性质现象的数学理论和方法，属应用数学的一个分支, 也是运筹学的一个重要学科，目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。具有竞争或对抗性质的行为成为博弈行为。在这类行为中，参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益，各方必须考虑对手的各种可能的行动方案，并力图选取对自己最为有利或最为合理的方案。比如日常生活中的下棋，打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案，以及如何找到这个合理的行为方案的数学理论和方法。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略，就是研究个体如何在错综复杂的相互影响中得出最合理的策略。事实上，博弈论正是衍生于古老的游戏或曰博弈如象棋、扑克等。数学家们将具体的问题抽象化，通过建立自完备的逻辑框架、体系研究其规律及变化。 1.2 囚徒困境模型囚徒困境模型便是博弈论中对广泛存在的具体问题中的本质规律进行的一种抽象，其广泛性表现在人们社会活动中的各个方面，对人们在合作机制下的决策制定心理做出了深刻的揭示。囚徒困境属于博弈论中的非零和博弈，反映个人最佳选择并非团体最佳选择。囚徒困境模型：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

柏拉图囚徒的困境

西方哲学史论文对柏拉图囚徒的困境的一些思考院系：应用社会科学系年级： 08级专业：哲学作者：陈宇祥学号： 2008108027

对柏拉图囚徒的困境的一些思考摘要：分别从三个角度，运用类比举例子的方法，结合个人思考对柏拉图的洞穴比喻进行浅显分析，以求对柏拉图的洞穴比喻一些暗含的具有现代意义的含义进行分析。从文学比喻角度；哲学上的认识论角度；以及人的自由问题的小小讨论，这三个方面对囚徒的困境即洞穴比喻进行分析。以求从囚徒的困境中发掘一些有益于当下的东西能出来。关键词：柏拉图；洞穴比喻；理念；囚徒；枷锁柏拉图在《理想国》的第七章中，有一段苏格拉底与格劳孔的对话，其中苏格拉底有过这样的一个比喻：有一个洞穴式的地下室，一条长长的通道通向外面，有微弱的阳光从通道里照进来。有一些囚徒从小就住在洞穴中，头颈和腿脚都被绑着，不能走动也不能转头，只能朝前看着洞穴后壁。在他们背后的上方，远远燃烧着一个火炬。在火炬和人的中间有一条隆起的道路，同时有一堵低墙。在这堵墙的后面，向着火光的地方，又有些别的人。他们手中拿着各色各样的假人或假兽，把它们高举过墙，让他们做出动作，这些人时而交谈，时而又不做声。于是，这些囚徒只能看见投射在他们面前的墙壁上的影像。他们将会把这些影像当作真实的东西，他们也会将回声当成影像所说的话。此时，假如有一个囚徒被解除了桎梏，被迫突然站起来，可以转头环视，他现在就可以看见事物本身了，那么他会觉得那个现象更真实呢？是以前墙壁上的影像，还是现在的真实的图景？或者他对现在看到的图景产生怀疑而以为是在做梦呢？而接着假如有人把他从洞穴中带出来，走到阳光下面，当他看见了大千世界的美景，他是否会真正的“醒来”，回身去解救他的那些同伴呢？而如果同伴们不相信他，会不会把他当疯子处理掉呢？洞穴比喻（以下简称为“洞喻“）是柏拉图在《理想国》中的一个重要的比喻，总的来说，这个隐喻有两个层次，一层是洞内的影像，一层是洞外的真实。我认为可以从三个角度去思考：1昏睡与呐喊；2假象与真实；3局限与超越。一、昏睡与呐喊在《理想国》中洞喻是以一种对话式的文学性语言叙述的，只要是文学性的语言就会产生一种不确定性。所谓的“有一千个读者就会有一千个哈姆雷特“就是指这种文学上的不确定性。在帕拉图的那个时代好像还没有比较严密逻辑言语论证，这一柏拉图哲学论述上的缺陷有亚里士多德后来的逻辑学所弥补。柏拉图这种文学性的语言一来给后人留下了很大的空间去阐发他的思想，二来也造成了后人难于理解柏拉图当时想要真正的表达的准确的思想，也就使后人在理解柏拉图洞喻上，产生比较大的难度。真正的柏拉图思想被蒙上了一层美丽的面纱。洞喻是一个隐喻，柏拉图想要给昏睡的世人一种振聋发聩的警醒。当时历史背景是由于柏拉图对雅典民主政治的失望，对苏格拉底的死的愤怒，对僭主政治的不满，从而产生一些内心消极的失望情绪，正是由于这种对现实政治制度的不满，才使柏拉图努力在《理想国》中去建构一个“哲学王”乌托邦式的社会。正是由于对那些判处苏格拉底死刑的不分是非的雅典公民的不满和对没落的民主制度的不满，柏拉图曾经说它是最坏的制度。从使他而产生出一种唤醒世人的愿望。这个是从当时柏拉图的历史背景上分析，逻辑上是不矛盾的。那么柏拉图想要传达的是否就是像鲁迅的铁屋子比喻想要传达的一样，鲁迅是在境况更复杂的时代背景下发出铁屋中的呐喊（⒈）的，他原文是：“假如一间铁屋子，是绝无窗户而万难破毁的，里面有许多熟睡的人们，不

囚徒困境博弈的行为博弈均衡分析

囚徒困境博弈的行为博弈均衡分析 Christopher Stephens: Modelling Reciprocal Altruism, The British Journal for the Philosophy of Science, vol.47, No.4, 1996, pp.533-551. 互动利他主义建模 1、利他主义困惑与标准模型 The altruism puzzle and the standard model 在一个囚徒困境博弈中，每个博弈者都有两种可能选择：背叛（Defect）或合作（Cooperate），可一般表示为：囚徒困境博弈要求两个主要条件：（1）Y>W>Z>X（命令条件，The ordering condition）；（2）(Y+X)<2W（反利用条件，The anti-exploitation condition）尽管“背叛”策略是一次性博弈中每个博弈者的优超选择，但相互合作却比相互背叛要好。 2、利他主义的非正式条件 Informal condition for reciprocal altruism 3、对反利用条件的Axelrod证明的批评 Criticism of Axelrod’s justification of the anti-exploitation condition 4、相互利他主义的一组正式模型 A menu of formal models of reciprocal altruism 5、对于guppies、baboons和bats模型的互动利他主义建模 Modelling reciprocal altruism in guppies, baboons, and bats （1）建模guppies的同时合作

博弈论中经典案例--“囚徒困境”

博弈论中经典案例--“囚徒困境” 博弈论中有一个经典案例囚徒困境” 。两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年;若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱十年;若互相揭发，则因证据确实，二者都判刑八年。由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。囚犯可以做出如下选择：1、供出他的同伙（即与警察合作，从而背叛他的同伙），2、保持沉默（也就是与他的同伙合作，而不是与警察合作）。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。 A 犯不是个傻子，他马上意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A 犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A 犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就

经典的囚徒困境

经典的囚徒困境 1950年，由就職於兰德公司的梅里尔·弗勒德（Merrill Flood）和梅爾文·德雷希爾（Melvin Dresher）擬定出相關困境的理論，後來由顧問艾伯特·塔克（Albert Tucker）以囚徒方式阐述，並命名为「囚徒困境」。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但沒有足够证据指控二人入罪。於是警方分开囚禁嫌疑犯，分别和二人见面，并向雙方提供以下相同的选择： ?若一人認罪並作证检控對方（相關術語稱「背叛」對方），而對方保持沉默，此人将即時獲释，沉默者将判監10年。 ?若二人都保持沉默（相關術語稱互相「合作」），则二人同樣判监半年。 ?若二人都互相检举（互相「背叛」），則二人同樣判監2年。用表格概述如下：解說如同博弈論的其他例證，囚徒困境假定每個參與者（即「囚徒」）都是利己的，即都尋求最大自身利益，而不關心另一參與者的利益。參與者某一策略所得利益，如果在任何情況下都比其他策略要低的話，

此策略稱為「嚴格劣勢」，理性的參與者絕不會選擇。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底應該選擇哪一項策略，才能將自己個人的刑期縮至最短？兩名囚徒由於隔絕監禁，並不知道對方选择；而即使他们能交谈，還是未必能夠盡信對方不會反口。就個人的理性選擇而言，檢舉背叛對方所得刑期，總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇： ?若對方沉默、我背叛會讓我獲釋，所以會選擇背叛。 ?若對方背叛指控我，我也要指控對方才能得到較低的刑期，所以也是會選擇背叛。二人面對的情況一樣，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是兩種策略之中的支配性策略。因此，这場博弈中唯一可能达到的纳什均衡，就是雙方参与者都背叛對方，結果二人同樣服刑2年。这場博弈的纳什均衡，顯然不是顧及團體利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，兩人都只會被判刑半年，总体利益更高，結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設，二人均為理性的個人，且只追求自己個人利益。均衡狀況會是兩個囚徒都选择背叛，结果二人判监均比合作為

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展发表于：分类：未分类博弈论（）对人的基本假定是：人是理性的（，或者说自私的）,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。 “囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白则因证据不足各判１年。在这个例子里，博弈的参加者就是两个嫌疑犯Ａ和Ｂ，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的结果。Ａ和Ｂ均坦白是这个博弈的纳什均衡。这是因为，假定Ａ选择坦白的话，Ｂ最好是选择坦白，因为Ｂ坦白判８年而抵赖却要判十年；假定Ａ选择抵赖的话，Ｂ最好还是选择坦白，因为Ｂ坦白判不被判刑而抵赖确要被判刑１年。即是说，不管Ａ坦白或抵赖，Ｂ的最佳选择都是坦白。反过来，同样地，不管Ｂ是坦白还是抵赖，Ａ的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑８年。在（坦白、坦白）这个组合中，Ａ和Ｂ都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果Ａ和Ｂ都选择抵赖，各判刑１年，显然比都选择坦白各判刑８年好得多。当然，Ａ和Ｂ可以在被警察抓到之前订立一个"攻守同盟"，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。在经济学方面的实例: 一．电信价格竞争根据我国电信业的实际情况，我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商与, 他们在电信某一领域展开竞争，一开始的价格都是。（中国电信）是老牌企业，实力雄厚，占据了绝大多数的市场份额；（中国联通）则刚刚成立不久，翅膀还没有长硬，是政府为了打破垄断鼓励竞争而筹建起来的。正因为是政府扶植起来鼓励竞争的，所以得到了政府的一些优惠，其中就有的价格可以比低％。这一举动，还不会对产生多大的影响，因为的根基实在是太牢固了。在这样的市场分配下，、可以达到平衡，但由于在价格方面的优势，市场份额逐步壮大，到了一定程度，对造成了影响。这时候，该怎么做？不妨假定：降价而维持，则获利，损失，整体获利；维持且也维持，则获利，获利，整体获利；维持而降价，则损失，获利，整体获利；降价且也降价，则损失，损失，整体损失。

人生法则——囚徒困境

人生法则 ——囚徒困境一些非常重要的社会规律和生活法则，隐藏在复杂的社会现象之中。掌握它们，会帮你发现事物真相，更深刻地认识社会和人性；合理运用它们，许多复杂和疑难问题会迎刃而解。结果最差的博弈在欧洲的某个城市，有段时间接连发生大的纵火案，警察抓住了两个犯罪嫌疑人。事实上，正是这两个人出于仇视社会的变态心理才纵的火，但是警方没有充分的证据起诉他们。于是，警方就将二人隔离开，要求他们承认罪行，并给他们三种选择：如果他们都承认纵火，每人将判3年；如果一个抵赖，一个坦白并愿意出庭作证，那么抵赖者将被判5年，坦白者将被宽大释放，还会获得数目不小的奖金，这笔奖金由抵赖者出；但如果两个人都抵赖，就会由于证据不足，每人都将被判1年。但凡具有理性的参与者都可以计算出来：合作肯定比不合作好。但是由于二人没有沟通的机会，于是，两个人之间出现了博弈。博弈的结果是：各人都追求自己的利益最大化而不顾及同伙的利益，双方都不敢相信或者说指望对方有合作精神，因此只能实现对他们都不理想的结果（各判3年）。这两个囚徒可以说是进行了一场最差劲的博弈，所以双方才不可避免地陷入了囚徒困境之中。

在现实生活中，处处都有囚徒困境： *两个小朋友之间存在让步使对方分享自己玩具的博弈。 *男女之间谈恋爱存在谁先表白的博弈。 *公共走廊卫生的维持存在不扔垃圾和扔垃圾的博弈。 *老板与下属之间存在信任还是不信任的博弈。 *生意伙伴的合作存在守信和不守信的博弈。 *竞争对手之间存在降价和不降价的博弈。 *国家间存在是要和平还是要战争的博弈。虽然初始时，博弈双方都想达成理想的结果，但是由于各自的自私本性，却致使博弈通常都以最坏的结果收场。生活中，不愿意和别人分享的小朋友觉得越来越没意思；彼此暗恋的青年男女天各一方；公共走廊难以找到落足之地。商场上，不信任下属的老板事必躬亲，结果丧失了许多业务机会；商人们因为缺少必要的诚信，结果没有做成任何买卖；商家竞相让价，利润越来越少。国际间，仍然是战火不断。通过囚徒困境，我们可以得出下面这些结论和判断： *陷入囚徒困境的双方，之所以会发生博弈，是因为他们不能互通信息。 *人都是极端的利己主义者，往往都会首先关心自己的利益，会以己之心度彼之腹。

囚徒困境(博弈论的经典案例)

囚徒困境（博弈论的经典案例）学习管理学或经济学的人一定都了解一些博弈论方面的知识。在博弈论中有一个经典案例--囚徒困境，非常耐人回味。囚徒困境，说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。----那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子，他马上

意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。当然，在现实世界里，信任与合作很少达到如此两难的境地。谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。但囚徒的两难境地确实抓住了不信任和需要相互防范背叛这种真实的一面。让我们看看冷战时期两个超级大国将自己锁定在一场40年的军备竞赛中，其结果对双方都毫无益处。还有各国的贸易保护主义的永恒倾向。----但是，无论在自然界还是在人类社会，合作都是一种随处可见的现象。那么，问题就出现了：到底是何种机制促使生物体或者人类进行相互合作呢？----这个问题的答案大部分归功于美国密西根大学一位叫做罗伯特·爱克斯罗德的人。爱克斯罗德是一个政治科学家，对合作的问题久有研究兴趣。为了进行关于合作的研究，他组织了一

囚徒困境的生活实例分析教学资料

囚徒困境的生活实例分析

囚徒困境的生活实例分析中南财经政法大学工商管理学院博弈论对人的基本假定是：人是理性的,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。 “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白则因证据不足各判１年。问题可以总结为：在这个例子里，博弈的参加者就是两个嫌疑犯Ａ和Ｂ，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的结果。Ａ和Ｂ均坦白是这个博弈的纳什均衡。这是因为，假定Ａ选择坦白的话，Ｂ最好是选择坦白，因为Ｂ坦白判８年而抵赖却要判十年；假定Ａ选择抵赖的话，Ｂ最好还是选择坦白，因为Ｂ坦白判不被判刑而抵赖确要被判刑１年。即是说，不管Ａ坦白或抵赖，Ｂ的最佳选择都是坦白。反过来，同样地，不管Ｂ是坦白还是抵赖，Ａ的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑８年。在（坦白、坦白）这个组合中，Ａ和Ｂ都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果Ａ和Ｂ都选择抵赖，

各判刑１年，显然比都选择坦白各判刑８年好得多。当然，Ａ和Ｂ可以在被警察抓到之前订立一个"攻守同盟"，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。从自私自利的角度出发，选择认罪是最好的这种说法是有缺陷的，因为两个人都可能会得到8年的监禁期。即使是最狡猾的方法也不能把你救出监狱。但是如果你期望你的同伙与你合作，那你最好的选择将是认罪。然而，如果你的同伙知道了你的计划，他也会认罪，此时最好的方法是你们两个合作。这就是这个悖论的关键所在。如果从整体来看，对于两个囚犯而言，最好的结果是两人合作，其它的任何选择都是不好的。实例分析 1：一．电信价格竞争根据我国电信业的实际情况，我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争，一开始的价格都是P0。A（中国电信）是老牌企业，实力雄厚，占据了绝大多数的市场份额；B（中国联通）则刚刚成立不久，翅膀还没有长硬，是政府为了打破垄断鼓励竞争而筹建起来的。正因为B是政府扶植起来鼓励竞争的，所以B得到了政府的一些优惠，其中就有B的价格可以比P0低 10％。这一举动，还不会对A产生多大的影响，因为A的根基实在是太牢固了。在这样的市场分配下，A、B可以达到平衡，但由于B在价格方面的优势，市场份额逐步壮大，到了一定程度，对A造成了影响。这时候，A该怎么做？不妨假定： A降价而B维持，则A获利15，B损失5，整体获利 10；

第四卷囚徒困境案例

第四卷囚徒困境案例 “囚徒困境”案例说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。 1 在博弈论中有一个经典的广泛流传的案例--囚徒困境案例，这个博弈案例非常耐人寻味。 “囚徒困境”案例说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。现在有两个囚犯，他们分别是A和B,囚犯A不是个傻子，他马上意识到，他根本无法相信他的同伙B不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但囚犯B也意识到，他的同伙A也不是傻子，也会这样来设想他。所以两个囚犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，囚犯A反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。

囚徒困境理论

囚徒困境理论 Prepared on 22 November 2020

论“囚徒困境理论” “囚徒困境”是博弈论里最经典的例子之一。其中对于囚徒困境的描述：话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，甲和乙，并从他们的住处搜出被害人家中丢失的财物。但是，他们都否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。由警察分别和每个人单独谈话。警察说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你半年的***，但你的同伙要被判十年刑。如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判半年的***。但是，如果你们两人都坦白交代，那么，你们都要被判五年刑。” 囚徒甲和乙该怎么办呢他们作为本博弈中的两个博弈方，他们都有两个选择——坦白或抵赖。很显然，最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，根据个体理性原则，两个博弈方的目标都是要实现自身利益最大化。对于囚徒甲来说，囚徒乙有坦白和抵赖的两种可能的选择，如果囚徒乙选的是抵赖，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益为-1，坦白的得益为-1/2；，如果囚徒乙选的是坦白，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益-10，坦白的得益为-5。因此，在本博弈中，无论囚徒乙选择何种策略，囚徒甲选择坦白给自己带来的收益是最大的；同样的，囚徒乙和囚徒甲的情况一样，因此囚徒乙的选择和囚徒甲一样。因此，该博弈的最终结果是博弈双方同选择坦白策略，同时获益-5，都判五年刑。