囚徒困境

囚徒困境(Prisoner's dilemma)

?1 囚徒困境简介

?2 经典的囚徒困境

?3 一般形式

?4 囚徒困境的应用

?5 现实的例子

?5.1 政治学例子：军备竞赛

?5.2 经济学例子：关税战

?5.3 商业例子：广告战

?5.4 自行车赛例子

?6 与囚徒困境相关的各事件?6.1 异想

?6.2 “认罪减刑”不可行

?6.3 公用品悲剧

?7 重复的囚徒困境?7.1 学习心理学和博弈论

囚徒困境简介

囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特·塔克（Albert tucker）1950年提出来的。他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论，这个故事后来成为博弈论中最著名的案例。故事内容是：两个嫌疑犯(A和B)作案后被警察抓住，隔离审讯；警方的政策是“坦白从宽，抗拒从严”，如果两人都坦白则各判8 年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判10年；如果都不坦白则因证据不足各判1年。

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

囚徒困境的主旨为，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

经典的囚徒困境

1950年，由就职于兰德公司的梅里尔·弗拉德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问阿尔伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

●若一人认罪并作证检举对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，

沉默者将判监10年。

●若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。

●若二人都互相检举（互相“背叛”），则二人同样判监2年。

用表格概述如下：

甲沉默（合作）甲认罪（背叛）

甲即时获释；乙服刑10

乙沉默（合作）二人同服刑半年

年

甲服刑10年；乙即时获

二人同服刑2年

乙认罪（背叛）

释

如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势策略”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：●若对方沉默、背叛会让我获释，所以会选择背叛。

●若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。

这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

由囚徒困境可以写出类似的员工困境：

一名经理，数名员工; 前提，经理比较苛刻;如果所有员工都听从经理吩咐，则奖金等待遇一样，不过所有人都超负荷工作如果某人不听从吩咐，其他人听从吩咐，则此人下岗。其他人继续工作如果所有人都不听从经理吩咐，则经理下岗但是，由于员工之间信息是不透明的，而且，都担心别人听话自己不听话而下岗，所以，大家只能继续繁重的工作。

一般形式

整理囚徒困境的基本博弈结构，可更清楚地分析囚徒困境。实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例：

有两个参与者和一个庄家。参与者每人有一式两张卡片，各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下，放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后，庄家翻开两个参与者卡片，根据以下规则支付利益：

?一人背叛、一人合作：背叛者得5分（背叛诱惑），

合作者0分（受骗支付）。

?二人都合作：各得3分（合作报酬）。

?二人都背叛：各得1分（背叛惩罚）。

用支付矩阵表格展示支付如下（以红和蓝分别表示二参与者）：

一般形式囚徒困境的支付矩阵

合作背叛合作3, 30, 5

背叛5, 01, 1以“T、R、P、S”符号表示

合作背叛

合作R, R S, T

背叛T, S P, P

以“胜－负”术语表示

合作背叛

合作胜-胜大负-大胜

背叛大胜-大负负-负

简单博弈获得的点数可以得出一些一般化的结论。

T、R、P、S符号表

符号分数英文中文（非术语）解释

T 5 Temptation 背叛诱惑单独背叛成功所得。

R 3 Reward 合作报酬共同合作所得

P 1 Punishment 背叛惩罚共同背叛所得

S 0 Suckers 受骗支付被单独背叛所获

若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式。

T>R>P>S

（解：从5>3>1>0获得以上不等式）

若以整体获分而言，将得出以下不等式。

2R>T+S或2R>2P

（解：2×3>5+0或2×3>2x1；合作2人共得6分，比起互相背叛的共得2分及单独背叛的共得5分，显然合作获分比背叛高。合作在团体而言是支配性策略。）

而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。以上理论是道格拉斯·霍夫施塔特创建的

囚徒困境的应用

许多行业的价格竞争都是典型的囚徒困境现象，每家企业都以对方为敌手，只关心自己的利益。在价格博弈中，只要以对方为敌手，那么不管对方的决策怎样，自己总是以为采取低价策略会占便宜，这就促使双方都采取低价策略。如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。

在国内的家电大战中，虽然不是两个对手之间的博弈，但由于在众多对手当中每一方的市场份额都很大，每一个主体人的行为后果受对手行为的影响都很大，因此，其情景大概也是如此。如果清楚这种前景，双方勾结或合作起来，都制定比较高的价格，那么双方都可以因为避免价格大战而获得较高的利润。但是往往这些联盟处于利益驱动的“囚徒困境”，双赢也就成泡影。五花八门的价格联盟总是非常短命，道理就在这里。

并不是每次个人的“理性选择”都能让自我利益最大化，也许会让你陷入一个“囚徒困境”。大量例子说明，在“囚徒困境”中，常常是先动手的一方会占一些优势。那么，“先下手为强”吧。

现实的例子

现实中，无论是人类社会或大自然都可以找到类似囚徒困境的例子，将结果划成同样的支付矩阵。社会科学中的经济学、政治学和社会学，以及自然科学的动物行动学、进化生物学等学科，都可以用囚徒困境分析，模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用，说明这种博弈的重要性。以下为各界例子：

政治学例子：军备竞赛

在政治学中，两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。似乎自相矛盾的是，虽然增加军备会是两国的「理性」行为，但结果却显得「非理性」（例如会对经济造成都有损坏等）。这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。

经济学例子：关税战

两个国家，在关税上可以有以两个选择:

1. 提高关税，以保护自己的商品。（背叛）

2. 与对方达成关税协定，降低关税以利各自商品流通。

（合作）

当一国因某些因素不遵守关税协定，而独自提高关税（背叛）时，另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）

商业例子：广告战

商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。

两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。

此二公司可以有二选择：

1. 互相达成协议，减少广告的开支。（合作）

2. 增加广告开支，设法提升广告的质量，压倒对方。

（背叛）

若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。

自行车赛例子

自行车赛事的比赛策略也是一种博弈，而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自由车赛中有以下情况：选手们在到终点前的路程常以大队伍（英文:Peloton）方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。通常会发生这样的情况，大家起先都不愿意向前（共同背叛），这使得全体速度很慢，而后通常会有二或多位选手骑到前面，然后一段时间内互相交换最前方位置，以分担风的阻力（共同合作），使得全体的速度有所提升，而这时如果前方的其中一人试图一直保持前方位置（背叛），其他选手以及大队伍就会赶上（共同背叛）。而通常的情况是，在最前面次数最多的选手（合作）到最后通常会被落后的选手赶上（背叛），因为后面的选手骑在前面选手的冲流之中，比较不费力。

与囚徒困境相关的各事

异想

威廉·庞德斯通（William Poundstone）在他的著作中，以一新西兰的例子来说明囚徒困境。在新西兰，报亭既无管理员也不上锁，买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱（背叛），但由于大家认识到如果每个人都偷窃报纸（共同背叛）会造成以后不方便的有害结果，这种情形很少发生。这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。并没有任何人特别去注意报亭，人们守规则是为了避免共同背叛带来的恶果。这种避免囚徒困境的大家共同的推理或想法被称为“异想（magical thinking）”。

“认罪减刑”不可行

囚徒困境的结论是许多国家中认罪减刑（英文：plea bargain）被禁止的原因之一。囚徒困境带来的结论是：如果有二个罪犯，其中一人犯罪而另外一人是无辜的，犯罪者会为了减刑坦白一切甚至冤枉清白者（单独背叛）。最糟糕的情况是，如果他们二人都被判入狱，坦白的犯罪者刑期少，坚持无罪的冤枉者刑期反而更多。

公用品悲剧

现实的博弈参与者不只一方，会有多方参与的囚徒困境。加勒特·詹姆斯·哈丁（Garrett James Hardin）的公用品悲剧就是一例：“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”，例如渔业，公海中的鱼是属于公共的，而在本身不滥捕其他人也滥捕的思想下，渔民会没有节制的大捞特捞，结果海洋生态破坏，渔民的生计也受影响（共同背叛的结果）。但是，多方囚徒困境的提法有待商榷，因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境，没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。

重复的囚徒困境

罗伯特·阿克塞尔罗德在其著作《合作的进化》中，探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”（IPD）。在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的对抗、宽恕的能力等等。

阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他主义”策略更多地被采用。他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来。

最佳确定性策略被认为是“以牙还牙”，这是阿纳托尔·拉波波特（Anatol Rapoport）开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的，只包含了四行BASIC语言，并且赢得了比赛。这个策略只不过是在重复博弈的开头合作，然后，采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛，在下一回合中你无论如何要以小概率（大约是1%-5%）时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时，“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手：你合作但是你的对手听说你背叛了。

通过分析高分策略，阿克塞尔罗德指定了策略获得成功的几个必要条件。

;友善:最重要的条件是策略必须“友善”，这就是说，不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手。

报复

但是，阿克斯洛德主张，成功的策略必须不是一

个盲目乐观者。要始终报复。一个非报复策略的

例子是始终合作。这是一个非常糟糕的选择，因

为“下流”策略将残酷地剥削这样的傻瓜。

宽恕

成功策略的另一个品质是必须要宽恕。虽然它们

不报复，但是如果对手不继续背叛，它们会一再

退却到合作。这停止了报复和反报复的长期进

行，最大化了得分点数。

不嫉妒

最后一个品质是不嫉妒，就是说不去争取得到高

于对手的分数（对于“友善”的策略来说这也是不

可能的，也就是说“友善”的策略永远无法得到高

于对手的分数）。

因此，阿克塞尔罗德得到一种给人以乌托邦印象的结论，认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一，是友善的家伙能先完成交易。

重新考虑囚徒困境中给定的军备竞赛模型：结论是，只是理性策略增进了军事力量，似乎两个国家都宁可花费其GDP在枪炮而不是黄油上。有趣的是，企图说明对抗国家实际上以这种方式（在“重复囚徒困境假定”下的不同时期，军费支出在“高”和“低”之间反复）竞赛的尝试，却经常表明假定的军备竞赛并没有如预想的那样出现。（例如希腊人和土耳其人的军费支出，看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛，却更可能是被其国内的政策所驱使。）这可能是一次性博弈和重复性博弈中的理性行为不同的例子。

对一次性囚徒困境博弈来说，最佳（点数最大化的）策略是简单地背叛；正如前面解释的，无论对手的行动可能是什么，这都是真实的。但是，在重复的囚徒困境博弈中，最佳策略依赖于可能的对手的策略，和他们怎样对背叛和合作作出反应。例如，考虑这样一个人群，那里每个人每次都背叛，除了一个人是遵循以牙还牙策略。这个人处于一种轻微的不利地位，因为第一回合的损失。在这样的人群中，对这个人来说最佳策略就是每次都背叛。在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中，对个人来说的最佳策略依赖于这个百分比和博弈的长度。

一般有两种方法得到最佳策略：

1. 贝叶斯纳什均衡：如果对抗策略的统计分布能被确

定（例如，50％以牙还牙，50％一直合作），就能

从数学上获得最佳的相对策略。

2. 已经有了人群的蒙特卡罗模拟，在这里低分个人消

失了，高分个人一再被生产出来（一种获得最佳策

略的天才算法）。决赛人群中的算法合成通常依赖

于初赛人群中的算法合成。

尽管以牙还牙始终被认为是最可靠的基本策略，但是在重复囚徒困境的20周年纪念赛中，来英国南安普敦大学的一个小组（由尼古拉斯·詹宁斯（Nicholas Jennings）领导，包括了拉蒂普·达什（Rajdeep Dash）、萨瓦帕里·拉姆琼（Sarvapali Ramchurn）、亚历克斯·罗杰斯（Alex Rogers）和皮鲁克里士南·维特林根（Perukrishnen Vytelingum））介绍了一个新的策略，这个策略证明了它比以牙还牙更成功。这个策略依赖于程序之间的合作，为单一程序中获得了最高的点数。南安普敦大学提交了60个程序参与竞赛，这些程序的开头被设计成通过一组5到10个的动作去彼此识别。一旦这些识别被作出，一个程序将总是合作，其他程序则总是背叛，保证背叛者得到最大的点数。如果程序识别出它在操作一个非南安普敦参与者，这程序将持续地背叛，企图去最小化竞争程序的得分。结果，这个策略以获得前3位结束了竞赛，也得到了大量接近底部的位置。虽然这个策略显着地证明了比以牙还牙有效，但是这是因为利用了下述事实：在这个特殊的竞赛中，多重通道是被允许的。在一方只能控制单一参与者的竞赛中，以牙还牙确实是更好的策略。

如果重复囚徒困境将被精确地重复N次，已知N是一个常数，那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛，既然你的对手将没有机会惩罚你。因此，你们都将在最后的回合背叛。这时，你可以在倒数第二回合中背叛，既然最后一回无论你做什么，你的对手都将背叛。依此类推。为了合作以保持请求，这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是无法确定的长度。

另一个单独的案例是“永不停止”的囚徒困境。这个博弈被重复很多次，而且你的分数是一个平均数（当然是用计算机计算的）。

囚徒困境博弈是某些人类合作和信任理论的基础。假定囚徒困境能够模拟需要信任的两人之间的交流，群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟。这从而引起了许许多多学者经久不衰的兴趣。1975年，格罗夫曼（Grofman）和普尔（Pool）估计，致力于这方面研究的学术文章，数量超过2000篇。

学习心理学和博弈论

当博弈参与者能学会估计其他参与者背叛的可能性，他们自身的行为就为他们关于其他人的经验所影响。简单的统计显示，总体上，缺乏经验的参与者与其他参与者的互动，或者是典型的好，或者是典型的坏。如果他们在这些经验的基础上行动，（通过更多的背叛或合作，否则）他们可能在未来的交易中受损。随着经验逐渐丰富，他们获得了对背叛可能性的更真实的印象，变得更成功地参与博弈。不成熟的参与者经历的早期交易对他们未来参与的影响，可能比这些交易

对成熟的参与者的影响要大得多。这个原理部分地解释了，为什么年轻人的成长经验这么具有影响力，以及为什么他们特别容易被欺负，有时他们本身最后也成为欺凌弱小者。

群体中背叛的可能性，可以被合作的经验所削弱，因为先前的博弈建立了信任。因此自我牺牲行为可以，例如，加强团体的道德品质。如果团体很小，积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈。这与相似的困境有关：鼓励那些你将援助的人，从可能使他们处于危险的境地的行为中得到满足。这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境” 摘要：“囚徒困境”模型是博弈论中的经典范例，它是1950年Tucker提出的，其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握，成为解释生活现象的有力工具。其实“囚徒困境”模型随着博弈论的深入发展，具有各种不同的形式，通常分为：完全信息的静态博弈，完全信息的动态博弈，不完全信息的静态博弈及不完全信息的动态博弈四种形式。本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。关键词：博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。它的基本模型是：警察抓住了两个合伙犯罪的罪犯，由于缺乏足够的证据指证他们的罪行，所以希望这两人中至少有一人供认犯罪，就能确认罪名成立。为此警察将这两个罪犯分别关押以防止他们串供，并告诉他们警方的政策是“坦白从宽，抗拒从严”：如果两人中只有一人坦白认罪，则坦白者立即释放，而另一人则将重判5年徒刑；如果两个同时坦白认罪，则他们将各判3年监禁。当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益，第二个数字是囚徒2的得益) ：囚徒2 囚徒 1 （表1）假定两个罪犯熟悉彼此，这便是一个同时行动的完全信息静态博弈。容易看出，由于对

于每个囚徒而言，无论对方选择什么策略，坦白都是自己的最优策略，所以(坦白，坦白) 是博弈的Nash均衡。二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行，比如犯罪团伙会被警方多次审讯，日常生活中买卖会重复进行，国际间的战争此伏彼起。而且人们也发现基本博弈的重复进行并非基本博弈的简单累加，比如商业中的回头客问题。下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。首先观察“囚徒困境”的有限博弈，以T记基本博弈的重复次数。博弈重复进行所耗时间会比较长，支付的时间价值必须考虑，记r为折现因子。在有限博弈的情况下，可简化在r = l 的情况下讨论，并采用动态博弈的逆向归纳法进行研究：先分析t = T阶段两博弈方的选择，这仍然是一个基本的囚徒困境博弈，此时前一阶段的结果已成为事实，又无后续阶段，因此不难得出结论，这一阶段的结果是(坦白，坦白)，双方得益( -3 ，-3)。现在回到t = T -1阶段，理性的博弈方对于后一阶段的结局非常清楚，其结果必然是(坦白，坦白)，因此不管现阶段的博弈结果是什么，双方在本阶段以后的最终得益都是在本阶段得益的基础上各加上-3，此时的得益矩阵是：囚徒2 囚徒 1 （表2）容易看出，坦白仍是两博弈方的严格优超策略，即(坦白，坦白) 是T - 1阶段的唯一的纯Nash均衡。以此往上类推，每阶段“囚徒困境”博弈的结果都是博弈双方采用坦白，所以T次重复博弈的子博弈精炼Nash均衡是每个博弈阶段双方都采用坦白。再考虑“囚徒困境”博弈重复无数次。因为无限博弈没有最终阶段，所以不能运用逆向归纳法求解。考虑博弈双方都采用“冷酷战略”：( 1 ) 开始阶段选择抵赖；( 2 )选择抵赖直到有一方选择了坦白，为了报复对手的背叛，以后都选择坦白。假定囚徒j 严格执行上述冷酷战略，考察囚徒i 的最优策略是否为冷酷战略：如果i 在博弈的某个阶段首先选择了坦白，他在该阶段得到0，而不是-1，但他的这次背叛会遭到囚徒j的永远惩罚，因此i 在随后每个阶段的支付都是-3 。如果下列条件满足，给定j没有选择坦白，i将不会选择坦白： 22 0+r(-3)+r(3)-1+r(-1)+r(-1) -+≤+ ……，即： 31 11 r r r -≤- -- 解上述不等式得：r≥1／3 (这个条件容易满足)。就是说，如果r ≥1／3，给定j 坚持冷酷战略并且j没有首先坦白，i不会选择首先坦白。进一步假定j首先选择坦白，那么i 是否有积极性坚持冷酷战略以惩罚j的不合作行为？如果i 坚持冷酷战略，他随后每个阶段的支付是-3，但如果他选择其他战略，他在任何单一阶段的支付都不会大于-3，因此，无论r是多大，i都有积极性坚持冷酷战略。在博弈重复无数次的情况下，只要r>1／3，子博

绩效考核中的“囚徒困境”模型分析

招专业人才，上一览英才绩效考核中的“囚徒困境”模型分析在人力资源管理工作中，绩效考评是最关键的一个环节，既是对员工前期工作情况的总结，也是员工将来薪酬发放、晋级等工作的基础。没有公正、合理的绩效考评，员工的激励、薪酬等都将成为无源之水、无本之木。所以，绩效考评工作的好坏直接关系到人力资源管理工作的成效。员工的工作绩效，是指他们那些经过考评的工作行为、表现及其结果。对组织而言，绩效就是任务在数量、质量及效率等方面完成的情况;对员工个人来说，则是上级和同事对自己的评价。组织通过对员工工作绩效的考评，获得反馈信息，便可据此制定相应的人事决策与措施，调整和改进其效能。因此绩效考评作为人力资源管理工作的一项重要组成部分，历来受到人力资源工作者的重视。在绩效考评中，人力资源部门如果能获得员工及员工所在部门提供的真实可靠的原始资料，绩效考评工作就容易做到公正、合理。作为人力资源工作者，往往希望员工及用人部门能够和人力资源部门友好合作配合工作，尽可能提供客观公正的原始资料。但社会的高度现实性决定了绩效考评运作往往直接挂钩于员工的切身利益，因而，员工倾向于高估自己的工作绩效，以达到个人利益最大化。而直接上级在对本部门员工的绩效考评上，一则为了和本部门员工保持“友好关系”(因为有时主管的考评同样需要员工打分);二则为了保持本部门的良好形象，不想“家丑”外扬;三则为了避免挫伤员工的积极性，使员工永远保持一种优于其他部门的自信，所以更多的喜欢在本部门内部解决问题，不愿给人力资源部门提供真实的原始数据。如果缺乏对员工和主管在配合度上的有效监控，很可能会导致绩效考评信息失真，动摇绩效管理的信度和效度，误导整个人力资源部的绩效管理工作。最终使人力资源部应有的权力制衡作用受到削减，对企业及员工个人发展产生巨大负面影响。博弈论的出现和兴起，为我们解决绩效考评中的难题提供了一种行之有效的工具。绩效考评中的“囚徒困境”模型分析同样绩效考评本身就是一个完整的博弈论问题，博弈的双方分别是企业的员工和相应的各部门主管，博弈的对象为员工的工作绩效，而博弈的收益为人力资源部给予的最终考评结果。相应的员工和主管所采取的策略不是坦白或不坦白，而是和人力资源部门合作还是不合作。员工的合作决策指员工愿意和人力资源部门合作，愿意对自己的工作绩效做出客观的评

囚徒困境案例分析

囚徒困境解说例子 1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。若二人都互相检举（相关术语称互相“背叛”），则二人同样判监8年。用表格概述如下：解说如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

囚徒困境

囚徒困境（prisoner's dilemma ）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。概念释义囚徒困境（prisoner's dilemma ）：两个被捕的囚徒之间的一种特殊博弈，说明为什么甚至在合作对双方都有利时，保持合作也是困难的。单次和多次重单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。囚徒困境的主旨囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。固定局数的囚徒困境试想像囚徒困境的情况进行十次。我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。相反，如果第一次别人保持沉默，建立了互信的关系，你也会保持沉默，导致帕累托最优。当然，两个囚徒都会有相似的想法，在第一局保持沉默，以期望建立互信关系，所以双方都会保持沉默。第二局时，双方亦应有相似的想法，继续保持沉默，以期继续在互信的情况下进行第三局，以致余下的八局。这种想法合理吗？在第十局时，互信的关系明显是没有意义的，因为十局已经完结，囚徒没有必要为维持互信的关系而沉默(没有第十一局)，所以第十局囚徒一定会背叛对方的，理由和只有一局囚徒困境一样。问题是，既然大家都知道在第十局，无论如何对方都会背叛自己的，你在第九局保持沉默也是没有意思的，要知道，保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。下一个问题是，双方都有相同的想法，明知第九局对方会背叛自己，所以第八局保持沉默也是没有意思的，第七局亦然，如此类推，纳什均衡是十局都会互相背叛，建立互信关系是没有可能的。只有在囚徒困境的局数大家都不肯定的情况下，上述的推论才不会发生，才会出现互相保持沉默的现象。经典的囚徒困境例子 1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获

生活中的囚徒困境

生活中的—“囚徒困境” 摘要：数学源自生活，生活中处处可见数学之美，博弈论—数学的一个分支，无疑在经济、军事、生物、政治等方面发挥了不可替代的作用。博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略，达到取胜的目的。所谓奕者即博者，在中国很早便存在博弈论的思想。如“世事洞明皆学问，人情练达即文章”，更有“画龙画虎难画骨，知人知面不知心”、“逢人且说三分话，未可全抛一片心。”博弈论中著名的“囚徒困境”在生活中最为真实体现，本文即从囚徒困境出发，寻找生活中“囚徒困境”的例子，如学生减负，商业之间的广告战、价格战等等，阐述了生活中的“囚徒困境”。囚徒困境—忠诚还是背叛这是一个问题经典案例：“警察与小偷的故事” 在博弈论中，一个著名例子是由塔克给出的“囚徒困境”博弈模型“警察与小偷的故事”。假设有两个小偷A 和B 联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果两个犯罪嫌疑人都坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪，各被判刑8年；如果只有一个犯罪嫌疑人坦白，另一个人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。表1给出了这个博弈的。表1 囚徒困境博弈 [Prisoner's dilemma] A ╲B 坦白抵赖坦白 -8，-8 0，-10 抵赖 -10，0 -1，-1 我们来看看这个博弈可预测的均衡是什么。对A 来说，尽管他不知道B 作何选择，但他知道无论B 选择什么，他选择“坦白”总是最优的。显然，根据对称性，B 也会选择“坦白”，结果是两人都被判刑8年。但是，倘若他们都选择“抵赖”，每人只被判刑1年。但他们都抵赖并非个人最优选择。不难看出，“坦白”是任一犯罪嫌疑人的占优战略，而（坦白，坦白）是一个占优战略均衡。生活中的“囚徒困境” 学生减负—书包越减越重学生减负的呼声在中国当代教育体制下越来越高，但结果是，辅导班越来越火、学生书包越来越重。表2将清楚的呈现学生各个选择的结果面对表2的结果，孩子和父母会做出怎样的选择呢？从“囚徒困境”中我们知道，所有的学生会选择增负而不是减负，如果所有人选择减负那么皆大欢喜，如果我选择了减负而别人选择了增负，我考试分数肯定会比别人低，那么我便不能考上好的学校接受更好的教育，在未来求职时我赶不上他人；如果我选择了增负，其他人选择减负，那我会在考试中获得优势。其他学生╲我减负增负减负所有人综合素质提高我能考好的大学，找好工作增负我的会比其他人低，考不上好的大学所有人都会拼命学习

绩效考核中囚徒困境模型分析

绩效考核中囚徒困境模型分析绩效考评作为人力资源管理工作的一项重要组成部分，历来受到人力资源工作者的重视。在绩效考评中，人力资源部门如果能获得员工及员工所在部门提供的真实可靠的原始资料，绩效考评工作就容易做到公正、合理。在人力资源管理工作中，绩效考评是最关键的一个环节，既是对员工前期工作情况的总结，也是员工将来薪酬发放、晋级等工作的基础。没有公正、合理的绩效考评，员工的激励、薪酬等都将成为无源之水、无本之木。所以，绩效考评工作的好坏直接关系到人力资源管理工作的成效。员工的工作绩效，是指他们那些经过考评的工作行为、表现及其结果。对组织而言，绩效就是任务在数量、质量及效率等方面完成的情况；对员工个人来说，则是上级和同事对自己的评价。组织通过对员工工作绩效的考评，获得反馈信息，便可据此制定相应的人事决策与措施，调整和改进其效能。因此绩效考评作为人力资源管理工作的一项重要组成部分，历来受到人力资源工作者的重视。在绩效考评中，人力资源部门如果能获得员工及员工所在部门提供的真实可靠的原始资料，绩效考评工作就容易做到公正、合理。作为人力资源工作者，往往希望员工及用人部门能够和人力资源部门友好合作配合工作，尽可能提供客观公正的原始资料。但社会的高度现实性决定了绩效考评运作往往直接挂钩于员工的切身利益，因而，员工倾向于高估自己的工作绩效，以达到个人利益最大化。而直接上级在对本部门员工的绩效考评上，一则为了和本部门员工保持“友好关系”（因为有时主管的考评同样需要员工打分）；二则为了保持本部门的良好形象，不想“家丑”外扬；三则为了避免挫伤员工的积极性，使员工永远保持一种优于其它部门的自信，所以更多的喜欢在本部门内部解决问题，不愿给人力资源部门提供真实的原始数据。如果缺乏对员工和主管在配合度上的有效监控，很可能会导致绩效考评信息失真，动摇绩效管理的信度和效度，误导整个人力资源部的绩效管理工作。最终使人力资源部应有的权力制衡作用受到削减，对企业及员工个人发展产生巨大负面影响。博弈论的出现和兴起，为我们解决绩效考评中的难题提供了一种行之有效的工具。绩效考评中的“囚徒困境”模型分析同样绩效考评本身就是一个完整的博弈论问题，博弈的双方分别是企业的员

柏拉图囚徒的困境

西方哲学史论文对柏拉图囚徒的困境的一些思考院系：应用社会科学系年级： 08级专业：哲学作者：陈宇祥学号： 2008108027

对柏拉图囚徒的困境的一些思考摘要：分别从三个角度，运用类比举例子的方法，结合个人思考对柏拉图的洞穴比喻进行浅显分析，以求对柏拉图的洞穴比喻一些暗含的具有现代意义的含义进行分析。从文学比喻角度；哲学上的认识论角度；以及人的自由问题的小小讨论，这三个方面对囚徒的困境即洞穴比喻进行分析。以求从囚徒的困境中发掘一些有益于当下的东西能出来。关键词：柏拉图；洞穴比喻；理念；囚徒；枷锁柏拉图在《理想国》的第七章中，有一段苏格拉底与格劳孔的对话，其中苏格拉底有过这样的一个比喻：有一个洞穴式的地下室，一条长长的通道通向外面，有微弱的阳光从通道里照进来。有一些囚徒从小就住在洞穴中，头颈和腿脚都被绑着，不能走动也不能转头，只能朝前看着洞穴后壁。在他们背后的上方，远远燃烧着一个火炬。在火炬和人的中间有一条隆起的道路，同时有一堵低墙。在这堵墙的后面，向着火光的地方，又有些别的人。他们手中拿着各色各样的假人或假兽，把它们高举过墙，让他们做出动作，这些人时而交谈，时而又不做声。于是，这些囚徒只能看见投射在他们面前的墙壁上的影像。他们将会把这些影像当作真实的东西，他们也会将回声当成影像所说的话。此时，假如有一个囚徒被解除了桎梏，被迫突然站起来，可以转头环视，他现在就可以看见事物本身了，那么他会觉得那个现象更真实呢？是以前墙壁上的影像，还是现在的真实的图景？或者他对现在看到的图景产生怀疑而以为是在做梦呢？而接着假如有人把他从洞穴中带出来，走到阳光下面，当他看见了大千世界的美景，他是否会真正的“醒来”，回身去解救他的那些同伴呢？而如果同伴们不相信他，会不会把他当疯子处理掉呢？洞穴比喻（以下简称为“洞喻“）是柏拉图在《理想国》中的一个重要的比喻，总的来说，这个隐喻有两个层次，一层是洞内的影像，一层是洞外的真实。我认为可以从三个角度去思考：1昏睡与呐喊；2假象与真实；3局限与超越。一、昏睡与呐喊在《理想国》中洞喻是以一种对话式的文学性语言叙述的，只要是文学性的语言就会产生一种不确定性。所谓的“有一千个读者就会有一千个哈姆雷特“就是指这种文学上的不确定性。在帕拉图的那个时代好像还没有比较严密逻辑言语论证，这一柏拉图哲学论述上的缺陷有亚里士多德后来的逻辑学所弥补。柏拉图这种文学性的语言一来给后人留下了很大的空间去阐发他的思想，二来也造成了后人难于理解柏拉图当时想要真正的表达的准确的思想，也就使后人在理解柏拉图洞喻上，产生比较大的难度。真正的柏拉图思想被蒙上了一层美丽的面纱。洞喻是一个隐喻，柏拉图想要给昏睡的世人一种振聋发聩的警醒。当时历史背景是由于柏拉图对雅典民主政治的失望，对苏格拉底的死的愤怒，对僭主政治的不满，从而产生一些内心消极的失望情绪，正是由于这种对现实政治制度的不满，才使柏拉图努力在《理想国》中去建构一个“哲学王”乌托邦式的社会。正是由于对那些判处苏格拉底死刑的不分是非的雅典公民的不满和对没落的民主制度的不满，柏拉图曾经说它是最坏的制度。从使他而产生出一种唤醒世人的愿望。这个是从当时柏拉图的历史背景上分析，逻辑上是不矛盾的。那么柏拉图想要传达的是否就是像鲁迅的铁屋子比喻想要传达的一样，鲁迅是在境况更复杂的时代背景下发出铁屋中的呐喊（⒈）的，他原文是：“假如一间铁屋子，是绝无窗户而万难破毁的，里面有许多熟睡的人们，不

博弈论中经典案例--“囚徒困境”

博弈论中经典案例--“囚徒困境” 博弈论中有一个经典案例囚徒困境” 。两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年;若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱十年;若互相揭发，则因证据确实，二者都判刑八年。由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。囚犯可以做出如下选择：1、供出他的同伙（即与警察合作，从而背叛他的同伙），2、保持沉默（也就是与他的同伙合作，而不是与警察合作）。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。 A 犯不是个傻子，他马上意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A 犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A 犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就

经典的囚徒困境

经典的囚徒困境 1950年，由就職於兰德公司的梅里尔·弗勒德（Merrill Flood）和梅爾文·德雷希爾（Melvin Dresher）擬定出相關困境的理論，後來由顧問艾伯特·塔克（Albert Tucker）以囚徒方式阐述，並命名为「囚徒困境」。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但沒有足够证据指控二人入罪。於是警方分开囚禁嫌疑犯，分别和二人见面，并向雙方提供以下相同的选择： ?若一人認罪並作证检控對方（相關術語稱「背叛」對方），而對方保持沉默，此人将即時獲释，沉默者将判監10年。 ?若二人都保持沉默（相關術語稱互相「合作」），则二人同樣判监半年。 ?若二人都互相检举（互相「背叛」），則二人同樣判監2年。用表格概述如下：解說如同博弈論的其他例證，囚徒困境假定每個參與者（即「囚徒」）都是利己的，即都尋求最大自身利益，而不關心另一參與者的利益。參與者某一策略所得利益，如果在任何情況下都比其他策略要低的話，

此策略稱為「嚴格劣勢」，理性的參與者絕不會選擇。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底應該選擇哪一項策略，才能將自己個人的刑期縮至最短？兩名囚徒由於隔絕監禁，並不知道對方选择；而即使他们能交谈，還是未必能夠盡信對方不會反口。就個人的理性選擇而言，檢舉背叛對方所得刑期，總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇： ?若對方沉默、我背叛會讓我獲釋，所以會選擇背叛。 ?若對方背叛指控我，我也要指控對方才能得到較低的刑期，所以也是會選擇背叛。二人面對的情況一樣，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是兩種策略之中的支配性策略。因此，这場博弈中唯一可能达到的纳什均衡，就是雙方参与者都背叛對方，結果二人同樣服刑2年。这場博弈的纳什均衡，顯然不是顧及團體利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，兩人都只會被判刑半年，总体利益更高，結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設，二人均為理性的個人，且只追求自己個人利益。均衡狀況會是兩個囚徒都选择背叛，结果二人判监均比合作為

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展发表于：分类：未分类博弈论（）对人的基本假定是：人是理性的（，或者说自私的）,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。 “囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白则因证据不足各判１年。在这个例子里，博弈的参加者就是两个嫌疑犯Ａ和Ｂ，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的结果。Ａ和Ｂ均坦白是这个博弈的纳什均衡。这是因为，假定Ａ选择坦白的话，Ｂ最好是选择坦白，因为Ｂ坦白判８年而抵赖却要判十年；假定Ａ选择抵赖的话，Ｂ最好还是选择坦白，因为Ｂ坦白判不被判刑而抵赖确要被判刑１年。即是说，不管Ａ坦白或抵赖，Ｂ的最佳选择都是坦白。反过来，同样地，不管Ｂ是坦白还是抵赖，Ａ的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑８年。在（坦白、坦白）这个组合中，Ａ和Ｂ都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果Ａ和Ｂ都选择抵赖，各判刑１年，显然比都选择坦白各判刑８年好得多。当然，Ａ和Ｂ可以在被警察抓到之前订立一个"攻守同盟"，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。在经济学方面的实例: 一．电信价格竞争根据我国电信业的实际情况，我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商与, 他们在电信某一领域展开竞争，一开始的价格都是。（中国电信）是老牌企业，实力雄厚，占据了绝大多数的市场份额；（中国联通）则刚刚成立不久，翅膀还没有长硬，是政府为了打破垄断鼓励竞争而筹建起来的。正因为是政府扶植起来鼓励竞争的，所以得到了政府的一些优惠，其中就有的价格可以比低％。这一举动，还不会对产生多大的影响，因为的根基实在是太牢固了。在这样的市场分配下，、可以达到平衡，但由于在价格方面的优势，市场份额逐步壮大，到了一定程度，对造成了影响。这时候，该怎么做？不妨假定：降价而维持，则获利，损失，整体获利；维持且也维持，则获利，获利，整体获利；维持而降价，则损失，获利，整体获利；降价且也降价，则损失，损失，整体损失。

囚徒困境(博弈论的经典案例)

囚徒困境（博弈论的经典案例）学习管理学或经济学的人一定都了解一些博弈论方面的知识。在博弈论中有一个经典案例--囚徒困境，非常耐人回味。囚徒困境，说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。----那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子，他马上

意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。当然，在现实世界里，信任与合作很少达到如此两难的境地。谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。但囚徒的两难境地确实抓住了不信任和需要相互防范背叛这种真实的一面。让我们看看冷战时期两个超级大国将自己锁定在一场40年的军备竞赛中，其结果对双方都毫无益处。还有各国的贸易保护主义的永恒倾向。----但是，无论在自然界还是在人类社会，合作都是一种随处可见的现象。那么，问题就出现了：到底是何种机制促使生物体或者人类进行相互合作呢？----这个问题的答案大部分归功于美国密西根大学一位叫做罗伯特·爱克斯罗德的人。爱克斯罗德是一个政治科学家，对合作的问题久有研究兴趣。为了进行关于合作的研究，他组织了一

囚徒困境的生活实例分析教学资料

囚徒困境的生活实例分析

囚徒困境的生活实例分析中南财经政法大学工商管理学院博弈论对人的基本假定是：人是理性的,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。 “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白则因证据不足各判１年。问题可以总结为：在这个例子里，博弈的参加者就是两个嫌疑犯Ａ和Ｂ，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的结果。Ａ和Ｂ均坦白是这个博弈的纳什均衡。这是因为，假定Ａ选择坦白的话，Ｂ最好是选择坦白，因为Ｂ坦白判８年而抵赖却要判十年；假定Ａ选择抵赖的话，Ｂ最好还是选择坦白，因为Ｂ坦白判不被判刑而抵赖确要被判刑１年。即是说，不管Ａ坦白或抵赖，Ｂ的最佳选择都是坦白。反过来，同样地，不管Ｂ是坦白还是抵赖，Ａ的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑８年。在（坦白、坦白）这个组合中，Ａ和Ｂ都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果Ａ和Ｂ都选择抵赖，

各判刑１年，显然比都选择坦白各判刑８年好得多。当然，Ａ和Ｂ可以在被警察抓到之前订立一个"攻守同盟"，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。从自私自利的角度出发，选择认罪是最好的这种说法是有缺陷的，因为两个人都可能会得到8年的监禁期。即使是最狡猾的方法也不能把你救出监狱。但是如果你期望你的同伙与你合作，那你最好的选择将是认罪。然而，如果你的同伙知道了你的计划，他也会认罪，此时最好的方法是你们两个合作。这就是这个悖论的关键所在。如果从整体来看，对于两个囚犯而言，最好的结果是两人合作，其它的任何选择都是不好的。实例分析 1：一．电信价格竞争根据我国电信业的实际情况，我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争，一开始的价格都是P0。A（中国电信）是老牌企业，实力雄厚，占据了绝大多数的市场份额；B（中国联通）则刚刚成立不久，翅膀还没有长硬，是政府为了打破垄断鼓励竞争而筹建起来的。正因为B是政府扶植起来鼓励竞争的，所以B得到了政府的一些优惠，其中就有B的价格可以比P0低 10％。这一举动，还不会对A产生多大的影响，因为A的根基实在是太牢固了。在这样的市场分配下，A、B可以达到平衡，但由于B在价格方面的优势，市场份额逐步壮大，到了一定程度，对A造成了影响。这时候，A该怎么做？不妨假定： A降价而B维持，则A获利15，B损失5，整体获利 10；

第四卷囚徒困境案例

第四卷囚徒困境案例 “囚徒困境”案例说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。 1 在博弈论中有一个经典的广泛流传的案例--囚徒困境案例，这个博弈案例非常耐人寻味。 “囚徒困境”案例说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。现在有两个囚犯，他们分别是A和B,囚犯A不是个傻子，他马上意识到，他根本无法相信他的同伙B不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但囚犯B也意识到，他的同伙A也不是傻子，也会这样来设想他。所以两个囚犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，囚犯A反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。

囚徒困境理论

囚徒困境理论 Prepared on 22 November 2020

论“囚徒困境理论” “囚徒困境”是博弈论里最经典的例子之一。其中对于囚徒困境的描述：话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，甲和乙，并从他们的住处搜出被害人家中丢失的财物。但是，他们都否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。由警察分别和每个人单独谈话。警察说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你半年的***，但你的同伙要被判十年刑。如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判半年的***。但是，如果你们两人都坦白交代，那么，你们都要被判五年刑。” 囚徒甲和乙该怎么办呢他们作为本博弈中的两个博弈方，他们都有两个选择——坦白或抵赖。很显然，最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，根据个体理性原则，两个博弈方的目标都是要实现自身利益最大化。对于囚徒甲来说，囚徒乙有坦白和抵赖的两种可能的选择，如果囚徒乙选的是抵赖，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益为-1，坦白的得益为-1/2；，如果囚徒乙选的是坦白，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益-10，坦白的得益为-5。因此，在本博弈中，无论囚徒乙选择何种策略，囚徒甲选择坦白给自己带来的收益是最大的；同样的，囚徒乙和囚徒甲的情况一样，因此囚徒乙的选择和囚徒甲一样。因此，该博弈的最终结果是博弈双方同选择坦白策略，同时获益-5，都判五年刑。

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展 05-06-13 10:57 发表于：《没有范的世界》分类：未分类博弈论（game theory）对人的基本假定是：人是理性的（rational，或者说自私的）,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。 “囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白则因证据不足各判１年。在这个例子里，博弈的参加者就是两个嫌疑犯Ａ和Ｂ，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的结果。Ａ和Ｂ均坦白是这个博弈的纳什均衡。这是因为，假定Ａ选择坦白的话，Ｂ最好是选择坦白，因为Ｂ坦白判８年而抵赖却要判十年；假定Ａ选择抵赖的话，Ｂ最好还是选择坦白，因为Ｂ坦白判不被判刑而抵赖确要被判刑１年。即是说，不管Ａ坦白或抵赖，Ｂ的最佳选择都是坦白。反过来，同样地，不管Ｂ是坦白还是抵赖，Ａ的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑８年。在（坦白、坦白）这个组合中，Ａ和Ｂ都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果Ａ和Ｂ都选择抵赖，各判刑１年，显然比都选择坦白各判刑８年好得多。当然，Ａ和Ｂ可以在被警察抓到之前订立一个"攻守同盟"，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。在经济学方面的实例: 一．电信价格竞争根据我国电信业的实际情况，我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争，一开始的价格都是P0。A（中国电信）是老牌企业，实力雄厚，占据了绝大多数的市场份额；B（中国联通）则刚刚成立不久，翅膀还没有长硬，是政府为了打破垄断鼓励竞争而筹建起来的。正因为B是政府扶植起来鼓励竞争的，所以B得到了政府的一些优惠，其中就有B的价格可以比P0低10％。这一举动，还不会对A产生多大的影响，因为A的根基实在是太牢固了。在这样的市场分配下，A、B可以达到平衡，但由于B在价格方面的优势，市场份额逐步壮大，到了一定程度，对A造成了影响。这时候，A该怎么做？不妨假定： A降价而B维持，则A获利15，B损失5，整体获利10； A维持且B也维持，则A获利5，B获利10，整体获利15；

囚徒困境

1.囚徒困境——囚徒困境成为公共选择的经典模型，其原因就是它有着囚犯之外的涵义：公共事务需要有关当事人精诚合作，但由于在完成过程中，存在着个体成本和个体收益不对称性的问题，在这种利益格局下，有关当事人的博弈结果就是大家都不精诚合作，最后导致公共事务无法解决。例子：两商家竞相降价 2.当代政府改革的主要内容和措施：（一）社会、市场管理与政府职能优化。a.非国有化非。国有化即公有企业和公用事业的产权转移或私有化。b.自由化。自由化主要表现为放松规制，包括社)（二）社会力量的利用和公共服务社会化。a.政府业务合同出租。b.以私补公、打破政府垄断。c.建立政府部门与私营企业的伙伴关系。d.公共服务社区化。（三）政府部门内部的管理体制改革:a.利用信息技术革命新成果，建立完善行政管理信息系统，包括决策支持信息系统和管理信息系统b.分权与权力下放c.部门内部的组织结构改革d.公共人事制度改革 e.提高服务质量，改善公共机构形象f.公共行政传统规范与工商企业管理方法的融合。 3.新公共管理范式可以概括为八个方面的内容：a. 强调职业化管理；b. 明确的绩效标准与绩效评估；c. 项目预算与战略管理；d.提供回应性服务；e. 公共服务机构的分散化和小型化； f. 竞争机制的引入； g. 采用私人部门管理方式； h. 管理者与政治家、公众关系的改变。 4.为了改善公共服务，中国需要进行全面、协调的事业单位改革，其中包括重新界定政府的角色和从商业性活动中退出，改革公共财政以便更好地为公共服务付费，允许非国有部门提供更多的公共产品，加强公共部门内部的问责机制，建立绩效管理和监督体制 5绩效评估与绩效管理：绩效管理是一个完整的管理过程，包括绩效评估、绩效反馈、绩效沟通以及绩效改进等若干个纵向依次相连的管理要素。绩效管理突出强调过程的完整性，以提高管理绩效。企业的绩效管理就是以过程为中心的。由于政府绩效管理的特殊性，可以分为绩效信息、绩效预算、绩效审计等若干个横向并列的管理环节。 6公共部门绩效评估与企业绩效评估存在哪些不同？公共部门绩效评估就是根据绩效目标，运用评估指标对公共部门履行公共服务职能所产生的结果及其影响进行评估、划分绩效等级、提出绩效改进计划和运用评估结果来改进绩效的活动过程。 7所谓战略管理，是管理者有意识的政策选择、发展能力、解释环境，以集中组织的努力，达成目标的行为，或者说，战略管理是制定、实施和评价组织能够达到目标的艺术或技术 8战略管理的特点：战略管理具有强烈的未来导向性。战略管理具有长期性、全局性和根本性。战略管理外向性，是外部环境的管理。战略管理是一个由外向内的实施过程。战略管理是理性分析与直觉的结合。 9公共事业管理部门运用战略管理的价值？a.使公共事业管理部门对公共事业的管理能适应越来越复杂的环境的变化.b.能促进政府公共事业管理改革的深入c.使政府更好地维护和代表公共利益 10公共部门战略管理存在的问题：描述失实、过程过于呆板、正式的过程与创造性和革新相违背、引入公共部门时出现一系列问题、责任问题、目标设定的困难、公共部门性质人员短暂任期造成的问题 11战略规划与战略管理的联系与区别:战略规划，是指从战略的高度对完成组织目标或任务进行的计划，但并不涉及计划的执行和评估问题。而战略管理是一个更为完整的管理过程。