第四卷囚徒困境案例

“囚徒困境”案例说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓

了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都

可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉

默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉

默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一

点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，

那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判

决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯

互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。

在博弈论中有一个经典的广泛流传的案例--囚徒困境案例，这个博弈案例非常耐人寻味。

“囚徒困境”案例说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。

那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。现在有两个囚犯，他们分别是A和B,囚犯A不是个傻子，他马上意识到，他根本无法相信他的同伙B不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但囚犯B也意识到，他的同伙A也不是傻子，也会这样来设想他。所以两个囚犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，囚犯A反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。

在社会生活中，我们经常会遇到像囚徒困境这样的事情，这时，面对两难的处境，该如何做出选择，这就要求我们很好的掌握并运用博弈知识，目的是突破囚徒困境。

这是一个“开源”与“节流”的囚徒困境案例。

在经济危机之下，人们一方面不得不节制各种不必要的消费支出项目，而另一方面则希冀于能尽早“开源”，重返那个追求更好、更多的产品服务以及不再拘泥于经济收入的那份自由气息的美好时代。但是，往往是那些越美好的愿景背后越会有着不可调和的冲突悖论。也正是这种超脱于经济自由的氛围，会孕育出那些更多始料未及的创新理念，以服务于不断增长的人类潜在需求。有意思的是，这种经济自由的氛围还必须有赖于人们在市场上持续的经济预期以及保持旺盛的消费需求，而以上这些前提在节流意识日益严重的经济危机中，该从何谈起呢？不走出“节流”的狭隘意识，就不可能会有“开源”的日子；但实体经济中显现不出实质性的“开源”迹象，也不可能会有让人主动放弃“节流”的束缚。这便是个人理性在宏观经济危机中所折射出的“囚徒困境”。

在传统的两人“囚徒困境”中，人们可以通过一个信息交流的有效磋商机制来走出这一传统困境。但是，要在宏观层面上达成多人的磋商机制，不仅非常昂贵，而且由于廉价的个人“搭便车行为”更使这种昂贵的磋商机制形同虚设。当然，并不是没有走出这一宏观困局的任何机会。最有名的思路是由凯恩斯在上个世纪三十年代末所提出的“赤字财政政策”：既然造成经济危机之困的原因就在于社会上个人有效需求不足与由此所积累下来的社会产能过剩矛盾，那个人理性决策的社会性经济危机似乎就是这一困局的纳什均衡解。要想打破这一长期稳定的均衡之困，就必须由政府出面，不断加大对社会的财政支出，甚至不惜以政府赤字的巨大风险也在所不辞。一向谨慎稳重的英国人，此时不担心这些巨额财政支出的投资去向，政府只要有敢于冒赤字风险的能力，就会走出经济危机的泥潭，而且赤字越红就可能越快走出危机。

但是，美国人并不信赖政府能够全知全能计算出所需的最佳财政投资规模，而且如何合理花费这笔钱，恰是那些美国人最为担心的一点。如果把这笔从纳税人身上所缴纳的财政资金投向那些本来就不缺钱的大资本家手中，那无疑是拿那些没钱的穷人补贴那些有钱的主。而把钱先集中在具有生产能力的人手中，走出经济危机，然后再通过其他渠道还富于民的逻辑，在人类历史上已有很多次不可实现性的教训。而另一方面，上个世纪六七十年代的“滞胀”之痛使得一整代美国人都苦不堪言。他们因此反而更偏向于相信私人企业的重要性。美国以公众企业为基础的强大股市支持这一市场力量的动员能力。而且，美国人也认定那些毫无方向的财政投资不仅得不到回报，造成社会资源的极大浪费。同时，这些公共投资的高歌猛进很有可能会挤占出社会中大量的私人投资，大大减少本已稀少的投资活力。

一个非常有名的例子，就是20世纪80年代美国政府对半导体芯片行业的大规模投资失败案例。当时的美国人都很担心会失去对半导体或芯片行业的绝对领先地位，尤其是会败给当时不可一世的日本人。政府财政决定每年拿出1亿美元，发起成立一家名叫“半导体制造技术产业联盟”（Sematech）的研究机构，尝试以国内生产商的芯片来打开日本的市场。结果呢？不仅没有达到当时市场领先地位的产业规模，而且有些公司在看到半导体制造技术联盟（Sematech）在做同样的事，就把原本投入到基础研究中的资金全部撤回了。最后，那场领导20世纪末期的新经济革命，还得归功于一家名叫INTEL的美国私人公司在美国政府放松管制之后才脱颖而出。

实际上，这里隐含的逻辑则是连接“节流”和“开源”之间更好的途径，可能还在于微观上的私人企业在寻找新的市场机会中的创新能力。尽管这些投资的本质并没有政府那样有事先的正义性，但市场这只“看不见的手”会使得这些出于私心的创新投资变得更加可靠、更加强大。美国著名的经济学家拉塞尔·罗伯特早已提醒美国民众和政府注意，美国之所以能保持第一流强国地位，根基就在于保持自由贸易的开放心态下所形成的压力和创新精神。

囚徒困境案例在商业上无处不在，两家聪明的企业，在竞争中经常难免上演两败俱伤的“蠢事”。价格战和广告战是典型的例子。许多企业和对手争先恐后降价，并抱着钱往电视台、报社跑，广告“轰炸”得消费者找不着北，结果往往是双方打个平手，市场占有率毫无变化，两家企业双输，真正的赢家是消费者和各个媒体。

商业不相信誓言──蒙牛输在哪里，这个瞬间，值得玩味。2005年12月28日晚7点，北京饭店，“2005年CCTV中国经济年度人物颁奖典礼”的直播现场。很快，2005年第一位年度经济人物揭晓了。伊利集团的新帅潘刚戴着眼镜，迈着儒雅的步子向领奖台走来。

此时，主持人介绍，“伊利把很多精彩留在了2005年，这一年，伊利的销售突破了100亿元，而且伊利成为了2008年奥运会乳制品业的惟一赞助商。”这显然是个让潘刚很感兴趣的话题，潘刚满怀激情接着讲：“从现在开始，所有的运动员都要喝伊利牛奶。牵手奥运是伊利一小步，但它是中国奶制品企业的一大步！”刹那间，摄影师把镜头对准了伊利的“冤家”——此时正作为嘉宾而坐在台下的蒙牛总裁牛根生，给了牛根生一个大大的面部特写，纤毫毕现。

于是，全国的观众在电视画面上看到，牛根生黝黑、粗犷的脸上，足足10多秒内毫无表情。没有人知道，这位竞标北京奥运会乳制品赞助商的失意者，面对在台上慷慨陈词的对手，如何任凭内心江河倒灌，五味杂陈，脸上却波澜不兴，不露声色。

这背后，还有段刚发生的故事。同在呼和浩特，伊利和蒙牛，历来都是冤家。不是冤家不聚头，这次，他们又相遇了——他们都想借赞助奥运，提升品牌，打压对手。其实，早在1996年亚特兰大奥运会，伊利雪糕就作为奥运特许产品，成功地进行了一次体育营销。但更富有戏剧性的是，那次伊利的功臣，如今都在蒙牛，一个是牛根生，另一个是蒙牛副总裁孙先红，孙在2005年借赞助“超级女声”，又为蒙牛立下了汗马功劳。

如今，奥运会来到了北京，对两家来说，自然都是不容错过的机会。2004年，蒙牛为每一位国家队运动员都配置了“牛奶套餐”，开始为竞标做热身运动。2005年9月1日，蒙牛宣布，从当天起，北京市民每购买一袋蒙牛牛奶，蒙牛就捐赠一分钱，用于北京奥运会公益活动志愿者的选拔和培训。而之前，蒙牛就曾给北京申奥捐款1000万元。

蒙牛一副志在必得的架势，伊利也没有闲着。2005年11月初，伊利出资3000万元支持内蒙古自治区、呼和浩特市文化、体育事业建设，其中，500万元用于为参加北京奥运会

和下届全运会的内蒙古籍运动员提供补贴、奖励。

伊利和蒙牛比着花钱，二者均欲罢不能，显然，他们正一步步陷入囚徒困境。此时，无疑是蒙牛在声势上占据着上风。2005年10月9日，对蒙牛和伊利来说，是个分水岭。这天上午，呼和浩特市政府召开市长办公会议。鉴于呼和浩特市几十万奶农通过奶协向政府反映，蒙牛与伊利在竞争成为奥运赞助商过程中，花钱太多，代价太大，将来不是变相增加农民负担，便是间接波及奶农生计；又鉴于乳品行业原料涨价、产品降价，已经进入微利时代——为此，市委市政府认为同城伙伴，不宜过分相争，建议两家一起退出北京奥运赞助商的申请活动。

在市政府的斡旋下，当天，牛根生与潘刚共同在《关于退出北京奥运合作伙伴申请活动的函》上签上了大名。此函是写给北京奥组委的，核心内容为：根据呼和浩特人民政府市长办公会议精神，蒙牛与伊利“思之再三，决定共同退出此次奥运合作伙伴申请活动”。双方当面将此退出申请函发送给了奥组委，而且还发了两遍。然而，蒙牛没想到，事情还是节外生枝了。奥组委在收到两家的退出申请函之后，又收到了伊利再次申请成为赞助商的函件。没有了竞争对手，伊利没有不赢的道理。此时，我们终于可以多少揣摩出，电视上牛根生看着潘刚慷慨陈词时的万般感受。

蒙牛输在哪儿？就输在它违背了囚徒困境。在竞标中，坚持下去，无论对伊利还是蒙牛，都是占优策略。谁放弃，便会让对手捡大便宜，就像瘦贼拒绝向警局坦白，结果自己获罪5年，眼睁睁看着坦白的胖贼卸掉镣铐，扬长而去。

商业不相信誓言。回头看看，1999年中国彩电企业峰会、2000年汽车价格同盟，2003年空调价格同盟……企业无数次信誓旦旦结盟。但哪次不是结盟时大家把胸口拍得乱响，转过头就惟恐降价比对手慢呢？

商业如戏，但假戏永远成不了真。因为，利益从不撒谎。

随着网络时代的来临，信息化的博弈也各式各样，在这里举一个关于互联网的囚徒困境案例：

2009年快结束时，整整一年没获得一笔融资的视频网站行业陷入躁动中。11月26日，中国网络视频反盗版联盟赢得第一场胜利，法院判决优酷网赔偿联盟成员优朋普乐45万元；第二天，盛大集团旗下华友世纪宣布收购酷6网，交易估值约为3700万美元，这一消息也使新浪将收购优酷的传言越显真实。

质变发生之前，视频网站已经“烧”了3年多的钱。

YouTube的崛起使人们对用户生产内容（UGC）一度寄望颇高，但事实证明，单纯的UGC 并不能支撑起商业模式—草根内容虽不乏精品，但大部分非但不能换来广告和付费，还要极大占用带宽等昂贵资源，投入产出比很低。相比之下，拥有更多优质内容的视频网站，如传统媒体打造的Hulu，就更容易吸引广告，实现商业价值。

当“内容为王”被证明后，几乎是零成本的、由用户上传的盗版内容便成为视频网站吸引流量的利器，而这些流量正是它们融资时最重要的筹码。但随着市场和商业模式的进一步发展，盗版已成为阻碍视频网站走向真正成功的最大制约因素。

且不说基于盗版的商业模式难以造就出上市公司，其对视频广告收入的影响也日渐显露。易观国际分析师唐亦之对本刊表示，目前视频广告中占比最大的游戏广告份额正在下降，饮料、服饰等快速消费品比例正在上升。这种转变意味着侵权的视频内容将渐渐失去广告，因为游戏广告需要的只是用户点击，但其它广告，尤其是品牌广告对视频质量要求较高。一些大品牌已放弃在可能有版权争议的视频上投放广告，以避免自己受到连带影响。李善友亦指出，只有当视频网站成为主流媒体，而且从效果广告转向品牌广告，广告价格才能上去，而且未来肯定是品牌广告为主。

虽然盗版还是一个问题，却没有人怀疑视频广告的市场前景。中国互联网数据中心（DCCI）的数据显示，截至2009年10月，中国网络视频受众规模已约达2.47亿人。关注新媒体的易凯资本CEO王冉(博客)对本刊表示，虽然今年中国网络视频的市场只有1亿美元左右，但明年很可能翻番。他表示，在中国，互联网广告市场突破200亿元用了10年，网游用了9年，而视频广告突破这个数字不会超过8年。李善友和激动网络董事长兼CEO吕文生都将2012年视为视频网站的成熟期，李更指出，届时市场至少能达到60亿元人民币，如果能分得60亿元中的1/5，便足以支撑一家市值10亿美元的上市公司。

土豆网CEO王微在2008年时曾指出，无论什么内容，只要能推高流量就可以的思路是错误的，并将灰色版权或垃圾内容等带来的巨大流量称为连鱼虾都养不活的“工业废水”。现在看来，王当时的说法已很接近当下视频网站的结症。

坚守UGC信仰的土豆网同时也在内容良莠不齐和盗版问题中煎熬，其去年9月正式推出的正版高清“黑豆”频道成为纾缓盈利和版权双重压力的渠道。据王微对本刊透露，土豆网今年购买的影视剧超过2万集，投入了几千万元，明年对内容的投入会超过带宽。对于用户上传的无版权影视剧，土豆等都强调“收到权益人通知后即删除”的“避风港”原则，但这种以此免责的做法被优朋普乐在口水战中指为“逃避责任”。

“我们买了几千部，买不起的都删掉了，那还能怎么办？我不会去分析有多少（内容）是有版权的，没意义，该打官司还是要打。任何一个剧，再热，所占比例都很小——《蜗居》可能播了几百万次，但土豆整个播放有上亿次。我们现在为了法律诉讼而采购，不是为了市场。”王微对本刊说。

最简单的逻辑是：“买下版权、独家播映、带来用户和流量、转换成口碑和广告”，但事实上，大规模购买版权不仅需要大量资金支持，当正版被普遍视为视频网站的出路时，很多热门影视剧的价格便被炒高，即便不惜代价买下来，投入产出比也可能并不划算。此外，

国家政策在视频内容版权上的规范和监管落后于市场，不仅日韩剧等外来内容没有明确严格的说法，真正买下的版权还需要自己维权，比如中国网络视频反盗版联盟对土豆和优酷等发起的诉讼。在不久前搜狐起诉优酷的案例中，有证据表明一个IP往优酷上传了3万条视频，大量侵权内容其实很可能是优酷等自己或者付费请人上传。

去盗版化无疑已是所有视频网站的当务之急，而这意味着海量资金。如果几年前视频网站的钱“烧”在了带宽和硬件上，现在这些钱更多将被用于购买版权和应付诉讼。谷歌2006年在收购YouTube后曾准备了2亿美元“储备金”用于侵权赔偿，但维亚康姆在2007年提出的诉讼开价10亿美元，而且看上去最终实际获偿金额不会相去太远。

相比美国对盗版的惩罚性判决，目前中国此类官司的判决还只是较轻的补偿性质，比如被判47部影视作品侵权的优酷仅赔偿了45万元，折合价格每部不到一万元，远低于购买版权的花费。但一旦法律开始重判，后果就会很严重。而且，真正有实力的版权方还未开始出面维权，比如中国电影集团公司和好莱坞大牌片商，他们现在的不作为可能意味着要等到法律更成熟、判决更严苛、视频网站也更有钱的时候再出手。

今年3月底，国家广播电视总局曾下发《关于加强互联网视听节目内容管理的通知》，该通知明确表示提出要求完善节目版权保护制度。据说现在国家已经着手调研、并有可能在2010年上半年开始重点打击盗版，如果将这视为视频网站解决盗版问题的最后期限，从现在来算，最多只剩半年时间。

这种局面下的独立视频当然承受着巨大的压力。虽然王微对本刊表示，资金对土豆而言不是问题，“如果需要我们分分钟就可以得到”，但现在的风险投资已不可能再像2007年和2008年时轻易对一个尚未被证实、或者代价巨大的前景一掷千金。现在视频网站如果融到钱，相当一部分资金会被用于解决盗版问题，永远向未来投钱的风险投资自然不喜欢看到自己的钱被用来为过去的错误埋单。

所以，赶在“严打”盗版的政策出台和资金出现问题前找到家底殷实的靠山，不失为明智选择。只是那些图谋着以百亿计的视频广告市场的“靠山”们，必须像谷歌一样，为自己收购来的“未来之星”准备好充足的赔偿储备金。而失去盗版之便利的视频网站们，必须比以前更认真谨慎地做好商业模式。

目前，视频网站所能看到和实现的商业模式不外乎付费和广告，而这两种模式都有赖于视频内容的建立。显然，谁控制了更多高质量内容，谁就能吸引更多用户，进而换来更多收入。

75%的用户将电视剧列为自己上网看视频的首选项。随着影视内容比例和重要性的攀升，视频网站从最初强调UGC的社区概念，逐渐转向视频门户概念，现在更有往媒体平台转变的趋势。

媒体出身的CEO吕文生表示，如果视频网站主要通过广告实现价值，就是媒体，而媒体围绕内容的上下游整合能力至关重要，视频分享也能卖出广告，却没有整合内容、用户、广告客户和社会资源等整个产业链的优势。激动网今年的收入在1亿元左右，收支持平，同时拥有微付费和广告业务，用户上传内容能带来流量，却基本不产生收入。

仅拥有热播影视内容还不够。一部戏的垄断价值再高也有限，只有形成片库才能对用户产生持续吸引力，系统分散成本和风险，而在片库的累积过程中，除了比拼资金，更重要的是眼光。激动网的很多优秀剧集购价相对便宜，是因为在剧本阶段就已介入，其中的判断力就来自之前拍电影、做电视的经验。

虽然目前还是以采购为主，在吕文生看来，终极形式还是分成，因为这样整个产业链能形成传导和共生关系。“现在一些不是当红的影视剧已经愿意分成了，将来市场成熟到单部戏能在视频网站上产生一两百万元价值，分成就比较容易了。等视频网站集中到几家成为主流媒体平台时，内容提供方心态也会比现在好，那时无论是直接付费还是贴片广告，他们都可以和所有视频网站合作。这就像电影院线，先在不同的电影院放，放完了大家再分钱。”

除了购买现成的影视内容，视频网站开始发力制作专属内容。激动网今年已开始尝试打造自己的视频?节目主持人，明年更可能学习凤凰卫视等电视台的“主持人中心制”，土豆网今年则和诺基亚联合制作了国内首个网络视频真人秀《互联网百万富翁》。由专业人士制作的网络剧也是视频网站打造自己独家竞争力的方向之一，在合办“土豆映像节”后，土豆网最近又与中影集团联合投资网络剧《Mr.雷》，并将在中国移动手机视频的“原创频道”上进行独家首播。

在视频网站向媒体平台转变的同时，其它媒体也开始往视频方向发力。搜狐过去一年都在高调购买版权、打击盗版，收购优酷传闻下的新浪CEO曹国伟不久前表示，视频是新浪重点发展战略之一，将不遗余力把它做大。更神秘的但更重量级的玩家是中央电视台，其日前低调上线了“爱西柚”和“爱布谷”两个视频网站，并有传言央视网将与暴风影音合并，前期斥资2亿元积极打造“国家网络电视台”。

这些在资源和资金上更强势的玩家的介入，使视频网站行业格局的洗牌加速。未来成熟视频网站可能在5至7家左右，同时控制着渠道和内容两大层次，与上下游合作，全面参与内容的制作、包装、销售、播放及广告搭载。垄断与赢家通吃的局面或难以形成，毕竟互联网是一个开发平台，但这也迫使视频网站在彼此间形成差异化，因为最终用户忠于的不是品牌，而是内容。

这是关于互联网的囚徒困境博弈，要想在博弈中走向成功，就必须有眼光和胆识，这也是信息化时代的要求。

囚徒困境案例分析

囚徒困境解说例子 1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。若二人都互相检举（相关术语称互相“背叛”），则二人同样判监8年。用表格概述如下：解说如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

浅谈博弈论中的囚徒困境的解决方法

浅谈博弈论中的囚徒困境的解决方法摘要：囚徒困境是博弈论中的一个重要范例，这个问题涉及各个领域。本文通过三个简单的实例，来谈谈解决的方法。案例一：一个面馆的囚徒困境我曾经在路边一个小店里吃面，由于当时客人不是很多，就顺便与小老板聊了起来。通过老板的介绍听出了一些门道。以前面馆开店的时候请了一个师傅，开始的时候为了调动他的积极性他们采用按销售量分成，一碗面给5毛钱提成。这样的话，客人越多他挣得也就越多，为了吸引更多的顾客，他在碗里放很多的肉来吸引回头客，一碗面才6块钱，本来就靠薄利多销，他放的肉多，面馆自然也赚不到钱。后来呢，就换了一个结算方式，给厨师发固定的工资，这样客人多少跟他没有什么关系，但是新的问题又出现了，这次他在碗里放肉放很少，基本上把所有的客人都赶走了。客人少了，他就轻松了啊反正他拿的是固定的工资。通过这个案例我们可以了解到面馆的老板与厨师在工资的分配上存在一定的分歧，由于没有处理好，使得双方都处在不利的结局。解决方法：面馆的老板应该对厨师明确，每碗面的元材料是固定的，大师傅的工资还是按照销售量提成走，但是前题是每个月使用的原材料不能超额，否则只有基本工资。或者就规定每碗面里就放多少克肉。此外，还有一个更简单的办法就是：面馆的小老板亲自放肉。因为关键的资源一定要掌握在关键的人手里。经过以上的分析，我们可以得知解决的方法：1.工资加提成的制度确实能调动员工的积极性；2.权利下放可以，但是要有度；3.员工的工资提成不能只和销量挂钩，应该和老板的利润挂钩。4.有效的沟通、激励，平时给员工传达精神的奖励，让员工认为自己也是公司的主人。案例二：小餐馆的囚徒困境在天津新建的一片经济适用房社区里有两家小餐馆，他们都是经营当地的家常炒菜及快餐。因为这里是新开发的经济适用房，而周边像小饭馆这样的生活配套设施很缺乏，所以附近的建筑工人都是在这两家小饭馆解决三餐。这两家餐馆因为在口味、价格、菜的品种等都基本相同，所以一直以来这两家面对都是这些人，营业额都差不多，而附近的建筑工人们对于吃饭也没有什么特殊的爱好。好景不长，就在今年的夏天，两家餐馆的其中一家，暂且称为A

1囚徒困境

囚徒困境简介囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。囚徒困境最早是由美国普林斯顿大学数学家曾克1950年提出来的。他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论，这个故事后来成为博弈论中最著名的案例。故事内容是：两个嫌疑犯(A和B)作案后被警察抓住，隔离审讯；警方的政策是“坦白从宽，抗拒从严”，如果两人都坦白则各判8 年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判10年；如果都不坦白则因证据不足各判1年。从图表里我们可以看到，整体来说，都抵赖是最优选择，总共只需要关两年。可会出现这个结果吗？答案是不会。首先看A，如果B选择坦白，那么他也应该选择坦白，这样只要关八年，否则都要关十年；如果B选择抵赖，那么他还是应该选择坦白，因为这样他就可以直接回家啦，不用关一年了。所以无论B怎么选择，A都应该选择坦白。这个分析对B来说也是一样，他也应该选择坦白，所以最终他们两个肯定都会被关八年，多么可怜啊，这就是人们著名的“囚徒困境”。囚徒困境的主旨为，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。囚徒困境的应用许多行业的价格竞争都是典型的囚徒困境现象，每家企业都以对方为敌手，只关心自己的利益。在价格博弈中，只要以对方为敌手，那么不管对方的决策怎样，自己总是以为采取低价策略会占便宜，这就促使双方都采取低价策略。如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。在国内的家电大战中，虽然不是两个对手之间的博弈，但由于在众多对手当中每一方的市场份额都很大，每一个主体人的行为后果受对手行为的影响都很大，因此，其情景大概也是如此。如果清楚这种前景，双方勾结或合作起来，都制定比较高的价格，那么双方都可以因为避免价格大战而获得较高的利润。但是往往这些联盟处于利益驱动的“囚徒困境”，双赢也就成泡影。五花八门的价格联盟总是非常短命，道理就在这里。并不是每次个人的“理性选择”都能让自我利益最大化，也许会让你陷入一个“囚徒困境”。大量例子说明，在“囚徒困境”中，常常是先动手的一方会占一些优势。那么，“先下手为强”吧。

生活中的囚徒困境

生活中的—“囚徒困境” 摘要：数学源自生活，生活中处处可见数学之美，博弈论—数学的一个分支，无疑在经济、军事、生物、政治等方面发挥了不可替代的作用。博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略，达到取胜的目的。所谓奕者即博者，在中国很早便存在博弈论的思想。如“世事洞明皆学问，人情练达即文章”，更有“画龙画虎难画骨，知人知面不知心”、“逢人且说三分话，未可全抛一片心。”博弈论中著名的“囚徒困境”在生活中最为真实体现，本文即从囚徒困境出发，寻找生活中“囚徒困境”的例子，如学生减负，商业之间的广告战、价格战等等，阐述了生活中的“囚徒困境”。囚徒困境—忠诚还是背叛这是一个问题经典案例：“警察与小偷的故事” 在博弈论中，一个著名例子是由塔克给出的“囚徒困境”博弈模型“警察与小偷的故事”。假设有两个小偷A 和B 联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果两个犯罪嫌疑人都坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪，各被判刑8年；如果只有一个犯罪嫌疑人坦白，另一个人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。表1给出了这个博弈的。表1 囚徒困境博弈 [Prisoner's dilemma] A ╲B 坦白抵赖坦白 -8，-8 0，-10 抵赖 -10，0 -1，-1 我们来看看这个博弈可预测的均衡是什么。对A 来说，尽管他不知道B 作何选择，但他知道无论B 选择什么，他选择“坦白”总是最优的。显然，根据对称性，B 也会选择“坦白”，结果是两人都被判刑8年。但是，倘若他们都选择“抵赖”，每人只被判刑1年。但他们都抵赖并非个人最优选择。不难看出，“坦白”是任一犯罪嫌疑人的占优战略，而（坦白，坦白）是一个占优战略均衡。生活中的“囚徒困境” 学生减负—书包越减越重学生减负的呼声在中国当代教育体制下越来越高，但结果是，辅导班越来越火、学生书包越来越重。表2将清楚的呈现学生各个选择的结果面对表2的结果，孩子和父母会做出怎样的选择呢？从“囚徒困境”中我们知道，所有的学生会选择增负而不是减负，如果所有人选择减负那么皆大欢喜，如果我选择了减负而别人选择了增负，我考试分数肯定会比别人低，那么我便不能考上好的学校接受更好的教育，在未来求职时我赶不上他人；如果我选择了增负，其他人选择减负，那我会在考试中获得优势。其他学生╲我减负增负减负所有人综合素质提高我能考好的大学，找好工作增负我的会比其他人低，考不上好的大学所有人都会拼命学习

囚徒困境研究专题

第五章囚徒困境研究专题一、囚徒困境为什么被关注？之所以囚徒困境被广泛的关注，不仅仅在于它由强大的解释力，如它可以解释企业竞争，应试教育困境，集体劳动悲剧等等，更重要的在于人们从中看到一个深刻的问题：个体理性与集体理性的冲突。哈丁的公共地悲剧（1968）如何破解？重复进行！什么是重复博弈？重复博弈指的是参与人之间进行多次相同的博弈，每个人所得收益为每次博弈的收益之和。注意：（1）这里的收益之和应该考虑贴现率。（2）重复博弈分为有限次重复和无限次重复有限次重复囚徒困境博弈的特征：（1）完全但不完美信息，（2）重复。有限次重复囚徒困境的解，每步都“不合作”为纳什均衡。二、无限次重复囚徒困境中的策略两个参与人无限次地重复囚徒困境，每个人的收益为每次博弈所获收益之和。在这样的博弈中因无最后一步，我们无法通过逆向归纳法来求解它。无限次重复囚徒困境博弈及其各种策略分析：触发策略：参与人开始采取合作行动，若发现对方在某步采取“背叛”行动，参与人以后都采取背叛行动。 “永远合作”：在每个囚徒困境博弈中均采取“合作”策略二无论对方采取什么策略。一旦采取这个策略，对方的最优策略是每步均采取“背叛”策略。在重复囚徒困境博弈中人们通过策略的变化或偏离进行学习的。一旦人们的合作行动的偏离——无论这样的偏离是有意还是无意的——得到额外的好处、对方遭受损失，同时这样的偏移没有被“惩罚”，人们将尝试性的进一步偏移。我们看到，若某个参与人在重复囚徒困境中采取永远“合作”，其结果是对方将通过一步步偏移，直至永远偏离。因此，理性人应该知道上述这个分析的结论，他不会采取这个永远合作策略。 “永远背叛”策略：在对方第一步采取合作并假定对方以后采取“一报还一报”的情况下，第一步或者某一步主动采取“背叛”的收益为： U=4+2δ+2δ2+……=4+2δ/(1-δ) U’= 3+3δ+3δ2+……=3+3δ/(1-δ) U≥U’ δ≤1/2.

博弈论中经典案例--“囚徒困境”

博弈论中经典案例--“囚徒困境” 博弈论中有一个经典案例囚徒困境” 。两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年;若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱十年;若互相揭发，则因证据确实，二者都判刑八年。由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。囚犯可以做出如下选择：1、供出他的同伙（即与警察合作，从而背叛他的同伙），2、保持沉默（也就是与他的同伙合作，而不是与警察合作）。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。 A 犯不是个傻子，他马上意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A 犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A 犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就

囚徒困境实验报告

《实验经济学》结课论文总分囚徒困境实验报告学院财政税务学院专业12级资产评估姓名李岩学号0506 囚徒困境实验分析一、实验目的根据囚徒困境经典悖论，通过实验来探寻单词与多次重复结果，分析结论。然后通过研究“囚徒困境”，了解囚徒困境产生的原因，想出走出囚徒困境的方法，并且理解和利用囚徒困境解决生活中与经济中的实际问题。二、实验原理囚徒困境是博弈论的非零和博弈中具代表性的例子。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。

若二人都互相检举（互相“背叛”），则二人同样判监2年。用表格概述如下：三、实验说明通过角色扮演的方式再现经典的囚徒困境。实验者两人一组，扮演囚徒。在相同的情境下看不同的实验者如何选择策略来完成实验。实验并没有考虑其他客观因素，是在完全假设的没有任何干扰囚徒做出选择的因素的情境下进行的。实验规则:实验参与人被随机地分配到有两个人组成的不同小组中。如果小组中的两个成员都选择坦白，那他们将会分别获得6年的刑期；如果小组中的两个成员都选择否认，那他们将会分别获得3年的刑期；如果小组中有一个成员选择坦白、另一个选择否认，那么选择坦白的成员获得1年的刑期，选择否认的成员获得10年的刑期。四、实验准备实验小组一共五人，通过抽签的方式分出两人，一人为囚徒一，一人为囚徒二。实验分为两种，一个是单次，一个为多次。另外三人分别记录单次实验与多次试验的结果，分析数据。五、实验步骤 1、在单次实验的情况下，囚徒一与囚徒二分别只有一次机会选择拒绝或坦白。 2、在多次重复实验的情况下，分为三轮，囚徒一与囚徒二分别有十次机会甲沉默甲背叛乙沉默二人同服刑1年乙服刑10年，甲即时获释乙背叛甲服刑10年，乙即时获释二人同服刑8年

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展发表于：分类：未分类博弈论（）对人的基本假定是：人是理性的（，或者说自私的）,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。 “囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白则因证据不足各判１年。在这个例子里，博弈的参加者就是两个嫌疑犯Ａ和Ｂ，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的结果。Ａ和Ｂ均坦白是这个博弈的纳什均衡。这是因为，假定Ａ选择坦白的话，Ｂ最好是选择坦白，因为Ｂ坦白判８年而抵赖却要判十年；假定Ａ选择抵赖的话，Ｂ最好还是选择坦白，因为Ｂ坦白判不被判刑而抵赖确要被判刑１年。即是说，不管Ａ坦白或抵赖，Ｂ的最佳选择都是坦白。反过来，同样地，不管Ｂ是坦白还是抵赖，Ａ的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑８年。在（坦白、坦白）这个组合中，Ａ和Ｂ都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果Ａ和Ｂ都选择抵赖，各判刑１年，显然比都选择坦白各判刑８年好得多。当然，Ａ和Ｂ可以在被警察抓到之前订立一个"攻守同盟"，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。在经济学方面的实例: 一．电信价格竞争根据我国电信业的实际情况，我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商与, 他们在电信某一领域展开竞争，一开始的价格都是。（中国电信）是老牌企业，实力雄厚，占据了绝大多数的市场份额；（中国联通）则刚刚成立不久，翅膀还没有长硬，是政府为了打破垄断鼓励竞争而筹建起来的。正因为是政府扶植起来鼓励竞争的，所以得到了政府的一些优惠，其中就有的价格可以比低％。这一举动，还不会对产生多大的影响，因为的根基实在是太牢固了。在这样的市场分配下，、可以达到平衡，但由于在价格方面的优势，市场份额逐步壮大，到了一定程度，对造成了影响。这时候，该怎么做？不妨假定：降价而维持，则获利，损失，整体获利；维持且也维持，则获利，获利，整体获利；维持而降价，则损失，获利，整体获利；降价且也降价，则损失，损失，整体损失。

囚徒困境(博弈论的经典案例)

囚徒困境（博弈论的经典案例）学习管理学或经济学的人一定都了解一些博弈论方面的知识。在博弈论中有一个经典案例--囚徒困境，非常耐人回味。囚徒困境，说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。----那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子，他马上

意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。当然，在现实世界里，信任与合作很少达到如此两难的境地。谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。但囚徒的两难境地确实抓住了不信任和需要相互防范背叛这种真实的一面。让我们看看冷战时期两个超级大国将自己锁定在一场40年的军备竞赛中，其结果对双方都毫无益处。还有各国的贸易保护主义的永恒倾向。----但是，无论在自然界还是在人类社会，合作都是一种随处可见的现象。那么，问题就出现了：到底是何种机制促使生物体或者人类进行相互合作呢？----这个问题的答案大部分归功于美国密西根大学一位叫做罗伯特·爱克斯罗德的人。爱克斯罗德是一个政治科学家，对合作的问题久有研究兴趣。为了进行关于合作的研究，他组织了一

第四卷囚徒困境案例

第四卷囚徒困境案例 “囚徒困境”案例说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。 1 在博弈论中有一个经典的广泛流传的案例--囚徒困境案例，这个博弈案例非常耐人寻味。 “囚徒困境”案例说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。现在有两个囚犯，他们分别是A和B,囚犯A不是个傻子，他马上意识到，他根本无法相信他的同伙B不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但囚犯B也意识到，他的同伙A也不是傻子，也会这样来设想他。所以两个囚犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，囚犯A反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展 05-06-13 10:57 发表于：《没有范的世界》分类：未分类博弈论（game theory）对人的基本假定是：人是理性的（rational，或者说自私的）,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。 “囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白则因证据不足各判１年。在这个例子里，博弈的参加者就是两个嫌疑犯Ａ和Ｂ，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的结果。Ａ和Ｂ均坦白是这个博弈的纳什均衡。这是因为，假定Ａ选择坦白的话，Ｂ最好是选择坦白，因为Ｂ坦白判８年而抵赖却要判十年；假定Ａ选择抵赖的话，Ｂ最好还是选择坦白，因为Ｂ坦白判不被判刑而抵赖确要被判刑１年。即是说，不管Ａ坦白或抵赖，Ｂ的最佳选择都是坦白。反过来，同样地，不管Ｂ是坦白还是抵赖，Ａ的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑８年。在（坦白、坦白）这个组合中，Ａ和Ｂ都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果Ａ和Ｂ都选择抵赖，各判刑１年，显然比都选择坦白各判刑８年好得多。当然，Ａ和Ｂ可以在被警察抓到之前订立一个"攻守同盟"，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。在经济学方面的实例: 一．电信价格竞争根据我国电信业的实际情况，我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争，一开始的价格都是P0。A（中国电信）是老牌企业，实力雄厚，占据了绝大多数的市场份额；B（中国联通）则刚刚成立不久，翅膀还没有长硬，是政府为了打破垄断鼓励竞争而筹建起来的。正因为B是政府扶植起来鼓励竞争的，所以B得到了政府的一些优惠，其中就有B的价格可以比P0低10％。这一举动，还不会对A产生多大的影响，因为A的根基实在是太牢固了。在这样的市场分配下，A、B可以达到平衡，但由于B在价格方面的优势，市场份额逐步壮大，到了一定程度，对A造成了影响。这时候，A该怎么做？不妨假定： A降价而B维持，则A获利15，B损失5，整体获利10； A维持且B也维持，则A获利5，B获利10，整体获利15；

教学案例20：囚徒困境

教学案例20：囚徒困境【案例呈现】警察局抓住了两个合伙犯罪的嫌疑犯，但获得的证据并不十分确切，对于两者的定罪量刑就取决于他们对于犯罪事实的供认情况。为防其相互间串供，两疑犯被分别拘捕、隔离审问，他们面临着认罪策略的选择问题。摆在他们面前的选择无非两种：坦白或不坦白。按照全世界通用的政策，坦白从宽，抗拒从严，所以若两人均坦白，则可以从轻处理，分别被判刑8年；若两人中有一人坦白而另一人拒不坦白，则坦白者可判5年，拒不坦白者将从重处罚被判10年；当然，若两人拒不交代，而警方手中又无足够的证据可以指控犯罪嫌疑人，那他们只能按妨碍公务罪各被判1年。因此，对两个囚徒来说，最佳结果是两人都不坦白，各判1年。但由于两个囚徒没有条件串供，他们并不确定对方是否会坦白，所以对于囚徒A 而言，不管囚徒B采取何种策略，他的最佳策略都是交代。对于囚徒B而言也是如此。最后，两个囚徒决策时都以自己的最大利益为目标，都会选择交代，结果是两人各判8年。【案例点评】人生的内容是由复杂多样的社会关系和社会活动构成的。个人与社会之间是辩证统一的关系。一方面，社会离不开个人，个人是构成社会的前提；另一方面，个人也离不开社会，社会是个人生存和发展的基础。个人与社会的关系，归根结底是个人利益与社会整体利益的关系。所以，每个人在追求或维护个人利益时，不能仅从个人的需要出发，还应适当考虑他人和社会群体的利益。因为若是损害了他人和群体的利益，也有可能损害自己的需要和利益。囚徒困境作为博弈论中一个具有代表性的例子，就充分演绎了个人与社会之间的同进步同退步、紧密的双向利益关系，反映了个体行为与集体行为选择之间的矛盾和冲突。即当每个人都以自己的最大利益为目标采取行为时，行为的结果反而是无法实现最大利益的。因此该案例提示大学生：只有从全局、整体出发，必要时为社会做出一定的牺牲，才能创造出个人与社会共同进步的双赢结果。【教学建议】本案例可用于第三节第三目“促进个人与社会的和谐”的教学，用来解释个人与社会之间的辩证统一关系，明确个人在社会中的定位。

浅析囚徒困境与纳什均衡

浅析囚徒困境欧阳学文囚徒困境是博弈论的非零和博弈中具代表性的例子，指反映个人最佳选择并非团体最佳选择。囚徒困境的经典案例这里不再复述，让我们看一下身边的例子。囚徒困境在生活中最常见的表现就是挤公共汽车。从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。学生也同样遭遇囚徒困境：减轻中小学生过重负担喊了20多年，仅1985年至2000年的15年里，中央就下达“减负令”49次。但实际情况却是学生课业负担不但没减下来，反倒呈现出越演越烈之势，致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。可见“减负令”难以见效，中小学生课业负担不减反增。又比如近年来炒得火热的楼市——“我没买房，结果房价还是涨了，因为我们无法保证大家都不买房。可是，

我错了吗？没有。当初如果我买房了，房价下跌了呢？因为我不能保证大家都买房。人们根本不能预知在疾风暴雨式的调控之下，房价竟还能且调且涨。可是，我对了吗？没有。”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的经典对白。含泪的“调侃”折射出当下楼市的“囚徒困境”：买，难担高房价重负；不买，难受房价节节攀升的煎熬。再看中国的法治之路。虽然法治让所有人都长期受益，甚至执政者自己也不例外，但是一个狭隘理性社会却偏偏无力支撑法治，以至最后每个理性人都不得不忍受法治缺位的非理性之苦。绝大多数中国人都是很识时务的理性人，不会故意给自己找茬，多数律师也不例外。不过，任何事物都有两面性，“理性”过了头也就成了非理性。这就是充斥着当今中国社会的“囚徒困境”：一种行为模式对于个人看起来是很理性的，但是对于个人构成的集体来说却是非理性的，最后对于每个人来说也是非理性的。我们都不敢站出来说话，对每个人来说都是很“理性”的一种行为方式，但最后的结果只能是让整个社会丧失法

囚徒困境的生活实例分析

囚徒困境的生活实例分析中南财经政法大学工商管理学院博弈论对人的基本假定是：人是理性的,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。 “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白则因证据不足各判１年。问题可以总结为：在这个例子里，博弈的参加者就是两个嫌疑犯Ａ和Ｂ，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的结果。Ａ和Ｂ均坦白是这个博弈的纳什均衡。这是因为，假定Ａ选择坦白的话，Ｂ最好是选择坦白，因为Ｂ坦白判８年而抵赖却要判十年；假定Ａ选择抵赖的话，Ｂ最好还是选择坦白，因为Ｂ坦白判不被判刑而抵赖确要被判刑１年。即是说，不管Ａ坦白或抵赖，Ｂ的最佳选择都是坦白。反过来，同样地，不管Ｂ是坦白还是抵赖，Ａ的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑８年。在（坦白、坦白）这个组合中，Ａ和Ｂ都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果Ａ和Ｂ都选择抵赖，各判刑１年，显然比都选择坦白各判刑８年好得多。当然，Ａ和Ｂ可以在被警察抓到之前订立一个"攻守同盟"，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。从自私自利的角度出发，选择认罪是最好的这种说法是有缺陷的，因为两个人都可能会得到8年的监禁期。即使是最狡猾的方法也不能把你救出监狱。但是如果你期望你的同伙与你合作，那你最好的选择将是认罪。然而，如果你的同伙知道了你的计划，他也会认罪，此时最好的方法是你们两个合作。这就是这个悖论的关键所在。如果从整体来看，对于两个囚犯而言，最好的结果是两人合作，其它的任何选择都是不好的。实例分析 1：一．电信价格竞争根据我国电信业的实际情况，我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争，一开始的价格都是P0。A（中国电信）是老牌企业，实力雄厚，占据了绝大多数的市场份额；B（中国联通）则刚刚成立不久，翅膀还没有长硬，是政府为了打破垄断鼓励竞争而筹建起来的。正因为B是政府扶植起来鼓励竞争的，所以B得到了政府的一些优惠，其中就有B的价格可以比P0低 10％。这一举动，还不会对A产生多大的影响，因为A的根基实在是太牢固了。在这样的市场分配下，A、B可以达到平衡，但由于B在价格方面的优势，市场份额逐步壮大，到了一定程度，对A造成了影响。这时候，A该怎么做？不妨假定： A降价而B维持，则A获利15，B损失5，整体获利 10； A维持且B也维持，则A获利5，B获利10，整体获利15； A维持而B降价，则A损失10，B获利15，整体获利5； A降价且B也降价，则A损失5，B损失5，整体损失10。从A角度看，显然降价要比维持好，降价至少可以保证比B好，在概率均等的情况下，A降价的收益为15×50％－5×50％＝5，维持的收益为5×50％－10×50％＝－2．5，为了自身

关于囚徒困境的几个问题(有标注)

关于囚徒困境的几个问题摘要：囚徒困境是博奕论中的一个重要范例，对这个问题的研究涉及经济学、政治学、社会学、哲学、伦理学等广泛的领域。本文简要地介绍和评述了中外学者在这个问题研究中取得的成果及进行解释时提出的多种见解。囚徒困境提示的个人理性和集体理性、个人主义与道德主义的关系深化了对这些问题的认识。本文最后介绍了用计算机比赛方法研究重复的囚徒困境和合作问题的成果，分析了“一报还一报”程序取得成功和合作得以出现的原因和条件。关键词：囚徒困境理性道德合作一、什么是囚徒困境 1994年10月12日，瑞典皇家科学院宣布把该年度的诺贝尔经济学奖授予约翰·纳什（J.Nash）、约翰·豪尔绍尼（J.Harsanyi）和莱因哈德·泽尔腾（Reinhard Selten）以表彰他们把博奕论（game theory，又译为对策论或游戏论）应用于现代经济分析所作的卓越贡献。以此为契机，我国在1995年出现了一个小小的介绍博奕论的“热潮”。许多读者大概已经注意到：在介绍博奕论的文章中几乎篇篇都会提到所谓的囚徒的困境。囚徒困境的原文为the Prisoner's Dilemma，又译为囚犯的两难困难，囚犯难题等。这个问题是大约在1950年首先由社会心理学家梅里尔·M．弗勒德（Merril M.Flood ）和经济学家梅尔文·德雷希尔（Melvin Dresher）提出来的，后来由艾伯特·W．塔克（Albert W.Tucker）明确地叙述了这种“困境”［1，p.3］。纳什有两篇关于非合作博奕的重要文章分别发表于1950年和1951年。有人认为：塔克的这项工作同纳什的著作一起“基本上奠定了现代非合作博奕论的基石。〔2 〕囚徒困境的重要地位和重要意义由此就不难想象了。所谓囚徒困境可简要地叙述如下：两个涉嫌共谋犯罪的嫌疑犯被捕后被警察关在相互隔离的牢房中。他们面临的选择是：或者坦白或者保持沉默（即不坦白）。他们被告知：①如果某个嫌疑犯坦白而其同伙不坦白，则坦白者可获自由而拒不坦白者要被判10年监禁；②如果二人都坦白，则二人都被判5年监禁；③如果二人都不坦白，则二人皆被判1年监禁。上述情况我们亦可用一支付矩阵表示如下：嫌疑犯乙坦白沉默嫌疑犯甲坦白-5, -50, -10 沉默-10, 0-1, -1 在这种情况下，两个嫌疑犯将如何决策和选择呢？在囚徒困境的分析和推论中有以下的前提性设定：①每个局中人（在囚徒困境中就是两个囚徒）都知道“博奕的规则”和“博奕结果”的支付矩阵；②每个局中人都是理性的，而这里的所谓“理性”是指只要给出两种备择策略（alternatives），他将总是选择其中对他更有利的那种策略；③局中人是相互隔离不能“串通”，不能“结盟”的。在这种条件下，两个囚徒怎样分析问题和运用“理性”并得到什么结果呢？从甲的“立场”来看，共有两种可能情况。第一种可能情况是乙采取坦白的策略，这时，如果

囚徒困境

经济学中的囚徒困境举个例子：两囚徒被指控是一宗罪案的同案犯。他们被分关在不同的牢房且无法互通信息。各囚徒被要求坦白罪行。如果两囚徒都坦白，各将被判入狱5年；如果两人都不坦白，则很难对他们提起刑事诉讼，因而两囚徒可以预期从轻发落为入狱2年；另一方面，如果一个囚徒坦白而另一囚徒不坦白，坦白的这个囚徒就只需入狱1年，而另一个将被判入狱10年。如果你是这两个囚徒之一，你会怎么做——坦白还是不坦白？微观经济学中有一个纳什均衡理论，讨论的是在市场中，包括竞争和垄断市场，各个厂商的行为及均衡，个人感觉很有趣，想和大家分享一下。上面的例子其实是一个博弈论中被称为囚徒困境（prisoners ‘ dilemma ）的例子，它是纳什均衡中的一个典型例子，它很好的阐明了寡头垄断的厂商面临的问题。寡头垄断：只有几个少数的厂商相互竞争，且新厂商的进入是受到阻碍的市场。我们认为，各个厂商的产品可以有差别，也可以没有差别，汽车，钢铁，航空等行业都是寡头垄断的例子。经营一个寡头垄断企业很复杂，这是因为定价，产量，广告和投资决策都包含了重要性的策略性考虑。因为只有少数厂商在竞争，各厂商必须考虑他的行为对他的竞争对手有什么影响，以及他的对手大概会如何反应。我们回到囚徒困境中来，两个囚徒正陷于困惑的状态，他们面临着的是，如果他们均同意不坦白，那么各人只需入狱2年，但他们不能相互共谋，并且即使能够共谋，他们能够相互信任吗？如果囚徒1不坦白，他就要冒着被他先前的同谋犯利用的危险。无论怎么说，不管囚徒1怎么选择，囚徒2坦白总是优选方案。同样，囚徒1坦白也是优选方案，所以囚徒2必须担心要是不坦白，他就会被利用。因此，两囚徒大概都会坦白并入狱5年。囚徒2 囚徒困境的支付矩阵就像我们的囚徒一样，各厂商都有一种背叛的和削价与它的竞囚徒 1 坦白 -5，-5 -1，-10 不坦白 -10，-1 -2，-2

第1讲囚徒困境及道德、文明、制度和

教学目的对博弈论产生兴趣并初步了解博弈论教学大纲第1讲囚徒困境及道德、文明、制度和社会发展（完全信息静态博弈）第2讲许诺与威胁及胡萝卜和大棒（完全信息动态博弈）第3讲公共知识与不完全信息（不完全信息博弈）第4讲学习机制和有限理性第5讲你的权力有多大--夏普里值（合作博弈）导论在经济学史上，曾经发生过三次重大的“革命”，分别是“边际分析革命”、“凯恩斯革命”与“博弈论革命”。博弈论与信息经济学的产生与发展引发了一场深刻的经济学革命，因为它代表着一种新概念、新方法和一种全新的思想。一、重要性应用广泛：政治、经济、军事、外交、日常生活博弈论对社会福利的意义：制度设计博弈论对个人：做人做事都有启迪，避免鼠目寸光、注重长远利益和个人声誉以及合作精神。博弈论是很好的思维训练，它能提高思维能力和思维素养，因为博弈论研究策略的互动和利益依存，从而能够进行换位思考。萨缪尔森：你可以将一只鹦鹉训练成经济学，因为它所要学习的只有两个词：供给与需求。博弈论专家坎多瑞引申说：要成为现代经济学，这只鹦鹉必须再多学一个词，这个词就是“纳什均衡”。 Stigilz《经济学》：中国改革二个阶段，第一个阶段构建市场框架，第二个阶段是制度设计。我认为，博弈论对社会福利的意义正在于制度设计。 1994 博弈论：对非合作博弈理论中的均衡问题进行了开创性分析约翰?豪尔绍尼[美籍匈牙利裔] John C. Harsanyi：不完全信息博弈分析原理、贝叶斯纳什均衡与混合策略、合作博弈问题。约翰?纳什[美国] John F. Nash：非合作博弈与纳什均衡、纳什讨价还价解、两人合作博弈、纳什程序。莱因哈德?泽尔滕[德国] Reinhard Selten：子博弈完美纳什均衡、颤抖手均衡、博弈均衡的选择。 1996 信息经济学：对不对称信息条件下的激励经济理论作出了基础性贡献詹姆斯?米尔利斯[英国] James A. Mirrlees：信息不对称问题、最优所得税结构与激励相容约束、“道德风险”与最优激励合同、信号筛选理论。威廉?维克里[加拿大] William Vickrey：拍卖制度与资源配置、税制与最优所得税、边际成本与城市交通定价。 2001 信息经济学：对不对称信息市场理论作出了贡献乔治?阿克洛夫[美国] George A. Akerlof：、信息不对称与柠檬原理、效率工资、近似理性模型。

囚徒困境

囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。(单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样) 1950年，由就职于兰德公司的梅里尔·弗拉德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问阿尔伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择： ?若一人认罪并作证检举对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。 ?若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。 ?若二人都互相检举（互相“背叛”），则二人同样判监2年。用表格概述如下：甲沉默（合作）甲认罪（背叛）乙沉默（合作）二人同服刑半年甲即时获释；乙服刑10年乙认罪（背叛）甲服刑10年；乙即时获释二人同服刑2年如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势策略”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒甲和乙该怎么办呢？他们作为本博弈中的两个博弈方，他们都有两个选择——坦白或抵赖。很显然，最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，根据个体理性原则，两个博弈方的目标都是要实现自身利益最大化。对于囚徒甲来说，囚徒乙有坦白和抵赖的两种可能的选择，如果囚徒乙选的是抵赖，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益为-1，坦白的得益为-1/2；，如果囚徒乙选的是坦白，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益-10，坦白的得益为-5。因此，在本博弈中，无论囚徒乙选择何种策略，囚徒甲选择坦白给自己带来的收益是最大的；同样的，囚徒乙和囚徒甲的情况一样，因此囚徒乙的选择和囚徒甲一样。因此，该博弈的最终结果是博弈双方同选择坦白策略，同时获益-5，都判五年刑。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，

第四卷囚徒困境案例

囚徒困境案例分析

浅谈博弈论中的囚徒困境的解决方法

1囚徒困境

生活中的囚徒困境

囚徒困境研究专题

博弈论中经典案例--“囚徒困境”

囚徒困境实验报告

博弈论经典案例“囚徒困境”以及其拓展

囚徒困境(博弈论的经典案例)

第四卷囚徒困境案例

博弈论经典案例“囚徒困境”以及其拓展

教学案例20：囚徒困境

浅析囚徒困境与纳什均衡

囚徒困境的生活实例分析

关于囚徒困境的几个问题(有标注)

囚徒困境

第1讲 囚徒困境及道德、文明、制度和

囚徒困境

第1讲囚徒困境及道德、文明、制度和