囚徒困境的生活实例分析说课讲解

囚徒困境的生活实例

分析

囚徒困境的生活实例分析

中南财经政法大学工商管理学院

博弈论对人的基本假定是：人是理性的,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。

“囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白则因证据不足各判１年。

问题可以总结为：

在这个例子里，博弈的参加者就是两个嫌疑犯Ａ和Ｂ，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的结果。Ａ和Ｂ均坦白是这个博弈的纳什均衡。这是因为，假定Ａ选择坦白的话，Ｂ最好是选择坦白，因为Ｂ坦白判８年而抵赖却要判十年；假定Ａ选择抵赖的话，Ｂ最好还是选择坦白，因为Ｂ坦白判不被判刑而抵赖确要被判刑１年。即是说，不管Ａ坦白或抵赖，Ｂ的最佳选择都是坦白。反过来，同样地，不管Ｂ是坦白还是抵赖，Ａ的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑８年。在（坦白、坦白）这个组合中，Ａ和Ｂ都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果Ａ和Ｂ都选择抵赖，

各判刑１年，显然比都选择坦白各判刑８年好得多。当然，Ａ和Ｂ可以在被警察抓到之前订立一个"攻守同盟"，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。从自私自利的角度出发，选择认罪是最好的这种说法是有缺陷的，因为两个人都可能会得到8年的监禁期。即使是最狡猾的方法也不能把你救出监狱。但是如果你期望你的同伙与你合作，那你最好的选择将是认罪。然而，如果你的同伙知道了你的计划，他也会认罪，此时最好的方法是你们两个合作。这就是这个悖论的关键所在。如果从整体来看，对于两个囚犯而言，最好的结果是两人合作，其它的任何选择都是不好的。

实例分析 1：

一．电信价格竞争

根据我国电信业的实际情况，我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争，一开始的价格都是P0。A（中国电信）是老牌企业，实力雄厚，占据了绝大多数的市场份额；B（中国联通）则刚刚成立不久，翅膀还没有长硬，是政府为了打破垄断鼓励竞争而筹建起来的。

正因为B是政府扶植起来鼓励竞争的，所以B得到了政府的一些优惠，其中就有B的价格可以比P0低 10％。这一举动，还不会对A产生多大的影响，因为A的根基实在是太牢固了。在这样的市场分配下，A、B可以达到平衡，但由于B在价格方面的优势，市场份额逐步壮大，到了一定程度，对A造成了影响。这时候，A该怎么做？不妨假定：

A降价而B维持，则A获利15，B损失5，整体获利 10；

囚徒困境理论

“囚徒困境”是博弈论里最经典的例子之一。其中对于囚徒困境的描述：话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，甲和乙，并从他们的住处搜出被害人家中丢失的财物。但是，他们都否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。由警察分别和每个人单独谈话。警察说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你半年的***，但你的同伙要被判十年刑。如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判半年的***。但是，如果你们两人都坦白交代，那么，你们都要被判五年刑。” 囚徒甲和乙该怎么办呢？他们作为本博弈中的两个博弈方，他们都有两个选择——坦白或抵赖。很显然，最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，根据个体理性原则，两个博弈方的目标都是要实现自身利益最大化。对于囚徒甲来说，囚徒乙有坦白和抵赖的两种可能的选择，如果囚徒乙选的是抵赖，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益为-1，坦白的得益为-1/2；，如果囚徒乙选的是坦白，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益-10，坦白的得益为-5。因此，在本博弈中，无论囚徒乙选择何种策略，囚徒甲选择坦白给自己带来的收益是最大的；同样的，囚徒乙和囚徒甲的情况一样，因此囚徒乙的选择和囚徒甲一样。因此，该博弈的最终结果是博弈双方同选择坦白策略，同时获益-5，都判五年刑。囚徒的困境该理论其中的意义在于：个人理性与集体理性的矛盾，个体追求的利己行为而导致的最

浅析博弈中的囚徒困境

浅析博弈中的囚徒困境班级：姓名：学号：

摘要：囚徒困境是博弈论的非零和博弈中具代表性的例子，个人最佳选择并非团体最佳选择，个人理性有时会导致集体的非理性——机关算尽却因而作茧自缚，这就是囚徒困境所反映的问题。一经典的囚徒困境 “囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年；若一人揭发，而另一人隐瞒，则揭发者因为立功而立即获释，隐瞒者因不合作而入狱五年；若互相揭发，则因证据确实，二者都判刑三年。从集体上看，他们应当互相合作，都隐瞒，这样总服刑时间最短（为2年）。但他们会仔细考虑对方可能采取什么样的选择，并从自身利益出发做出选择。他们会意识到，如果同伙隐瞒而自己背叛，就能使自身利益最大化（0年）。但他也意识到，他的同伙也不傻，也会这样来设想，这样的话，他就更不可能让同伙得利（服刑0年）而自己受害（服刑5年）所以结论就是，唯一正确的选择就是背叛同伙，把一切都告诉警方，如果他的同伙保持隐瞒，那么他就会是那个获释出狱，服刑0年。而如果他的同伙也向警方交代了，那么，他只需服刑3年而不是5年。所以结果只能是两个囚犯都坐牢服刑3年，而不是都服刑1年。所以对于他们个人来说都是理性的，然而对集体来说却是非理性的。二重复多次如果囚徒困境的情况重复多次，会有什么新的变化？假设重复10次。我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。相反，如果第一次相反，如果第一次别人保持隐瞒，建立了互信的关系，你也会保持隐瞒，导致最优。当然，两个囚徒都会有相似的想法，在第一局保持隐瞒，以期望建立互信关系，所以双方都会保持隐瞒。第二局时，双方亦应有相似的想法，继续保持隐瞒，以期继续在互信的情况下进行第三局，

浅谈博弈论中的囚徒困境的解决方法

浅谈博弈论中的囚徒困境的解决方法摘要：囚徒困境是博弈论中的一个重要范例，这个问题涉及各个领域。本文通过三个简单的实例，来谈谈解决的方法。案例一：一个面馆的囚徒困境我曾经在路边一个小店里吃面，由于当时客人不是很多，就顺便与小老板聊了起来。通过老板的介绍听出了一些门道。以前面馆开店的时候请了一个师傅，开始的时候为了调动他的积极性他们采用按销售量分成，一碗面给5毛钱提成。这样的话，客人越多他挣得也就越多，为了吸引更多的顾客，他在碗里放很多的肉来吸引回头客，一碗面才6块钱，本来就靠薄利多销，他放的肉多，面馆自然也赚不到钱。后来呢，就换了一个结算方式，给厨师发固定的工资，这样客人多少跟他没有什么关系，但是新的问题又出现了，这次他在碗里放肉放很少，基本上把所有的客人都赶走了。客人少了，他就轻松了啊反正他拿的是固定的工资。通过这个案例我们可以了解到面馆的老板与厨师在工资的分配上存在一定的分歧，由于没有处理好，使得双方都处在不利的结局。解决方法：面馆的老板应该对厨师明确，每碗面的元材料是固定的，大师傅的工资还是按照销售量提成走，但是前题是每个月使用的原材料不能超额，否则只有基本工资。或者就规定每碗面里就放多少克肉。此外，还有一个更简单的办法就是：面馆的小老板亲自放肉。因为关键的资源一定要掌握在关键的人手里。经过以上的分析，我们可以得知解决的方法：1.工资加提成的制度确实能调动员工的积极性；2.权利下放可以，但是要有度；3.员工的工资提成不能只和销量挂钩，应该和老板的利润挂钩。4.有效的沟通、激励，平时给员工传达精神的奖励，让员工认为自己也是公司的主人。案例二：小餐馆的囚徒困境在天津新建的一片经济适用房社区里有两家小餐馆，他们都是经营当地的家常炒菜及快餐。因为这里是新开发的经济适用房，而周边像小饭馆这样的生活配套设施很缺乏，所以附近的建筑工人都是在这两家小饭馆解决三餐。这两家餐馆因为在口味、价格、菜的品种等都基本相同，所以一直以来这两家面对都是这些人，营业额都差不多，而附近的建筑工人们对于吃饭也没有什么特殊的爱好。好景不长，就在今年的夏天，两家餐馆的其中一家，暂且称为A

浅析囚徒困境与纳什均衡

浅析囚徒困境囚徒困境是博弈论的非零和博弈中具代表性的例子，指反映个人最佳选择并非团体最佳选择。囚徒困境的经典案例这里不再复述，让我们看一下身边的例子。囚徒困境在生活中最常见的表现就是挤公共汽车。从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。学生也同样遭遇囚徒困境：减轻中小学生过重负担喊了20多年，仅1985年至2000年的15年里，中央就下达“减负令”49次。但实际情况却是学生课业负担不但没减下来，反倒呈现出越演越烈之势，致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。可见“减负令”难以见效，中小学生课业负担不减反增。又比如近年来炒得火热的楼市——“我没买房，结果房价还是涨了，因为我们无法保证大家都不买房。可是，我错了吗？没有。当初如果我买房了，房价下跌了呢？因为我不能保证大家都买房。人们根本不能预知在疾风暴雨式的调控之下，房价竟还能且调且涨。可是，我对了吗？没有。”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的经典对白。含泪的“调侃”折射出当下楼市的“囚徒困境”：买，难担高房价重负；不买，难受房价节节攀升的煎熬。再看中国的法治之路。虽然法治让所有人都长期受益，甚至执政者自己也不例外，但是一个狭隘理性社会却偏偏无力支撑法治，以至最后每个理性人都不得不忍受法治缺位的非理性之苦。绝大多数中国人都是很识时务的理性人，不会故意给自己找茬，多数律师也不例外。不过，任何事物都有两面性，“理性”过了头也就成了非理性。这就是充斥着当今中国社会的“囚徒困境”：一种行为模式对于个人看起来是很理性的，但是对于个人构成的集体来说却是非理性的，最后对于每个人来说也是非理性的。我们都不敢站出来说话，对每个人来说都是很“理性”的一种行为方式，但最后的结果只能是让整个社会丧失法治。但囚徒困境一定是坏事吗？就以囚徒困境的经典案例来说，作为一个比喻，我们会为囚犯不能合作而遗憾；可是如果它发生在现实中，我们就巴不得他们不能合作。然而如果是多次博弈，人们就有了合作的可能性，囚徒困境就有可能破解，合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解，这也是博弈论上著名的“大众定理”的含义。但合作的可能性不是必然性。博弈论的研究表明，要想使合作成为多次博弈的均衡解，博弈的一方（最好是实力更强的一方）必须主动通过可信的承诺，向另一方表示合作的善意，努力把这个善意表达清楚，并传达出去。比如在楼市的囚徒困境中，政府能适当调控房价，给予购房者房价稳定合理的承诺，那么楼市的囚徒困境是有可能破解的。在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出

囚徒困境案例分析

囚徒困境解说例子 1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。若二人都互相检举（相关术语称互相“背叛”），则二人同样判监8年。用表格概述如下：解说如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

生活中的囚徒困境

生活中的—“囚徒困境” 摘要：数学源自生活，生活中处处可见数学之美，博弈论—数学的一个分支，无疑在经济、军事、生物、政治等方面发挥了不可替代的作用。博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略，达到取胜的目的。所谓奕者即博者，在中国很早便存在博弈论的思想。如“世事洞明皆学问，人情练达即文章”，更有“画龙画虎难画骨，知人知面不知心”、“逢人且说三分话，未可全抛一片心。”博弈论中著名的“囚徒困境”在生活中最为真实体现，本文即从囚徒困境出发，寻找生活中“囚徒困境”的例子，如学生减负，商业之间的广告战、价格战等等，阐述了生活中的“囚徒困境”。囚徒困境—忠诚还是背叛这是一个问题经典案例：“警察与小偷的故事” 在博弈论中，一个著名例子是由塔克给出的“囚徒困境”博弈模型“警察与小偷的故事”。假设有两个小偷A 和B 联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果两个犯罪嫌疑人都坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪，各被判刑8年；如果只有一个犯罪嫌疑人坦白，另一个人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。表1给出了这个博弈的。表1 囚徒困境博弈 [Prisoner's dilemma] A ╲B 坦白抵赖坦白 -8，-8 0，-10 抵赖 -10，0 -1，-1 我们来看看这个博弈可预测的均衡是什么。对A 来说，尽管他不知道B 作何选择，但他知道无论B 选择什么，他选择“坦白”总是最优的。显然，根据对称性，B 也会选择“坦白”，结果是两人都被判刑8年。但是，倘若他们都选择“抵赖”，每人只被判刑1年。但他们都抵赖并非个人最优选择。不难看出，“坦白”是任一犯罪嫌疑人的占优战略，而（坦白，坦白）是一个占优战略均衡。生活中的“囚徒困境” 学生减负—书包越减越重学生减负的呼声在中国当代教育体制下越来越高，但结果是，辅导班越来越火、学生书包越来越重。表2将清楚的呈现学生各个选择的结果面对表2的结果，孩子和父母会做出怎样的选择呢？从“囚徒困境”中我们知道，所有的学生会选择增负而不是减负，如果所有人选择减负那么皆大欢喜，如果我选择了减负而别人选择了增负，我考试分数肯定会比别人低，那么我便不能考上好的学校接受更好的教育，在未来求职时我赶不上他人；如果我选择了增负，其他人选择减负，那我会在考试中获得优势。其他学生╲我减负增负减负所有人综合素质提高我能考好的大学，找好工作增负我的会比其他人低，考不上好的大学所有人都会拼命学习

囚徒困境研究专题

第五章囚徒困境研究专题一、囚徒困境为什么被关注？之所以囚徒困境被广泛的关注，不仅仅在于它由强大的解释力，如它可以解释企业竞争，应试教育困境，集体劳动悲剧等等，更重要的在于人们从中看到一个深刻的问题：个体理性与集体理性的冲突。哈丁的公共地悲剧（1968）如何破解？重复进行！什么是重复博弈？重复博弈指的是参与人之间进行多次相同的博弈，每个人所得收益为每次博弈的收益之和。注意：（1）这里的收益之和应该考虑贴现率。（2）重复博弈分为有限次重复和无限次重复有限次重复囚徒困境博弈的特征：（1）完全但不完美信息，（2）重复。有限次重复囚徒困境的解，每步都“不合作”为纳什均衡。二、无限次重复囚徒困境中的策略两个参与人无限次地重复囚徒困境，每个人的收益为每次博弈所获收益之和。在这样的博弈中因无最后一步，我们无法通过逆向归纳法来求解它。无限次重复囚徒困境博弈及其各种策略分析：触发策略：参与人开始采取合作行动，若发现对方在某步采取“背叛”行动，参与人以后都采取背叛行动。 “永远合作”：在每个囚徒困境博弈中均采取“合作”策略二无论对方采取什么策略。一旦采取这个策略，对方的最优策略是每步均采取“背叛”策略。在重复囚徒困境博弈中人们通过策略的变化或偏离进行学习的。一旦人们的合作行动的偏离——无论这样的偏离是有意还是无意的——得到额外的好处、对方遭受损失，同时这样的偏移没有被“惩罚”，人们将尝试性的进一步偏移。我们看到，若某个参与人在重复囚徒困境中采取永远“合作”，其结果是对方将通过一步步偏移，直至永远偏离。因此，理性人应该知道上述这个分析的结论，他不会采取这个永远合作策略。 “永远背叛”策略：在对方第一步采取合作并假定对方以后采取“一报还一报”的情况下，第一步或者某一步主动采取“背叛”的收益为： U=4+2δ+2δ2+……=4+2δ/(1-δ) U’= 3+3δ+3δ2+……=3+3δ/(1-δ) U≥U’ δ≤1/2.

博弈论论文囚徒困境的启示和思考

囚徒困境的启示和思考二、囚徒困境的解释如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。实际上囚徒困境在我们的实际生活中也有很多，下面举两个进行说明

三、经济学例子：关税战两个国家，在关税上可以有以两个选择: 提高关税，以保护自己的商品。（背叛）与对方达成关税协定，降低关税以利各自商品流通。（合作）当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）四、商业例子：广告战商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。此二公司可以有二选择：互相达成协议，减少广告的开支。（合作）增加广告开支，设法提升广告的质量，压倒对方。（背叛）若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。除了这些还有的很多类似的例子，比如说公共产品的提供，商家的价格战等等，在这里就不多赘述了。五、“囚徒困境”现象的意义和启示通过以上几个关于囚徒困境的例子，特别是作为经济管理学院的学生，我们可以将博弈论的一些知识运用好，更好的指导我们的经济生活。理论的重要意义在于类似的情况之下给人们社会经济生活带来指导。在经济发展中，我们应该认识到“看不见的手”还有更多内涵，有待我们去发掘。本文主要通过对该理论的分析，从中发现对企业经营管理活动的有义启示。第一，在市场竞争过程中，一名优秀的经营者，无论做任何决策还是考虑问题应该有战略眼观，特别是在做出对企业乃至行业今后发展的竞争策略时，从长远出发，做正确的决断。第二，保存对手就是保存自己。在市场竞争中，让竞争对手发展就是自己发展，本着求同存异的思想，共谋发展，避免恶性竞争，避免两败俱伤的情况。第三，市场竞争不是纯粹的竞争，在义和利之间应该如何取舍，是一位有战略眼观的企业家该做的第一个选择。 2杜兰：走出“囚徒困境”《通信企业管理》[J] 2003年第4期，第31页

浅析“囚徒困境”模型中的“理性”假设

浅析“囚徒困境”模型中的“理性”假设 “囚徒困境”博弈模型中个体理性和集体理性的冲突对经济学的基本假设——“理性经济人”造成了严重挑战。认为“囚徒困境”中之所以出现表面的理性冲突是因为囚徒并非真正理性，之后笔者试着给出了两种可以化解这种冲突的方案：一种是改变博弈的理性选择方式，一种是集体理性工具说或集体利益幻象说，这一过程构成笔者对“理性经济人”假设的反思。标签：“理性经济人”假设；囚徒困境；个体理性；集体理性引言 “理性经济人”假设是西方经济学理论分析的逻辑起点，它为构建精致庞大的经济学理论体系奠定了一个公理化的起点。在以此为前提取得了丰硕的理论研究成果的同时，它也遭到了众多批判和质疑。1950年普林斯顿大学的塔克（Tucker）教授提出的“囚徒困境”博弈模型是对这一假设的有力冲击。在这一模型里，每个囚徒都是“理性的”，而且他们也都知道对方是“理性的”，每个囚徒都选择了对自己而言是理性的“占优策略”，而结果对每个人而言却都是次劣的，对集体而言则是最劣的[1]，这不符合“理性经济人”假设的逻辑结果，即个体理性的利益最大化行为的自然结果即是集体利益的最大化。这促使笔者思考，或者是研究者们在这一模型里对“理性经济人”假设的理解有偏差，或者是这一假设本身即有暗伤存在，囚徒博弈只是帮助我们发现了这一点；或者是这一假设根本不适用于分析该模型中囚徒的策略选择行为，这一点显然是试图逐渐扩张到解释预测一切人类行为的帝国主义经济学所不愿意承认的。而笔者深信，每个囚徒可以选择的“沉默”（合作）与“坦白”（背叛）两种策略不可能都是不理性的，至少有一个策略是相对最为理性的；同样，仅有可能出现的四种结果（最优，次优，次劣，最劣）也不可能对于每个囚徒而言都是不理性的，至少有一个结果是相对最为理性的[2]，在模型中如何使理性的策略与理性的结果统一起来，即实现手段理性与目标理性的统一，这是理性的任务。一、“囚徒困境”及其出现的原因分析 “囚徒困境”博弈模型最初由普林斯顿大学的塔克教授提出。经典的“囚徒困境”如下所述[3]：两个囚徒被警察抓住后分别关押，警方知道他们有罪，但是苦于缺乏充足的证据。警察给他们的政策是“坦白从宽，抗拒从严”。每个囚徒面临的两个策略选择“沉默”（合作）和“坦白”（背叛）。如果一方“坦白”，而另外一方“沉默”，则坦白方将被释放，而沉默方将被判重刑10年；如果双方均“坦白”，则每人将被判刑8年；如果双方均“沉默”，警方因为没有足够的证据而只能给他们轻微的象征性惩戒，判刑半年。他们的支付矩阵如下所示:

博弈论之囚徒困境

博弈论之囚徒困境阿普顿是普林斯大学的高材生，毕业后被安排在爱迪生身边工作，他对依靠自学而没有文凭的爱迪生很不以为然。一次，爱迪生要阿普顿算出梨形玻璃泡的容积，阿普顿点点头，心想：这么简单的事一会几就行了。只见他拿来梨形玻璃泡，用尺上下量了几遍，再按照武样在纸上画好革田，列出了一道算式，算来算去，算得满头大汗仍没算出来。一连换了几十个公式，还是没结果，阿普顿惠得满脸通红，狼狈不堪。爱迪生在实验室等了很久，觉得奇怪，便走到阿普顿的工作问，看到几张白纸上密密麻麻的算式．便笑荚说：“您这样计算太浪费时间了。”只见爱迪生将一杯水倒连玻璃泡内，交给阿普顿说：“再找个量筒来就知道答案了。”阿普顿茅塞顿开，终于对爱迪生敬服．最后成为爱迪生事业上的好助手。有时候。科学并不一定意味着烦琐的计算与剥量，而是一种有浓厚艺术气息的思维方式。前者固然可以得出正确的结论，但是后者同样可以用一种出入意表的方式曲径通幽。这种方式，与我们在生活中运用博弈科学有异曲同工之妙。大量的教学模型吓不倒我们，因为我们可以对它们置之不理。有一个脑筋息转弯问题是这样的：在什么情况下零大干二，二大干五，五又大干零’答案是：在玩“石头．剪刀．布”游戏的时候。博弈．就是用这种游戏思维来突破看似无法改变的局面，解决现实的严肃问题的策略。在博弈中，每个参与者都在特定条件下争取其最大利益，强差一者来必胜券在握，弱者也未必永无出头之日。因为在博弈中，特别是多十参与者的博弈中，结果不仅取决干参与者的实

力与策略，而且还取决于其他参与者的制约和策略。事实上，博弈过程本来就不过是一种日常现象。我们在日常生活中经常薷要先分析他人的意田从而做出合理的行为选择，而所谓博弈就是行为者在一定环境条件和规则下，选择一定的行为或策略加以实施并取得相应结果的过程。博弈论首先是我们思索现实世界的一套逻辑，其次才是把这套逻辑严密化的数学形式。博弈论的目的在于巧妙的策略，而不是解法。我们学习博弈论的目的．不是为了享受博弈分析的过程，而在于赢得更好的结局。说到底，博弈论毕竟只是一个分析问题的工具，用这个工具来简化问题，使问题的分析清晰明了也就够了。博弈的思想既然来自现实生活，它就既可以高度抽象化地用教学工具来表述，也可以用日常事例来说明，并运用到生活中去。在斯大林时代的苏联，有一位乐队指挥坐火车前往下一个演出地点。正当他在车看当晚就要指挥演奏的作品乐谱时。两名克格勃(KGB，苏联国家安全警察。实际是政治特务将他作为间谍逮捕了。他们以为那乐谱是某种密码，这位乐队指挥争辩说那只是柴可夫斯基的小提琴协奏曲，却无济于事。在乐队指挥被投入牢房的第二天，审问者自鸣得意地走进来说：“我看你最好还是老实招了吧，我们已经抓住你的朋友柴可夫斯基了．他这会儿正向我们交代呢。你如果再不招就枪毙了你。如果交代了，只判你10年。”笑过之后，每个人都会思考其中所蕴涵的东西。但是如果认为这个笑话仅仅讽刺了克格勃特务的无知与无耻，那是不够的。事实上，克格勃们的花招，是想运

论“囚徒困境”现象及其普遍意义

【摘要】本文从博奕论的经典命题“囚徒困境”现象出发，论述了“囚徒困境”现象及其普遍意义，“囚徒困境”现象与企业竞争情报以及价格战中的合作双赢；运用“囚徒困境”博奕对两个势均力敌的竞争对手之间的价格进行了分析，认为价格战是可以避免的，合作可以带来双赢。【关键词】博弈论囚徒困境企业竞争情报价格战合作双赢 “生活是一个永无止息的决策过程，我们每个人都无法逃避这样的现实：或是成为某个策略的影响者，或是被某个策略所影响。其实，我们每个人都是生活这场游戏的策略家。既然这样，当一个出色的策略家总比当一个蹩脚的策略家更好一点。” 目前博弈论的发展正越来越受到各个领域的重视，因为在现实生活中矛盾和冲突总是无所不在，而利用博弈论可以帮助我们很好地解决这些现实生活中的矛盾和冲突问题。由此可见，如何在矛盾和冲突中成功的选择和运用策略是一个很有意义的问题。一、“囚徒困境”现象及其普遍意义 1.“囚徒困境”现象 “囚徒困境”（Prisoner， s Dilemma）的具体内容如下：两个嫌疑犯作案后被警察逮捕，分别关在不同的屋子里审讯，警察告诉他们，如果两个人都坦白，那么每个人判刑8年；如果两个人都抵赖，每个人判刑1年（或许因为证据不足）；如果其中一个人坦白，另一个人抵赖的话，坦白的人释放，抵赖的人判刑10年。在这个博奕中，纳什均衡是（坦白，坦白），尽管从总体上看，（抵赖，抵赖）是对两个人都有益的结果，但由于不构成纳什均衡，所以不是该博奕的解。给定B坦白的情况下，A的最优战略选择是坦白，AB最优战略的组合（纳什均衡）却不是总体最优的选择。有没有可能其中一个人选择抵赖呢？按照人是理性的假设，没有人会积极地这么做，因为如果对方坦白的话，自己就可能被判刑10年，理性的人是不会冒这种风险的。囚徒困境反映了一个深刻的哲学问题：个人理性和集体理性的矛盾。在这个博奕中，两个博奕方对对方的可能得益完全知晓，并且各自独立作出策略选择。每个博奕方选择自己的策略时，虽然无法知道另一方的实际选择，但

囚徒困境实验报告

《实验经济学》结课论文总分囚徒困境实验报告学院财政税务学院专业12级资产评估姓名李岩学号0506 囚徒困境实验分析一、实验目的根据囚徒困境经典悖论，通过实验来探寻单词与多次重复结果，分析结论。然后通过研究“囚徒困境”，了解囚徒困境产生的原因，想出走出囚徒困境的方法，并且理解和利用囚徒困境解决生活中与经济中的实际问题。二、实验原理囚徒困境是博弈论的非零和博弈中具代表性的例子。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。

若二人都互相检举（互相“背叛”），则二人同样判监2年。用表格概述如下：三、实验说明通过角色扮演的方式再现经典的囚徒困境。实验者两人一组，扮演囚徒。在相同的情境下看不同的实验者如何选择策略来完成实验。实验并没有考虑其他客观因素，是在完全假设的没有任何干扰囚徒做出选择的因素的情境下进行的。实验规则:实验参与人被随机地分配到有两个人组成的不同小组中。如果小组中的两个成员都选择坦白，那他们将会分别获得6年的刑期；如果小组中的两个成员都选择否认，那他们将会分别获得3年的刑期；如果小组中有一个成员选择坦白、另一个选择否认，那么选择坦白的成员获得1年的刑期，选择否认的成员获得10年的刑期。四、实验准备实验小组一共五人，通过抽签的方式分出两人，一人为囚徒一，一人为囚徒二。实验分为两种，一个是单次，一个为多次。另外三人分别记录单次实验与多次试验的结果，分析数据。五、实验步骤 1、在单次实验的情况下，囚徒一与囚徒二分别只有一次机会选择拒绝或坦白。 2、在多次重复实验的情况下，分为三轮，囚徒一与囚徒二分别有十次机会甲沉默甲背叛乙沉默二人同服刑1年乙服刑10年，甲即时获释乙背叛甲服刑10年，乙即时获释二人同服刑8年

囚徒困境理论

囚徒困境理论 Prepared on 22 November 2020

论“囚徒困境理论” “囚徒困境”是博弈论里最经典的例子之一。其中对于囚徒困境的描述：话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，甲和乙，并从他们的住处搜出被害人家中丢失的财物。但是，他们都否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。由警察分别和每个人单独谈话。警察说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你半年的***，但你的同伙要被判十年刑。如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判半年的***。但是，如果你们两人都坦白交代，那么，你们都要被判五年刑。” 囚徒甲和乙该怎么办呢他们作为本博弈中的两个博弈方，他们都有两个选择——坦白或抵赖。很显然，最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，根据个体理性原则，两个博弈方的目标都是要实现自身利益最大化。对于囚徒甲来说，囚徒乙有坦白和抵赖的两种可能的选择，如果囚徒乙选的是抵赖，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益为-1，坦白的得益为-1/2；，如果囚徒乙选的是坦白，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益-10，坦白的得益为-5。因此，在本博弈中，无论囚徒乙选择何种策略，囚徒甲选择坦白给自己带来的收益是最大的；同样的，囚徒乙和囚徒甲的情况一样，因此囚徒乙的选择和囚徒甲一样。因此，该博弈的最终结果是博弈双方同选择坦白策略，同时获益-5，都判五年刑。

博弈论中经典案例--“囚徒困境”

博弈论中经典案例--“囚徒困境” 博弈论中有一个经典案例囚徒困境” 。两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年;若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱十年;若互相揭发，则因证据确实，二者都判刑八年。由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。囚犯可以做出如下选择：1、供出他的同伙（即与警察合作，从而背叛他的同伙），2、保持沉默（也就是与他的同伙合作，而不是与警察合作）。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。 A 犯不是个傻子，他马上意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A 犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A 犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就

关于囚徒困境的几个问题(有标注)

关于囚徒困境的几个问题摘要：囚徒困境是博奕论中的一个重要范例，对这个问题的研究涉及经济学、政治学、社会学、哲学、伦理学等广泛的领域。本文简要地介绍和评述了中外学者在这个问题研究中取得的成果及进行解释时提出的多种见解。囚徒困境提示的个人理性和集体理性、个人主义与道德主义的关系深化了对这些问题的认识。本文最后介绍了用计算机比赛方法研究重复的囚徒困境和合作问题的成果，分析了“一报还一报”程序取得成功和合作得以出现的原因和条件。关键词：囚徒困境理性道德合作一、什么是囚徒困境 1994年10月12日，瑞典皇家科学院宣布把该年度的诺贝尔经济学奖授予约翰·纳什（J.Nash）、约翰·豪尔绍尼（J.Harsanyi）和莱因哈德·泽尔腾（Reinhard Selten）以表彰他们把博奕论（game theory，又译为对策论或游戏论）应用于现代经济分析所作的卓越贡献。以此为契机，我国在1995年出现了一个小小的介绍博奕论的“热潮”。许多读者大概已经注意到：在介绍博奕论的文章中几乎篇篇都会提到所谓的囚徒的困境。囚徒困境的原文为the Prisoner's Dilemma，又译为囚犯的两难困难，囚犯难题等。这个问题是大约在1950年首先由社会心理学家梅里尔·M．弗勒德（Merril M.Flood ）和经济学家梅尔文·德雷希尔（Melvin Dresher）提出来的，后来由艾伯特·W．塔克（Albert W.Tucker）明确地叙述了这种“困境”［1，p.3］。纳什有两篇关于非合作博奕的重要文章分别发表于1950年和1951年。有人认为：塔克的这项工作同纳什的著作一起“基本上奠定了现代非合作博奕论的基石。〔2 〕囚徒困境的重要地位和重要意义由此就不难想象了。所谓囚徒困境可简要地叙述如下：两个涉嫌共谋犯罪的嫌疑犯被捕后被警察关在相互隔离的牢房中。他们面临的选择是：或者坦白或者保持沉默（即不坦白）。他们被告知：①如果某个嫌疑犯坦白而其同伙不坦白，则坦白者可获自由而拒不坦白者要被判10年监禁；②如果二人都坦白，则二人都被判5年监禁；③如果二人都不坦白，则二人皆被判1年监禁。上述情况我们亦可用一支付矩阵表示如下：嫌疑犯乙坦白沉默嫌疑犯甲坦白-5, -50, -10 沉默-10, 0-1, -1 在这种情况下，两个嫌疑犯将如何决策和选择呢？在囚徒困境的分析和推论中有以下的前提性设定：①每个局中人（在囚徒困境中就是两个囚徒）都知道“博奕的规则”和“博奕结果”的支付矩阵；②每个局中人都是理性的，而这里的所谓“理性”是指只要给出两种备择策略（alternatives），他将总是选择其中对他更有利的那种策略；③局中人是相互隔离不能“串通”，不能“结盟”的。在这种条件下，两个囚徒怎样分析问题和运用“理性”并得到什么结果呢？从甲的“立场”来看，共有两种可能情况。第一种可能情况是乙采取坦白的策略，这时，如果

博弈论中的囚徒困境在生活中的应用

博弈论中的囚徒困境在生活中的应用囚徒困境最早出现在1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·（AlbertTucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。若二人都互相检举（互相“背叛”），则二人同样判监2年。如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：（1）若对方沉默、背叛会让我获释，所以会选择背叛。（2）若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。一，囚徒困境之于异地恋

浅析囚徒困境与纳什均衡之欧阳家百创编

浅析囚徒困境欧阳家百（2021.03.07）囚徒困境是博弈论的非零和博弈中具代表性的例子，指反映个人最佳选择并非团体最佳选择。囚徒困境的经典案例这里不再复述，让我们看一下身边的例子。囚徒困境在生活中最常见的表现就是挤公共汽车。从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。学生也同样遭遇囚徒困境：减轻中小学生过重负担喊了20多年，仅1985年至2000年的15年里，中央就下达“减负令”49次。但实际情况却是学生课业负担不但没减下来，反倒呈现出越演越烈之势，致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。可见“减负令”难以见效，中小学生课业负担不减反增。又比如近年来炒得火热的楼市——“我没买房，结果房价还是涨了，因为我们无法保证大家都不买房。可是，我错了吗？没有。当初如果我买房了，房价下跌了呢？因为我不能保证大家都买房。人们根本不能预知在疾风暴雨式的调控之下，房价竟还能且调且涨。可是，我对了吗？没有。”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的经典对白。含泪的

“调侃”折射出当下楼市的“囚徒困境”：买，难担高房价重负；不买，难受房价节节攀升的煎熬。再看中国的法治之路。虽然法治让所有人都长期受益，甚至执政者自己也不例外，但是一个狭隘理性社会却偏偏无力支撑法治，以至最后每个理性人都不得不忍受法治缺位的非理性之苦。绝大多数中国人都是很识时务的理性人，不会故意给自己找茬，多数律师也不例外。不过，任何事物都有两面性，“理性”过了头也就成了非理性。这就是充斥着当今中国社会的“囚徒困境”：一种行为模式对于个人看起来是很理性的，但是对于个人构成的集体来说却是非理性的，最后对于每个人来说也是非理性的。我们都不敢站出来说话，对每个人来说都是很“理性”的一种行为方式，但最后的结果只能是让整个社会丧失法治。但囚徒困境一定是坏事吗？就以囚徒困境的经典案例来说，作为一个比喻，我们会为囚犯不能合作而遗憾；可是如果它发生在现实中，我们就巴不得他们不能合作。然而如果是多次博弈，人们就有了合作的可能性，囚徒困境就有可能破解，合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解，这也是博弈论上著名的“大众定理”的含义。但合作的可能性不是必然性。博弈论的研究表明，要想使合作成为多次博弈的均衡解，博弈的一方（最好是实力更强的一方）必须主动通过可信的承诺，向另一方表示合作的善意，努力把这个善意表达清楚，并传达出去。比如在楼市的囚徒困境中，政府能

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展发表于：分类：未分类博弈论（）对人的基本假定是：人是理性的（，或者说自私的）,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。 “囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白则因证据不足各判１年。在这个例子里，博弈的参加者就是两个嫌疑犯Ａ和Ｂ，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的结果。Ａ和Ｂ均坦白是这个博弈的纳什均衡。这是因为，假定Ａ选择坦白的话，Ｂ最好是选择坦白，因为Ｂ坦白判８年而抵赖却要判十年；假定Ａ选择抵赖的话，Ｂ最好还是选择坦白，因为Ｂ坦白判不被判刑而抵赖确要被判刑１年。即是说，不管Ａ坦白或抵赖，Ｂ的最佳选择都是坦白。反过来，同样地，不管Ｂ是坦白还是抵赖，Ａ的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑８年。在（坦白、坦白）这个组合中，Ａ和Ｂ都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果Ａ和Ｂ都选择抵赖，各判刑１年，显然比都选择坦白各判刑８年好得多。当然，Ａ和Ｂ可以在被警察抓到之前订立一个"攻守同盟"，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。在经济学方面的实例: 一．电信价格竞争根据我国电信业的实际情况，我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商与, 他们在电信某一领域展开竞争，一开始的价格都是。（中国电信）是老牌企业，实力雄厚，占据了绝大多数的市场份额；（中国联通）则刚刚成立不久，翅膀还没有长硬，是政府为了打破垄断鼓励竞争而筹建起来的。正因为是政府扶植起来鼓励竞争的，所以得到了政府的一些优惠，其中就有的价格可以比低％。这一举动，还不会对产生多大的影响，因为的根基实在是太牢固了。在这样的市场分配下，、可以达到平衡，但由于在价格方面的优势，市场份额逐步壮大，到了一定程度，对造成了影响。这时候，该怎么做？不妨假定：降价而维持，则获利，损失，整体获利；维持且也维持，则获利，获利，整体获利；维持而降价，则损失，获利，整体获利；降价且也降价，则损失，损失，整体损失。