囚徒困境博弈的行为博弈均衡分析

合集下载

囚徒困境和博弈论

囚徒困境和博弈论二十九、囚徒困境现代的博弈理论，最为人熟知要数纳什(John Nash)的经典故事"囚徒的困境"。

故事是这样的：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证指控对方(相关术语称"背叛"对方)，而对方保持沉默，此人将即时获释，对方将判监十年。

若二人都沉默(相关术语称互相"合作")，则二人同样判监一年。

若二人都互相检举(互相"背叛")，则二人同样判监五年。

囚徒困境的故事有一个前提，就是假定每个参与者(即"囚徒")都是利己的，即都寻求最大的自身利益，而不关心另一参与者的利益。

那么，在本例中，囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够完全相信对方的决定。

从个人利益角度出发来选择，检举背叛对方所得刑期，总比沉默要来得低。

试设想困境中两名理性囚徒会如何作出选择：若对方沉默，背叛会让我获释，所以会选择背叛。

若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的思考都会得出相同的结论--选择背叛。

背叛是双方经过理性思考得出的最佳选择。

因此，这场博弈中唯一的结果就是双方参与者都背叛对方，结果二人同样服刑五年。

这种策略就叫做纳什均衡。

1994年，纳什因这一理论获得了诺贝尔经济学奖。

这场博弈的纳什均衡，虽然是个体从各自利益最大化的角度经过仔细衡量得出的结果，然而以整体利益而言，却不是最好的选择。

如果两个参与者都合作保持沉默，两人都只会被判刑一年，无论是个体利益还是整体利益，都要高于基于自私前提下的理性选择。

个体出于自私的角度考虑，却得出并不是最有利于自己的结果，这就是"困境"所在。

浅析博弈中的囚徒困境

浅析博弈中的囚徒困境班级：姓名：学号：摘要：囚徒困境是博弈论的非零和博弈中具代表性的例子，个人最佳选择并非团体最佳选择，个人理性有时会导致集体的非理性——机关算尽却因而作茧自缚，这就是囚徒困境所反映的问题。

一经典的囚徒困境“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。

两个共谋犯罪的人被关入监狱，不能互相沟通情况。

如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年；若一人揭发，而另一人隐瞒，则揭发者因为立功而立即获释，隐瞒者因不合作而入狱五年；若互相揭发，则因证据确实，二者都判刑三年。

从集体上看，他们应当互相合作，都隐瞒，这样总服刑时间最短（为2年）。

但他们会仔细考虑对方可能采取什么样的选择，并从自身利益出发做出选择。

他们会意识到，如果同伙隐瞒而自己背叛，就能使自身利益最大化（0年）。

但他也意识到，他的同伙也不傻，也会这样来设想，这样的话，他就更不可能让同伙得利（服刑0年）而自己受害（服刑5年）所以结论就是，唯一正确的选择就是背叛同伙，把一切都告诉警方，如果他的同伙保持隐瞒，那么他就会是那个获释出狱，服刑0年。

而如果他的同伙也向警方交代了，那么，他只需服刑3年而不是5年。

所以结果只能是两个囚犯都坐牢服刑3年，而不是都服刑1年。

所以对于他们个人来说都是理性的，然而对集体来说却是非理性的。

二重复多次如果囚徒困境的情况重复多次，会有什么新的变化？假设重复10次。

我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。

相反，如果第一次相反，如果第一次别人保持隐瞒，建立了互信的关系，你也会保持隐瞒，导致最优。

当然，两个囚徒都会有相似的想法，在第一局保持隐瞒，以期望建立互信关系，所以双方都会保持隐瞒。

盘点博弈论纳什均衡囚徒困境零和博弈智猪博弈

盘点博弈论&纳什均衡&囚徒困境&零和博弈&智猪博弈1.博弈论是什么博弈论（game theory），又译为对策论，或者赛局理论，经济学的一个分支，1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》，标志着现代系统博弈理论的的初步形成，因此他被称为“博弈论之父”。

博弈论被认为是20世纪经济学最伟大的成果之一。

目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。

主要研究公式化了的激励结构（游戏或者博弈）间的相互作用。

是研究具有斗争或竞争性质现象的数学理论和方法。

也是运筹学的一个重要学科。

具有竞争或对抗性质的行为称为博弈行为。

在这类行为中，参加斗争或竞争的各方各自具有不同的目标或利益。

为了达到各自的目标和利益，各方必须考虑对手的各种可能的行动方案，并力图选取对自己最为有利或最为合理的方案。

比如日常生活中的下棋，打牌等。

博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案，以及如何找到这个合理的行为方案的数学理论和方法。

2.纳什均衡(Nash equilibrium)3.囚徒困境(Prisoner’s Dilemma)纳什平衡的经典例子就是囚徒困境。

囚徒困境(Prisoner’s Dilemma)是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。

或者说在一个群体中，个人做出理性选择却往往导致集体的非理性。

虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

1950年，由就职于兰德公司的梅里尔·弗勒德和梅尔文·德雷希尔拟定出相关困境的理论，后来由顾问艾伯特·塔克以囚徒方式阐述，并命名为“囚徒困境”。

经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人有罪。

于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

囚徒困境的均衡辨析

囚徒困境的均衡辨析郭洪伟【摘要】传统的《博弈论》分析最终结果是两个囚徒均会坦白,但这并不是两个囚徒的最好结局,如何才能达到最好结局？本文从《博弈论》动中“理性人”的假设出发,对传统的(坦白,坦白)均衡提出质疑.本文指出理性人不会满足于传统的均衡,理性人会积极寻找双方利益最大化的均衡,并达到此均衡.本文给出了新的均衡:广义均衡,并给出广义均衡的求解过程.通过对引入公共支付函数的概念,公共支付函数表达了两个人的共同利益.通过公共支付函数的最大化,使两个囚徒公共利益最大化,以求得囚徒困境的新的均衡,让两个囚徒的结果达到最好——即两人均抵赖.本文还将公共支付函数运用于其他《博弈论》案例,并指出广义均衡比纳什均衡更具有社会意义,因为前者体现了公共利益.文中还对囚徒困境的机制设计问题做了分析,指出囚徒困境中机制的设计会诱导囚徒作出不正确的选择,从而没有达到双方利益的最大化.【期刊名称】《技术经济与管理研究》【年(卷),期】2011(000)002【总页数】4页(P22-25)【关键词】囚徒困境;公共支付;纳什均衡;广义均衡:支付函数【作者】郭洪伟【作者单位】首都经济贸易大学统计学院,北京100070【正文语种】中文【中图分类】F224博弈论研究的是存在相互影响关系下的个人选择问题。

这里的参与人都是理性人。

按照文献[1]的定义：理性人是在面临给定的约束条件下，能最大化自己偏好的那些人。

这里理性的人与自私的人不同。

理性人可能是利己主义者，也可能是利他主义者。

理性人假设是博弈论的分析前提。

基于这个前提，所有的参与人都尽量使自己的偏好（利益）最大化，如果存在某种行动会使参与人变的更好，参与人会积极努力达成更好的结果。

理性人在最大化偏好时，需要相互合作，而合作中又存在着冲突。

下面分析博弈论中经典的案例——囚徒困境，如表1所示。

假设有两名嫌疑人作案后被警察抓住，分别被关在不同的屋子里接受审讯（关在不同的屋子里是怕他们串供，这也是影响他们博弈的关键因素之一）。

对称均衡非对称均衡博弈论

对称均衡非对称均衡博弈论
对称均衡和非对称均衡是博弈论中的重要概念，用于描述博弈中各方的策略选择和结果。

在博弈论中，博弈是指一种决策情形，其中参与者的利益受到彼此的影响。

对称均衡和非对称均衡都是描述博弈中可能出现的情况的概念。

首先，让我们来看看对称均衡。

在博弈论中，对称均衡是指参与者采取相同的策略，并且没有动机去改变自己的策略，因为任何一方的单方面改变都不会使其获益。

对称均衡的一个经典例子是“囚徒困境”博弈，其中两名囚犯面临合作或者背叛的选择。

在对称均衡中，如果两名囚犯都选择背叛，那么他们都会受到最严厉的惩罚，而如果两名囚犯都选择合作，那么他们都会受益。

因此，对称均衡发生在他们都选择背叛或者都选择合作的情况下。

其次，非对称均衡是指参与者采取不同的策略，并且在当前策略下没有动机去改变自己的策略，因为任何一方的单方面改变都不会使其获益。

非对称均衡的一个例子是“买方市场”博弈，其中卖方和买方在价格谈判中采取不同的策略。

在非对称均衡中，如果卖方设定了一个最低价格，而买方愿意接受这个价格，那么双方都没有动机改变自己的策略。

总的来说，对称均衡和非对称均衡是博弈论中用于描述参与者策略选择和结果的重要概念。

通过研究对称均衡和非对称均衡，我们可以更好地理解博弈中参与者的决策行为，以及他们可能达到的结果。

这些概念对于经济学、政治学以及其他社会科学领域都具有重要意义。

希望这个回答能够帮助你更好地理解对称均衡、非对称均衡和博弈论的相关概念。

博弈论纳什均衡

博弈论纳什均衡什么是纳什均衡？1、纳什均衡（Nash equilibrium )，又称非合作博弈均衡，是博弈论概念，指的是：一种博弈稳定结果，谁单方改变策略，谁就会损失。

两个囚徒互相揭发，就是一种纳什均衡。

对于每个囚徒来说，如果打破纳什均衡，在对方实施揭发策略时，改变揭发策略，保持沉默，自己就会由判刑2年，变成判刑5年。

也就是说，两个囚徒互相揭发是稳定博弈结果，谁单方改变策略，就会受到损失。

这也就是均衡涵义所在，两个囚徒从利己角度，都不会单方改变策略。

博弈策略稳定，博弈结果也稳定。

之所以命名为纳什均衡，是因为提出者是经济学家、博弈论创始人约翰．纳什。

之所以称为非合作博弈均衡，原因就是：两个囚徒如果合作，互相保持沉默，各自只要坐牢1年；但最终博弈结果，也就是纳什均衡显著特征，是不合作。

2、纳什均衡意义重大。

纳什均衡提出，震动整个经济学界。

诺贝尔经济学奖得主萨缪尔森曾说：“你只要教会鹦鹉说‘需求和供给’，它也是经济学家。

”博弈论专家坎多瑞则说：“这只鹦鹉现在必须多学一个词了，那就是‘纳什均衡’。

”诺贝尔经济学奖得主迈尔森也说：“发现纳什均衡意义，可以和生命科学中发现DNA 双螺旋结构相媲美。

”纳什也因为提出纳什均衡，创立博弈论，而获得1994年诺贝尔经济学家奖。

纳值均衡意义重大，简单来说，就是它对于经济学具有重大意义。

读友们如果了解经济学看不见的手原理，就知道，古典经济学认为，通过市场这只‘看不见的手’调节，个体追求私利行为，会促进集体利益最大化。

但纳什均衡却违反上述原理：两个囚徒分别追求私利行为，并没有促进集体（囚徒整体）利益最大化，反而是损人不利己。

这正是市场失灵软肋之处，通过博弈论视角可以得到合乎逻辑解释，更有条件找到合适解决方案。

从上述这点，读友们可以“一斑窥全豹”，感受到博弈论重要性。

更重要的是，纳什均衡非常普遍，小至个人沟通，中到公司竞争，大到国家往来，都可以观察到。

Q2：怎样运用纳什均衡？1、分析囚徒困境。

博弈论的囚徒困境模型

博弈论的囚徒困境模型引言博弈论是研究决策制定者在多方面利益冲突下进行选择的一门学科。

而囚徒困境模型是博弈论中最经典的模型之一，用于描述两个合作者之间存在利益冲突时可能出现的情况。

本文将详细介绍囚徒困境模型的基本概念、策略和解决方法，并探讨其在现实生活中的应用。

1. 囚徒困境模型的基本概念囚徒困境模型最早由美国数学家Melvin Dresher和Merrill Flood于1950年提出。

它是一个非零和博弈模型，意味着合作者之间的利益不完全一致，他们可以选择合作或背叛对方，从而获得不同的收益。

在囚徒困境模型中，通常有两名犯人被关押在不同的牢房里，无法相互沟通。

检察官给每个犯人提供了一个选择：如果两个人都保持沉默（即合作），那么他们将分别被判处较轻的刑期；如果其中一个人背叛（即不合作），而另一个人保持沉默，那么背叛者将被释放，而保持沉默者将被判处重刑；如果两个人都背叛，那么他们将各自被判处较重的刑期。

2. 囚徒困境模型的策略在囚徒困境模型中，每个犯人都有两种基本策略：合作和背叛。

根据对方的选择和自己的选择，可以得出四种不同的结果：互相合作、互相背叛、自己合作对方背叛、自己背叛对方合作。

这些结果对应着不同的收益。

为了量化这些收益，通常使用一个称为支付矩阵的工具。

支付矩阵是一个2x2的矩阵，其中每个元素表示在不同情况下每个合作者获得的收益。

在标准囚徒困境模型中，支付矩阵可以表示为：合作背叛合作R,R S,T背叛T,S P,P其中R表示互相合作时的收益，T表示自己背叛对方合作时的收益，S表示自己合作对方背叛时的收益，P表示互相背叛时的收益。

通常，R > T > P > S。

3. 囚徒困境模型的解决方法在囚徒困境模型中，每个犯人都希望获得最大的个人利益。

然而，如果两个犯人都追求个人利益，那么最终的结果将是两败俱伤。

如何选择合适的策略成为了一个关键问题。

在博弈论中，有许多不同的解决方法可以用于囚徒困境模型。

聊聊四种经典的博弈论模型

聊聊四种经典的博弈论模型展开全文1、囚徒困境：为什么两个犯人都选择坐牢官差破获了一宗盗窃案，抓住了两名犯罪嫌疑人。

但在审讯过程中，被关在一处的二人始终矢口否认盗窃罪名，说东西不是我们偷的。

为了避免两人达成默契，结成攻守同盟，官差决定对他们进行单独审讯。

官差表示，如果两人中有一人坦白认罪，则可立即释放，另一个不认罪的人判5年徒刑；如果两人都坦白罪刑，则他们将各判2年徒刑。

但还有一种情况，那就是两个人都拒绝坦白，由于缺乏证据，他们只会以扰乱公共场合为名判处3个月拘役。

这就是两名罪犯面临的困境中，他们会做出怎样的选择呢？首先，他们互相之间都不清楚对方是否会坦白，其次，二人都希望将自己的刑期缩至最短。

如此考虑，最终，两名犯人都会选择坦白交代。

上面的案例就是博弈论所说的“囚徒困境”。

犯人们如果彼此合作，可为集体带来最佳利益（刑期最短）；但当二人面对同样的情况且不知道对方如何选择时，在理性思考后，双方都会得出相同的结论（坦白交代），以便达到个人利益的最大化。

囚徒困境是博弈论的“非零和博弈”中具代表性的例子，反映的是个人的最佳选择并非是团体的最佳选择。

虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

2、智猪博弈：赢的总是小猪猪圈里有大小两头猪，它们在同一个食槽里进食。

为了保持饲料的新鲜，在远离猪食槽的另一边有一个踏板，大猪或小猪跑过去，每按动一次踏板，投食口就会掉落10个单位的食物。

于是，在大猪和小猪每次进食前，就会形成这样一种局面:如果小猪跑去按踏板，大猪守在食槽边，则大猪小猪吃到的食物比是9:1；反之，如果大猪去按而小猪守在食槽边，则吃食比例是6:4。

如果二猪同时到食槽边，则吃食比是7:3。

这样一来，从纯收益的角度考虑，小猪就更愿意选择在食槽边等待食物落出，因为“等待优于行动”，而大猪只能被迫奔忙在踏板和食槽之间。

上述“智猪博弈”的案例是经济学家的假设论证模型，这个博弈的结果，用经济学视角看待，可以解释为：谁占有更多资源，谁就必须承担更多义务。

博弈论论文(囚徒困境案例纳什均衡案例完全信息静态博弈完全信息动态博弈)

二、博弈论的发展史２.1中国传统文化中的博弈论
在我国，博弈论的思想源远流长，古代人民很早就认识了博弈问题，虽然没有形成一套完整的理论体系和方法，但博弈论的思想和实践活动，则可以追溯到 2000 多年前。著名的"齐王与田忌骞马"就是一经典事例。这里，田忌进行的是"在给定齐王策略不变情况下如何取胜"这一策略选择，实际上就是现代博弈论中的完全信息条件下的两人博弈问题。著名的《孙子兵法》一书对战争胜负的认识，以及胜负之间诸因素的相互作用的深刻论述，和所提出的一系列军事对策等，都反映出其系统的博弈论思想。而《三十六计》则可以称做是一部活生生的军事博弈论教科书。《孙子兵法》和《三
博弈论论文
摘要：在现实生活中，人们的利益冲突与一致具有普遍性。因此，几乎所有的决策问题都可以认为是博弈。虽然博弈论是数学的一个分支，但其应用范围十分广泛，在经济学、管理学、社会学、政治学、法律学、军事学等领域都有许多成功运用博弈论的案例。本文对博弈论发展简史、博弈论基本概念进行阐述，对囚徒困境、纳什均衡、完全信息静态博弈、完全信息动态博弈、进行解析与案例分析。关键词：博弈论、博弈论发展简史、博弈论基本概念、囚徒困境案例、纳什均衡案例、完全信息静态博弈、完全信息动态博弈。
一、在生活中广泛应用的博弈论
在高飞老师的带领下，经过一段时间的学习，我对博弈论有了一些肤浅的理解。诚然，一门学问想在短时间内有所深入理解是不现实的。生活之中到处充满着博弈，有人说没有，那是因为缺少发现博弈现象的眼睛。人生就是在弈棋，学会博弈。虽说博弈不是万能的，但没有博弈现象存在的生活是万万不能的。博弈论毕竟是数学，更确切地说是运筹学的一个分支，谈经论道自然少不了数学语言，外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题，所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语，听上去有点玄奥，实际上却具有重要现实意义。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。人们每天都面临着无数个选择，而博弈能运用具体的案例模型和相对应的决策方法，让人们在最短的时间内作出最有利于自己的选择。早在 1994 年，提出博弈均衡理论的纳什博士与他的伙伴哈尔萨尼教授、泽尔滕教授就共同分享了当年的诺贝尔经济学奖和 93 万美元的奖金。2005 年，瑞典皇家科学院再次把诺贝尔经济学奖颁给了有着以色列、美国双重国籍的罗伯特·奥曼和美国人托马斯·谢林，以表彰他们在博弈论领域作出的贡献。纳什的贡献是在 1944 年与奥斯卡·摩根斯特恩合著了《博弈论与经济行为》一书，标志着现代系统博弈理论的的初步形成。而谢林和奥曼两位博弈论先驱在政治理论、社会学甚至生物学等方面成功运用到了博弈学理论。奥曼用数学分析为博弈论列出了精确的公式，谢林则是想通过实践来展示博弈论在社会各个领域的实际意义。他们两位利用博弈论对商业谈判、种族隔离、武器控制等领域进行了实际分析，谢林教授认为博弈论运用的重要领域应该包括核威慑和武器控制，同时还可以研究种族关系、有组织犯罪、雇员关系乃至自我管理等方面。

简述囚徒困境及其结论

简述囚徒困境及其结论
囚徒困境是一个经典的博弈论案例,描述了两个囚犯被捕后被关进两个单独的牢房,无法通过通信相互帮助或寻求逃脱机会。

他们必须选择自己的行为,要么合作,要么互相背叛,以最大化自己的收益。

囚徒困境的假设是:两个人的行为都是理性的,不会考虑到道德或法律的因素;两个人的利益是一致的,他们背叛对方会导致自己受到更严厉的惩罚;他们无法找到第三方来帮助或合作。

在囚徒困境中,两个囚犯的最优策略是合作,这意味着他们应该将对方供出,从而各自获得一次逃脱的机会。

然而,如果他们选择合作,那么他们就必须同时供出对方,这将导致他们一起被判刑。

因此,两个囚犯都选择背叛,并各自获得了更高的收益,即逃脱了惩罚。

囚徒困境的结论是,在极端的情况下,两个人的行为取决于他们的理性和利益一致性,而不考虑道德或法律的因素。

在这种情况下,合作或背叛都是最优策略,但无法找到第三方来协助或合作。

囚徒困境的案例表明,在复杂的社会中,人们的行为往往受到理性和利益因素的影响,而不考虑道德和法律的因素。

这也提醒我们在决策时需要考虑多个因素,并做出理性的判断。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

囚徒困境博弈的行为博弈均衡分析
Christopher Stephens: Modelling Reciprocal Altruism, The British Journal for the Philosophy of Science, vol.47, No.4, 1996, pp.533-551.
互动利他主义建模
1、利他主义困惑与标准模型
The altruism puzzle and the standard model
在一个囚徒困境博弈中，每个博弈者都有两种可能选择：背叛（Defect）或合作（Cooperate），可一般表示为：
囚徒困境博弈要求两个主要条件：（1）Y>W>Z>X（命令条件，The ordering condition）；（2）(Y+X)<2W（反利用条件，The anti-exploitation condition）
尽管“背叛”策略是一次性博弈中每个博弈者的优超选择，但相互合作却比相互背叛要好。

2、利他主义的非正式条件
Informal condition for reciprocal altruism
3、对反利用条件的Axelrod证明的批评
Criticism of Axelrod’s justification of the anti-exploitation condition
4、相互利他主义的一组正式模型
A menu of formal models of reciprocal altruism
5、对于guppies、baboons和bats模型的互动利他主义建模
Modelling reciprocal altruism in guppies, baboons, and bats
（1）建模guppies的同时合作
（2）建模baboons的非同时合作（3）建模cook困境的互动利他主义
6、结论
Conclusions。