博弈论“囚徒困境”的四种形式

合集下载

博弈论“囚徒困境”的四种形式

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境”摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。

其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词:博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。

为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。

当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) :囚徒2囚徒1(表1)假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。

容易看出,由于对于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。

二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。

博弈论囚徒困境的四种形式 PDF

博弈论囚徒困境的四种形式 PDF

�p� 1 徒囚性理非
�所表下如衡均 seyaB 练精的弈 博复重次三�赖抵择选段阶二第 2 徙囚�下件条的 2�l≥P 定给在以所�弈博段阶两的示所 4 表是段阶的后随即�段阶三第和二第入进弈博么那�形情的”赖抵“择选都方双看先 。)白坦择选 2 徒囚� ”赖抵“择选 l 徒因(能可 的作合不有也�)”赖抵“选都方双(能可的作合有段阶一第�言而 2 和 1 徒囚的性理就 。)白坦�白坦�赖抵(是略策段阶三的 1 徒的性 理以所�利有为更将这疑无�付支的 0 得获段阶二第�付支的) 1- (得获段阶一第在能可么那 �赖抵择选�况情实真的己自藏隐果如反相�付支的)3-(得获能只大最段阶二第在 1 徒囚的 性理�白坦择选段阶二第在 2 徒因是于�方弈博的性理是已自示显 2 徒囚向疑无但�罚惩于 免能可白坦择选段阶一第 1 徒囚管尽 �作合行进赖抵择选会将段阶一第在 1 徒囚性理明说要 面下。白坦择选会仍故�择选的段阶一下在 2 徒囚变改会不择选的段阶本在己自�的性理是 2 徒囚道知 l 徒囚的性理于由�段阶二第在�白坦择选会机作合的续后有没为因会 2 徒囚和 1 徒囚的性理段阶三第在。况情的次三复重弈膊本基虑考步一进� 下件条的 2�1≥ P � ”赖抵“=X 择选会将 2 徒囚�2�1≥P 即 �6-p3≥8-p7 果如 。6-p3=])3-(+)3-([) p-1( +])3-( +0[p �是付支望期的时此 2 徒囚 �时 ”白坦“ =X 当 ;8-p7 = ]) 3- ( + ) 5- ( [ ) p-1( +]0 +) 1- ([p�是付支望期的 2 徒囚�时”赖抵“=X 当 �4 表� 白坦 白坦 2=t X X 白坦 赖抵 1=t �p-1� 1 徒囚性理 2 徒囚

聊聊四种经典的博弈论模型

聊聊四种经典的博弈论模型

聊聊四种经典的博弈论模型展开全文1、囚徒困境:为什么两个犯人都选择坐牢官差破获了一宗盗窃案,抓住了两名犯罪嫌疑人。

但在审讯过程中,被关在一处的二人始终矢口否认盗窃罪名,说东西不是我们偷的。

为了避免两人达成默契,结成攻守同盟,官差决定对他们进行单独审讯。

官差表示,如果两人中有一人坦白认罪,则可立即释放,另一个不认罪的人判5年徒刑;如果两人都坦白罪刑,则他们将各判2年徒刑。

但还有一种情况,那就是两个人都拒绝坦白,由于缺乏证据,他们只会以扰乱公共场合为名判处3个月拘役。

这就是两名罪犯面临的困境中,他们会做出怎样的选择呢?首先,他们互相之间都不清楚对方是否会坦白,其次,二人都希望将自己的刑期缩至最短。

如此考虑,最终,两名犯人都会选择坦白交代。

上面的案例就是博弈论所说的“囚徒困境”。

犯人们如果彼此合作,可为集体带来最佳利益(刑期最短);但当二人面对同样的情况且不知道对方如何选择时,在理性思考后,双方都会得出相同的结论(坦白交代),以便达到个人利益的最大化。

囚徒困境是博弈论的“非零和博弈”中具代表性的例子,反映的是个人的最佳选择并非是团体的最佳选择。

虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

2、智猪博弈:赢的总是小猪猪圈里有大小两头猪,它们在同一个食槽里进食。

为了保持饲料的新鲜,在远离猪食槽的另一边有一个踏板,大猪或小猪跑过去,每按动一次踏板,投食口就会掉落10个单位的食物。

于是,在大猪和小猪每次进食前,就会形成这样一种局面:如果小猪跑去按踏板,大猪守在食槽边,则大猪小猪吃到的食物比是9:1;反之,如果大猪去按而小猪守在食槽边,则吃食比例是6:4。

如果二猪同时到食槽边,则吃食比是7:3。

这样一来,从纯收益的角度考虑,小猪就更愿意选择在食槽边等待食物落出,因为“等待优于行动”,而大猪只能被迫奔忙在踏板和食槽之间。

上述“智猪博弈”的案例是经济学家的假设论证模型,这个博弈的结果,用经济学视角看待,可以解释为:谁占有更多资源,谁就必须承担更多义务。

囚徒困境的博弈论表述

囚徒困境的博弈论表述

囚徒困境的博弈论表述囚徒困境是博弈论中的经典问题之一,涉及到两位囚犯的选择,他们会面临到合作与背叛的选择,其结果会影响到他们之间的关系和各自的命运。

以下是囚徒困境的博弈论表述。

第一步,两位囚犯被抓并被关在了不同的牢房里,他们之间无法交流。

警察可以与每个囚犯进行单独的问讯,但对双方的答案会有所保密。

第二步,警察告诉囚犯们,如果他们两个都不承认犯罪,那么他们都会被判入狱1年。

但是,如果其中一个人承认犯罪而另一个人不承认,那么承认犯罪的囚犯将被判入狱3年,而不承认犯罪的囚犯将被判入狱10年。

如果两个人都承认犯罪,那么他们都将被判入狱5年。

第三步,两位囚犯需要作出自己的选择。

如果他们合作并且不承认犯罪,那么他们都可以被判入狱1年,这是对双方最好的结果。

但是,如果其中一个囚犯选择背叛另一个人,并承认犯罪,那么他将被判入狱3年,而另一名囚犯将被判入狱10年。

如果两个人都背叛,那么他们都将被判入狱5年,这是对双方最糟糕的结果。

在这种情况下,每一个囚犯都会寻求自己的最大利益,因为他们之前无法沟通,不可能达成共同合作的结果,因此囚徒困境是一种不稳定的策略。

当他们都选择自我保护而摆脱责任,结果却不如合作的结果好时,则产生了“囚徒困境”。

这个问题反映了在面临群体行动问题时,个体的行动往往与合作的利益是相反的。

因此,在实际生活中,面对这种情况,往往需要我们平衡自我利益与合作利益之间的权衡,才能取得更好的结果。

总之,囚徒困境通过一个简单的例子,提示了现实生活中相当普遍的博弈问题,一定程度上也预示了独裁和相互协作的不同结局。

在此基础上,对于此类博弈问题,我们需要不断探讨和学习,才有可能取得最佳的结果。

囚徒困境

囚徒困境

一、囚徒困境(prisoner's dilemma )1、囚徒困境简介囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特·塔克(Albert tucker)1950年提出来的。

他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论,这个故事后来成为博弈论中最著名的案例。

故事内容是:两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”,如果两人都坦白则各判8 年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。

单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中,博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时,合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量,纳什均衡趋向于帕累托最优。

囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。

但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。

2、经典的囚徒困境1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。

博弈论中经典案例--“囚徒困境”

博弈论中经典案例--“囚徒困境”

博弈论中经典案例--“囚徒困境”博弈论中有一个经典案例--“囚徒困境”。

两个共谋犯罪的人被关入监狱,不能互相沟通情况。

如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑八年。

由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。

囚犯可以做出如下选择:1、供出他的同伙(即与警察合作,从而背叛他的同伙),2、保持沉默(也就是与他的同伙合作,而不是与警察合作)。

这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。

但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。

而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。

当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。

那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。

但他们不得不仔细考虑对方可能采取什么选择。

A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。

这种想法的诱惑力实在太大了。

但他也意识到,他的同伙也不是傻子,也会这样来设想他。

所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。

而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。

所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。

囚徒困境模型的几个现实例子囚徒困境的例子在现实生活中很多。

囚徒困境与博弈论

囚徒困境与博弈论

囚徒困境与博弈论囚徒困境与博弈论博弈论(也叫对策论)是一门很深的学问,在学校里至少要讲一个学期,甚至还有专门的博士课程。

但在这里不可能讲这么多,只能把它的基本概念、研究方法和一般规律做一个简单的概括。

从囚犯难题说起我们先从一个常见的案例说起。

这个故事是这样的:有一个富人在家中被谋杀,他的财产被盗。

警方在侦讯过程中抓到两名嫌疑犯:甲和乙,并在他们家中搜出了被盗的财物。

但甲、乙都否认杀人,声称他们进入被害人家中时那个人已经死去。

所以警方肯定他们至少犯下了盗窃罪,但对他们是否杀死了被害人并没有把握。

于是警方在把他们隔离的情况下分别对他们表示:因为偷东西已经有确凿证据,这将被判刑2年;如果拒不承认杀人而被另一方检举,将被判刑20年,而检举的一方可以受奖无罪释放;如果双方都坦白杀人,将各被判刑 10年。

这样,甲乙可能面临的判决如下:通过分析可以看出,最后的结果是甲乙都会承认杀人。

因为对本人来说,不管对方承认不承认,自己承认总比不承认好。

如果对方不承认,自己承认相比不承认等于从判刑2年改为无罪释放;如果对方承认,自己承认相比不承认相当于从判刑20年减到了10年。

这样,对甲乙双方来说,最佳的选择都是承认杀人。

这个结果与他们是否真的杀了人无关,即使他们没有杀人,也会承认杀人。

由于特定的选择条件,本来对双方最有利的结局(都不承认杀人,各被判刑2年)不会出现,出现的是对双方都不利的结果,这就是所谓的“囚犯困境”。

我们想想看,“文革”时期坦白从宽、抗拒从严的政策使一大批人承认了自己从没有犯过的“罪行”,原因就在于此。

“囚徒困境”具有非常深刻的含义,它说明了为什么短视地追求自己利益将导致对大家都不利的结局。

现实中类似的例子还很多,比如为了图一时的方便,大家都不按交通规则行事,结果导致交通瘫痪;再比如前些年很多单位拿国家的钱争相发奖金,结果导致了全社会的通货膨胀。

不同的是,在囚徒困境模型里只涉及两个人,如果这种情况重复出现,两个人很容易从失败中吸取教训,从选择承认杀人改为不承认,这样,处境就可以改善。

博弈论“囚徒困境”的四种形式

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境”摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。

其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词:博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。

为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。

当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) :囚徒2囚徒1(表1)假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。

容易看出,由于对于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。

二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

博弈论中的“囚徒困境”摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。

其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词:博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。

为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。

当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) :囚徒2囚徒1(表1)假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。

容易看出,由于对于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。

二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。

博弈重复进行所耗时间会比较长,支付的时间价值必须考虑,记r为折现因子。

在有限博弈的情况下,可简化在r = l 的情况下讨论,并采用动态博弈的逆向归纳法进行研究:先分析t = T阶段两博弈方的选择,这仍然是一个基本的囚徒困境博弈,此时前一阶段的结果已成为事实,又无后续阶段,因此不难得出结论,这一阶段的结果是(坦白,坦白),双方得益( -3 ,-3)。

现在回到t = T -1阶段,理性的博弈方对于后一阶段的结局非常清楚,其结果必然是(坦白,坦白),因此不管现阶段的博弈结果是什么,双方在本阶段以后的最终得益都是在本阶段得益的基础上各加上-3,此时的得益矩阵是:囚徒2囚徒1(表2)容易看出,坦白仍是两博弈方的严格优超策略,即(坦白,坦白) 是T - 1阶段的唯一的纯Nash均衡。

以此往上类推,每阶段“囚徒困境”博弈的结果都是博弈双方采用坦白,所以T次重复博弈的子博弈精炼Nash均衡是每个博弈阶段双方都采用坦白。

再考虑“囚徒困境”博弈重复无数次。

因为无限博弈没有最终阶段,所以不能运用逆向归纳法求解。

考虑博弈双方都采用“冷酷战略”:( 1 ) 开始阶段选择抵赖;( 2 )选择抵赖直到有一方选择了坦白,为了报复对手的背叛,以后都选择坦白。

假定囚徒j 严格执行上述冷酷战略,考察囚徒i 的最优策略是否为冷酷战略:如果i 在博弈的某个阶段首先选择了坦白,他在该阶段得到0,而不是-1,但他的这次背叛会遭到囚徒j的永远惩罚,因此i 在随后每个阶段的支付都是-3 。

如果下列条件满足,给定j没有选择坦白,i将不会选择坦白:220+r(-3)+r(3)-1+r(-1)+r(-1)-+≤+……,即:31 11rr r -≤---解上述不等式得:r≥1/3 (这个条件容易满足)。

就是说,如果r ≥1/3,给定j 坚持冷酷战略并且j没有首先坦白,i不会选择首先坦白。

进一步假定j首先选择坦白,那么i 是否有积极性坚持冷酷战略以惩罚j的不合作行为?如果i 坚持冷酷战略,他随后每个阶段的支付是-3,但如果他选择其他战略,他在任何单一阶段的支付都不会大于-3,因此,无论r是多大,i都有积极性坚持冷酷战略。

在博弈重复无数次的情况下,只要r>1/3,子博弈精炼均衡是每个阶段博弈双方都采用抵赖进行合作。

三、不完全信息静态“囚徒困境”博弈由于现实生活中许多博弈并不满足完全信息的要求,比如买卖双方都对彼此的信息掌握不完全,买者不知卖者产品的质量到底如何,卖者也不知道买者愿意付出多高的价格等等,因此研究不完全信息下的博弈有着重要的理论和现实意义。

假定囚徒1有两种类型,理性的(或称为不合作的)和非理性的(有意愿合作的),概率分别为1-p和P,又假定囚徒2只有一种类型——理性的。

假定理性的囚徒可以选择任意的策略,而非理性的囚徒1只有一种策略“针锋相对”,即开始阶段选择抵赖,随后的阶段以对方前一阶段的策略为自己现阶段的策略进行鼓恸或报复。

由于博弈只进行一个同合,博弈双方没有合作可能,于是理性的囚徒1的最优策略是“坦白”,理性的囚徒2也会选择“坦白”,因为对于一次博弈而言,不管囚徒l理性与否,坦白的策略总是对囚徒2最优的,构成不完全信息静态博弈的Bayes—Nash均衡。

我们还可以按如下方法证明:由于博弈只进行一个阶段,则非理性的因徙1选择抵赖,理性的囚徒1选择坦白,记囚徒2的选择为X,博弈路径如下所示:(表3)当X=“抵赖”时,囚徒2的期望支付是:4p-5;当X=坦白时,囚徒2的期望支付是3p-3。

无论p为何值,3p-3>4 p -5,故坦白是囚徒2的最优选择。

四、不完全信息动态“囚徒困境”博弈理论上在完全信息的情况下.T次重复的“囚徒困境”博弈在每阶段博弈都选择“坦白”是两个囚徒的最优战略,然而这一结果并没有在现实生活中发生,我们常常看到屡次作案的犯罪团伙总是般抵赖妄图逃脱法律的惩罚。

国外实验经济学家作试验也表明,在有限次重复博弈中合作行为也频繁出现,因此需要将不完全信息引入重复博弈。

首先讨论“囚徙困境”博弈只重复两次的情况。

在第二阶段,由于没有合作的空间,理性的因徒1和囚徒2都会选择坦白,而非理性的囚徒1根据“针锋相对”策略要选择囚徒2第一阶段的策略;在第一阶段,非理性的囚徒1选择抵赖,理性的囚徒1仍会选择坦白,因为它在该阶段的选择不会改变囚徒2在第二阶段选择坦白。

现在考虑囚徒2在第一阶段的选择(X) 如何影响非理性困徒1在第二阶段的选择,如下表所示:(表4)当X=“抵赖”时,囚徒2的期望支付是:p[( -1 )+ 0]+ (1-p ) [ ( -5 ) + ( -3 )] = 7p-8; 当X=“坦白”时,囚徒2此时的期望支付是:p[0+ (-3)]+ (1-p )[(-3)+(-3)]=3p-6。

如果7p-8≥3p-6,即P≥1/2,囚徒2 将会选择X=“抵赖”;P ≥1/2的条件下,进一步考虑基本膊弈重复三次的情况。

在第三阶段理性的囚徒1和囚徒2会因为没有后续的合作机会选择坦白;在第二阶段,由于理性的囚徒l知道囚徒2是理性的,自己在本阶段的选择不会改变囚徒2在下一阶段的选择,故仍会选择坦白。

下面要说明理性囚徒1在第一阶段将会选择抵赖进行合作:尽管囚徒1第一阶段选择坦白可能免于惩罚,但无疑向囚徒2显示自已是理性的博弈方,于是因徒2在第二阶段选择坦白,理性的囚徒1在第二阶段最大只能获得(-3)的支付;相反如果隐藏自己的真实情况,选择抵赖,那么可能在第一阶段获得( -1 )的支付,第二阶段获得0的支付,无疑这将更为有利,所以理性的徒1的三阶段策略是(抵赖,坦白,坦白)。

就理性的囚徒1和2而言,第一阶段有合作的可能(双方都选“抵赖”),也有不合作的可能(因徒l选择“抵赖”,囚徒2选择坦白)。

先看双方都选择“抵赖”的情形,那么博弈进入第二和第三阶段,即随后的阶段是表4所示的两阶段博弈,所以在给定P≥l/2的条件下,囚徙2第二阶段选择抵赖,三次重复博弈的精练Bayes均衡如下表所:(表5)囚徒2选择(抵赖,抵赖,坦白)的期望支付为:(-1) +p[(-1)+0] + (1-p)[(-5)+(-3)]=7p-9。

再看双方不合作的情况,在不合作的情形下,囚徒2的策略有两种可能:(坦白,坦白,坦白)和(坦白,抵赖,坦白)。

①如果囚徒2选择(坦白,坦白,坦白),博弈路径如下所:(表6)囚徒2的期望支付为:0+(-3) +(-3)=-6;②如果囚徒2选择(坦白,抵赖,坦白),博弈路径如下所:(表7)囚徒2的期望支付为:0+(-5) +p(0)+ (1-p)(-3)=3p-8。

在P≥1/2的条件下7p-9≥-6,7p-9≥3p-8,因此(抵赖,抵赖,坦白)优于(坦白,坦白,坦白)和(坦白,抵赖,坦白)。

综合以上分析,只要囚徒1是非理性的慨率P≥1/2 ,表5所示的战略就是一个精炼Bayes均衡。

类似可以进一步证明,如果p≥1/2,对于T > 3,下列战略组合构成一个精炼Bayes均衡:理性囚徒1 在t = 1 至t =T-2阶段一直选择抵赖,在余下的两阶段选择坦白;囚徒2在t=l至t= T-l阶段选择抵赖,最后一阶段选择坦白。

我们清楚地看到,将不完全信息引入有限次“囚徒困境”复博能很好地解释现实的社会现象——为什么有那么多的囚徒宁愿选择抵赖而不是选择优超策略坦白。

至于“囚徒困境”的不完全信息下的无数重复博弈的情况,我们应该容易得出:在相当宽松的条件下,每阶段选择合作是精炼Bayes均衡。

五、“囚徒困境”实例(1)经济学例子:关税战两个国家,在关税上可以有以两个选择:提高关税,以保护自己的商品——背叛;与对方达成关税协定,降低关税以利各自商品流通——合作。

当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。

然后二国又重新达成关税协定。

(重复博弈的结果是将发现共同合作利益最大)(2)商业例子:广告战两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。

但若二者同时期发出质量类似的广告,收入增加很少但成本增加。

但若不提高广告质量,生意又会被对方夺走。

此二公司可以有二选择:互相达成协议,减少广告的开支——合作;增加广告开支,设法提升广告的质量,压倒对方——背叛。

若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。

在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。

参考文献[1] 《博弈论》(弗登博格,梯若尔著;姚洋校,黄涛等译),中国人民大学出版社(2010)[2] 《经济博弈论》(谢识予),复旦大学出版社(2010)[3] 《博弈与信息》(拉斯穆森著,韩松等译),中国人民大学出版社(2009)[4] 《经济学与博弈理论》(维加-雷东多著,毛亮等译),上海人民出版社(2006)。

相关文档
最新文档