博弈论经典案例“囚徒困境”以及其拓展

合集下载

博弈论典型事例

博弈论典型事例

博弈论典型事例我给你说啊,这博弈论里典型事例可太多了。

就说那个囚徒困境吧。

我就像亲眼见着那俩囚徒似的,一个瘦高个,眼睛滴溜溜转,透着那股子机灵劲儿又夹杂着害怕,另一个矮胖一些,脸上肉嘟嘟的,眉毛都快拧成麻花了,满是焦虑。

他们被关在那黑黢黢的牢房里,灯光昏黄得像要灭了似的,气氛压抑得很。

警察就站在外面,那表情严肃得像石头刻的。

警察说啊:“你们俩都坦白呢,就各判五年;要是一个坦白一个不坦白,坦白的那个立马走人,不坦白的就判十年;要是都不坦白呢,就各判一年。

”我就想啊,这瘦高个心里肯定在算计,他眼睛四处瞅着,那眼神像是在找什么出口。

他就想啊,要是我坦白了,对面那矮胖的不坦白,我可就直接走了,多好的事儿。

那矮胖的呢,他心里也没闲着,咬着嘴唇,手不停地搓着衣角,他也在想,我要是坦白了,不管对面咋样,我都有好处。

然后呢,你猜怎么着?他俩互相瞅了一眼,那眼神里有怀疑有试探。

瘦高个先开了口:“兄弟,你说咱咋办?”矮胖的哼哧了半天说:“我也不知道啊。

”其实心里都打着小九九呢。

最后啊,就像这博弈论里说的,他俩都选择了坦白,各判了五年。

你看,这就是博弈论里典型的情况,每个人都想着自己利益最大化,可结果呢,都没落到好。

这就像生活里很多事儿一样,人们都在互相算计着,有时候还不如坦诚一点呢。

就像那俩囚徒,要是一开始就说好都不坦白,也就各判一年了,多好的结果啊。

这博弈论啊,真就是把人性里那些小心思都给剖析出来了,看着简单,其实这里面的门道可深着呢。

再说说那个智猪博弈。

有个猪圈里啊,一头大猪和一头小猪。

大猪膘肥体壮的,那体型像小山一样,小猪呢,瘦巴巴的,看着有点可怜。

猪圈一头有个踏板,另一头是饲料的出口。

每踩一下踏板啊,就会有10个单位的猪食流出来,但是踩踏板得消耗2个单位的体力。

要是小猪去踩踏板,大猪在食槽边等着,大猪一下子就能吃掉9个单位的猪食,小猪只能吃到1个单位,还得减去踩踏板消耗的2个单位,那就亏了。

要是大猪去踩踏板呢,小猪在食槽边,小猪能吃到4个单位,大猪能吃到6个单位,虽然大猪消耗了体力,但还是有得吃。

博弈论的经典案例

博弈论的经典案例

博弈论的经典案例博弈论是研究冲突和合作情况下的决策科学,它广泛应用于经济学、政治学、生物学等领域。

在博弈论中,经典案例可以帮助我们理解各种策略和结果,下面将介绍几个经典的博弈案例。

1. 囚徒困境(Prisoner's Dilemma):囚徒困境是博弈论中最著名的案例之一。

假设有两个囚犯被逮捕,但检察官没有足够的证据来定罪。

如果两人都坦白认罪,他们将每人被判6个月的徒刑;如果两人都保持沉默,他们将只被判2个月的徒刑;如果一个人坦白认罪而另一个人保持沉默,坦白的人将被判1年刑,沉默的人将被无罪释放。

在这个案例中,每个囚犯都面临着合作(保持沉默)和背叛(坦白认罪)的选择,他们必须考虑对方的动作来做出最佳的选择。

尽管每个囚犯都会选择坦白认罪,这样他们能够获得较短的刑期,但合作(保持沉默)是最好的策略,因为这样两人都只会被判2个月的徒刑。

2. 非零和博弈(Non-zero Sum Game):非零和博弈是指在博弈中,各方的利益不是完全相反的。

一个典型的例子是坐在两个对面的人之间有一块饼的案例。

这两个人都可以选择合作或背叛,如果两人都合作,他们将平分饼的一半;如果一个人背叛而另一个人合作,背叛的人将获得全部饼;如果两人都背叛,他们将不会有任何饼。

在这个案例中,为了最大化自己的利益,每个人都会选择背叛,因为这样他们有机会获得全部饼。

然而,如果他们能够建立信任和合作,他们可以共同获得更多的饼。

3. 报复博弈(Tit for Tat Game):报复博弈是另一个经典的案例,它出现在许多情况下,比如政治、商业等。

这个案例可以被描述为一种策略,其中一个团队以对抗和报复的方式回应对手的行动。

一个经典的例子是在政治竞选中,如果一个候选人发起攻击广告,另一个候选人就会以类似的攻击广告回应。

这种博弈往往会导致恶性循环,双方都会不断升级攻击,最终导致双方的声誉受损。

然而,一个更好的策略是采取合作和积极的行动来推动利益最大化。

囚徒困境案例

囚徒困境案例

囚徒困境案例囚徒困境是博弈论中的一个经典案例,它揭示了在互相合作的情况下,个体之间的利益冲突和合作困境。

这个案例的背后蕴含着深刻的社会学和心理学意义,对于我们理解人类行为和社会关系具有重要的启示作用。

在囚徒困境案例中,两名罪犯被抓获并分开审讯,警察没有足够的证据定罪,只能凭借他们对彼此的供词来判决。

如果两名罪犯都沉默不语,警察只能以轻罪定罪,每人判刑1年;如果其中一人供认,而另一人保持沉默,供认的人将被释放,而另一人将被判10年;如果两人都供认,每人将被判刑8年。

在这种情况下,每个人都面临着一个选择,是合作沉默,还是背叛供认。

从个体的利益出发,无论对方选择什么,供认都是最好的选择。

因为无论对方是沉默还是供认,供认者都能通过合作获得最小的刑期。

但是,如果双方都选择供认,就会导致双方都得到最坏的结果。

这就是囚徒困境的本质,即使合作对每个人来说都是最好的选择,但由于彼此之间缺乏信任,最终导致了双方都选择背叛,从而陷入困境。

囚徒困境案例在现实生活中也有着广泛的应用。

在商业合作中,合作双方往往面临着相互竞争和利益冲突。

在国际关系中,各国之间也存在着类似的困境,例如军备竞赛和贸易争端。

在日常生活中,人们之间的合作也会受到囚徒困境的影响,例如环境保护、资源分配等方面。

如何打破囚徒困境,实现合作共赢呢?学者们提出了一些解决方案。

首先是建立信任,通过长期的合作积累信任,从而减少合作双方的不确定性和风险。

其次是建立有效的合作机制,通过契约、协议等方式规范双方行为,减少信息不对称和道德风险。

再次是采取激励措施,通过奖惩机制激励合作,促使双方选择合作而非背叛。

最后是加强监督,通过第三方监督和公众监督,降低合作双方的违约成本,提高合作的可信度。

囚徒困境案例告诉我们,合作是人类社会生存和发展的基础,但合作中也存在着利益冲突和信任危机。

打破囚徒困境,需要双方共同努力,建立信任、规范合作、激励合作和加强监督,从而实现合作共赢的局面。

博弈论的经典案例五篇

博弈论的经典案例五篇

博弈论的经典案例五篇博弈论主要研究公式化了的激励结构间的相互作用,是研究具有斗争或竞争性质现象的数学理论和方法。

本站为大家整理的相关的博弈论的经典案例供大家参考选择。

博弈论的经典案例篇一囚徒困境学习管理学或经济学的人一定都了解一些博弈论方面的知识。

在博弈论中有一个经典案例囚徒困境,非常耐人回味。

“囚徒困境”说的是两个囚犯的故事。

这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。

在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。

这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。

但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。

而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。

当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。

那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。

但他们不得不仔细考虑对方可能采取什么选择。

A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。

这种想法的诱惑力实在太大了。

但他也意识到,他的同伙也不是傻子,也会这样来设想他。

所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。

而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。

所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。

博弈论经典案例

博弈论经典案例

博弈论经典案例1. 囚徒困境:这是一种经典的博弈论案例,两名囚犯被关押在不同的牢房中,警方缺乏确凿的证据将他们定罪,决定让他们进行交涉。

如果两人都认罪,每人将会被判刑5年;如果一个人认罪而另一个人保持沉默,认罪的人将会被判刑1年,而保持沉默的人将被判无期徒刑;如果两人都保持沉默,每人将被判刑3年。

在这种情况下,每个囚犯都面临着是否信任对方合作的决策。

2. 麦氏定理:这是美国经济学家约翰·N·纳什于1950年提出的经典问题。

假设有两家咖啡店A和B,它们的位置一个在城市的北边,另一个在南边。

两家咖啡店需要决定每天早上的开门时间。

如果A咖啡店在北边开门,而B咖啡店在南边也同样开门,北部居民会去A店,南部居民会去B店,两家店的收入会平均分。

但是,如果A店在北边开门,而B店在南边关门,南部居民不得不去北边排队等待,这将导致北边的队伍变长,北部居民也会选择去B店。

麦氏定理指出,当两家店选择不同的开门时间时,总是有一种策略,使得两家店的收入之和最大。

3. 社交圈中的追逐游戏:在一个社交聚会上,一对情侣分手后,男方试图追回女方。

男方完成了一连串的行动,女方必须在每个行动之后做出回应。

游戏的目标是让女方接受男方的求爱。

这个案例涉及到博弈论中的策略选择和不确定性。

4. 价格竞争:在一场市场竞争中,两家公司决定销售产品的价格。

低价通常会吸引更多的消费者,但是公司也需要考虑到自己的成本和利润。

每家公司需要在出售产品的定价上权衡竞争和利润之间的平衡。

这个案例涉及到博弈论中的纳什均衡和即时反应策略。

5. 投标博弈:在一场拍卖中,多个竞争者竞相出价,以获得拍卖品。

每个竞争者必须决定自己的出价,以获得最大的利润。

这个案例涉及到博弈论中的最优出价和风险评估。

囚徒困境拓展实验报告

囚徒困境拓展实验报告

囚徒困境拓展实验报告1. 背景介绍囚徒困境是博弈论中的一个经典问题,讲述了两名罪犯被单独审问,被告诱供出对方的情况。

在此情景下,博弈的最优策略是什么?这个问题引发了学术界广泛的探讨,而囚徒困境拓展实验也是在此背景下展开的。

2. 实验设计为了更好地研究囚徒困境的策略选择,我们设计了一个拓展实验。

实验中参与者以角色扮演的方式,扮演囚徒和警察,通过决策和博弈来模拟真实的囚徒困境。

实验的主要内容如下:2.1 参与者分组我们招募了一百名参与者,将其以随机方式分为囚徒组和警察组。

每组各有五十名参与者。

2.2 游戏规则游戏分为五轮进行。

每个回合的游戏规则如下:- 每个囚徒对每个警察进行一次选择,可以选择合作或背叛。

- 合作表示不揭发对方,获得3分。

- 背叛表示揭发对方,获得1分。

- 如果两个囚徒都选择合作,则每个人获得2分。

- 如果一个囚徒选择背叛,而另一个选择合作,则背叛的囚徒获得5分,合作的囚徒获得0分。

2.3 统计数据在游戏进行的同时,我们记录了每一轮的参与者选择和获得分数情况。

通过统计数据,我们可以分析参与者的策略选择和博弈效果。

3. 实验结果经过五轮的游戏,我们得到了如下实验结果:3.1 囚徒组策略选择分析囚徒组中,参与者的策略选择大致分为两种:- 个体理性:有一部分囚徒参与者在前几轮中选择了背叛,以追求更高的个体收益,但在后续观察到其他囚徒普遍合作后,逐渐倾向于选择合作。

- 合作主义:另一部分囚徒参与者一直坚持选择合作,始终希望通过团队合作获得更高的总体收益。

3.2 警察组策略选择分析警察组中,参与者也有两种策略选择:- 鸽派:一部分警察参与者倾向于选择合作,希望通过与囚徒团结合作,减少犯罪行为,从而获得更好的社会效益。

- 鹰派:另一部分警察参与者更倾向于选择背叛,以对付囚徒的“欺骗”,以自身利益为出发点。

3.3 获得分数统计通过实验记录的数据,我们计算了每个参与者的平均得分。

囚徒组中,个体理性囚徒的平均得分为4.2分,合作主义者的平均得分为2.8分。

囚徒困境的例子

囚徒困境的例子

囚徒困境(prisoner's dilemma)是指两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的。

囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质,但现实中的价格竞争、环境保护、人际关系等方面,也会频繁出现类似情况。

例子:北大清华的状元之争是一个典型的囚徒困境。

囚徒困境是社会合作面临的最大难题,它深刻揭示了个体理性和集体理性之间的矛盾和冲突:个体按照自身利益最大化的原则采取对自己最有利的占优战略,得到的却不一定是自己最想要的结果,相反可能导致集体的非理性。

就生源竞争而言,对于北大来说,无论清华抢不抢状元,抢状元都是北大的最好选择,即最优战略;对于清华来说也是一样。

用博弈论的专业术语来表述,(抢状元,抢状元)构成了北大清华招生博弈的纳什均衡。

纳什均衡是一个僵局,给定对手不改变行为,自己就没有激励改变行为,因而无法打破或单独偏离均衡。

纳什均衡最深刻的悲剧性在于,北大和清华都意识到抢状元是毫无意义的,但抢状元却是他们必然的选择。

即使两所大学都认同不抢状元是最好的,但这个结果却得不到,因为每所大学都不得不采取对自己最有利的行动——抢状元。

除非引入第三方力量改变博弈结构,否则囚徒困境就不可能被打破。

扩展资料相关应用:封闭交易霍夫施塔特曾提出,像囚徒困境一类的问题,若以简单博弈的形式来说明,人们会较容易理解。

例如他以“封闭袋子交易”的简单博弈来说明此论题:两人面对面互相交换封闭的袋子,共同了解其中一方放钱,另一方放商品。

双方可以诚实的依照承诺,把东西放到袋子里交换;又或者交空袋子给对方,选择背叛。

在这场博弈中,由于背叛可获得巨大利益,必然有多人选择背叛。

这意味着理性的商人不会进行这种交易,因而“封闭袋子交易”将由于逆向选择而失去市场。

简述囚徒困境及其结论

简述囚徒困境及其结论

简述囚徒困境及其结论
囚徒困境是一个经典的博弈论案例,描述了两个囚犯被捕后被关进两个单独的牢房,无法通过通信相互帮助或寻求逃脱机会。

他们必须选择自己的行为,要么合作,要么互相背叛,以最大化自己的收益。

囚徒困境的假设是:两个人的行为都是理性的,不会考虑到道德或法律的因素;两个人的利益是一致的,他们背叛对方会导致自己受到更严厉的惩罚;他们无法找到第三方来帮助或合作。

在囚徒困境中,两个囚犯的最优策略是合作,这意味着他们应该将对方供出,从而各自获得一次逃脱的机会。

然而,如果他们选择合作,那么他们就必须同时供出对方,这将导致他们一起被判刑。

因此,两个囚犯都选择背叛,并各自获得了更高的收益,即逃脱了惩罚。

囚徒困境的结论是,在极端的情况下,两个人的行为取决于他们的理性和利益一致性,而不考虑道德或法律的因素。

在这种情况下,合作或背叛都是最优策略,但无法找到第三方来协助或合作。

囚徒困境的案例表明,在复杂的社会中,人们的行为往往受到理性和利益因素的影响,而不考虑道德和法律的因素。

这也提醒我们在决策时需要考虑多个因素,并做出理性的判断。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

博弈论经典案例“囚徒困境”以及其拓展05-06-13 10:57 发表于:《没有范的世界》分类:未分类博弈论(game theory)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。

“囚徒困境”“囚徒困境”是博弈论里最经典的例子之一。

讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。

在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。

可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。

A和B均坦白是这个博弈的纳什均衡。

这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。

即是说,不管A坦白或抵赖,B的最佳选择都是坦白。

反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。

结果,两个人都选择了坦白,各判刑8年。

在(坦白、坦白)这个组合中,A和B都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力游离这个组合,因此这个组合是纳什均衡。

囚徒困境反映了个人理性和集体理性的矛盾。

如果A和B都选择抵赖,各判刑1年,显然比都选择坦白各判刑8年好得多。

当然,A和B可以在被警察抓到之前订立一个"攻守同盟",但是这可能不会有用,因为它不构成纳什均衡,没有人有积极性遵守这个协定。

在经济学方面的实例:一.电信价格竞争根据我国电信业的实际情况,我们来构造电信业价格战的博弈模型。

假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争,一开始的价格都是P0。

A(中国电信)是老牌企业,实力雄厚,占据了绝大多数的市场份额;B(中国联通)则刚刚成立不久,翅膀还没有长硬,是政府为了打破垄断鼓励竞争而筹建起来的。

正因为B是政府扶植起来鼓励竞争的,所以B得到了政府的一些优惠,其中就有B的价格可以比P0低10%。

这一举动,还不会对A产生多大的影响,因为A的根基实在是太牢固了。

在这样的市场分配下,A、B可以达到平衡,但由于B在价格方面的优势,市场份额逐步壮大,到了一定程度,对A造成了影响。

这时候,A该怎么做?不妨假定:A降价而B维持,则A获利15,B损失5,整体获利10;A维持且B也维持,则A获利5,B获利10,整体获利15;A维持而B降价,则A损失10,B获利15,整体获利5;A降价且B也降价,则A损失5,B损失5,整体损失10。

从A角度看,显然降价要比维持好,降价至少可以保证比B好,在概率均等的情况下,A降价的收益为15×50%-5×50%=5,维持的收益为5×50%-10×50%=-2.5,为了自身利益的最大化,A就不可避免地选择了降价。

从B角度看,效果也一样,降价同样比维持好,其降价收益为5,维持收益为2.5,它也同样会选择降价。

在这轮博弈中,A、B都将降价作为策略,因此各损失5,整体损失10,整体收益是最差的。

这就是此博弈最终所出现的纳什均衡。

我们构造的这一电信业价格战博弈模型是典型的囚徒困境现象,各个局部都寻求利益的最大化,而整体利益却不是最优,甚至是最差。

许多其他行业的价格竞争都是典型的囚徒困境现象,如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。

二.OPEC组织成员国之间的合作与背叛“囚徒困境”告诉我们,个人理性和集体理性之间存在矛盾,基于个人理性的正确选择会降低大家的福利,也就是说,基于个人利益最大化的前提下,帕累托改进得不到进行,帕累托最优得不到实现。

上述我们在对电信价格竞争的博弈分析中,只是一次性的“囚徒困境”博弈,因此得到了互相降价的纳什均衡。

而在现实生活当中,信任与合作很少达到如此两难的境地,无论在自然界还是在人类社会,“合作”都是一种随处可见的现象。

比如中东石油输出国组织(OrganizationofPetroleumExportingCountries简称OPEC)的成立,本身就是要限制各石油生产国的产量,以保持石油价格,以便获取利润,是合作的产物。

OPEC之所以能够成立,各组织成员国之间之所以能够合作,是因为囚徒困境如果是一次性博弈(One shot game)的话,基于个人利益最大化,得到纳什均衡解,但如果是多次博弈,人们就有了合作的可能性,囚徒困境就有可能破解,合作就有可能达成。

连续的合作有可能成为重复的囚徒困境的均衡解,这也是博弈论上著名的“大众定理”(Folk Theorem)的含义。

合作的可能性不是必然性。

博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺(Credible commitment) ,向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。

如果该困境同时涉及多个对手,则要在博弈对手中形成声誉,并用心地维护这个声誉。

这里“可信的承诺”是一个很牵强的翻译,“Credible commitment”并不是什么空口诺言,而是实实在在的付出。

所以合作是非常困难的。

所以OPEC组织经常会有成员国不遵守组织的协定,私自增加石油产量。

每个成员国都这样想,只要他们不增加产量,我增加一点点产量对价格没什么影响,结果每个国家都增加产量,造成石油价格下跌,大家的利润都受到损失。

当然,一些产量增加较少的国家损失更多,于是也更加大量生产,造成价格进一步下降--结果,陷入一个困境:大家都增加产量,价格下跌,大家再增加产量,价格再下跌……。

理论上,几乎所有的卡特尔都会遭到失败,原因就在于卡特尔的协定(类似囚犯的攻守同盟)不是一个纳什均衡,没有成员有兴趣遵守。

那么是不是不可能有卡特尔合作成功了?理论上,如果是无限期的合作,双方考虑长远利益,他们的合作是会成功的。

但只要是有限次的合作,合作就不会成功。

比如合作10次,那么在第九次博弈参与人就会采取不合作态度,因为大家都想趁最后一次机会捞一把,反正以后我也不会跟你合作了。

但是大家料到第九次会出现不合作,那么就很可能在第八次就采取不合作的态度。

第八次不合作会使大家在第七次就不合作……一直到,从第一次开始大家都不会采取合作态度。

以上是运用博弈论中的经典案例“囚徒困境”对现实经济生活的一些简单的理论上的分析,虽然在现实生活当中影响人们决策和态度的因素很多,但是,博弈论作为现代经济学的前沿领域,始终是一个强有力的分析工具。

囚徒困境在理论上的延伸:一、博弈中最优策略的产生艾克斯罗德(Robert Axelrod)在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。

也就是说,个人可以完全按照自己利益最大化的企图进行决策。

在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。

社会实践中有很多合作的问题。

比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。

在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。

对策论以著名的囚犯困境来描述这个问题。

A和B各表示一个人,他们的选择是完全无差异的。

选择C代表合作,选择D代表不合作。

如果AB都选择C合作,则两人各得3分;如果一方选C,一方选D,则选C 的得零分,选D的得5分;如果AB都选D,双方各得1分。

显然,对群体来说最好的结果是双方都选C,各得3分,共得6分。

如果一方选C,一方选D,总体得5分。

如果两人都选D,总体得2分。

对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个体利益最大化时,就使群体利益受损,这就是囚徒困境。

在矩阵中,对于A来说,当对方选C,他选D得5分,选C只得3分;当对方选D,他选D得1分,选C得零分。

因此,无论对方选C或D,对A来说,选D都得分最多。

这是A单方面的优超策略。

而当两个优超策略相遇,即A,B都选D时,结果是各得1分。

这个结果在矩阵中并非最优。

困境就在于,每个人采取各自的优超策略时,得出的解是稳定的,但不是帕累托最优的,这个结果体现了个体理性与群体理性的矛盾。

在数学上,这个一次性决策的矩阵没有最优解。

如果博弈进行多次,只要对策者知道博弈次数,他们在最后一次肯定采取互相背叛的策略。

既然如此,前面的每一次也就没有合作的必要,因此,在次数已知的多次博弈中,对策者没有一次会合作。

如果博弈在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契时,对策者就能持续地各得3分,但如果持续地不合作的话,每个人就永远得1分。

这样,合作的动机就显现出来。

多次对局下,未来的收益应比现在的收益多一个折现率W,W越大,表示未来的收益越重要。

在多人对策持续进行下去,且W比较大,即未来充分重要时,最优的策略是与别人采取的策略有关的。

假设某人的策略是,第一次合作,以后只要对方不合作一次,他就永不合作。

对这种对策者,当然合作下去是上策。

假如有的人不管对方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多。

对于总是不合作的人,也只能采取不合作的策略。

艾克斯罗德做了一个实验,邀请多人来参加游戏,得分规则与前面的矩阵相同,什么时候结束游戏是未知的。

他要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两博弈,以找出什么样的策略得分最高。

第一轮游戏有14个程序参加,再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作),运转了300次。

结果得分最高的程序是加拿大学者罗伯布写的"一报还一报"(tit for tat)。

这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。

艾克斯罗德还发现,得分排在前面的程序有三个特点:第一,从不首先背叛,即"善良的";第二,对于对方的背叛行为一定要报复,不能总是合作,即" 可激怒的";第三,不能人家一次背叛,你就没完没了的报复,以后人家只要改为合作,你也要合作,即"宽容性"。

为了进一步验证上述结论,艾氏决定邀请更多的人再做一次游戏,并把第一次的结果公开发表。

相关文档
最新文档