重复博弈囚徒困境

合集下载

囚徒困境的概念

囚徒困境的概念

囚徒困境一、定义囚徒困境(Prisoner'sDilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。

或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。

虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德(MerrillFlood)和梅尔文·德雷希尔(MelvinDresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(AlbertTucker)以囚徒方式阐述,并命名为“囚徒困境”。

两个共谋犯罪的人被关入监狱,不能互相沟通情况。

如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确凿,二者都判刑八年。

由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。

最终导致纳什均衡仅落在非合作点上的博弈模型。

二、理论起源囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。

警察知道两人有罪,但缺乏足够的证据。

警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。

于是,每个囚徒都面临两种选择:坦白或抵赖。

然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,抵赖的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,比起抵赖的判十年,坦白还是比抵赖的好。

结果,两个嫌疑犯都选择坦白,各判刑八年。

如果两人都抵赖,各判一年,显然这个结果好。

囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性-聪明的人类会因自己的聪明而作茧自缚,或者损害集体的利益。

三、主要内容单次多重单次和多次的囚徒困境,结果不会一样。

重复博弈研

重复博弈研

囚 徒 坦白 A 抵赖
-8,-8 -10,0
0,-10 -1,-1
1 基本博弈(回顾)
囚徒困境博弈(回顾) 在任何一个囚徒困境中, 都会有合作策略和欺骗或 背叛策略。
囚徒 B 囚 徒 坦白 A 抵赖 坦白 抵赖
-8,-8 -10,0
0,-10 -1,-1
“抵赖”——合作策略(双方获得最佳结果) “坦白”——欺骗策略(牺牲对方利益换取自己利益)
但是解实际上没有那么简单。
2 博弈的有限次重复

如果他们只经营3个月,则餐馆会分析且选择它们三个月 中的最优策略。 逆向归纳法 第三个月:餐馆没有进一步关系值得考虑,每个餐馆的占 优策略都是背叛。 第二个月:双方没有更进一步关系(都知道第三个月会背 叛),所以第二个月每个餐馆的占优策略都是背叛。 第一个月:知道第二、三个月会背叛,第一个月每个餐馆 选择背叛。 囚徒困境
3 博弈的无限次重复
餐馆A在第一个月背叛得到额外36,但未来会遭受损失, 所以这一得一失的相对重要性取决于现在与未来的相对 重要性。 资金有时间价值,餐馆A应该按照投资收益率计算背叛是 否划算。 假定r表示收益率——投资1元可以带来的利息
3 博弈的无限次重复
当对手采取TFT策略时,餐馆A背叛一次是否划算?
有限次重复博弈
2 博弈的有限次重复
在一个囚徒困境的重复博弈中,每个参与人担心一次 背叛会导致未来合作的崩溃 如果未来合作的价值很大,超过了短期背叛所获得的, 那么从参与人的长期个人利益着想,参与人就自动不会 选择背叛,并不需要动用第三方来施加任何额外惩罚。
重复博弈均衡结果的影响因素:博弈重复的次数
Chain Store Paradox
2 博弈的有限次重复
定理:令G为阶段性博弈,G(T)是G重复T次的重复博弈 (T<)。如果G有唯一的纳什均衡解,重复博弈G(T) 的唯一SPNE结果是阶段博弈G的纳什均衡重复T次。

第四讲重复博弈(下)详解

第四讲重复博弈(下)详解
5,5 6,0 2,0
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈


不招 -5,-13 -6,-6

甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。

囚徒困境(博弈论的经典案例)

囚徒困境(博弈论的经典案例)

囚徒困境(博弈论的经典案例)学习管理学或经济学的人一定都了解一些博弈论方面的知识。

在博弈论中有一个经典案例--囚徒困境,非常耐人回味。

囚徒困境,说的是两个囚犯的故事。

这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。

在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。

这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。

但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。

而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。

当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。

----那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。

但他们不得不仔细考虑对方可能采取什么选择。

A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。

这种想法的诱惑力实在太大了。

但他也意识到,他的同伙也不是傻子,也会这样来设想他。

所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。

而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。

所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。

当然,在现实世界里,信任与合作很少达到如此两难的境地。

谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。

囚徒困境名词解释

囚徒困境名词解释

囚徒困境名词解释囚徒困境是博弈论中的一个经典问题,用于描述两个个体在没有沟通或合作的情况下所面临的困境。

在这个问题中,两个囚徒被同时关押在不同的牢房中,警方缺乏足够的证据定罪,只能以较轻的罪名判刑,但如果其中一个供认自己的罪行,而另一个保持沉默,则供认者可以得到更轻的刑期,而另一个将会受到较重的惩罚;如果两人都供认,则两人都将受到一定的惩罚。

在这种情况下,囚徒可能会因为不信任对方而都选择供认自己的罪行,导致两人都受到惩罚,这就构成了囚徒困境。

囚徒困境揭示了个体在面临利益冲突时的困境和悖论。

虽然对于两个囚徒来说,最优的结果是两人都保持沉默,使得两人都能够得到较轻的判罪,但由于彼此之间缺乏合作和沟通的机会,彼此不信任的情况下,个体往往会做出不合理的选择。

囚徒困境不仅在刑事案例中有应用,也存在于许多其他领域,如商业竞争、环境保护和国际关系等。

在商业竞争中,企业可能会陷入囚徒困境,各自选择采取激烈竞争、降低价格等策略,短期内可能会获得一定利益,但最终可能导致整个市场竞争趋于恶性循环。

在环境保护中,各个国家可能都面临着类似的困境,各国都在追求经济发展,但如果各国都不采取措施来减少环境污染,最终可能导致整个地球环境的破坏。

在国际关系中,大国之间的博弈也常常落入囚徒困境,彼此不信任,在不明确对方意图的情况下可能持有敌对态度,最终可能导致冲突的升级。

为了解决囚徒困境带来的问题,学者们提出了一系列的解决方案,如合作博弈、迭代博弈、契约博弈等。

合作博弈强调通过合作和沟通使得双方能够达成共赢的结果;迭代博弈则通过重复多次囚徒困境的游戏,让个体能够建立起彼此的信任和合作;契约博弈通过建立契约和规则来约束个体的行为,保证双方都能得到一定的利益。

囚徒困境作为博弈论中的一个经典问题,不仅在理论研究中产生了重要的影响,也在实际场景中得到了广泛的应用和启示。

它向我们揭示了在缺乏合作和沟通的情况下,个体常常会被自身利益所限制,从而导致最终结果并不是最优的。

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展05-06-13 10:57 发表于:《没有范的世界》分类:未分类博弈论(game theory)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。

“囚徒困境”“囚徒困境”是博弈论里最经典的例子之一。

讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。

在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。

可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。

A和B均坦白是这个博弈的纳什均衡。

这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。

即是说,不管A坦白或抵赖,B的最佳选择都是坦白。

反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。

结果,两个人都选择了坦白,各判刑8年。

在(坦白、坦白)这个组合中,A和B都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力游离这个组合,因此这个组合是纳什均衡。

囚徒困境反映了个人理性和集体理性的矛盾。

如果A和B都选择抵赖,各判刑1年,显然比都选择坦白各判刑8年好得多。

当然,A和B可以在被警察抓到之前订立一个"攻守同盟",但是这可能不会有用,因为它不构成纳什均衡,没有人有积极性遵守这个协定。

在经济学方面的实例:一.电信价格竞争根据我国电信业的实际情况,我们来构造电信业价格战的博弈模型。

假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争,一开始的价格都是P0。

从囚徒困境中得到的启示

从囚徒困境中得到的启示囚徒困境是博弈论中的一种经典模型,它描述了两个合作困境中的囚徒面临的决策问题。

囚徒困境向我们展示了当个体追求自身利益时,可能会导致全局不利的后果。

通过对囚徒困境的深入分析,我们可以得到一些启示和教训。

首先,囚徒困境告诉我们,个体的最优选择并不一定是整体最优选择。

在囚徒困境中,每个囚徒都会追求自身的最大利益,即选择背叛对方。

然而,这种自私的选择最终导致了双方都得不到最好的结果。

如果两个囚徒能够合作,即选择保持沉默,他们都可以得到较轻的刑罚。

这说明在某些情况下,个体追求短期利益可能会损害整体的长期利益。

其次,囚徒困境也揭示了信息共享的重要性。

在这个模型中,如果两个囚徒之间没有任何沟通和信息共享,那么个体的选择可能会受限于对对方行为的猜测和推测。

当两个囚徒面临选择时,如果他们能够交流信息,比如承诺保持沉默,那么他们可能有机会实现合作并得到最好的结果。

因此,囚徒困境提醒我们,在协作中,交流和信息共享是至关重要的。

此外,囚徒困境也强调了远见和信任的重要性。

在这个模型中,每个囚徒都知道如果对方选择背叛,自己选择合作会得到最坏的结果。

这种情况下,每个囚徒的最优选择是背叛对方。

然而,如果两个囚徒都能够充分考虑对方的利益,互相建立起信任和合作关系,那么他们都可以从中受益。

这告诉我们,在博弈中,远见和信任是实现合作和最优结果的基础。

此外,囚徒困境也引出了重复博弈的概念。

在原始的囚徒困境模型中,只有一次选择和一次结果。

然而,在现实生活中,人们往往需要多次与他人博弈,结果相互影响。

通过建立重复博弈的框架,个体可以在长期合作的前提下更加灵活地进行选择,并且能够根据对方的行为作出更准确的判断。

在这种情况下,个体可以通过建立声誉、惩罚机制等方式来实现合作,并获得更好的结果。

最后,囚徒困境还告诉我们,社会规范和道德约束对于促进合作和减少不良行为也起到了重要的作用。

在囚徒困境中,囚徒们面临着选择背叛对方和保持沉默的两种行为。

囚徒困境文档

囚徒困境1. 引言囚徒困境是博弈论中的一个重要概念,描述了在特定情境下,个体做出自私决策的结果不利于整体利益最大化的现象。

本文将介绍囚徒困境的定义、模型、解决方法以及实际应用。

2. 定义囚徒困境由美国数学家墨菲在20世纪50年代提出,用来研究多人博弈理论中的合作问题。

在囚徒困境中,两名囚徒分别被关押在不同的房间中,不得相互沟通。

检察官没有足够的证据定罪,但却希望能够定罪并获得最重的刑罚。

因此,检察官给每名囚徒提供了选择合作或背叛的机会。

•如果两名囚徒都选择合作,则检察官无法定罪,每名囚徒被判一年徒刑。

•如果一名囚徒选择合作,而另一名囚徒选择背叛,则背叛者将不受惩罚,合作者将受到极重的刑罚(10年徒刑)。

•如果两名囚徒都选择背叛,则每名囚徒将被判刑5年。

3. 囚徒困境的模型囚徒困境可以用一个2x2的矩阵来表示。

矩阵中的元素表示每名囚徒选择合作或背叛所对应的结果。

囚徒B选择合作囚徒B选择背叛囚徒A选择合作(1, 1)(0, 10)囚徒A选择背叛(10, 0)(5, 5)在这个矩阵中,左上角的元素表示当两名囚徒都选择合作时的结果,右下角的元素表示当两名囚徒都选择背叛时的结果。

4. 解决囚徒困境的方法4.1. 唯一纳什均衡纳什均衡是指在多人博弈中,当所有参与者都选择了策略后,没有人再通过选择其他策略来使自己得到更好的结果。

在囚徒困境中,存在唯一的纳什均衡:双方都选择背叛。

虽然这个结果不利于个体和整体的利益最大化,但由于囚徒无法沟通和合作,双方都不愿冒险选择合作而遭受重刑。

4.2. 重复博弈策略在实际生活中,人们往往会面临多次的博弈,而不只是一次。

在重复博弈中,囚徒困境的结果可以发生改变。

4.2.1. 提前合作策略如果囚徒之间可以提前达成合作协议,并约定在每次博弈中都选择合作,那么纳什均衡将发生改变。

这是因为双方意识到合作是最有利的策略,不再担心背叛对方。

4.2.2. 无限重复策略在无限重复的囚徒困境中,囚徒有机会观察对方的行为,并根据对方的策略做出决策。

囚徒困境

囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

(单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样)1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。

经典的囚徒困境如下:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:•若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。

•若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。

•若二人都互相检举(互相“背叛”),则二人同样判监2年。

用表格概述如下:甲沉默(合作)甲认罪(背叛)乙沉默(合作)二人同服刑半年甲即时获释;乙服刑10年乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。

参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势策略”,理性的参与者绝不会选择。

另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。

囚徒甲和乙该怎么办呢?他们作为本博弈中的两个博弈方,他们都有两个选择——坦白或抵赖。

很显然,最好的策略是双方都抵赖,结果是大家都只被判一年。

但是由于两人处于隔离的情况下无法串供。

所以,根据个体理性原则,两个博弈方的目标都是要实现自身利益最大化。

对于囚徒甲来说,囚徒乙有坦白和抵赖的两种可能的选择,如果囚徒乙选的是抵赖,则对于囚徒甲来说,他应该选择坦白,因为抵赖的得益为-1,坦白的得益为-1/2;,如果囚徒乙选的是坦白,则对于囚徒甲来说,他应该选择坦白,因为抵赖的得益-10,坦白的得益为-5。

第六章 重复博弈




细分礼尚往来策略


惩罚一次的礼尚往来策略,叫做严格礼尚 往来策略:即你这次对我不好,我下次马 上对你不好;你这次改过来对我好,我下 次马上也对你好。 还存在惩罚K次的礼尚往来策略,这就是如 果你的对手在某一阶段博弈中采取背叛策 略,则你在下面连续K个阶段博弈中采取背 叛策略来惩罚他。实际上冷酷策略也可以 被叫做惩罚无穷次的礼尚往来策略。

囚徒困境博弈重复无穷多次而不是有限次 时,结果是否与一次博弈的结果一样呢?





一、在分析之前,先介绍博弈重复多次时 常见的策略。 依存策略 触发策略 冷酷策略 礼尚往来策略

在重复博弈中,互动关系的序贯意味着先 前双方的博弈行为,决定自己下一阶段的 策略选择。这种策略被称为依存策略或相 机策略。
2 1 r 2 (1 r )
2

2 (1 r )
3

2 (1 r )
4


r 表示投资收益率,1/(1+r)称为折现因子,通常用 δ 表示。折现因子衡量了“未来相比于现在的重要 性”。折现因子越大,表示未来越重要。

当1>2/r时,即周收益率r>200%时,乙选择 永远背叛下去才是值得的。而这种情况几乎 是不太可能的。

一个局中人在决定是否采取背叛行动时,他需 要考虑的是权衡背叛行为所产生的即时收益以 及未来需要承担的损失。而未来承担的损失又 受折现因子δ和博弈持续下去的概率P两个因 素的影响。

如果重复博弈有足够高的概率在某一阶段结束, 也就是P足够小,则通过礼尚往来策略支持的 合作会由于局中人的背叛而结束。

低价
企业甲 高价
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档