博弈论囚徒困境的四种形式 PDF

合集下载

博弈论“囚徒困境”的四种形式

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境”摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。

其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词:博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。

为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。

当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) :囚徒2囚徒1(表1)假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。

容易看出,由于对于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。

二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。

囚犯困境模型

囚犯困境模型

囚徒困境(Prison Dilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中,博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时,合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量,纳什均衡趋向于帕累托最优。

囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。

但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。

经典的囚徒困境1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。

经典的囚徒困境如下:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。

若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。

若二人都互相检举(互相“背叛”),则二人同样判监2年。

用表格概述如下:甲沉默(合作)甲认罪(背叛)乙沉默(合作)二人同服刑半年甲即时获释;乙服刑10年乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年解说如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。

囚徒困境 博弈论

囚徒困境 博弈论

囚徒困境博弈论话说啊,有这么一个经典的博弈论小故事,咱们老百姓听了都能琢磨出味儿来,那就是“囚徒困境”。

这故事啊,讲的不是什么高大上的科学实验,而是两个哥们儿,咱们就叫他们阿明和阿强吧,一不小心犯了事儿,被警察给逮住了。

警察把他们分开审问,想套出点啥来,这时候,阿明和阿强就面临了一个难题,咱们慢慢道来。

阿明和阿强被关在两个屋子里,谁也瞧不见谁,也听不见对方说啥。

警察跟他们说:“嘿,你俩要是都一口咬定自己没错儿,啥也不知道,那咱们也没辙,顶多给你们判个轻罪,坐几年牢就出去了。

但是呢,要是你们当中有一个人招了,另一个人还硬扛着,那招了的这位呢,就能立马放出去,啥事儿没有;硬扛的那位呢,可就得把牢底坐穿了。

”这一下,阿明和阿强心里就开始犯嘀咕了。

阿明想:“阿强这小子,平时看着挺讲义气,可到了这节骨眼儿上,谁知道他会不会为了自己出去,把我卖了?”阿强呢,心里也是七上八下的:“阿明这小子,聪明着呢,他肯定也在琢磨我怎么想。

万一我硬扛着,他招了,那我可就完蛋了。

”这就叫囚徒困境,为啥呢?因为两个人都陷入了一种“我斗不过你,你也斗不过我,但咱俩都不肯让步”的僵局。

你说阿明和阿强想不想合作?当然想啊!都想对方别招,自己也别招,这样都能少判几年。

可问题是,他们不敢信对方,因为只要有一方动了私心,另一方就得吃大亏。

这时候,阿明和阿强就开始在心里盘算开了。

阿明琢磨着:“要是阿强是个真汉子,咱俩一起扛,那几年后还能一起喝酒。

可万一他不是呢?我这辈子就毁了。

”阿强也是这么想:“阿明要是个靠得住的兄弟,咱俩一起出去,以后还能混。

但他要是把我卖了,我这辈子可就完了。

”最后,这俩哥们儿很可能都会选择招供,为啥?因为他们都觉得,与其冒着被对方出卖的风险,不如自己先下手为强,至少能保住一条命。

这样一来,两个人都招了,结果反倒是都不太好。

本来嘛,要是他们都能信任对方,一起扛下来,可能过几年就出来了,还能继续当兄弟。

可这一招供,好了,俩人都得在牢里多待几年,说不定出来以后,连朋友都没得做了。

囚徒困境与博弈论

囚徒困境与博弈论

囚徒困境与博弈论囚徒困境与博弈论博弈论(也叫对策论)是一门很深的学问,在学校里至少要讲一个学期,甚至还有专门的博士课程。

但在这里不可能讲这么多,只能把它的基本概念、研究方法和一般规律做一个简单的概括。

从囚犯难题说起我们先从一个常见的案例说起。

这个故事是这样的:有一个富人在家中被谋杀,他的财产被盗。

警方在侦讯过程中抓到两名嫌疑犯:甲和乙,并在他们家中搜出了被盗的财物。

但甲、乙都否认杀人,声称他们进入被害人家中时那个人已经死去。

所以警方肯定他们至少犯下了盗窃罪,但对他们是否杀死了被害人并没有把握。

于是警方在把他们隔离的情况下分别对他们表示:因为偷东西已经有确凿证据,这将被判刑2年;如果拒不承认杀人而被另一方检举,将被判刑20年,而检举的一方可以受奖无罪释放;如果双方都坦白杀人,将各被判刑 10年。

这样,甲乙可能面临的判决如下:通过分析可以看出,最后的结果是甲乙都会承认杀人。

因为对本人来说,不管对方承认不承认,自己承认总比不承认好。

如果对方不承认,自己承认相比不承认等于从判刑2年改为无罪释放;如果对方承认,自己承认相比不承认相当于从判刑20年减到了10年。

这样,对甲乙双方来说,最佳的选择都是承认杀人。

这个结果与他们是否真的杀了人无关,即使他们没有杀人,也会承认杀人。

由于特定的选择条件,本来对双方最有利的结局(都不承认杀人,各被判刑2年)不会出现,出现的是对双方都不利的结果,这就是所谓的“囚犯困境”。

我们想想看,“文革”时期坦白从宽、抗拒从严的政策使一大批人承认了自己从没有犯过的“罪行”,原因就在于此。

“囚徒困境”具有非常深刻的含义,它说明了为什么短视地追求自己利益将导致对大家都不利的结局。

现实中类似的例子还很多,比如为了图一时的方便,大家都不按交通规则行事,结果导致交通瘫痪;再比如前些年很多单位拿国家的钱争相发奖金,结果导致了全社会的通货膨胀。

不同的是,在囚徒困境模型里只涉及两个人,如果这种情况重复出现,两个人很容易从失败中吸取教训,从选择承认杀人改为不承认,这样,处境就可以改善。

博弈论“囚徒困境”的四种形式

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境”摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。

其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词:博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。

为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。

当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) :囚徒2囚徒1(表1)假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。

容易看出,由于对于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。

二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。

囚徒困境的破解方法

囚徒困境的破解方法

囚徒困境的破解方法
囚徒困境是博弈论中的经典问题,涉及到两名囚徒在独立的审判中如何作出合作与背叛的决策。

在囚徒困境中,每个囚徒都面临着合作与背叛之间的抉择,而最优的结果是两人都合作。

然而,由于缺乏信任和可能的坦白窃取,各方往往会选择背叛,导致最不理想的结果。

为了破解囚徒困境,有几种策略和方法可以被采用:
1. 进行重复博弈:在重复进行博弈的情况下,囚徒有机会观察和记住对方的行为。

这使得合作成为可能,因为囚徒们知道背叛可能会导致连续的背叛,从而带来更坏的结果。

这种重复博弈策略也被称为“赌咒策略”,因为它基于对对方决策的观察和回应。

2. 使用策略性沟通:囚徒可以通过策略性的沟通来建立信任和合作,从而避免陷入困境。

例如,囚徒可以告诉对方他们打算合作,并建议对方也选择合作来达到双方的最佳利益。

这种沟通可以增加囚徒之间的合作概率。

3. 设定奖惩机制:引入奖励和惩罚机制可以激励囚徒选择合作。

例如,如果两个囚徒都选择合作,他们可以获得共同的奖励。

另一方面,如果一个囚徒选择背叛而另一个囚徒选择合作,背叛的囚徒将受到严厉的惩罚。

这样的奖惩机制可以鼓励囚徒们选择合作而不是背叛。

4. 采用心理战略:通过使用心理战略,囚徒可以影响对方的选
择。

例如,他们可以表现出决心和信心,让对方相信他们会选择背叛。

这样一来,对方可能会害怕风险而选择合作,以避免被背叛。

总的来说,囚徒困境的破解方法通常基于建立信任、引入奖惩机制以及采用心理战略等策略,目的是为了激励各方选择合作,从而达到最有利的结果。

博弈论之囚徒困境

博弈论之囚徒困境展开全文商业社会犹如丛林,生存就是一场肉弱强食的战争。

强敌环伺、资源有限,而你,是带枪的猎手?还是待宰的猎物?忍耐就是毁灭,强攻只会负伤。

聪明的做法,就是通过降维打击的方式,去到一个由我们说了算的丛林!大家好,我是雷彬。

今天给大家聊聊囚徒困境。

1950年,美国数学家阿尔伯特·塔克,为了向一群心理学家们解释博弈论,编了一个叫“囚徒困境”的故事:两名囚徒A和B被隔离审讯。

如果两人彼此背叛,都坦白罪行,会都被判刑8年;但如果一人坦白,一人不坦白,坦白的人直接释放,不坦白的重判15年。

如果两人合作,都不坦白呢?会因为证据不足,都只判1年。

囚徒应该怎么做?显然,“都不坦白”是最优策略,两人判得最轻。

知道“纳什均衡”你就会明白,“都不坦白”是经不起考验的最优策略:我如果单方选择背叛,将立即获释,诱惑太大;而且就算我守口如瓶,万一他背叛了呢?我会被判15年,风险太高。

在利益驱使下,“都不坦白”不是稳定的纳什均衡。

“都坦白”呢?那两人都获刑8年。

这时,如果一名囚徒单方决定守口如瓶,他的8年刑期将立刻变为15年,而另一人则被释放。

这一点好处都没有,两名囚徒如果是理性的,都不会这么干。

“都坦白”,是囚徒困境中唯一稳定的“纳什均衡”。

“好的不均衡,坏的却稳定”的囚徒困境,成了博弈论中最经典的案例。

但是,我今天的目的不是讲故事,而是深刻理解“囚徒困境”的博弈论原理,并找到破解方法。

到底什么是囚徒困境?一个典型的囚徒困境,用数学的语言表述,其实就是满足两个条件的博弈:第一,背叛诱惑> 合作报酬。

在这里,合作报酬是判刑1年,背叛诱惑却是立即释放。

这将导致“都不坦白”不构成稳定的纳什均衡;第二,受骗支付> 背叛惩罚。

在这个案例中,背叛惩罚是判刑8年,受骗支付却是判刑15年。

这将导致“都坦白”成为稳定的纳什均衡。

这就是“囚徒困境”的数学原理。

就这么简单?就这么简单。

理解了这两点,破解方法也就显而易见了:让“合作报酬> 背叛诱惑”;让“背叛惩罚 > 受骗支付”。

总结囚徒困境

总结囚徒困境什么是囚徒困境?囚徒困境(Prisoner’s Dilemma)是博弈论中的一个经典问题。

它描述了两个囚犯被困在同一个牢房,被指控共同犯下了一起罪行。

检察官分别与两名囚犯进行单独的审讯,并给出以下两个选择:1.合作:囚犯们不相互揭发,共同保持沉默。

2.背叛:囚犯们可以选择揭发对方,以换取自己的自由。

囚犯们无法沟通,也不知道对方选择了什么。

如果两人都选择合作,则每个人都会被判轻刑。

但如果其中一人选择背叛而另一人选择合作,则背叛者将会被判轻刑,而合作者将面临重刑。

如果两人都选择背叛,则每个人都会被判处较重的刑罚。

囚徒困境的特征囚徒困境有以下几个特征:1.互动性:囚犯的选择会相互影响,彼此的行为会对对方产生影响。

2.博弈论性质:囚徒困境可以用博弈论的方式进行分析,确定最佳策略。

3.利益最大化:每个囚犯都希望通过选择能够获得最大利益。

4.缺乏合作:由于囚犯无法沟通且不能相信对方,他们往往倾向于选择背叛。

囚徒困境的应用囚徒困境不仅仅是一个理论问题,它在现实生活中也有广泛的应用。

1.经济学:囚徒困境可以用来分析市场竞争中的合作与背叛的策略。

企业在价格战中的选择、合作与联盟等都与囚徒困境有关。

2.政治学:囚徒困境可以解释国际关系中的合作与冲突。

国家间的合作与背叛,如军备竞赛和防务合作等,都可以用囚徒困境来解释。

3.社会学:囚徒困境可以研究社会交往中的合作与背叛。

合作与背叛的选择在社会伦理、互助关系、信任建立等领域都有重要意义。

4.生态学:囚徒困境可以分析生态系统中的合作与竞争。

例如,在资源有限的情况下,个体的自利选择往往导致整体利益的损失。

解决囚徒困境的策略囚徒困境中,最理性的策略就是背叛对方,因为无论对方选择合作还是背叛,背叛者都能够获得更好的结果。

然而,背叛对方最终会导致双方都无法获得最优解。

为了克服囚徒困境,可以通过以下几种策略:1.长期合作:如果双方能够建立长期的合作关系,增加彼此之间的信任和依赖,就有可能避免囚徒困境的恶性循环。

囚徒困境博弈举例


2. 例子
在经济生活中,有许多“智猪博弈”的例 子。
例子6 股市博弈
在股票市场上,大户是大猪,他们要进行 技术分析,收集信息、预测股价走势,但大量 散户就是小猪。
他们不会花成本去进行技术分析,而是跟 着大户的投资战略进行股票买卖,即所谓“散 户跟大户”的现象。
例子7 为何股份公司中的大股东才有投 票权?
在股份公司中,大股东是大猪,他 们要收集信息监督经理,因而拥有决定 经理任免的投票权,而小股东是小猪, 不会直接花精力去监督经理,因而没有 投票权。
例子8 为什么中小企业不会花钱去开发 新产品?
在技术创新市场上,大企业是大猪, 它们投入大量资金进行技术创新,开发 新产品,而中小企业是小猪,不会进行 大规模技术创新,而是等待大企业的新 产品形成新的市场后生产 模仿大企业的新产品的产 品去销售。
WTO是一个自愿性申请加入的自由贸易 联盟,即WTO成员国之间实现低关税或零关 税的相互间自由贸易。为什么需要一个组织来 协调国家之间的自由贸易呢?这是因为,如果 没有一个协调组织,国与国之间的贸易就不会 呈现低关税或零关税的自由贸易局面,因为这 时国与国之间的贸易是一个“囚徒困境”。给 定一个国家对另一个国家的货物实行低关税, 另一个国家反过来对这个国家的货物实行高关 税是占优于实行低关税的战略的。
一、囚徒困境博弈
表1 囚徒困境博弈

坦白
不坦白
坦白 甲
不坦白
-5,-5 -8,0
0,-8 -1,-1
甲和乙都不会选择劣战略“不 招”,称为“剔除劣战略的占优战 略均衡”。其中“坦白”是占优于 (优于)“不坦白”的占优战略。
我们可以利用这个道理来分析 日常生活中的许多不合作现象。
2. 生活中的“囚徒困境”例子

第二课:囚徒困境资料.

“我没买房,结果房价还是涨了,因为 我们无法保证大家都不买房。可是,我错了 吗?没有。当初如果我买房了,房价下跌了 呢?因为我不能保证大家都买房。人们根本 不能预知在疾风暴雨式的调控之下,房价竟 还能且调且涨。可是,我对了吗?没有。”
这是一部眼下流行、充满黑色幽默的网 络视频《北漂族的无房生活》中的经典对白。 含泪的“调侃”折射出当下楼市的“囚徒困 境”:买,难担高房价重负;不买,难受房 价节节攀升的煎熬。
甲会这样推理:假如乙不招,我只要一招供,马上可以获得 自由,而不招却要坐牢1年,显然招比不招好;假如乙招了, 我若不招,则要坐牢15年,招了只坐10年,显然还是以招 认为好。无论乙招与不招,我的最佳选择都是招认。还是招 了吧。
自然,乙也同样精明,也会如此推理。
囚徒困境——合作是可能的吗?
曾经有两个饥饿的人,他们从一位智者那里得到了一根鱼 竿和一篓鲜鱼,得到那篓鲜鱼的人就在原地把鱼煮熟了一 口气吃完,解决了饥饿问题,可是很快就又感到肚内空空, 最终饿死在了空空的鱼篓旁。而另一个得到鱼竿的人则提 着鱼竿向遥远的大海走去,当他终于来到了大海边的时候, 他也用尽了自己的最后一点力气。
A降价而B维持,则A获利15,B损失5,整体获利10; A维持且B也维持,则A获利5,B获利10,整体获利15; A维持而B降价,则A损失10,B获利15,整体获利5; A降价且B也降价,则A损失5,B损失5,整体损失10。 从A角度看,显然降价要比维持好,降价至少可以保证比B好,在概率均等的情况下,A 降价的收益为15×50%-5×50%=5,维持的收益为5×50%-10×50%=-2.5,为了 自身利益的最大化,A就不可避免地选择了降价。从B角度看,效果也一样,降价同样比维 持好,其降价收益为5,维持收益为2.5,它也同样会选择降价。在这轮博弈中,A、B都 将降价作为策略,因此各损失5,整体损失10,整体收益是最差的。这就是此博弈最终所 出现的纳什均衡。我们构造的这一电信业价格战博弈模型是典型的囚徒困境现象,各个局 部都寻求利益的最大化,而整体利益却不是最优,甚至是最差。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

�p� 1 徒囚性理非
�所表下如衡均 seyaB 练精的弈 博复重次三�赖抵择选段阶二第 2 徙囚�下件条的 2�l≥P 定给在以所�弈博段阶两的示所 4 表是段阶的后随即�段阶三第和二第入进弈博么那�形情的”赖抵“择选都方双看先 。)白坦择选 2 徒囚� ”赖抵“择选 l 徒因(能可 的作合不有也�)”赖抵“选都方双(能可的作合有段阶一第�言而 2 和 1 徒囚的性理就 。)白坦�白坦�赖抵(是略策段阶三的 1 徒的性 理以所�利有为更将这疑无�付支的 0 得获段阶二第�付支的) 1- (得获段阶一第在能可么那 �赖抵择选�况情实真的己自藏隐果如反相�付支的)3-(得获能只大最段阶二第在 1 徒囚的 性理�白坦择选段阶二第在 2 徒因是于�方弈博的性理是已自示显 2 徒囚向疑无但�罚惩于 免能可白坦择选段阶一第 1 徒囚管尽 �作合行进赖抵择选会将段阶一第在 1 徒囚性理明说要 面下。白坦择选会仍故�择选的段阶一下在 2 徒囚变改会不择选的段阶本在己自�的性理是 2 徒囚道知 l 徒囚的性理于由�段阶二第在�白坦择选会机作合的续后有没为因会 2 徒囚和 1 徒囚的性理段阶三第在。况情的次三复重弈膊本基虑考步一进� 下件条的 2�1≥ P � ”赖抵“=X 择选会将 2 徒囚�2�1≥P 即 �6-p3≥8-p7 果如 。6-p3=])3-(+)3-([) p-1( +])3-( +0[p �是付支望期的时此 2 徒囚 �时 ”白坦“ =X 当 ;8-p7 = ]) 3- ( + ) 5- ( [ ) p-1( +]0 +) 1- ([p�是付支望期的 2 徒囚�时”赖抵“=X 当 �4 表� 白坦 白坦 2=t X X 白坦 赖抵 1=t �p-1� 1 徒囚性理 2 徒囚
�p� 1 入陷会都数多�的难 困为较是议协作合成达司公的争竞相互二要�中实现在。境困徒囚入陷是就这�益收的司公 二了害损加增的本成告广而�战告广入陷将司公二�时略策性配支为成叛背�作合法无�方 对任信不司公二若。叛背——方对倒压�量质的告广升提法设�支开告广加增�作合——支 开的告广少减�议协成达相互�择选二有以可司公二此。走夺方对被会又意生�量质告广高 提不若但。加增本成但少很加增入收�告广的似类量质出发期时同者二若但。入收分部的方 对取夺会则受接客顾被较告广的司公一即 �响影相互告广的司公二 �争竞相互司公个两 战告广�子例业商�2� �大最益利作合同共现发将是果结的弈博复重�。定协税关成达 新重又国二后然。�果结的叛背同共�害损成造也济经身本对�场市的方对了去失品商的国 两�战税关了发引就这��叛背亦�应反样同出作会也国一另��叛背�税关高提自独�定 协税关守遵不素因些某因国一当 。作合——通流品商自各利以税关低降�定协税关成达方 对与�叛背——品商的己自护保以�税关高提�择选个两以有以可上税关在�家国个两 战税关�子例学济经�1�
�是阵矩益得的时此�3-上加各上础基的益得段阶本在是都益得 终最的后以段阶本在方双�么什是果结弈博的段阶现管不此因�)白坦�白坦(是然必果结其 �楚清常非局结的段阶一后于对方弈博的性理�段阶 1- T = t 到回在现。)3-� 3- (益得方双 �)白坦�白坦(是果结的段阶一这 �论结出得难不此因�段阶续后无又�实事为成已果结的 段阶一前时此�弈博境困徒囚的本基个一是然仍这�择选的方弈博两段阶 T = t 析分先 �究研行进法纳归向逆的弈博态动用采并 �论讨下况情的 l = r 在化简可�下况情的弈博限有在。子因现折为 r 记�虑考须必值价间时 的付支�长较比会间时耗所行进复重弈博。数次复重的弈博本基记 T 以�弈博限有的”境 困徒囚“察观先首。讨探行进弈博重多对例为型模”境困徒囚“的示所 1 表以续继面下 。题问客头回的中业商如比�加累单简的弈博本基 非并行进复重的弈博本基现发也们人且而 。起彼伏此争战的间际国 �行进复重会卖买中活生 常日 �讯审次多方警被会伙团罪犯如比 �行进复重会弈博本基于在义意的弈博复重究研
r �1 1 � � r �1 r3 � �即� … � ) 1 - ( r + ) 1 - ( r + 1 - � … � ) 3 � ( r + ) 3 - ( r + 0
2 2
�白坦 择选会不将 i�白坦择选有没 j 定给 �足满件条列下果如。 3-是都付支的段阶个每后随在 i 此因�罚惩远永的 j 徒囚到遭会叛背次这的他但�1-是不而�0 到得段阶该在他�白坦了 择选先首段阶个某的弈博在 i 果如�略战酷冷为否是略策优最的 i 徒囚察考�略战酷冷述 上行执格严 j 徒囚定假。白坦择选都后以�叛背的手对复报了为�白坦了择选方一有到直 赖抵择选) 2 (�赖抵择选段阶始开 ) 1 (� ”略战酷冷“用采都方双弈博虑考。解求法纳归向 逆用运能不以所�段阶终最有没弈博限无为因 。次数无复重弈博”境困徒囚“虑考再 。白坦用采都方双段阶弈博个每是衡均 hsaN 炼精弈博子的弈博复重次 T 以所 �白坦用采方双弈博是都果结的弈博”境困徒囚“段阶每�推类上往此以 。衡均 hsaN 纯 的一唯的段阶 1 - T 是 )白坦�白坦(即�略策超优格严的方弈博两是仍白坦�出看易容 � 2 表� ) 4-� 4-( 白坦不 ) 3-�8- ( 2 徒囚 白坦 白坦不 白坦 ) 8-� 3- ( )6-� 6- ( 1 徒 囚
�示所下如径路弈博�X 为择选的 2 徒囚记�白坦择选 1 徒囚的性理 �赖抵择选 1 徙因的性理非则�段阶个一行进只弈博于由�明证法方下如按以可还们我 。衡均 hsaN—seyaB 的弈博态静息信全完不成构�的优最 2 徒囚对是总略策的白坦 �否与性理 l 徒囚管不�言而弈博次一于对为因� ”白坦“择选会也 2 徒囚的性理� ”白坦“ 是略策优最的 1 徒囚的性理是于�能可作合有没方双弈博�合同个一行进只弈博于由 。复报或恸鼓行进略策的段阶现己自为略策的段阶一前方 对以段阶的后随�赖抵择选段阶始开即� ”对相锋针“略策种一有只 1 徒囚的性理非而�略 策的意任择选以可徒囚的性理定假。的性理——型类种一有只 2 徒囚定假又�P 和 p-1 为别 分率概�)的作合愿意有(的性理非和)的作合不为称或(的性理�型类种两有 1 徒囚定假 。义意实现和论理的要重着有弈博的下息信全完不究研此因 �等等格价的高多出付意愿者买道知不也者卖�何如底到量质的品产者卖知不者买�全完不 握掌息信的此彼对都方双卖买如比 �求要的息信全完足满不并弈博多许中活生实现于由
�p� 1 徒囚性理非
�所下如径路弈博�)白坦�白坦�白坦�择选 2 徒囚果如① 。)白坦�赖抵�白坦(和)白坦 �白坦�白坦(�能可种两有略策的 2 徒囚�下形情的作合不在�况情的作合不方双看再 。9-p7=])3-(+)5-([)p-1( + ]0+)1-([p+ )1-(�为付支望期的)白坦�赖抵�赖抵(择选 2 徒囚 �5 表� 白坦 白坦 赖抵 3=t 赖抵 白坦 赖抵 2=t 赖抵 赖抵 赖抵 1=t �p-1� 1 徒囚性理 2 徒囚
弈博” 境困徒囚“态动息信全完不、四
。择选优最的 2 徒囚是白坦故�5- p 4>3-p3�值何为 p 论无 。3-p3 是付支望期的 2 徒囚�时白坦=X 当 �5-p4�是付支望期的 2 徒囚�时”赖抵“=X 当 �3 表 � X 白坦 赖抵 1=t �p-1� 1 徒囚性理 2 徒囚
�p� 1 徒囚性理非
-1-
对于由�出看易容。弈博态静息信全完的动行时同个一是便这�此彼悉熟犯罪个两定假 �1 表� ) 1-� 1- ( )5-�0 ( 白坦不 ) 0 �5 - ( 2 徒囚 白坦 白坦不 白坦 )3-� 3- ( 1 徒 囚
� )益得的 2 徒囚是 字数个二第�益得的 1 徒囚是字数个一第的量向益得(下如益得的犯罪个两示表阵矩用 。刑徒年 1 们他处判罪务公碍妨的轻 较以能只方警则�罪认不拒都人两们他果如道知犯罪然当。禁监年 3 判各将们他则�罪认 白坦时同个两果如�刑徒年 5 判重将则人一另而 �放释即立者白坦则 �罪认白坦人一有 只中人两果如� ”严从拒抗 �宽从白坦“是策政的方警们他诉告并�供串们他止防以押关别 分犯罪个两这将察警此为。立成名罪认确能就�罪犯认供人一有少至中人两这望希以所�行 罪的们他证指据证的够足乏缺于由 �犯罪的罪犯伙合个两了住抓察警 �是型模本基的它 。础基论理的论弈博作合非了定奠地分部弈博”境困徒囚“态静息信全完
弈博”境困徒囚“复重——弈博”境困徒囚“态动息信全完、二
。衡均 hsaN 的弈博 是 )白坦�白坦(以所�略策优最的己自是都白坦�略策么什择选方对论无�言而徒囚个每于
-3-
�示所表下如�择选的段阶二第在 1 徒困性理非响影何如 )X(择 选的段阶一第在 2 徒囚虑考在现 。白坦择选段阶二第在 2 徒囚变改会不择选的段阶该在它为 因�白坦择选会仍 1 徒囚的性理�赖抵择选 1 徒囚的性理非�段阶一第在�略策的段阶一第 2 徒囚择选要略策”对相锋针“据根 1 徒囚的性理非而�白坦择选会都 2 徒囚和 1 徒因的性 理�间空的作合有没于由�段阶二第在。况情的次两复重 只弈博”境困徙囚“论讨先首 。弈博复重入引息信全完不将要需此因�现出繁频也为行作合中弈博复重次 限有在 �明表也验试作家学济经验实外国 。罚惩的律法脱逃图妄赖抵般是总伙团罪犯的案作 次屡到看常常们我�生发中活生实现在有没并果结一这而然 �略战优最的徒囚个两是”白 坦“择选都弈博段阶每在弈博”境困徒囚“的复重次 T �下况情的息信全完在上论理
例实”境困徒囚“ 、五
。衡均 seyaB 炼精是作合择选段阶每�下件条的松宽 当相在�出得易容该应们我�况情的弈博复重数无的下息信全完不的”境困徒囚“于至 。白坦略策超优择选是不而赖抵择选愿宁徒囚的多么那有么什为——象现 会社的实现释解地好很能博复”境困徒囚“次限有入引息信全完不将�到看地楚清们我 。白坦择选段阶一后最�赖抵择选段阶 l-T =t 至 l=t 在 2 徒囚 �白坦择选段阶两的下余在�赖抵择选直一段阶 2-T= t 至 1 = t 在 1 徒囚性理� 衡均 seyaB 炼精个一成构合组略战列下�3 > T 于对�2�1≥p 果如�明证步一进以可似类。衡均 seyaB 炼精个一是就略战的示所 5 表� 2�1≥P 率慨的性理非是 1 徒囚要只�析分上以合综 。)白坦�赖抵�白坦(和)白坦 �白坦�白坦(于优)白坦�赖抵�赖抵(此因�8-p3≥9-p7�6-≥9-p7 下件条的 2�1≥P 在 。8-p3=)3-()p-1( +)0(p+ )5-(+0�为付支望期的 2 徒囚 �7 表� 白坦 白坦 赖抵 3=t 赖抵 白坦 白坦 2=t 白坦 赖抵 赖抵 1=t �p-1� 1 徒囚性理 2 徒囚
相关文档
最新文档