博弈论囚徒困境的四种形式 PDF

合集下载

博弈论“囚徒困境”的四种形式

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境”摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。

其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词:博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。

为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。

当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) :囚徒2囚徒1(表1)假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。

容易看出,由于对于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。

二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。

囚犯困境模型

囚犯困境模型

囚徒困境(Prison Dilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中,博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时,合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量,纳什均衡趋向于帕累托最优。

囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。

但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。

经典的囚徒困境1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。

经典的囚徒困境如下:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。

若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。

若二人都互相检举(互相“背叛”),则二人同样判监2年。

用表格概述如下:甲沉默(合作)甲认罪(背叛)乙沉默(合作)二人同服刑半年甲即时获释;乙服刑10年乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年解说如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。

囚徒困境 博弈论

囚徒困境 博弈论

囚徒困境博弈论话说啊,有这么一个经典的博弈论小故事,咱们老百姓听了都能琢磨出味儿来,那就是“囚徒困境”。

这故事啊,讲的不是什么高大上的科学实验,而是两个哥们儿,咱们就叫他们阿明和阿强吧,一不小心犯了事儿,被警察给逮住了。

警察把他们分开审问,想套出点啥来,这时候,阿明和阿强就面临了一个难题,咱们慢慢道来。

阿明和阿强被关在两个屋子里,谁也瞧不见谁,也听不见对方说啥。

警察跟他们说:“嘿,你俩要是都一口咬定自己没错儿,啥也不知道,那咱们也没辙,顶多给你们判个轻罪,坐几年牢就出去了。

但是呢,要是你们当中有一个人招了,另一个人还硬扛着,那招了的这位呢,就能立马放出去,啥事儿没有;硬扛的那位呢,可就得把牢底坐穿了。

”这一下,阿明和阿强心里就开始犯嘀咕了。

阿明想:“阿强这小子,平时看着挺讲义气,可到了这节骨眼儿上,谁知道他会不会为了自己出去,把我卖了?”阿强呢,心里也是七上八下的:“阿明这小子,聪明着呢,他肯定也在琢磨我怎么想。

万一我硬扛着,他招了,那我可就完蛋了。

”这就叫囚徒困境,为啥呢?因为两个人都陷入了一种“我斗不过你,你也斗不过我,但咱俩都不肯让步”的僵局。

你说阿明和阿强想不想合作?当然想啊!都想对方别招,自己也别招,这样都能少判几年。

可问题是,他们不敢信对方,因为只要有一方动了私心,另一方就得吃大亏。

这时候,阿明和阿强就开始在心里盘算开了。

阿明琢磨着:“要是阿强是个真汉子,咱俩一起扛,那几年后还能一起喝酒。

可万一他不是呢?我这辈子就毁了。

”阿强也是这么想:“阿明要是个靠得住的兄弟,咱俩一起出去,以后还能混。

但他要是把我卖了,我这辈子可就完了。

”最后,这俩哥们儿很可能都会选择招供,为啥?因为他们都觉得,与其冒着被对方出卖的风险,不如自己先下手为强,至少能保住一条命。

这样一来,两个人都招了,结果反倒是都不太好。

本来嘛,要是他们都能信任对方,一起扛下来,可能过几年就出来了,还能继续当兄弟。

可这一招供,好了,俩人都得在牢里多待几年,说不定出来以后,连朋友都没得做了。

囚徒困境与博弈论

囚徒困境与博弈论

囚徒困境与博弈论囚徒困境与博弈论博弈论(也叫对策论)是一门很深的学问,在学校里至少要讲一个学期,甚至还有专门的博士课程。

但在这里不可能讲这么多,只能把它的基本概念、研究方法和一般规律做一个简单的概括。

从囚犯难题说起我们先从一个常见的案例说起。

这个故事是这样的:有一个富人在家中被谋杀,他的财产被盗。

警方在侦讯过程中抓到两名嫌疑犯:甲和乙,并在他们家中搜出了被盗的财物。

但甲、乙都否认杀人,声称他们进入被害人家中时那个人已经死去。

所以警方肯定他们至少犯下了盗窃罪,但对他们是否杀死了被害人并没有把握。

于是警方在把他们隔离的情况下分别对他们表示:因为偷东西已经有确凿证据,这将被判刑2年;如果拒不承认杀人而被另一方检举,将被判刑20年,而检举的一方可以受奖无罪释放;如果双方都坦白杀人,将各被判刑 10年。

这样,甲乙可能面临的判决如下:通过分析可以看出,最后的结果是甲乙都会承认杀人。

因为对本人来说,不管对方承认不承认,自己承认总比不承认好。

如果对方不承认,自己承认相比不承认等于从判刑2年改为无罪释放;如果对方承认,自己承认相比不承认相当于从判刑20年减到了10年。

这样,对甲乙双方来说,最佳的选择都是承认杀人。

这个结果与他们是否真的杀了人无关,即使他们没有杀人,也会承认杀人。

由于特定的选择条件,本来对双方最有利的结局(都不承认杀人,各被判刑2年)不会出现,出现的是对双方都不利的结果,这就是所谓的“囚犯困境”。

我们想想看,“文革”时期坦白从宽、抗拒从严的政策使一大批人承认了自己从没有犯过的“罪行”,原因就在于此。

“囚徒困境”具有非常深刻的含义,它说明了为什么短视地追求自己利益将导致对大家都不利的结局。

现实中类似的例子还很多,比如为了图一时的方便,大家都不按交通规则行事,结果导致交通瘫痪;再比如前些年很多单位拿国家的钱争相发奖金,结果导致了全社会的通货膨胀。

不同的是,在囚徒困境模型里只涉及两个人,如果这种情况重复出现,两个人很容易从失败中吸取教训,从选择承认杀人改为不承认,这样,处境就可以改善。

博弈论“囚徒困境”的四种形式

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境”摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。

其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词:博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。

为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。

当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) :囚徒2囚徒1(表1)假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。

容易看出,由于对于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。

二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。

囚徒困境的破解方法

囚徒困境的破解方法

囚徒困境的破解方法
囚徒困境是博弈论中的经典问题,涉及到两名囚徒在独立的审判中如何作出合作与背叛的决策。

在囚徒困境中,每个囚徒都面临着合作与背叛之间的抉择,而最优的结果是两人都合作。

然而,由于缺乏信任和可能的坦白窃取,各方往往会选择背叛,导致最不理想的结果。

为了破解囚徒困境,有几种策略和方法可以被采用:
1. 进行重复博弈:在重复进行博弈的情况下,囚徒有机会观察和记住对方的行为。

这使得合作成为可能,因为囚徒们知道背叛可能会导致连续的背叛,从而带来更坏的结果。

这种重复博弈策略也被称为“赌咒策略”,因为它基于对对方决策的观察和回应。

2. 使用策略性沟通:囚徒可以通过策略性的沟通来建立信任和合作,从而避免陷入困境。

例如,囚徒可以告诉对方他们打算合作,并建议对方也选择合作来达到双方的最佳利益。

这种沟通可以增加囚徒之间的合作概率。

3. 设定奖惩机制:引入奖励和惩罚机制可以激励囚徒选择合作。

例如,如果两个囚徒都选择合作,他们可以获得共同的奖励。

另一方面,如果一个囚徒选择背叛而另一个囚徒选择合作,背叛的囚徒将受到严厉的惩罚。

这样的奖惩机制可以鼓励囚徒们选择合作而不是背叛。

4. 采用心理战略:通过使用心理战略,囚徒可以影响对方的选
择。

例如,他们可以表现出决心和信心,让对方相信他们会选择背叛。

这样一来,对方可能会害怕风险而选择合作,以避免被背叛。

总的来说,囚徒困境的破解方法通常基于建立信任、引入奖惩机制以及采用心理战略等策略,目的是为了激励各方选择合作,从而达到最有利的结果。

博弈论之囚徒困境

博弈论之囚徒困境

博弈论之囚徒困境展开全文商业社会犹如丛林,生存就是一场肉弱强食的战争。

强敌环伺、资源有限,而你,是带枪的猎手?还是待宰的猎物?忍耐就是毁灭,强攻只会负伤。

聪明的做法,就是通过降维打击的方式,去到一个由我们说了算的丛林!大家好,我是雷彬。

今天给大家聊聊囚徒困境。

1950年,美国数学家阿尔伯特·塔克,为了向一群心理学家们解释博弈论,编了一个叫“囚徒困境”的故事:两名囚徒A和B被隔离审讯。

如果两人彼此背叛,都坦白罪行,会都被判刑8年;但如果一人坦白,一人不坦白,坦白的人直接释放,不坦白的重判15年。

如果两人合作,都不坦白呢?会因为证据不足,都只判1年。

囚徒应该怎么做?显然,“都不坦白”是最优策略,两人判得最轻。

知道“纳什均衡”你就会明白,“都不坦白”是经不起考验的最优策略:我如果单方选择背叛,将立即获释,诱惑太大;而且就算我守口如瓶,万一他背叛了呢?我会被判15年,风险太高。

在利益驱使下,“都不坦白”不是稳定的纳什均衡。

“都坦白”呢?那两人都获刑8年。

这时,如果一名囚徒单方决定守口如瓶,他的8年刑期将立刻变为15年,而另一人则被释放。

这一点好处都没有,两名囚徒如果是理性的,都不会这么干。

“都坦白”,是囚徒困境中唯一稳定的“纳什均衡”。

“好的不均衡,坏的却稳定”的囚徒困境,成了博弈论中最经典的案例。

但是,我今天的目的不是讲故事,而是深刻理解“囚徒困境”的博弈论原理,并找到破解方法。

到底什么是囚徒困境?一个典型的囚徒困境,用数学的语言表述,其实就是满足两个条件的博弈:第一,背叛诱惑> 合作报酬。

在这里,合作报酬是判刑1年,背叛诱惑却是立即释放。

这将导致“都不坦白”不构成稳定的纳什均衡;第二,受骗支付> 背叛惩罚。

在这个案例中,背叛惩罚是判刑8年,受骗支付却是判刑15年。

这将导致“都坦白”成为稳定的纳什均衡。

这就是“囚徒困境”的数学原理。

就这么简单?就这么简单。

理解了这两点,破解方法也就显而易见了:让“合作报酬> 背叛诱惑”;让“背叛惩罚 > 受骗支付”。

总结囚徒困境

总结囚徒困境

总结囚徒困境什么是囚徒困境?囚徒困境(Prisoner’s Dilemma)是博弈论中的一个经典问题。

它描述了两个囚犯被困在同一个牢房,被指控共同犯下了一起罪行。

检察官分别与两名囚犯进行单独的审讯,并给出以下两个选择:1.合作:囚犯们不相互揭发,共同保持沉默。

2.背叛:囚犯们可以选择揭发对方,以换取自己的自由。

囚犯们无法沟通,也不知道对方选择了什么。

如果两人都选择合作,则每个人都会被判轻刑。

但如果其中一人选择背叛而另一人选择合作,则背叛者将会被判轻刑,而合作者将面临重刑。

如果两人都选择背叛,则每个人都会被判处较重的刑罚。

囚徒困境的特征囚徒困境有以下几个特征:1.互动性:囚犯的选择会相互影响,彼此的行为会对对方产生影响。

2.博弈论性质:囚徒困境可以用博弈论的方式进行分析,确定最佳策略。

3.利益最大化:每个囚犯都希望通过选择能够获得最大利益。

4.缺乏合作:由于囚犯无法沟通且不能相信对方,他们往往倾向于选择背叛。

囚徒困境的应用囚徒困境不仅仅是一个理论问题,它在现实生活中也有广泛的应用。

1.经济学:囚徒困境可以用来分析市场竞争中的合作与背叛的策略。

企业在价格战中的选择、合作与联盟等都与囚徒困境有关。

2.政治学:囚徒困境可以解释国际关系中的合作与冲突。

国家间的合作与背叛,如军备竞赛和防务合作等,都可以用囚徒困境来解释。

3.社会学:囚徒困境可以研究社会交往中的合作与背叛。

合作与背叛的选择在社会伦理、互助关系、信任建立等领域都有重要意义。

4.生态学:囚徒困境可以分析生态系统中的合作与竞争。

例如,在资源有限的情况下,个体的自利选择往往导致整体利益的损失。

解决囚徒困境的策略囚徒困境中,最理性的策略就是背叛对方,因为无论对方选择合作还是背叛,背叛者都能够获得更好的结果。

然而,背叛对方最终会导致双方都无法获得最优解。

为了克服囚徒困境,可以通过以下几种策略:1.长期合作:如果双方能够建立长期的合作关系,增加彼此之间的信任和依赖,就有可能避免囚徒困境的恶性循环。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

�p� 1 徒囚性理非
�所表下如衡均 seyaB 练精的弈 博复重次三�赖抵择选段阶二第 2 徙囚�下件条的 2�l≥P 定给在以所�弈博段阶两的示所 4 表是段阶的后随即�段阶三第和二第入进弈博么那�形情的”赖抵“择选都方双看先 。)白坦择选 2 徒囚� ”赖抵“择选 l 徒因(能可 的作合不有也�)”赖抵“选都方双(能可的作合有段阶一第�言而 2 和 1 徒囚的性理就 。)白坦�白坦�赖抵(是略策段阶三的 1 徒的性 理以所�利有为更将这疑无�付支的 0 得获段阶二第�付支的) 1- (得获段阶一第在能可么那 �赖抵择选�况情实真的己自藏隐果如反相�付支的)3-(得获能只大最段阶二第在 1 徒囚的 性理�白坦择选段阶二第在 2 徒因是于�方弈博的性理是已自示显 2 徒囚向疑无但�罚惩于 免能可白坦择选段阶一第 1 徒囚管尽 �作合行进赖抵择选会将段阶一第在 1 徒囚性理明说要 面下。白坦择选会仍故�择选的段阶一下在 2 徒囚变改会不择选的段阶本在己自�的性理是 2 徒囚道知 l 徒囚的性理于由�段阶二第在�白坦择选会机作合的续后有没为因会 2 徒囚和 1 徒囚的性理段阶三第在。况情的次三复重弈膊本基虑考步一进� 下件条的 2�1≥ P � ”赖抵“=X 择选会将 2 徒囚�2�1≥P 即 �6-p3≥8-p7 果如 。6-p3=])3-(+)3-([) p-1( +])3-( +0[p �是付支望期的时此 2 徒囚 �时 ”白坦“ =X 当 ;8-p7 = ]) 3- ( + ) 5- ( [ ) p-1( +]0 +) 1- ([p�是付支望期的 2 徒囚�时”赖抵“=X 当 �4 表� 白坦 白坦 2=t X X 白坦 赖抵 1=t �p-1� 1 徒囚性理 2 徒囚
�p� 1 入陷会都数多�的难 困为较是议协作合成达司公的争竞相互二要�中实现在。境困徒囚入陷是就这�益收的司公 二了害损加增的本成告广而�战告广入陷将司公二�时略策性配支为成叛背�作合法无�方 对任信不司公二若。叛背——方对倒压�量质的告广升提法设�支开告广加增�作合——支 开的告广少减�议协成达相互�择选二有以可司公二此。走夺方对被会又意生�量质告广高 提不若但。加增本成但少很加增入收�告广的似类量质出发期时同者二若但。入收分部的方 对取夺会则受接客顾被较告广的司公一即 �响影相互告广的司公二 �争竞相互司公个两 战告广�子例业商�2� �大最益利作合同共现发将是果结的弈博复重�。定协税关成达 新重又国二后然。�果结的叛背同共�害损成造也济经身本对�场市的方对了去失品商的国 两�战税关了发引就这��叛背亦�应反样同出作会也国一另��叛背�税关高提自独�定 协税关守遵不素因些某因国一当 。作合——通流品商自各利以税关低降�定协税关成达方 对与�叛背——品商的己自护保以�税关高提�择选个两以有以可上税关在�家国个两 战税关�子例学济经�1�
�是阵矩益得的时此�3-上加各上础基的益得段阶本在是都益得 终最的后以段阶本在方双�么什是果结弈博的段阶现管不此因�)白坦�白坦(是然必果结其 �楚清常非局结的段阶一后于对方弈博的性理�段阶 1- T = t 到回在现。)3-� 3- (益得方双 �)白坦�白坦(是果结的段阶一这 �论结出得难不此因�段阶续后无又�实事为成已果结的 段阶一前时此�弈博境困徒囚的本基个一是然仍这�择选的方弈博两段阶 T = t 析分先 �究研行进法纳归向逆的弈博态动用采并 �论讨下况情的 l = r 在化简可�下况情的弈博限有在。子因现折为 r 记�虑考须必值价间时 的付支�长较比会间时耗所行进复重弈博。数次复重的弈博本基记 T 以�弈博限有的”境 困徒囚“察观先首。讨探行进弈博重多对例为型模”境困徒囚“的示所 1 表以续继面下 。题问客头回的中业商如比�加累单简的弈博本基 非并行进复重的弈博本基现发也们人且而 。起彼伏此争战的间际国 �行进复重会卖买中活生 常日 �讯审次多方警被会伙团罪犯如比 �行进复重会弈博本基于在义意的弈博复重究研
r �1 1 � � r �1 r3 � �即� … � ) 1 - ( r + ) 1 - ( r + 1 - � … � ) 3 � ( r + ) 3 - ( r + 0
2 2
�白坦 择选会不将 i�白坦择选有没 j 定给 �足满件条列下果如。 3-是都付支的段阶个每后随在 i 此因�罚惩远永的 j 徒囚到遭会叛背次这的他但�1-是不而�0 到得段阶该在他�白坦了 择选先首段阶个某的弈博在 i 果如�略战酷冷为否是略策优最的 i 徒囚察考�略战酷冷述 上行执格严 j 徒囚定假。白坦择选都后以�叛背的手对复报了为�白坦了择选方一有到直 赖抵择选) 2 (�赖抵择选段阶始开 ) 1 (� ”略战酷冷“用采都方双弈博虑考。解求法纳归向 逆用运能不以所�段阶终最有没弈博限无为因 。次数无复重弈博”境困徒囚“虑考再 。白坦用采都方双段阶弈博个每是衡均 hsaN 炼精弈博子的弈博复重次 T 以所 �白坦用采方双弈博是都果结的弈博”境困徒囚“段阶每�推类上往此以 。衡均 hsaN 纯 的一唯的段阶 1 - T 是 )白坦�白坦(即�略策超优格严的方弈博两是仍白坦�出看易容 � 2 表� ) 4-� 4-( 白坦不 ) 3-�8- ( 2 徒囚 白坦 白坦不 白坦 ) 8-� 3- ( )6-� 6- ( 1 徒 囚
�示所下如径路弈博�X 为择选的 2 徒囚记�白坦择选 1 徒囚的性理 �赖抵择选 1 徙因的性理非则�段阶个一行进只弈博于由�明证法方下如按以可还们我 。衡均 hsaN—seyaB 的弈博态静息信全完不成构�的优最 2 徒囚对是总略策的白坦 �否与性理 l 徒囚管不�言而弈博次一于对为因� ”白坦“择选会也 2 徒囚的性理� ”白坦“ 是略策优最的 1 徒囚的性理是于�能可作合有没方双弈博�合同个一行进只弈博于由 。复报或恸鼓行进略策的段阶现己自为略策的段阶一前方 对以段阶的后随�赖抵择选段阶始开即� ”对相锋针“略策种一有只 1 徒囚的性理非而�略 策的意任择选以可徒囚的性理定假。的性理——型类种一有只 2 徒囚定假又�P 和 p-1 为别 分率概�)的作合愿意有(的性理非和)的作合不为称或(的性理�型类种两有 1 徒囚定假 。义意实现和论理的要重着有弈博的下息信全完不究研此因 �等等格价的高多出付意愿者买道知不也者卖�何如底到量质的品产者卖知不者买�全完不 握掌息信的此彼对都方双卖买如比 �求要的息信全完足满不并弈博多许中活生实现于由
�p� 1 徒囚性理非
�所下如径路弈博�)白坦�白坦�白坦�择选 2 徒囚果如① 。)白坦�赖抵�白坦(和)白坦 �白坦�白坦(�能可种两有略策的 2 徒囚�下形情的作合不在�况情的作合不方双看再 。9-p7=])3-(+)5-([)p-1( + ]0+)1-([p+ )1-(�为付支望期的)白坦�赖抵�赖抵(择选 2 徒囚 �5 表� 白坦 白坦 赖抵 3=t 赖抵 白坦 赖抵 2=t 赖抵 赖抵 赖抵 1=t �p-1� 1 徒囚性理 2 徒囚
弈博” 境困徒囚“态动息信全完不、四
。择选优最的 2 徒囚是白坦故�5- p 4>3-p3�值何为 p 论无 。3-p3 是付支望期的 2 徒囚�时白坦=X 当 �5-p4�是付支望期的 2 徒囚�时”赖抵“=X 当 �3 表 � X 白坦 赖抵 1=t �p-1� 1 徒囚性理 2 徒囚
�p� 1 徒囚性理非
-1-
对于由�出看易容。弈博态静息信全完的动行时同个一是便这�此彼悉熟犯罪个两定假 �1 表� ) 1-� 1- ( )5-�0 ( 白坦不 ) 0 �5 - ( 2 徒囚 白坦 白坦不 白坦 )3-� 3- ( 1 徒 囚
� )益得的 2 徒囚是 字数个二第�益得的 1 徒囚是字数个一第的量向益得(下如益得的犯罪个两示表阵矩用 。刑徒年 1 们他处判罪务公碍妨的轻 较以能只方警则�罪认不拒都人两们他果如道知犯罪然当。禁监年 3 判各将们他则�罪认 白坦时同个两果如�刑徒年 5 判重将则人一另而 �放释即立者白坦则 �罪认白坦人一有 只中人两果如� ”严从拒抗 �宽从白坦“是策政的方警们他诉告并�供串们他止防以押关别 分犯罪个两这将察警此为。立成名罪认确能就�罪犯认供人一有少至中人两这望希以所�行 罪的们他证指据证的够足乏缺于由 �犯罪的罪犯伙合个两了住抓察警 �是型模本基的它 。础基论理的论弈博作合非了定奠地分部弈博”境困徒囚“态静息信全完
弈博”境困徒囚“复重——弈博”境困徒囚“态动息信全完、二
。衡均 hsaN 的弈博 是 )白坦�白坦(以所�略策优最的己自是都白坦�略策么什择选方对论无�言而徒囚个每于
-3-
�示所表下如�择选的段阶二第在 1 徒困性理非响影何如 )X(择 选的段阶一第在 2 徒囚虑考在现 。白坦择选段阶二第在 2 徒囚变改会不择选的段阶该在它为 因�白坦择选会仍 1 徒囚的性理�赖抵择选 1 徒囚的性理非�段阶一第在�略策的段阶一第 2 徒囚择选要略策”对相锋针“据根 1 徒囚的性理非而�白坦择选会都 2 徒囚和 1 徒因的性 理�间空的作合有没于由�段阶二第在。况情的次两复重 只弈博”境困徙囚“论讨先首 。弈博复重入引息信全完不将要需此因�现出繁频也为行作合中弈博复重次 限有在 �明表也验试作家学济经验实外国 。罚惩的律法脱逃图妄赖抵般是总伙团罪犯的案作 次屡到看常常们我�生发中活生实现在有没并果结一这而然 �略战优最的徒囚个两是”白 坦“择选都弈博段阶每在弈博”境困徒囚“的复重次 T �下况情的息信全完在上论理
例实”境困徒囚“ 、五
。衡均 seyaB 炼精是作合择选段阶每�下件条的松宽 当相在�出得易容该应们我�况情的弈博复重数无的下息信全完不的”境困徒囚“于至 。白坦略策超优择选是不而赖抵择选愿宁徒囚的多么那有么什为——象现 会社的实现释解地好很能博复”境困徒囚“次限有入引息信全完不将�到看地楚清们我 。白坦择选段阶一后最�赖抵择选段阶 l-T =t 至 l=t 在 2 徒囚 �白坦择选段阶两的下余在�赖抵择选直一段阶 2-T= t 至 1 = t 在 1 徒囚性理� 衡均 seyaB 炼精个一成构合组略战列下�3 > T 于对�2�1≥p 果如�明证步一进以可似类。衡均 seyaB 炼精个一是就略战的示所 5 表� 2�1≥P 率慨的性理非是 1 徒囚要只�析分上以合综 。)白坦�赖抵�白坦(和)白坦 �白坦�白坦(于优)白坦�赖抵�赖抵(此因�8-p3≥9-p7�6-≥9-p7 下件条的 2�1≥P 在 。8-p3=)3-()p-1( +)0(p+ )5-(+0�为付支望期的 2 徒囚 �7 表� 白坦 白坦 赖抵 3=t 赖抵 白坦 白坦 2=t 白坦 赖抵 赖抵 1=t �p-1� 1 徒囚性理 2 徒囚
相关文档
最新文档