第六章 不完全信息静态博弈与动态博弈的基本理论教材

第六章 不完全信息静态博弈与动态博弈的基本理论教材
第六章 不完全信息静态博弈与动态博弈的基本理论教材

第六章不完全信息静态博弈与动态博弈的基本理论

第一节不完全信息静态博弈的基本理论

一.不完全信息博弈

1.回顾:本课2-4章介绍的均为完全信息博弈。如何区分完全信息与不完全信息?如何区分完美信息与不完美信息?

2.不完全信息博弈又称之为贝叶斯博弈(B ayesian game),在这里,博弈参与人的支付函数不再是博弈的公共知识,至少有一个参与人对另一个参与人的支付函数的了解是不确定的,即该参与人不了解另一个参与人究竟属于何种类型的参与人。例举生活中不完全信息博弈的情形。

不完全信息博弈包括两种类型:不完全信息静态博弈(又称静态贝叶斯博弈,static B ayesian game)与不完全信息动态博弈(又称动态贝叶斯博弈,dynamic B ayesian game)。激励机制设计中大量地涉及不完全信息博弈,通过巧妙的机制设计让私人信息拥有者报告自己的真实信息是机制设计的核心任务之一。

二.不完全信息静态博弈的刻画

1.例子

例一:不完全信息饮酒博弈

一个南方人和一个北方大汉在宴会相遇,这个北方大汉酒量大是众所周知的,而这个南方人是否酒量大,只有南方人自己清楚;北方大汉只知道这个南方人有p的概率酒量大,1-p的概率酒量小,这一点也是博弈的公共知识。具体情形如下:

图1:南方人酒量大

南方人

喝不喝

北方人喝

不喝

图2:南方人酒量小

南方人

喝不喝

北方人喝

不喝

问题:(1)南方人是否喝?(2)北方大汉是否喝?

如果北方人喝,期望支付为多少?北方人不喝,期望支付是多少?

例二:不完全信息古诺竞争模型

(1)假设该市场上只有两家生产同一产品的企业1和2;市场均衡价格由下式决定: ()P Q a Q =-,其中12Q q q =+,1q 、2q 分别代表企业1和2提供的产量;企业1的生产成本为:111()C q cq =,这一点是博弈双方的公共知识;企业1对企业2的成本函数是不确定的,即企业2的成本函数是企业2的私人信息,企业1只知道企业2的成本函数有θ的概率为:222()h C q c q =,有1-θ的概率为222()l C q c q =,其中h l c c >,这一点也是博弈的公共知识。两家企业同时选择自己的产量以最大化自己的利润。问题:请问两家企业应该如何确定自己的利润最大化产量。

(2)模型分析

A .求解企业2的产量选择

显然,不同成本类型的企业会选择不同的产量水平,即企业的产量选择是与成本挂钩的,于是企业2的产量选择有两种情形:2()h q c 与2()l q c 。

当企业2属于h c 类型时,2*212max ()q h q a q q c π=---

当企业2属于l c 类型时,2*212max ()q l q a q q c π=---

由上述两个规划问题的一阶条件,有:

*

2

()h q c =*12h a q c --;*2()l q c =*12l a q c --

B .求解企业1的产量选择

1*121max (())q h a q q c q θ--+(1-θ)*1211(())l a q q c q cq ---(思考:为什么这么写?)

由上式的一阶条件,有:

***

221(())(1)(())2h l a q c c a q c c q θθ--+---=

C .联立三个一阶条件生成的方程组,可以得

*221()()36

h h h l a c c q c c c θ-+-=

+-; *22()()36

l l h l a c c q c c c θ-+=-- *12(1)3h l a c c c q θθ-++-=

(3)将上述结果与完全信息条件下的结果进行比较,h c 与l c 型企业在哪一种情形生产得更多?为什么?(导致这一局面的根本原因不仅在于企业的产量要受自己成本水平的影响,

更在于双方的信息不对称)

这个例子有意思的地方在于:如果企业2是一家低成本企业,其信息优势地位反而会使自己吃亏。所以,在博弈时并不见得知道得越多、掌握的信息越多就一定越好(生活中还有大量的这种情形,为什么会这样?根源恰好在于信息劣势方追求期望支付最大化)。

(4)不完全信息静态博弈的其他经典案例:密封第一价格拍卖;密封双边拍卖。

(5)来自不完全信息古诺竞争模型的启示

尽管在不完全信息静态博弈中,参与人的行动集与完全信息静态博弈时相同,但是与完全信息静态博弈相比,现在有了两个明显的变化:一是企业2的类型可能是两者之一,从而使得它的支付函数也可能是两者之一;二是企业1必须对企业属于何种类型进行推断。

2. 类型(type )、信念(blief )

(1)类型:博弈论用“类型”表示每个参与人在博弈中可能具有的支付函数情形。以i T 表示i 的类型集,记i i t T ∈表示i 的一个可能的类型,所以,i t 对应着参与人i 可能具有的一种支付函数,记1(i t t -=…1i t -,1i t +…)n t 为其他参与人的类型组合。

思考:写出上述不完全信息古诺竞争中两个参与人的类型集以及支付函数。

由上可知,参与人知道自己的支付函数就等价于他知道自己的类型。

(2)信念: 即概率分布,以(i i p t -∣)i t 表示i 在已知i t 的其他条件下对其他参与人的类型i t -的信念,即对其他参与人属于何种类型进行推断。一般来说,参与人之间的类型是相互独立的,所以,i 对i t -的信念可以记为()i i p t -(中国的文化大革命期间就曾认为人与人之间的类型不独立,如:老子英雄儿好汉,老子狗熊儿混蛋;中国传统文化也认为“龙生龙,凤生凤”)。

附:B ayes’ rule(贝叶斯法则):即条件概率的计算公示,(,)()()P A B p A B P B =

3.不完全信息静态博弈的标准型表示

(1)回顾:如何用标准型表示完全信息静态博弈?G ={1S …i S …n S ;1U …i U …n U }。其中,i S 可能是有限的,也可能是无限的,记i i s S ∈为i 的一个具体策略;i U 的一般形式为:1(i U s …2s …)n s 。由于在完全信息静态博弈中策略集与行动集是相同的,所以完全信息静态博弈又可以表示为如下:G ={1A …i A …n A ;1U …i U …n U },其中,i A 为i 的行动集,记i i a A ∈为i 的一个具体行动;i U 的一般形式为:1(i U a …2a …)n a 。

由上述刻画可以看出完全信息静态博弈的时间路径(或扩展路径)为:首先,所有参与人同时从自己的行动集中选择自己的行动;然后,所有参与人的行动选择共同决定了每个参与人的支付1(i U a …2a …)n a 。

(2)不完全信息静态博弈的标准型表示

n 人不完全信息静态博弈可以用标准型表示为G ={1A …i A …n A ;1T …i T …n T ;1p …i p …n p ;1U …i U …n U },其中,i A 为i 的行动集,i T 为i 的类型集,i p =(i i p t -∣)i t 表示i 给定自己的类型为i t 的条件下对其他所有参与人的类型的信念,i U =1(i U a …i a …;)n i a t 表示参与人i 的类型是私人信息情形下的支付函数。

思考:为什么这里的标准型表示没有写出参与人的策略集?与第一章讲的标准型表示相比,这里真正的差异在哪里?

注:(1)“类型”这个概念的实际表达作用其实非常大,大到同一个参与人在不同情形下有不同的行动集也可以用类型集来表示,只要略作数学技巧上的处理即可。(2)参与人的支付函数可能也依赖于其他参与人的类型,如果出现这种情况,这意味着什么?

(3)不完全信息静态博弈的扩展型表示与Harsanyi (1967)转换

首先,自然按照某一先验概率分布选择参与人的类型;然后,参与人只能观测到自然对自己类型的选择,而不能观测到自然对其他参与人的类型选择,他只知道其他参与人的类型是以某个概率分布被选择的;再次,参与人同时选择自己的行动;最后,所有参与人的行动选择连同自然的选择共同决定了参与人的支付。

注:这个定义主要是针对每个参与人的类型均是自己的私人信息这种情形的。参与人对其他参与人属于何种类型的推断是利用贝叶斯法则从先验概率分布中推断出来的。

例子:假设企业的产量选择只有两种情形:高产量与低产量,请画出例二(不完全信息古诺竞争模型)的扩展型简图。

从简图可以看出:Harsanyi 转换的核心就是将不完全信息静态博弈转换为完全但不完美信息动态博弈(Harsanyi 转换中的信息不完美是如何体现出来的?Harsanyi 将不完全信息静态博弈转换为完全但不完美信息动态博弈的关键步骤是什么?在这里,完全信息又是如何体现出来的?)。Harsanyi 转换使得不完全信息静态博弈变得可以求解。

三.不完全信息静态博弈的求解

1. 策略

(1)回顾什么是策略?

(2)依据对策略的理解,在不完全信息静态博弈中,参与人i 的策略被定义为函数

:i i i s t a →,记为()i i s t (思考:这是什么意思?)

。所以,集合i T 与i A 之间所有可能的函

数形式被构成了参与人i 的策略集i S 。

特别注意:一个策略就是一个函数形式,不要以为策略是某函数的一个取值。

思考:写出不完全信息古诺竞争模型中企业1和企业2的策略形式。

(3)分离策略(separating strategy )与混同策略(pooling strategy ):前者是指每种不同的类型选择不同的行动;后者是指所有类型或某些类型选择相同的行动。这两个概念在不完全信息动态博弈中更加重要。一旦均衡时参与人选择了分离策略,人们就能够从策略的使用区分参与人的类型。

(4)一个进一步的疑问:我明明已经知道了我的类型,为什么我在制定策略时还要考虑一旦其他类型出现时我将采取的行动?或者说,为什么我还要针对其他明明不会出现的类型规定好自己的行动选择?

之所以需要这样,关键是因为对手们并不知道参与人i 究竟属于何种类型,而在博弈时参与人i 必须考虑对手们将会如何行动,而对手们将如何行动又取决于这些对手们认为参与人i 在每种类型下将如何行动。由此,参与人i 即便已经知道了自己的类型,他依然需要考虑在其他情形下如何行动。这一点从不完全信息古诺竞争模型的反应函数中看得非常清楚:企业1的反应函数告诉我们,企业1的产量选择必须考虑企业2在不同类型下的产量选择。而企业1的产量选择又影响企业2的产量选择,于是,企业2即便已经知道自己属于何种类型,他也必须考虑在不同类型下的产量选择,这就意味着企业2的产量选择计划必须考虑所有的可能类型,否则,企业2无法确定自己的最优反应产量。即企业2之所以要考虑自己所有可能的类型,根源在于对手并不清楚企业2属于何种类型以及双方的决策必须考虑对手的反应。

更加重要的是,如果我们允许参与人的策略忽视那些事实上没有出现的情形,我们就根本没有办法把纳什均衡概念运用到不完全信息静态博弈(完全信息动态博弈曾遇到类似的问题)。

也有人认为,应该是企业1针对企业2的不同类型来选择产量作为自己的反应,而不是企业2针对自己的不同类型选择产量。这个例子告诉我们这个看法似是而非——企业1的产量选择是单一的,而只有企业2的产量选择是一组产量。

2.贝叶斯纳什均衡——不完全信息静态博弈的解

(1)贝叶斯纳什均衡:在不完全信息静态博弈中,{*1s …*i s …}

*n s 构成一个(纯策略)贝叶斯纳什均衡,如果每个参与人i 以及i 的每一个类型,均有:

*11max (()i i

a i t u s t -∑…*11()i i s t --,*11,()i i i a s t ++…*n

s ;i t )(i i p t -∣)i t 。 上述优化问题只是给出了类型为i t 时参与人i 的最佳行动选择,这意味着参与人i 有多少种类型,就得求解多少个优化问题。

(2)关于均衡的上述定义意味着在均衡状态之下,没有人愿意单方面改变自己的策略选择,即每个参与人的策略都必须是其他参与人的策略选择的最优反应(回顾:如何证明一个策略组合是否构成纳什均衡?),这一基本思想在各种博弈中是始终一致的。

四.不完全信息静态博弈与完全信息静态博弈中的混合策略纳什均衡

1.案例:不完全信息夫妻博弈(源自Gibbons 一书153-154页)

假设对对方的了解均没有达到完全知己知彼的程度,具体说来:如果夫妻均选择看足球,则丈夫获得的支付是2+a ,a 的大小只有丈夫自己知道,妻子只知道a 是从区间为[0,x]均匀分布中独立抽取的;如果夫妻均选择看芭蕾,则妻子获得的支付是2+b ,b 的大小只有妻子自己知道,丈夫只知道b 也是从区间为[0,x]均匀分布中独立抽取的。当然x 是很小的(这意味着什么?)

夫 足球 芭蕾(1)用标准型表示该不对称信息博弈。

夫妻的行动集是相同的,均为{足球、芭蕾};夫妻的类型集也相同,均为[0,x];夫妻的

信念p 夫

(b )

=1p x

妻(a )=;双方的支付则参见上图。 (2)现构造一个纯策略贝叶斯纳什均衡:如果*a

a ≥,则丈夫选择看足球,否则就去看芭蕾;如果*

b b ≥,妻子就选择看芭蕾,否则就去看足球。

通过计算发现:当且仅当**3x a a b ≥=-,

丈夫看足球;当且仅当**3x b b a

≥-=,妻子选择看芭蕾。因为这是一个对称的博弈,故**a b ==芭蕾的概率为312x

-- 若0x →,则312x --

23(思考:这意味着什么?)

(3)上一步的工作表明:完全信息静态博弈中的混合策略纳什均衡可以视为不完全信息静态博弈中纯策略贝叶斯均衡的极限,即混合策略纳什均衡的合理性不是在于参与人真的随

机选择策略,而是在于参与人不清楚对手会选择哪个纯策略,而这又是由于对手拥有微小的信息优势。

第二节不完全信息动态博弈的基本理论

一.不完全信息动态博弈

1.不完全信息动态博弈的若干例子

例子1:用人单位不清楚求职者的能力状况;求职者为了显示自己的能力状况,向用人单位发出显示信号(如文凭、资格证),用人单位根据接收到的信号判断求职者的能力状况并决定是否录用。买方不清楚产品的质量;卖方为了显示产品的质量状况,向买方发出显示信号(如各种质量认证标识、免费维修承诺),买方根据接收到的信号判断产品的质量状况并决定是否购买。

例子2:保险公司不清楚投保人的风险倾向;保险公司设计出一系列保险合同菜单供投保人选择,不同类型的投保人选择最适合自己的保险合同。政府规制部门不清楚垄断企业的成本水平;规制部门设计出一系列规制合同供垄断企业选择,垄断企业选择最适合自己的规制合同。

上述例子的共同之处:存在信息不对称。存在信息的交流与沟通,前者是信息优势方主动行动,被称之为“发信号”(signalling);后者是信息劣势方主动行动,被称之为“甄别”(screening)。

2.信念、序贯理性(sequential ration)、合理信念(reasonnable belief)——四个重要的要求

(1) 要求1:在每个信息集,该行动参与人必定对自己已经到达信息集中的哪个节点拥有自己的信念(或猜测)。

在非单点信息集,信念就是信息集中所有节点上的一个概率分布;如果是单点信息集,信念就是到达该节点的概率为1。

这个概念的引入使得“子博弈”的概念被一个更加宽泛的概念所取代:连续博弈(continuation game),它能够始于任何信息集,而不管它是否是单点的。

(2)要求2:给定参与人的信念,参与人的策略必须是序贯理性(sequential rational)的,即给定其他参与人的后续策略(subsequent stategy)以及参与人在该信息集的信念,相关参与人在每个信息集上的行动选择必须是最优的(optimal)。

所谓后续策略是指给定的信息集到达以后针对博弈以后可能出现的每一种情形所制定的完整的行动计划。

(3)均衡路径(on the equilibrium path)信息集与非均衡路径(off the equilibrium path)信息集给定一个扩展型博弈的均衡(这里的均衡并不一定就是指纳什均衡),所谓信息集处于均衡路径是指在该均衡下该信息集有正的概率被到达;所谓信息集处于非均衡路径是指在该均衡下该信息集肯定不会到达。

(4)合理信念:

要求3:给定参与人的均衡策略,均衡路径上信息集的信念根据贝叶斯法则形成。

要求4:给定参与人在此有可能(where possible )的均衡策略,非均衡路径上信息集的信念根据贝叶斯法则形成。

所谓贝叶斯法则是指条件概率(p A ∣)B 的计算公式,令(),(),(,)p A p B p A B 表示先验概率(prior probability ),则(p A ∣)B =(,)()

p A B p B 。 3.不完全信息动态博弈的解——完美贝叶斯纳什均衡(perfect Bayesian N.E )

(1)完美贝叶斯纳什均衡是指由满足上述要求1-4的策略与信念所构成的均衡。(关键是两个:决策的序贯理性与理性的信念)

(2)不同博弈类型及其解

完全信息静态博弈——纳什均衡;完全信息动态博弈——子博弈完美纳什均衡

不完全信息静态博弈——贝叶斯纳什均衡;不完全信息动态博弈——完美贝叶斯纳什均衡

(3)对完美贝叶斯纳什均衡的进一步理解

A 与其他均衡相比,完美贝叶斯纳什均衡最关键的特色就是在定义均衡时将信念抬到了与策略同样重要的地位,即均衡不再是单纯由每个参与人的策略所构成,而且还包括每个参与人在他的每个信息集的信念。

在定义贝叶斯纳什均衡时,不同的研究者使用的定义会有差异,有的只包括要求1-3,有的也许包括不止四个要求。

Kreps 和Wilson 等使用的序贯均衡(sequential equilibrium )就是一个比完美贝叶斯纳什均衡更强的解。

B 使用要求1-4,意味着我们假定参与人总是持有合理的信念,并且总是依据合理信念选择最优的行动,从而帮助我们剔除不合理的均衡。

C 纳什均衡、贝叶斯纳什均衡以及子博弈完美纳什均衡具有一个共同的缺点,即不能剔除在任何非均衡路径信息集上玩严格劣策略的威胁,这个弊端只有完美贝叶斯均衡能够避免。

(4)例子

例子1:A 参与人1首先在,,L M R 之间进行选择,如果参与人1选择了R ,博弈结束,则参与人1获得支付1,参与人2获得支付3;如果参与人在,L M 之间进行选择,参与人2只能观察到参与人1的选择是否是R ,然后参与人2在,L R ''之间进行选择;如果结局是(,L L '),则各得支付(2,1);如果结局是(,L R '),则各得(0,0);如果结局是(,M L '),各得(0,2);如果结局是(,M R '),各得(0,1)。

思考:用扩展型与标准型分别表示上述博弈;上述博弈有几个子博弈以及纳什均衡?上述博弈的子博弈完美纳什均衡是什么?

从上面的博弈可以看出,(,R R ')这个纳什均衡虽然依赖于一个明显不可信的威胁(因为L '明显优于R '),但是无法被子博弈方法精炼掉。

运用上述四个要求对1中的例子进行精炼

上述四个条件实际上是说理性的参与人会对自己处于哪个节点进行合理的猜测,然后根据自己的猜测作出合理的行动选择。

依据上述条件,假设处于L 节点的概率为p ,处于M 节点的概率为1p -,则简单的计算会表明理性的参与人2不会选择R '。其实,这里根本无需用到第三个与第四个要求。

例子2:参与人1首先在A 和D 之间进行选择,如果1选择A ,则博弈结束,三人各得(2,0,0);如果1选择D ,则由参与人2继续在L R 和之间进行选择,然后由参与人3在L '和R '之间进行选择。参与人3无法观测到参与人2的选择。如果结局是(,,D L L '),则各得(1,2,1);如果结局是(,,D L R '),则各得(3,3,3);如果结局是(,,D R L '),则各得(0,1,2);如果结局是(,,D R R '),则各得(0,1,1)。

问题:该博弈有几个子博弈?请找出该博弈所有的纳什均衡?该博弈的子博弈完美纳什均衡是什么?{}(,,);1D L R p '=(其中p 表示参与人2选择L 的概率)能否通过完美贝叶斯纳什均衡的检验?

{}(,,);0A L L p '=中的策略组合也是纳什均衡,上述策略与信念也能够通过完美贝叶斯均衡中要求1-3的检验,因为参与人3有信念而且依据信念选择最优行动;给定3的后续策略,参与人1和2也选择各自的最优行动。但是,(,,)A L L '不是子博弈完美的,问题出在参与人3的信念0p =与参与人2的策略选择L 不一致。如果博弈按照给定的策略组合进行,则参与人3的信息集处于非均衡路径,要求1-3对其是不管用的。如果引入要求4,就可以发现这个均衡及信念的不合理之处。

(5)完美贝叶斯纳什均衡与其他均衡概念的关系

A 均衡概念之所以变得越来越复杂,是为了在更复杂的博弈中剔除不合理(implausible )的均衡。

B 完美贝叶斯纳什均衡是为了对贝叶斯纳什均衡及子博弈完美纳什均衡进行精炼,以剔除动态情形下不合理的贝叶斯纳什均衡以及子博弈完美纳什均衡。

(6)完美贝叶斯纳什均衡的两种重要类型

A分离均衡(separating equilibrium):在均衡状态下不同类型的参与人选择不同的行动或策略。

B混同均衡(pooling equilibrium):在均衡状态下不同类型的参与人选择相同的行动或策略。

注:其实还存在准分离均衡。

完全信息动态博弈练习题

1、空中客车与波音两家公司在研发新型商业客机方面展开激烈竞争。波音公司在研发过程中已经处于领先地位,而空中客车正考虑是否参与这场竞争。假如空中客车不参与竞争,那么它的收益为0,而波音公司将会获得垄断地位,获得10亿美元的收益。假如空中客车决定参与竞争,则波音公司就不得不决定与空中客车进行和平竞争,还是打价格战。如果和平竞争,双方各自获得3亿美元的收益;如果打价格战,则客机价格下滑,双方都无法收回研发成本,各损失1亿美元。请画出博弈树,找出子博弈精炼纳什均衡。 2、考虑可乐行业,可口可乐与百事可乐是两家主要公司,市场规模为80亿美元。每家公司可以选择是否做广告,广告成本为10亿美元;如果一家企业做广告而另一家不做,则前者强的所有市场;如果两家企业都做广告,则各占一半市场,并付出广告成本;如果两家公司都不做广告,也各占一般市场,但不支付广告成本。 (a)画出博弈支付表,并找出当两家公司同时行动时的纳什均衡; (b)假定博弈序贯进行,画出可口可乐公司率先行动时该博弈的博弈树。 (c)在(a)、(b)均衡中,从可口可乐与百事可乐的共同观点来看,哪一个是最佳的,这两家公司要怎样才会有更好的结果? 3、假设巨人、太阳神、弗里达三大百货公司正考虑在波士顿两个新的大型购物中心中的一个开设分店。其中,城市购物中心靠近人口密集的富人区,规模不大,最多只能以两家大百货商场为龙头。而郊区购物中心地处较远的郊外,相对较穷,能以三家百货商场为龙头。三家百货公司都不想在两个地方同时开店,因为顾客有相当部分重复,两处都开店无疑是同自己竞争。每家百货公司都不愿意在一个地方独家经营,拥有多家商场的购物中心能够吸引更多的顾客,顾客总量的增加自然会使商场利润增加。此外,它们都偏向争夺富人群体的城市购物中心,所以它们必须在城市购物中心(如果这个尝试失败了,它们将会尝试在郊区建立商场)和郊区购物中心(不争取城市市场而直接进入郊区市场)之间作出选择。在该案例中,百货公司将5种可能结果按等级排列如下:5 (最好)和另一家公司在城市购物中心;4 和一家或两家公司在郊区购物中心;3 在城市购物中心独家经营;2 在郊区购物中心独家经营; 1 最坏,在尝试进入城市市场失败后在郊区独家经营,而此时其他非百货业公司已经签约获得郊区购物中心的最好地盘。三家百货公司因管理结构各不相同,所以做新购物中心扩展市场工作的快慢也不同。弗里达公司动作最快,其次是巨人公司,最后是太阳神公司,它在准

完全信息静态博弈及其纳什均衡解

1 第四章 完全信息动态博弈及其均衡解 1.完全且完美信息动态博弈 完全信息博弈指的是参与者的收益是共同知识。 完全且完美信息动态博弈指的是:博弈中的每一步中参与人都知道这一步之前博弈进行的整个过程。因此,我完全且完美信息动态博弈的特点:(1)行动是顺序发生的;(2)下一步行动选择之前所有以前的行动都可以被观察到;(3)每一可能的行动组合下的参与人的收益都是公共知识。 而不完美信息博弈指的是,在某一步参与人不知道以往博弈所进行的历史或者没有观察到以往的所有行动。 例4.1.我们来考虑这样一个动态博弈: 假定甲在开采一个价值4万元的金矿时需要1万元资金,乙有1万元资金。甲向乙借钱来开金矿。在这个博弈的第一阶段,甲向乙承诺: 如果乙借钱给他的话,那么他就会将采到的金子与乙对半分成,即(2,3)——乙得到2万元的金子,同时收回自己的1万元投资。对于甲的承诺,乙如果不借钱给甲的话,那么博弈到此为止,双方收益为(0,1)。如果乙借钱给甲的话,那么博弈进入第二个阶段。在第二阶段中,若甲遵守他的承诺,分给乙一半的金子,这样两人的收益为(2,3),其中1万元为投资成本。〖JP3〗然而,若甲违背自己的承诺,博弈就会进入到第三个阶段: 如果乙同甲打官司,那么由于打官司费时费力, 两个人的收益为(0,1);若乙不打官司,那么两个人的收益就为(5,0)。参见图1。 乙 借 不借 甲 分 不分 (0,1) 乙 乙 (2,3) 打官司 不打官司 (1,2) (5,0) 图1. 借钱博弈的博弈树 2.逆向归纳法与子博弈纳什均衡解 逆向归纳法(Backward induction )又称逆推法,是指这样一种动态博弈求解方法:从博弈的最后一步开始,计算最后一步的参与人的最优行动,逐步逆推到博弈开始时进行第一步的参与人的最优行动,从而确定每个参与人的最优行动。 在动态博弈中逆向归纳法能够进行的前提:参与人是理性的——任何一步参与人都选择 甲乙

完全信息动态博弈习题(一)

完全信息动态博弈习题(一) 1、在一个由三个寡头垄断者操纵的市场上,反需求函数由()Q a Q P -=给出,此处321q q q Q ++=,i q 表示企业i 生产的产量。每一企业生产的边际成本函数为常数c ,并且没有固定成本。企业按以下顺序进行产出决策:(1)企业1选择01≥q ;(2)企业2和3观测到1q ,并同时分别选择2q 和3q 。试求出此博弈的子博弈精炼解。 解:采用逆向归纳法。 (1)在第二阶段企业2和企业3决策: ()[]223212 222cq q q q q a Max Max q q ----≥≥=π π ()[]333213 333cq q q q q a Max Max q q ----≥≥=π π 求出反应函数为:??? ??????????? --=--=33 1312q c a q q c a q (2)第一阶段企业1的决策: ()[]113211cq q q q q a Max ----π 一阶条件: 023211 1=----=??c q q q a q π, 将 3 31 31 2q c a q q c a q --= --= 带入可求得: 2 1c a q -= ,6 32c a q q -= =

2、假设家长和孩子进行一个博弈:令收入为p I (家长的收入)和c I (孩子的收入)是外生给定的,第一,孩子决定收入c I 中的多少用于储蓄S 以备将来,并消费掉其余部分B I c -;第二,家长观测到孩子的选择S 并决定给予一个赠与额B 。孩子的收益(支付)为当期和未来的效用之和:()()B S U S I U c ++-21;家长的收益(支付)为()()()[]B S U S I U k B I V c p ++-+-21(其中k>0反映出家长关心孩子的福利)。假定效用函数1U 、2U 和V 递增并且严格凹,试证明:在逆向归纳解中,孩子的储蓄非常少,从而可诱使家长给予更高的赠与(即如果S 增加,并使B 相应减少,家长和孩子的福利都会提高)。 解:采用逆向归纳法,先最大化家长的收益(支付):给定的孩子的行动S ,来选择自己的行动B, Max ()()()[]B S U S I U k B I V c p ++-+-21 一阶条件: ()()B S kU B I V p +' =-'2 反应函数满足: 0//122*+dS B S d ,所以(S+B )会增加,从而()B S U +2也会增加;同时,因为()B S U +2增加的幅度比()S I U c -1减小的幅度大,所以孩子的收益(支付)效用增大了,同时家长的收益(支付)效用也增大了。

博弈论——完全信息动态博弈

2 完全信息的动态博弈 2.1完全和完美信息的动态博弈 动态博弈(dynamic game):参与人在不同的时间选择行动。 完全信息动态博弈指的是各博弈方先后行动,后行动者知道先行动者的具体行动是什么且各博弈方对博弈中各种策略组合下所有参与人相应的得益都完全了解的博弈 静态博弈习惯用战略式(Strategic form representation)表述,动态博弈习惯用扩展式(Extensive form representation)表述。战略式表述的三要素:参与人集合、每个参与人的战略集合、由战略组合决定的每个参与人的支付。扩展式表述的要素包括:参与人集合、参与人的行动顺序、参与人的行动空间、参与人的信息集、参与人的支付函数、外生事件(自然的选择)的概率分布。 n人有限战略博弈的扩展式表述用博弈树来表示 1 (1,2) (0,3)

①结:包括决策结和终点结。决策结是参与人采取行动的时点,终点结是博弈行动路径的终点。第一个行动选择对应的决策结为“初始结”,用空心圆表示,其它决策结用实心圆表示。X表示结的集合,x X表示某个特定的结。z表示终点结,Z表示终点结集合。 表示结之间的顺序关系,x x′表示x在x′之前。x之前所有结的集合称为x的前列集,x之后所有结的集合称为x的后续集。以下两种情况不允许: 前者违背了传递性和反对称性;后者违背了前列节必须是全排序的。在以上两个假设之下,每个终点结都完全决定了博弈树的某个路径。 ②枝:博弈树上,枝是从一个决策结到其直接后续结的连线,每一个枝代表参与人的一个行动选择。在每一个枝旁标注该具体行动的代号。一般地,每个决策结下有多个枝,给出每次行动时参与人的行动空间,即此时有哪些行动可供选择。 ③信息集(information sets):博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结集合称为一个信息集。博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集(信息集是由决策结构成的集合),该子集包括所有满足下列条件的决策结:(1)每一个决策结都是同一个参与人的决策结。(2)该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结。引入信息集的目的是为了描述当一个参与人要作出决策时他可能不知道“之前”发生的所有事情。(之前加引号是因为,博弈树中的决策结的排序并不一定与行动的时间顺序相一致)

浅谈完全信息动态博弈及启发

浅谈完全信息动态博弈及启发 博弈分为合作博弈和非合作博弈。合作博弈的目的在于对所得利益进行公平公正的分配,而非合作博弈则在于如何选择策略以追求自身利益的最大化。根据行为的时间序列,非合作博弈可以分为静态博弈和动态博弈;而根据一方对其他方的了解程度,非合作博弈又可以分为完全信息博弈和不完全信息博弈。事实上,每一种博弈类型在我们生活中都存在。然而对博弈哲学有一定了解后,我在我身边感受得最多的是完全信息动态博弈,因此也颇有感触。下面我将结合一些例子,试着用博弈的哲学对生活中的一些问题提出解决方案。当然,由于生活经验的不足等各方面原因,肯定有不完善的地方,还望指正。 在顺序博弈中,威胁与承诺对于后动者来说是两种非常重要的策略。威胁是对不肯与你合作的人进行惩罚的一种回应规则,在生活中也有很多这样的例子。我们到商店买东西讨价还价,当顾客还的价商家不接受的时候,顾客一般会表示其他地方价格更低,并作势要走终止交易,这实际上就是一种威胁,目的在于促成商品低价成交;在孩子们犯错的时候,许多家长采取的方法是威胁孩子下次再犯就会受皮肉之苦,希望以此告诫孩子不能再犯;情侣吵架时,双方争执不下,女方往往会以分手威胁男方屈服去哄她;中央政府在反腐工作中提出“老虎苍蝇一起打”的口号,事实上对有贪污腐败念头的官吏也算是一种威胁…… 这些威胁措施乍听起来气势如虹,似乎挺管用的,然而实施的多了,反而使得威胁的可信度下降,从而达不到预期的效果:价钱比较低的时候商家不再挽留你,因为他明白这是顾客的一种手段,并且对自己的价格有信心;孩子们每一次犯错知道父母都会因为心疼舍不得打自己,因此下次犯错之前也没有任何顾虑和思考便继续犯错;女方分手提得多了最后都没分,男生看穿了女生的诡计便再也不哄女生;尽管“老虎苍蝇一起打”,若是还没发现有苍蝇被抓,贪官们就会抱着自己还是一直苍蝇的心态越贪越大…… 所以这个时候,提高威胁的可信度便显得尤为重要!在上述例子中,我认为将自己的口头威胁初步具体化是最能提高威胁可信度的。作为顾客,为了提高自己说“其他商店更便宜”的可信度,可以具体化一个相对合理的低价,表示其他商店卖的是这个价格,自己只是在寻找是否会有更低的价格,如果没有,自己将会回到原来的商店交易,如果商家接受还价,威胁成功;如果商家不接受,这可能在一定程度上表明那件物品的成本可能真的相差不远了,那么在一定程度上顾客也算是威胁成功,买到了一个价值和价格较为相近的商品。作为父母,如果希望自己能用“打”这种方式真正威胁到孩子,那么父母必须狠下心来一次让孩子感受一下皮肉之苦,在美剧《绝望的主妇》中,一位妈妈就是一直威胁孩子然而从来不动手,所以孩子根本就不听她的话;但是偶然的一次机会,孩子在邻居家犯了错并且真的被打了以后,整个人都变得老实不再调皮,这也反映这种威胁必须具象化到身体的痛苦,才能给孩子起到威胁的作用。作为情侣中的女方,如果单纯提出分手已经不再具威胁效果,可以狠下心来对男方不理不睬一段时间,让男方切切实实感受到失去自己的痛苦,那么以后再提分手的时候,男方可能就会对自己更加珍惜,态度也不再会那么强硬。而对于中央的反腐政策,我认为中央在加大力度抓“老虎”的同时,也必须加大力度抓一些“苍蝇”并且加大宣传力度,只有这种杀鸡儆猴才能真正对那些动歪脑筋的官吏起到震慑的作用。生活中还有许许多多用到威胁的策略去博弈的例子,具体怎么灵活运用以及怎么提高可信度,需要就不同的事情具体分析,多运用多试验就自然而然能领会怎么做才对自己更有利。 尽管威胁和承诺的界限比较模糊,但是相比于威胁,承诺是奖励那些按照你的意愿行事的博弈者,是一种更为正能量的博弈。尽管如此,提高承诺的可信度依然尤为重要。如果你做出承诺,一定要让对方知道如果你不遵守承诺,对方一定可以惩罚你。这样,你背弃承诺也得不到好处,从而使博弈者更可能取得自己想要的结果。例如在租车交押金时,租车主一定会收比车价值更高的押金,这样租车者交押金所提出的承诺才是可实现的,从而最后促

相关文档
最新文档