博弈论

耶鲁 博弈论公开课 笔记 用一个月时间更新完
LionHeart LionHeart 2012-07-01 01:28:04
一直对博弈论很感兴趣,从前断断续续看的《博弈游戏》那本书,虽然很有趣写的很不错,但是毕竟充其量只是枕边读物或者厕所读物。刚刚看完耶鲁的《博弈论》课程第一集,希望能在此记录下一些心得,将课程讲的内容用自己的理解写出来,仅是作为一种锻炼方式,并同时作为日后的参考。希望能坚持下来。用百度贴吧的话说,希望不是太监。好吧,这就开始~



先列出几个解释:

囚徒困境(Prisoner‘s dilemma):Nash讲的一个小故事。两个囚犯被隔离审问。他们有两个选择:A招供 B死不承认。如果两人都不承认将因为证据不足而被判1年囚禁,如果两人都承认,将被各判2年的囚禁。如果一个承认另一个不承认,则承认的人可以被释放,而死不承认的人将被囚禁5年作为惩罚。

绝对优势策略:囚徒困境中的策略A,无论对方怎样选择,A选择的获益都比B获益大。

囚徒困境的结果很明显,两个人都会承认,都会被判2年的囚禁。显然他们的最优结果是都不承认,从而只需被囚禁1年。更显然的是,这种情况是不可能发生的。

囚徒困境里,两个人关注的仅仅是自己的获益,完全无视对方的情况。如果囚徒困境的两个人是爱人,亲人或者别的一些情况,也许最后的选择会有所不同。而造成这种不同的原因是因为获益情况的不同。

现实里,类似囚徒困境的情况有很多。比如大学里寝室卫生归谁打扫(深有体会),企业之间的价格战,广告等等。对于没有约束或者缺乏沟通乃至强制的情况下,基本都会陷入“囚徒困境”

囚徒困境中,两人所作的选择都是针对当前情况,并且都视为这是唯一一次的可能,没有考虑将来以及长远收益的情况。一次背叛可能会在一次的事件里面获取最大的效益,但也失去了信用,从而失去了合作的机会,也就不可能获得长期的收益。

写到这里想起了一个小故事:有个小孩子很傻。当别人给他5毛钱和1块钱让他选择一个的时候,他每次都会选择5毛钱。于是大家都觉得他傻,总喜欢这样一次次逗他。直到有一天,有一个人问这个小孩子:“你难道不知道1块钱比5毛钱多吗?“ ”当然知道。可是如果我拿1块钱的话,以后就没有人再给我钱了“

有调查表明,对于囚徒困境,70%的人会选择A,而其余30%的人会选择B。(内心高尚,乐观态度,相信别人会合作。。。)。而在耶鲁进行的同样的调查,选择A和B的人数比238:36(远远高于7:3)

几个结论:

1.永远不要选择劣势策略。(不解释)

2.

每个人都理性思考,不一定会得到整体最优的结果。(囚徒困境的两人显然是理性的)

3.一定要设身处地的从别人的角度想想,再做出自己的选择。(清楚自己的收益是很容易的,判定自己的优势策略也是较容易的,难的是站在别人的角度考虑别人的选择,尤其是当你不知道别人是”饭桶恶魔“还是”愤怒天使“的情况下)(这是博弈的核心)

4.You wont get what u want,till u know what you want(汝欲得之,必先知之)

5.受过高等教育的人往往更加理性,更加自私(参见上面)

OK,第二集

上次末了的一个游戏正是09年去大连玩的时候,Bob对我描述的大连理工博弈论课的一个小考试:全班同学每人写下一个1-100之间的数字,最后谁写的数字最接近全班平均数的三分之二,谁的分数最高。

另一个囚徒困境的例子:清新的空气,或者一片公共的鱼群。你想对鱼进行过量捕捞,因为如果你不捕捞,别的国家就会捕捞,到头来你什么都得不到。全球变暖同理/。这种囚徒困境并不仅仅是缺乏沟通引起的,也就是说,沟通不能解决囚徒困境问题。你可以对全球变暖和低碳生活高谈阔论,然后每天洗20个热水澡。铁道部的那群猪不就是这样的么。所以针对囚徒困境,可行的一种做法是制定规章,契约,而这些方法之所以有效的根本原因在于它们改变了利益的计算方式,(如果违约,就要承担违约的成本),从而改变了动机。或者把单次博弈变成多次博弈。另外一种,通过教育来改变获益。耶鲁的教授特别提到,比如毛泽东思想,把一大群人关起来然后教育他们要做能吃苦能挨饿的好人。

好了,来点正经的。

博弈的要素:参与者(player,i,j),策略(strategy,si),策略集(strategy set),策略组合(strategy profile),获益(payoff)

提到了侵略者与防守者之间的关系,这个《博弈游戏》上也有讲过,比如汉尼拔将军翻过阿尔卑斯山,两条路走哪一条。引入部分优势策略:某一策略的获益至少大于等于其他策略,并且至少在一种策略中的获益大于其他策略。

回到那个数字游戏上,耶鲁课堂上有为数不少的人选择了32,33,34.理由是大家都在1-100之间随机选的话,平均数应该是50,所以平均数的三分之二就是33.但是这种想法的错误之处大家不是随机选择,并且显然不会有人选择比100的三分之二,也就是比66还大的数。所以67到100之间的选择可以直接被剔除。那么既然67不会有人选,大于44,45的数也可以完全被剔除.(平均数不可能超过67,所以其三分之二也不可能超过45,45到67之间的数在原博弈中并不是劣势策略的数,但是去掉67以上

这些数之后就是劣势策略了)。所以综上所述,如果大家都是理性的话,不会有人选择超过45的数。那45的三分之二是30,所以30到45之间的数,它们在原博弈里不是劣势策略,即使去掉一次劣势策略也不是劣势策略,但是去掉2次的话就是了。再同理,30的三分之二是20,所以20到30之间的数也。。就这样一直下去,最后会一直到1,这样可能么?

实际上,选每个区间的人数都不为0(即使是在耶鲁,也有选择67以上的人,虽然不知道他们怎么想的。也许他们是未来的总统~),这实际上是一个分布。所以,理性对博弈的影响。。。

上述过程,去掉67以上的数,是因为“不要选择劣势策略”,做到这一步只需要自己是理性的就可以,最基本的想法

去掉45-67的数,是因为换位思考(in shoes)。做到这一步,不仅自己是理性,同时也要假定别人也是理性的(相信别人不会选择67以上的数字)

去掉30-45之间的数,是因为站在别人的角度上考虑别人的别人会怎么思考,也就是深一层的换位思考。(in shoes twice)。做到这一步,自己是理性,自己相信自己的对手们是理性,并且自己相信自己的对手们也相信他们的对手们也是理性(比较绕了,所以我用了复数他们)

20-30 in shoes 3 times。。。

所以可以做如下归类

1.选择67以上的人,“愚蠢的”

2.选择45-67的人,自己不愚蠢,但认为其他人都是愚蠢的

3.选择30-45的人,自己不愚蠢,自己认为别人也不愚蠢,但别人会认为别人愚蠢。。。

。。。

n.选择1的人,陷入到我知道你知道我知道你知道我知道你知道。。。这样的无限序列里了。。。(这个在哲学上被称为common knowledge,共同知识)。所以说选择1的人,会认为选择1是共同知识。耶鲁课堂上有不少人选择1,教授也提到这个游戏选择1是很常见的选择,并赞扬了他们。但是教授最后说这次的游戏,平均数是13.67,它的三分之二也就是9.记得Bob说大连理工的那次考试,平均数是24,其三分之二也就是16.

也就是说,如果每个参与者都绝对绝对绝对绝对理性,最后的结果应该是1.但是这个条件如此苛刻以至于几乎不可能达成,所以就出现了上面的结果。有趣的是,在分析完了上述的东西之后,教授再做了一次同样的实验。,这次几乎90%的人选择的数字都在5以下。所以,如果是一个公司在和它的竞争对手博弈,他肯定会假定他的对手是很老练或者说很理性,并站在这个立场考虑问题。如果一个公司是在和它的客户们博弈,就不一定做这样的假定,反而可能认为对方“愚蠢”。所以,把博弈的理论结合到实际上是很重要的~~



P.S. 关于共同知识,必须是我知道别人知道我知道别人知道这样无限的循环,就像两面相对摆放的镜子,这个是严格定义。相互知识不是共同知识。

第三集。坚持每天都看一篇的确很难,不过时刻把握住自己的大方向就好。

上次的数字游戏,是一个不断剔除劣势策略的过程:先把初始的劣势策略剔除,再看是否有新的劣势策略,不断循环,换句话说就是不断的换位思考。写道这里突然想起三国演义里,曹操走华容道的情况。诸葛在小路放火,曹操认为虚则实之,实则虚之,没火的路一定没有敌人,所以走有火的路,结果撞上关某人。曹操与诸葛博弈间,如果双方任何一人多想一层或者少想一层(比如曹操单纯点认为火必然是敌人放的,所以有火就有敌人;或者复杂些再想深一层,)就会是不同的结果。。所以我个人更愿意把诸葛这次的博弈成功看成是随机性的。。

以政治家选举的形式给出了“中位数选民定理”,课堂上的描述很繁琐,我用自己的语言描述一下,其实就是一个数字问题:博弈的两个人各自选择从1到10之间的一个数A和B,用数字相差的单位来表示距离。距离离A近的属于A范围,离B近的属于B范围,与A和B距离相等的数字属于中立,将被平分给A和B。最后谁的范围更大谁获胜。比如A为1,B为2,那么A的范围就是从1到1.5,B的范围是从1.5到10.所以B获胜,也就是选择2的人获胜。

这里,2相对于1,9相对于10,都是绝对优势策略。(无论对手选择什么数字,我选2时获胜的机会都比选择1大),因此本着剔除劣势策略的原则,1和10这种边缘数在一开始就会被剔除。而此时,2和9就变成了边缘数,虽然它们一开始的时候不是劣势策略,但是它们是剔除劣势策略之后的劣势策略,所以等待它们的命运也是一样的,,这个过程继续下去,最后会得到5和6,也就是中位数。

教授就此提到美国总统选举(这个问题本身就是通过政治家选举提出的嘛),尼克松,肯尼迪以及克林顿成功当选总统时演讲的政治立场,都是那种比较中立的,既不保守也不激进(可以把极端保守看作1,把极端激进看作10),从而拉拢中间选民。

经济学领域,这称之为“产品植入”。 /*手有点疼,今天暂时到这,这是注释*/。表现为商家分布普遍集中以争取附近的客源。
上述的“中位数选民定理”,几个欠缺的地方:
1.选民不一定服从1(可能他极端保守)到10(极端激进)的均匀分布,且各个党派所拥有的选民名额也不同
2.这个模型不适用于超过2名的博弈者
3.博弈者可能作弊(我是极端保守的,但我说自己是中立的)

提到“best response”(最佳回应

,即根据对手作出的某一选择,我作出此时对我最有利的选择)。那么有些时候,我能分析出对手的优势策略,从而做出我的最佳回应。有些时候我完全无法预测出对手会做出怎样的选择,那么这时可能通过计算对手选各个策略概率时,来计算我的获益的数学期望或者标准差,从而做出选择(这个选择可能不同于任何一个相对于对手某个选择的最佳回应)

第四集
罚点球:
一个经过模型简化的点球模型:罚球者可以选择左路,中路,右路3种路线去踢点球,门将可以选择向左扑救或者向右扑救(门将没有傻站着不动的option)。罚球者的收益很容易理解出来,其结论是,无论什么时候,罚球者向中路踢都不是一个最优的选择。(当门将向左扑的概率大于50%时,球员向右踢比较好;反正同理)。将其推广:

不要选择一个在任何“信念”(belief)下都不是最优策略的策略。

这里的信念(原文是belief)并不是指门将会向左扑或者向右扑,而是指概率。我的理解是对中庸之道的批判。所以本例中,虽然罚球者的3种策略里没有劣势策略,不过还是可以用以上原则剔除掉一个策略。上述模型忽略的2个地方,
1.一名惯用右脚的球员,他向左踢和向右踢的准确率是不同的(踢过球的童鞋们都有这种体会,右脚球员从左侧进攻射门的舒适度比从右侧射门要好很多)。
2.门将可以选择在中路(TO BE CONTINUED)



经济学上的案例:
1。partership game:两个个体共同合作完成一个项目,最后利润平分。每个个体都要选择为项目付出多少精力(成本)。
一个简化模型,假设两个个体付出的精力分别为S1和S2,个体1的获益函数为(S1+S2+b*S1*S2)-S1^2。b是一个系数用于衡量个体之间的协作程度,通常为0-0.25之间
简单计算可以得出,在S2一定的情况下,个体1的best response为1-b*S2.
个体2的best response与之对称,通过画图,剔除非优势策略,形成如原来猜数字版的循环 。最后汇于两条best response函数图像的交点(纳什均衡)。(在纳什均衡点上,两个个体都采用了它们相对于对方的best response)。在之前猜数字的那个game中,纳什均衡点就是1.
事实上这样得出的结果是大家都会少付出。因为以个体1为例,如果他多付出,他需要承担全部的边际成本,却只能得到一半的边际收益。这在经济学上被称为外部性(extenality),单方面的付出也会让其他人受益。
如果在获益函数中降低协作程度b的值,得到的结果是:个体1会减少付出;个体2知道个体1会减少付出,所以个体2也会减少付出。依次类推,最后形成剪刀效应。

相关文档
最新文档