博弈论

耶鲁博弈论公开课笔记用一个月时间更新完
LionHeart LionHeart 2012-07-01 01:28:04
一直对博弈论很感兴趣，从前断断续续看的《博弈游戏》那本书，虽然很有趣写的很不错，但是毕竟充其量只是枕边读物或者厕所读物。刚刚看完耶鲁的《博弈论》课程第一集，希望能在此记录下一些心得，将课程讲的内容用自己的理解写出来，仅是作为一种锻炼方式，并同时作为日后的参考。希望能坚持下来。用百度贴吧的话说，希望不是太监。好吧，这就开始～

先列出几个解释：

囚徒困境（Prisoner‘s dilemma）：Nash讲的一个小故事。两个囚犯被隔离审问。他们有两个选择：A招供 B死不承认。如果两人都不承认将因为证据不足而被判1年囚禁，如果两人都承认，将被各判2年的囚禁。如果一个承认另一个不承认，则承认的人可以被释放，而死不承认的人将被囚禁5年作为惩罚。

绝对优势策略：囚徒困境中的策略A，无论对方怎样选择，A选择的获益都比B获益大。

囚徒困境的结果很明显，两个人都会承认，都会被判2年的囚禁。显然他们的最优结果是都不承认，从而只需被囚禁1年。更显然的是，这种情况是不可能发生的。

囚徒困境里，两个人关注的仅仅是自己的获益，完全无视对方的情况。如果囚徒困境的两个人是爱人，亲人或者别的一些情况，也许最后的选择会有所不同。而造成这种不同的原因是因为获益情况的不同。

现实里，类似囚徒困境的情况有很多。比如大学里寝室卫生归谁打扫（深有体会），企业之间的价格战，广告等等。对于没有约束或者缺乏沟通乃至强制的情况下，基本都会陷入“囚徒困境”

囚徒困境中，两人所作的选择都是针对当前情况，并且都视为这是唯一一次的可能，没有考虑将来以及长远收益的情况。一次背叛可能会在一次的事件里面获取最大的效益，但也失去了信用，从而失去了合作的机会，也就不可能获得长期的收益。

写到这里想起了一个小故事：有个小孩子很傻。当别人给他5毛钱和1块钱让他选择一个的时候，他每次都会选择5毛钱。于是大家都觉得他傻，总喜欢这样一次次逗他。直到有一天，有一个人问这个小孩子：“你难道不知道1块钱比5毛钱多吗？“ ”当然知道。可是如果我拿1块钱的话，以后就没有人再给我钱了“

有调查表明，对于囚徒困境，70%的人会选择A，而其余30%的人会选择B。（内心高尚，乐观态度，相信别人会合作。。。）。而在耶鲁进行的同样的调查，选择A和B的人数比238：36（远远高于7：3）

几个结论：

1.永远不要选择劣势策略。（不解释）

2.

每个人都理性思考，不一定会得到整体最优的结果。（囚徒困境的两人显然是理性的）

3.一定要设身处地的从别人的角度想想，再做出自己的选择。（清楚自己的收益是很容易的，判定自己的优势策略也是较容易的，难的是站在别人的角度考虑别人的选择，尤其是当你不知道别人是”饭桶恶魔“还是”愤怒天使“的情况下）（这是博弈的核心）

4.You wont get what u want,till u know what you want(汝欲得之，必先知之)

5.受过高等教育的人往往更加理性，更加自私（参见上面）

OK，第二集

上次末了的一个游戏正是09年去大连玩的时候，Bob对我描述的大连理工博弈论课的一个小考试：全班同学每人写下一个1-100之间的数字，最后谁写的数字最接近全班平均数的三分之二，谁的分数最高。

另一个囚徒困境的例子：清新的空气，或者一片公共的鱼群。你想对鱼进行过量捕捞，因为如果你不捕捞，别的国家就会捕捞，到头来你什么都得不到。全球变暖同理/。这种囚徒困境并不仅仅是缺乏沟通引起的，也就是说，沟通不能解决囚徒困境问题。你可以对全球变暖和低碳生活高谈阔论，然后每天洗20个热水澡。铁道部的那群猪不就是这样的么。所以针对囚徒困境，可行的一种做法是制定规章，契约，而这些方法之所以有效的根本原因在于它们改变了利益的计算方式，（如果违约，就要承担违约的成本），从而改变了动机。或者把单次博弈变成多次博弈。另外一种，通过教育来改变获益。耶鲁的教授特别提到，比如毛泽东思想，把一大群人关起来然后教育他们要做能吃苦能挨饿的好人。

好了，来点正经的。

博弈的要素：参与者（player，i，j），策略（strategy，si），策略集（strategy set），策略组合（strategy profile），获益（payoff）

提到了侵略者与防守者之间的关系，这个《博弈游戏》上也有讲过，比如汉尼拔将军翻过阿尔卑斯山，两条路走哪一条。引入部分优势策略：某一策略的获益至少大于等于其他策略，并且至少在一种策略中的获益大于其他策略。

回到那个数字游戏上，耶鲁课堂上有为数不少的人选择了32，33，34.理由是大家都在1-100之间随机选的话，平均数应该是50，所以平均数的三分之二就是33.但是这种想法的错误之处大家不是随机选择，并且显然不会有人选择比100的三分之二，也就是比66还大的数。所以67到100之间的选择可以直接被剔除。那么既然67不会有人选，大于44，45的数也可以完全被剔除.（平均数不可能超过67，所以其三分之二也不可能超过45，45到67之间的数在原博弈中并不是劣势策略的数，但是去掉67以上

这些数之后就是劣势策略了）。所以综上所述，如果大家都是理性的话，不会有人选择超过45的数。那45的三分之二是30，所以30到45之间的数，它们在原博弈里不是劣势策略，即使去掉一次劣势策略也不是劣势策略，但是去掉2次的话就是了。再同理，30的三分之二是20，所以20到30之间的数也。。就这样一直下去，最后会一直到1，这样可能么？

实际上，选每个区间的人数都不为0（即使是在耶鲁，也有选择67以上的人，虽然不知道他们怎么想的。也许他们是未来的总统～），这实际上是一个分布。所以，理性对博弈的影响。。。

上述过程，去掉67以上的数，是因为“不要选择劣势策略”，做到这一步只需要自己是理性的就可以，最基本的想法

去掉45-67的数，是因为换位思考（in shoes）。做到这一步，不仅自己是理性，同时也要假定别人也是理性的（相信别人不会选择67以上的数字）

去掉30-45之间的数，是因为站在别人的角度上考虑别人的别人会怎么思考，也就是深一层的换位思考。（in shoes twice）。做到这一步，自己是理性，自己相信自己的对手们是理性，并且自己相信自己的对手们也相信他们的对手们也是理性（比较绕了，所以我用了复数他们）

20-30 in shoes 3 times。。。

所以可以做如下归类

1.选择67以上的人，“愚蠢的”

2.选择45-67的人，自己不愚蠢，但认为其他人都是愚蠢的

3.选择30-45的人，自己不愚蠢，自己认为别人也不愚蠢，但别人会认为别人愚蠢。。。

。。。

n.选择1的人，陷入到我知道你知道我知道你知道我知道你知道。。。这样的无限序列里了。。。（这个在哲学上被称为common knowledge，共同知识）。所以说选择1的人，会认为选择1是共同知识。耶鲁课堂上有不少人选择1，教授也提到这个游戏选择1是很常见的选择，并赞扬了他们。但是教授最后说这次的游戏，平均数是13.67，它的三分之二也就是9.记得Bob说大连理工的那次考试，平均数是24，其三分之二也就是16.

也就是说，如果每个参与者都绝对绝对绝对绝对理性，最后的结果应该是1.但是这个条件如此苛刻以至于几乎不可能达成，所以就出现了上面的结果。有趣的是，在分析完了上述的东西之后，教授再做了一次同样的实验。，这次几乎90%的人选择的数字都在5以下。所以，如果是一个公司在和它的竞争对手博弈，他肯定会假定他的对手是很老练或者说很理性，并站在这个立场考虑问题。如果一个公司是在和它的客户们博弈，就不一定做这样的假定，反而可能认为对方“愚蠢”。所以，把博弈的理论结合到实际上是很重要的～～

～

P.S. 关于共同知识，必须是我知道别人知道我知道别人知道这样无限的循环，就像两面相对摆放的镜子，这个是严格定义。相互知识不是共同知识。

第三集。坚持每天都看一篇的确很难，不过时刻把握住自己的大方向就好。

上次的数字游戏，是一个不断剔除劣势策略的过程：先把初始的劣势策略剔除，再看是否有新的劣势策略，不断循环，换句话说就是不断的换位思考。写道这里突然想起三国演义里，曹操走华容道的情况。诸葛在小路放火，曹操认为虚则实之，实则虚之，没火的路一定没有敌人，所以走有火的路，结果撞上关某人。曹操与诸葛博弈间，如果双方任何一人多想一层或者少想一层（比如曹操单纯点认为火必然是敌人放的，所以有火就有敌人；或者复杂些再想深一层，）就会是不同的结果。。所以我个人更愿意把诸葛这次的博弈成功看成是随机性的。。

以政治家选举的形式给出了“中位数选民定理”，课堂上的描述很繁琐，我用自己的语言描述一下，其实就是一个数字问题：博弈的两个人各自选择从1到10之间的一个数A和B，用数字相差的单位来表示距离。距离离A近的属于A范围，离B近的属于B范围，与A和B距离相等的数字属于中立，将被平分给A和B。最后谁的范围更大谁获胜。比如A为1，B为2，那么A的范围就是从1到1.5，B的范围是从1.5到10.所以B获胜，也就是选择2的人获胜。

这里，2相对于1，9相对于10，都是绝对优势策略。（无论对手选择什么数字，我选2时获胜的机会都比选择1大），因此本着剔除劣势策略的原则，1和10这种边缘数在一开始就会被剔除。而此时，2和9就变成了边缘数，虽然它们一开始的时候不是劣势策略，但是它们是剔除劣势策略之后的劣势策略，所以等待它们的命运也是一样的，，这个过程继续下去，最后会得到5和6，也就是中位数。

教授就此提到美国总统选举（这个问题本身就是通过政治家选举提出的嘛），尼克松，肯尼迪以及克林顿成功当选总统时演讲的政治立场，都是那种比较中立的，既不保守也不激进（可以把极端保守看作1，把极端激进看作10），从而拉拢中间选民。

经济学领域，这称之为“产品植入”。 /*手有点疼，今天暂时到这，这是注释*/。表现为商家分布普遍集中以争取附近的客源。
上述的“中位数选民定理”，几个欠缺的地方：
1.选民不一定服从1（可能他极端保守）到10（极端激进）的均匀分布，且各个党派所拥有的选民名额也不同
2.这个模型不适用于超过2名的博弈者
3.博弈者可能作弊（我是极端保守的，但我说自己是中立的）

提到“best response”(最佳回应

，即根据对手作出的某一选择，我作出此时对我最有利的选择)。那么有些时候，我能分析出对手的优势策略，从而做出我的最佳回应。有些时候我完全无法预测出对手会做出怎样的选择，那么这时可能通过计算对手选各个策略概率时，来计算我的获益的数学期望或者标准差，从而做出选择（这个选择可能不同于任何一个相对于对手某个选择的最佳回应）

第四集
罚点球：
一个经过模型简化的点球模型：罚球者可以选择左路，中路，右路3种路线去踢点球，门将可以选择向左扑救或者向右扑救（门将没有傻站着不动的option）。罚球者的收益很容易理解出来，其结论是，无论什么时候，罚球者向中路踢都不是一个最优的选择。（当门将向左扑的概率大于50%时，球员向右踢比较好；反正同理）。将其推广：

不要选择一个在任何“信念”(belief)下都不是最优策略的策略。

这里的信念(原文是belief)并不是指门将会向左扑或者向右扑，而是指概率。我的理解是对中庸之道的批判。所以本例中，虽然罚球者的3种策略里没有劣势策略，不过还是可以用以上原则剔除掉一个策略。上述模型忽略的2个地方，
1.一名惯用右脚的球员，他向左踢和向右踢的准确率是不同的（踢过球的童鞋们都有这种体会，右脚球员从左侧进攻射门的舒适度比从右侧射门要好很多）。
2.门将可以选择在中路(TO BE CONTINUED)

经济学上的案例：
1。partership game：两个个体共同合作完成一个项目，最后利润平分。每个个体都要选择为项目付出多少精力（成本）。
一个简化模型，假设两个个体付出的精力分别为S1和S2，个体1的获益函数为（S1+S2+b*S1*S2）-S1^2。b是一个系数用于衡量个体之间的协作程度，通常为0-0.25之间
简单计算可以得出，在S2一定的情况下，个体1的best response为1-b*S2.
个体2的best response与之对称，通过画图，剔除非优势策略，形成如原来猜数字版的循环。最后汇于两条best response函数图像的交点（纳什均衡）。（在纳什均衡点上，两个个体都采用了它们相对于对方的best response）。在之前猜数字的那个game中，纳什均衡点就是1.
事实上这样得出的结果是大家都会少付出。因为以个体1为例，如果他多付出，他需要承担全部的边际成本，却只能得到一半的边际收益。这在经济学上被称为外部性（extenality），单方面的付出也会让其他人受益。
如果在获益函数中降低协作程度b的值，得到的结果是：个体1会减少付出；个体2知道个体1会减少付出，所以个体2也会减少付出。依次类推，最后形成剪刀效应。