博弈逻辑中理性人假设的困境与思考

合集下载

博弈论中理性人假设的困境

博弈论中理性人假设的困境“博弈参与人是理性的”是博弈论的公设，然而理性人假定存在许多博弈困境。

囚徒困境与公共地悲剧反映的是个体理性与集体理性之间的冲突；纽科母难题(Newcomb problem)体现了理性人使胜占优策略原则与最大期望效用原则时的两难；最后通牒博弈与蜈蚣博弈则表现了理性参与人选择过程是理性的而结果是非理性的，其中蜈蚣博弈悖论又称为逆向归纳法悖论；而投票悖论则反映了群体建立加总群体偏好的理性规则的限度。

在博弈论中，博弈论专家不仅假定了博弈参与人(player)是理性的(rational)，而且假定了“所有参与人是理性人”是博弈参与人之间的公共知识(common knowledge)——公共知识简单说来就是“我们知道”的事实。

理性人在博弈论中是指具有推理、决策能力并通过选择策略使自己的得益或支付(pay-off)最大的人。

然而，理性的参与人在某些博弈中并不能使自己的得益最大，在另外一些博弈中理性反而成为获得最大得益的障碍，在某些情况下理性人面临难以做出决策的二难，即：“理性人”面临着困境。

一、个体理性与集体理性的冲突一个熟知的博弈困境是囚徒博弈。

囚徒困境(Prisoners'dilemma)是这样一个博弈：两个囚徒被警察抓住后单独关押，警察给他们的政策是“坦白从宽，抗拒从严”。

每个囚徒均面临着两个策略选择“招认”和“不招认”。

如果一方“招认”，另外一方“不招认”，招认方无罪释放，不招认方将被重判（比如10年）；如果双方均“招认”，因无立功表现，每人均被判刑（如5年），而如果每人均“不招认”，警察抓不到足够的证据证明以前的犯罪，只能对他们目前所犯的罪进行惩戒（如判刑半年）。

这个博弈中，两个囚徒均会选择“招认”，因为无论对方选择什么策略，自己选择“招认”是占优策略(dominant strategy)。

双方均选择“招认”的策略组合点是纳什均衡(Nash Equilibrium)点。

浅析“囚徒困境”模型中的“理性”假设

浅析“囚徒困境”模型中的“理性”假设“囚徒困境”博弈模型中个体理性和集体理性的冲突对经济学的基本假设——“理性经济人”造成了严重挑战。

认为“囚徒困境”中之所以出现表面的理性冲突是因为囚徒并非真正理性，之后笔者试着给出了两种可以化解这种冲突的方案：一种是改变博弈的理性选择方式，一种是集体理性工具说或集体利益幻象说，这一过程构成笔者对“理性经济人”假设的反思。

标签：“理性经济人”假设；囚徒困境；个体理性；集体理性引言“理性经济人”假设是西方经济学理论分析的逻辑起点，它为构建精致庞大的经济学理论体系奠定了一个公理化的起点。

在以此为前提取得了丰硕的理论研究成果的同时，它也遭到了众多批判和质疑。

1950年普林斯顿大学的塔克（Tucker）教授提出的“囚徒困境”博弈模型是对这一假设的有力冲击。

在这一模型里，每个囚徒都是“理性的”，而且他们也都知道对方是“理性的”，每个囚徒都选择了对自己而言是理性的“占优策略”，而结果对每个人而言却都是次劣的，对集体而言则是最劣的[1]，这不符合“理性经济人”假设的逻辑结果，即个体理性的利益最大化行为的自然结果即是集体利益的最大化。

这促使笔者思考，或者是研究者们在这一模型里对“理性经济人”假设的理解有偏差，或者是这一假设本身即有暗伤存在，囚徒博弈只是帮助我们发现了这一点；或者是这一假设根本不适用于分析该模型中囚徒的策略选择行为，这一点显然是试图逐渐扩张到解释预测一切人类行为的帝国主义经济学所不愿意承认的。

而笔者深信，每个囚徒可以选择的“沉默”（合作）与“坦白”（背叛）两种策略不可能都是不理性的，至少有一个策略是相对最为理性的；同样，仅有可能出现的四种结果（最优，次优，次劣，最劣）也不可能对于每个囚徒而言都是不理性的，至少有一个结果是相对最为理性的[2]，在模型中如何使理性的策略与理性的结果统一起来，即实现手段理性与目标理性的统一，这是理性的任务。

一、“囚徒困境”及其出现的原因分析“囚徒困境”博弈模型最初由普林斯顿大学的塔克教授提出。

从博弈论中看理性经济人

从博弈论中看理性经济人
所谓理性经济人是指按照自身利益最大化的原则,能够对自己的行为做出正确选择的、自私自利的人。

囚徒困境——双输的博弈，为什么呢？因为人是都是自私的，人总是追求自己利益最大化的。

理性的经济人假设，是经济学上的一个重要的假设，在理性经济人的假设下，囚徒困境模型的纳什均衡表明人们追求的是个人利益的最大化。

我们都熟知的囚徒困境是博弈论里最有名的范例，它最早由美国普林斯顿大学的数学家曾克于1950后提出的。

警方抓捕甲乙两名案犯，隔离审讯，若两人都不坦白，由于证据不足，两人均只能判2年；若一人坦白，另一人不坦白，则坦白者判1年，不坦白者判8年；若两人均坦白，则各判5年。

结果很显然是两人都坦白，各判了5年。

在这个故事当中，甲乙两人均从自身利益最大化考虑，选择了坦白，但我们从结果看，最好的策略是双方都选择不坦白，那样两人都只判1年。

在信息不对称的信息下，每一个人都是从利已的目的出发，每一方在选择时都选择对自己最有利的方案，而不考虑任何其他对手利益，但这样的选择得出的结果却又刚好适得其反。

这场博弈的纳什均衡，以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑2年，总体利益更高。

但根据以上假设，二人均为理性的个人，且只追求自己个人利益的最大化。

均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作高，总体利益较合作低。

而在现实生活中，由于信息是不完全的，同一个企业内部不同职位之间的收入是相对保密的，在不知道其他人收入的前提条件下，对于雇佣者给出的薪水，大部分人选择接受，这就造成了不同职位之间收入差距的拉大，而随着社会财富的增加，雇佣者给出的分配比例也会拉大，从而使社会贫富差距进一步拉大。

从博弈论角度看关于人性的假设

从博弈论角度看关于人性的假设作者：贾素苇来源：《时代金融》2013年第30期【摘要】理性的经济人假设，是经济学上的一个重要的假设，在理性经济人的假设下，囚徒困境模型的纳什均衡表明人们追求的是个人利益的最大化。

由此，实验结果表明当分配总额增加时，处于对利益最大化的考虑，人们总会选择使自己利益最大化的方案，这也是随着社会财富增加，收入差距拉大的一个原因。

【关键词】囚徒困境纳什均衡人性假设贫富差距关于人性的假设，经济学上最经典的就是理性经济人假设。

“经济人”的假设起源于享乐主义的哲学观点和亚当斯密关于劳动交换的经济理论，认为人的行为在于追求本身的最大利益，工作的动机是为获得劳动报酬。

而理性的经济人假设是经济学最根本的假设。

关于理性经纪人的假设，我们有一个很好的模型加以阐述，就是著名的囚徒困境模型。

经典的囚徒困境模型表述是这样的：警方逮捕甲、乙两名嫌疑犯，对两名疑犯隔离审讯。

表1 经典囚徒困境模型甲沉默（合作）甲认罪（背叛）乙沉默（合作）二人同服刑半年甲即时获释；乙服刑10年乙认罪（背叛）甲服刑10年；乙即时获释二人同服刑2年囚徒困境假定每个参与者都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。

在没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛，背叛是两种策略之中的支配性策略。

因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。

这场博弈的纳什均衡，以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高。

但根据以上假设，二人均为理性的个人，且只追求自己个人利益。

均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作高，总体利益较合作低。

我们由此引申，在理性经济人假设的前提下，在课堂上做如下实验：一笔资金，两人一组，一人给出分配比例，另一人表决接受或拒绝，若接受，二人按比例分配这笔钱；若拒绝，两人均一无所有。

对“理性人”假设的思考

对“理性⼈”假设的思考西⽅经济学的理论体系之所以能够成⽴的前提假设之⼀就是：从事经济活动的所有⼈均为试图以最⼩的代价，来换取最⼤利益的⼈。

这就是西⽅经济学理论中所谓的“理性⼈”假设。

这个假设是整个西⽅经济学理论的其中⼀个⼤前提，离开了这个假设条件，西⽅经济学的理论是不成⽴的。

但是仔细考虑之后，现在来看这个假设似乎有两个问题：⼀是，这个假设所谓的“最⼩的代价”和“最⼤的利益”两个概念似乎是⼀种主观上的概念。

那么到底什么叫做“最⼩的代价”，什么⼜算是“最⼤的利益”呢？这个问题值得讨论。

⼆是，这个假设所谓的“理性⼈”和⼈们通常所说的“社会⼈”⼜有什么关系呢。

这就是本⽂要讨论的两个问题。

另外，在整篇⽂章的讨论中，西⽅经济学的另⼀个前提假设即“完全信息假设”依然是成⽴的。

在开始讨论之前⾸先要弄清楚两个问题：⼀是“以最⼩的代价换取最⼤的利益”这是理性还是本能？这个问题可以很明确的回答是理性。

其实理性和本能之间没有⼀个很明晰的界限，也就是说有很多事情是处在理性和本能之间的调和区域。

但就这个问题的话，答案是很明确的——就是理性。

当⼀个⼈在去考虑什么才是最⼩的代价的时候，他先前就应该知道了什么是损失。

从⼀个⼈的私⼼⾓度来说，既然说是损失，那么这个⼈就知道代价对⾃⼰来说是不好的，所以他才会尽可能的把这种损失降低到最⼩。

同样的道理，当⼀个⼈在考虑什么是最⼤的收益的时候，他先前就应该知道什么是收获。

因为他知道收获是“好东西”，所以他需要想⽅设法使⾃⼰得到最⼤的收获。

本能最⼤的⼀个特点就是“⼀⽣下来就会”或者说是“从娘胎⾥带出来的”。

那么⼀个⼈从⼀⽣下来就知道什么是损失，什么是收获吗？这个显然是不可能的。

另⼀个问题就是：理性的标志是什么？理性的标志就是逻辑。

理智和理性的区别就在于，理智体现的是⼀种⼈内⼼的控制⼒，⽽理性则体现的是⼈的⼀种思维逻辑。

当⼀个⼈在考虑怎么以最⼩的投⼊换取最⼤的回报的时候，他必须要通盘考虑各种因素，这本⾝就是⼀种逻辑思维的过程。

博弈论实验报告

实验名称:最后通牒博弈实验目的:通过参与博弈实验进一步认识经济学关于“理性人”假设和竞争的关系，发现经济学中理性人假设、效用函数理论等存在的缺陷和不足之处，加深对竞争及经济人假设等经济思想的认知，检验社会偏好对博弈均衡的影响。

实验准备:在本实验中需要实验者收益记录表、实验者数据汇总表、实验数据统计总表等实验表格若干份。

实验内容:从参加实验的人当中，随机地选出两个人，配对进行博弈。

随机地指定A组一个人先行动，即A有权先选择行动策略，然后B再回应。

这个博弈中,A和B两人共同分配100元，这个100元是无条件地送给两人,但条件是他们必须对分配方案达成一致。

由A提出分配方案，比如说A占百分之60,B占百分之40。

这样的一个方案，B可以接受，也可以不接受,当B 接受了以后,实验者就把这100元按A的方案分配给他们两个人(模拟,最后据得益计算实验成绩，得益高者成绩也高):如果B不接受A提出的方案，AB两个就都什么也得不到。

所以,这里面有一个博弈的过程,因为B可以否决，如果觉得自己分得的太少了，不公平，可以否决A的方案，但否决的结果是自己也什么也得不到。

就是说B惩罚了A,自己也付出了成本，失去了本来可以得到的部分,最后双方都是0了。

实验过程：1.实验人员的选择和分组(1)实验人员的选择。

采用随机数或抽奖软件随机抽取若干名同学作为实验参与者，选取2名同学作为实验工作人员，负责发放相关表格和统计数据。

(2)分组。

将选定的实验参与者分成A、B两组,A组实验者为提议者，其编号为A1,A2,A3,...;B组实验者为响应者，其编号为B1，B2，B3，...(3)座位调整。

为了避免个人关系等因素的干扰，在实验过程中不能让两组实验参与者坐在一起，应让他们隔离相向坐于教室的左右两端。

2.发放实验材料向A组实验者发放写好编号的实验卡片，向所有实验参与者发放实验收益记录表。

向A组每位实验者发放100元虚拟货币。

3.宣读展示实验说明(1)每一位实验参与者都应收益的最大化为目标。

博弈论理性的困境(共25张精选PPT)

这个博弈反映的是，“人是理性的”这样的假定在某些时候存为B接受了还有所得，而不接受将一无所获——当然此时A也将一无所获。
付银的一方硬说自己的银子成色欠佳，分量不足，而收银的一方则嫌成色超标，戥头又过高。途中经过了许多国家，见识了许多奇风异俗。
在着与实际不符的情况。
理性的困境
分钱博弈
A和B提议怎样分割100元。如果B接受，这100元就按提议分割，博弈结束。如果B不同意，那么A必须决定是否再给出另一个分割提议。随后A的每个提议都一定对B更有利。直到B同意提议或A不再给出提议时，博弈结束。你认为这个博弈结果会怎么样？
理性的困境
经济学建立在两个假设前提上：
(1)人是自私的，都在追求利益的最大化； (2)人是理性的，其所有行为都是为了实现追求利益最大化这个目的。
换言之,人不但知道自己的利益何在，而且知道该如何去追求。他可以“损人利己”，也可能“利人利己”，但并不会去 “损己利人”、“损人损己”和“损人不利己”。
人是否聪明到了知道自己利益所在，
无私的困境
李汝珍《镜花缘》里“君子国”的故事，十分耐人寻味：
一个叫唐敖的人，由于宦途受挫，跟随他的妻弟林之洋到海外去游历。途中经过了许多国家，见识了许多奇风异俗。他们经过的第一个国家就是“君子国”。
无私的困境
君子国里的人，个个都以自己吃亏让人得利为乐事。小说第十一回描写了君子国里一名隶卒购物的场景：
麦琪的礼物
话说明天就是圣诞节了，小两口都是身无余钱。为了让爱人过得好一点，每个人还是想悄悄儿准备一份礼物给对方。GG卖掉了心爱的怀表，买了一套漂亮发卡，去配MM那一头金色长发。MM 剪掉心爱的长发，拿去卖钱，为GG的怀表买了表链和表袋。
最后，到了交换礼物的时刻，他们无可奈何地发现，自己如此珍视的东西，对方已作为礼物的代价而出卖了。花了惨痛代价换回的东西，竟成了无用之物。出于无私爱心的利他主义行为，结果却

博弈论中的理性问题分析

关键词：博弈论；理性人；均衡；有限理性；进化博弈论中图分类号：Ｂ８１５．９文献标识码：Ａ文章编号：１０００—５４５５（２００９）０１—００４９—０４
博弈论是２０世纪８０年代以来经济学中发展最为迅速、影响最为深刻的分支学科。它是以经济个体决策和行为之间的相互作用和相互影响作为研究的对象和主要出发点，用约翰．Ｃ．豪尔绍尼的话说，博弈论是关于理性主体间策略互动的理论，就是说，它是关于社会形势中理性行为的理论。∞目前，博弈论在理论方面还存在一些不足，其中最大的、最严重的问题是它的理性基础，也就是它对博弈主体理性和行为能力基本假设方面的问题。
预期的合意得多。也可能正好相反。西蒙认为，这
种预期和实际差异的原因，在于我们的大脑并非
在某一时间就掌握了所有的结果，而是随着对结
果偏好的转移，注意力也会从某一价值要素转向
了另一种价值要素。因此，就算我们相当完整地
描述了抉择的结果，这种预期所带来的情感波动
也几乎不如真实体验所带来的情感波动效果明
显。所以，要完整地预期价值是不可能的。
局部的了解，从而对其中蕴含的规律和规则也只
能有一个粗浅的管见。做到明察秋毫、全知全能，不过是理想化的谎言。也就是说，人们力争理性
而又被束缚在其知识的限度之内。
．
（２）对行为结果不确定性预见的困难。完全
理性要求行为主体始终具有完整一致的价值偏好
体系，只有这样，真实体验才能与预期始终保持一
致。然而，从经验上就可以知道，真实体验可能比
＼尹＼＼ｚ
坦白
抵赖坦白Biblioteka －５．一５一１０，０抵赖
０。一１０ —１，一１
这个博弈中，两个囚徒的目标都是追求自身利益最大化。如果对方坦白，自己抵赖将坐１０年牢，而坦白的话只要坐５年牢，坦白比抵赖有利；如果对方抵赖，自己也抵赖将坐１年牢，而自己坦白的话，则能无罪释放，还是坦白比抵赖有利。可见，不管对方采取什么策略，自己坦白总是比较有利，所以必然的选择是“坦白”。同样的道理，对方也肯定选择“坦白”。因此，双方均选择“坦白” 的策略（这一策略组合点称为纳什均衡点）。如果从集体理性的角度出发，两个囚犯都选择“抵赖”策略，结果是最理想的状态。但这个状态是达不到的，因为每个理性的囚徒均会主动偏离这个状态。订立攻守同盟也没有用，因为没有人有积极性遵守协定。一个稳定的状态是双方均选择 “坦白”。两个囚徒决策时都以自己的最大利益为目标，结果却无法实现最大利益甚至较大利益，这是理性的囚徒难以摆脱的困境。它反映了个体的理性行为产生集体的不合理性的行为，体现了个体理性与集体理性的冲突，各人追求利己行为而导致的最终结局是一个“纳什均衡”，也是对集体不利的结局。与此类似的还有公共地悲剧、价格战、军奋竞赛等等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2007年第9期(总第200期)学术论坛ACADE M I C　F ORUMNO.9,2007(Cu mulatively NO.200)博弈逻辑中理性人假设的困境与思考张　峰 [摘　要]博弈逻辑是近年来兴起的一个逻辑学的新分支。

理性人假设,即所有的参与人都是理性的,是博弈逻辑的基本假定,然而理性人假设在现实中遇到了挑战。

文章对理性人假设面临的困境,包括完全理性假设的困境、个体理性与集体理性的冲突等问题进行分析和评价,从而夯实博弈逻辑的理论基础。

[关键词]博弈逻辑;理性人假设;完全理性;个体理性;集体理性[作者简介]张峰,北京理工大学人文学院教师,哲学博士,北京　100081[中图分类号]B819 [文献标识码]A [文章编号]1004-4434(2007)09-0007-04 博弈逻辑(Ga me Logic)是近年来兴起的一个逻辑学的新分支,是博弈论和逻辑学相交叉的研究领域,属于应用逻辑范畴。

博弈逻辑研究理性的主体互动行动中的推理过程,即研究博弈中的推理问题。

博弈逻辑拓展了逻辑学研究的深度和广度。

理性人假设,即所有的参与人都是理性的,是博弈逻辑的基本假定。

理性人的本质是现实人或社会人。

有学者认为理性人就是使自己的效用最大化的人。

还有不少学者认为,理性人是指有一个很好定义的偏好,在面临给定的约束条件下最大化自己的偏好,就是人们在行为时,不仅要优先考虑自己的需要,而且要兼顾他人的需要和其他给定的约束条件。

在博弈逻辑中理性人是指具有推理、决策能力并通过选择策略使自己的得益或支付(Pay2 off)最大的人。

但是,理性人假设受到了现实的挑战。

在理性人假设的前提下,不仅要求博弈方掌握完全的信息,而且对博弈方的理性提出很高的要求,包括知识水平、计算能力、理解能力、预测能力、相互信任和不会犯错误等各种方面的能力。

然而,要求普通的决策者都具有这样的知识水平和理性能力常常是不切合实际的。

现实中的决策者所面临的决策环境远比研究者讨论的、经过高度抽象简化的博弈环境要复杂得多。

在理论上,理性之间也往往存在冲突,如个体理性与集体理性的矛盾。

理性人假设存在着问题,博弈逻辑又是建立在此基础之上,那么是否博弈逻辑的理性基础隐藏着理论隐患,已经出现了“基础松动”的可能?博弈逻辑的理论大厦是否能够坚实、稳固?这是一个值得深思的问题。

一、完全理性假设的困境在博弈逻辑中,参与人在博弈中如何行动、选择自己的策略,都是经过一番推理后采取的,博弈推理必须要有前提条件。

为此,博弈逻辑给出了“理性人”的假设前提。

在博弈逻辑中,不仅假定了博弈参与人是理性的,而且假定了“所有参与人是理性人”是博弈参与人之间的公共知识,就行为人对现实世界的认识能力而言,这是一条非常严格的假设。

很显然,现实世界这种假设通常是得不到保证的,这正是博弈逻辑所遇到的一个困惑。

博弈逻辑研究的主要问题就是人们在互动行为中的推理问题,就是在人们的利益和行为有直接的相互影响和作用的情况下个体的理性选择与行为。

因此,它不仅要求个体具有始终追求自身利益最大化的理性意识和理性能力的“自我”个体理性,还要求相关的参与者具有层次较高的“交互理性”,要求不同个体之间在理性和行为方面具有一种“默契”。

因为,如果人们的自身利益的最大化不仅取决于自己的选择,还取决于与之相关的其他人的选择与行为,那么为了实现自己的最大利益,个体的理性决策就必须考虑他人的理性选择与行为。

作[基金项目]本文是作者主持的国家社会科学基金青年项目(07CZX018)《博弈逻辑研究》的成果之一。

7为博弈逻辑的基础,交互理性是其基本的理性要求。

这样,在博弈逻辑中,“理性”就不再仅仅是一个个人主义的概念了。

当相关决策者之间的理性层次存在明显差异,或者决策者之间缺乏足够的了解或者相互信任的情况下,要求博弈参与者满足交互理性的要求显然是比较困难的。

在博弈逻辑的研究中,在理性基础方面采用的是一种“完全理性”的假设。

交互理性、理性的共同知识及其所要求的参与者的相互信任等因素是建立在所有博弈参与者都有“完全理性”或“充分理性”的基础之上的。

完全理性不仅要求行为主体始终以自身最大利益为目标,具有在确定和非确定性环境中追求自身利益最大化的判断和决策能力,还要求他们在存在交互作用的博弈环境中具有完美的判断和预测能力;不仅要求人们自身有完美的理性,还要求人们相互信任对方的理性,有理性的公共知识。

这种完全理性假设的现实性明显是有问题的,因为它不仅意味着博弈方绝对不会犯错误,决不会冲动和不理智,即使在复杂的多层次交互推理中也不会糊涂,不会相互对对方的理性、能力、信任和对信任的信任等有任何怀疑和动摇。

但是,在现实中,个人总是受有限理性的制约,如每个人的智能与知识、所掌握的信息都是有限的,很可能并不了解自身利益最大化的目标值究竟是多少,也很可能并不了解实现目标值的最佳策略是什么,在决策时还难免受各种因素影响。

现实中的博弈者往往是有限理性的,人们很少能够一贯地按完全理性原则行动;此外人们在生活中经常受信息不对称、风险偏好不同以及情感、心理、宗教、价值观、道德等因素的影响和制约,而不去追求“合理的”目标,或者目标合适时却无能力选择最佳的策略。

不仅个人的策略选择经常会犯错误,集体决策同样也经常会犯错误。

人类社会频繁发生各种战争冲突、企业选择领导人的盲目性和低效率等,都是人类集体选择决策理性不完全的证据。

因此在博弈分析中,人们理性方面的局限性事实上是无法回避的。

如果不承认这个事实,坚持只是在缺乏现实性基础的完全理性假设下进行博弈分析,不讨论人们的理性局限对博弈分析的影响,博弈逻辑的发展就会不可避免地遇到各种严重的矛盾和困难,就无法对各种社会关系和现象作出科学的分析解释和预测,就会造成理论分析与博弈现实的严重落差,这当然对博弈逻辑的发展是很不利的。

为使理论免受假设非现实性的“伤害”,必须“夯实”博弈逻辑的理性基础。

加强博弈逻辑的现实性基础的根本方法就是以有限理性的博弈方作为博弈分析的基础,引进学习和进化机制作为“补救措施”,研究博弈行为中的推理问题。

“有限理性”(Bounded Rati onality)假说最早由赫伯特・西蒙提出,他认为人的认识是“意欲合理,但只能有限地做到”,主要表达为一个剩余范畴———理性在不能无所不知的前提下将是有限的①。

西蒙认为有限理性可能是由于人类自身神经、生理、语言等方面的限制,信息的不完全性,或者是人类所处环境的复杂性和不确定性。

因此,有限理性条件下的人类行为特征是:(1)经常调整行为目标。

由于行为环境不确定、人们知识和理性能力的增进或价值观念的变化,人们行为的目标会随之改变。

(2)经常性调整实现目标的行为。

随着客观环境的变化与人们认知能力的提高,人们会加深对周围环境的认识,在此基础上,人们会调整实现目标的行为,以便更好地实现目标。

(3)在决策中采用“满意原则”或“次优原则”。

有理性局限的行为主体(博弈过程中的博弈方)称为“有限理性”的博弈方。

有限理性首先意味着博弈方往往不能或不会采用完全理性条件下的最优策略,意味着博弈方之间的策略均衡往往是学习调整的结果而不是一次性选择的结果,而且即使达到了均衡也可能再次偏离。

有限理性理论放宽了参与人理性能力的要求,比较符合实际情况。

这样,博弈逻辑就通过不断学习进步的行为主体的设定修正了完全理性人假设,强调非理性的行为主体是在不断学习过程中逐步达到理性的。

也就是说,在博弈逻辑的研究中,承认个体的非理性行为在现实中是客观存在的,并不否认理性人“偶尔”也会犯错误,理性人的理性选择之手也会“颤抖”。

当然,要求博弈参与者有根据对过去时间的观察和资料积累,进行准确的判断分析并准确地调整策略的能力,也并非人人都能具备。

有限理性有多种情况和层次。

有些博弈方理性程度较高,有些则非常低,有些学习速度很快,有些则很慢。

不同理性层次和学习速度的博弈方学习博弈和调整策略的方式和速度显然会有差异,“学习”和“进化”机制的引进使得博弈论对人的理性要求在一定程度上有所放松。

8①(美)赫伯特. A.西蒙著,杨砾、徐立译.现代决策理论的基石———有限理性说.北京经济学院出版社,1989年,第3-4页。

这样,从理性要求最高的,要求所有博弈参与者都具有通过内省和推理式的纳什均衡分析,一次性同时选择同一纳什均衡的策略,从而实现纳什均衡的“充分理性”;到理性要求相对较低,允许博弈参与者“犯错误”,可以多次选择和改正错误,但必须有“认识错误和改正错误”能力的、通过“学习”和“进化”逐步实现纳什均衡的“有限理性”;博弈逻辑的理性基础便通过理性人概念的弱化而得到了加固。

二、个体理性与集体理性的冲突在社会生活中,理性人追求个体利益最大化必然导致人们相互之间的矛盾与冲突,个体的理性行为往往会产生集体的不合理性行为,出现个体理性与集体理性的冲突。

以“囚徒困境”为例。

有甲、乙两个共同偷窃的小偷被警察抓起来了,为了防止他俩串供或结成攻守同盟,将其分别关押在不同的房间。

囚徒面临这样的“政策”:如果一方“坦白”,供出自己与对方以前所做违法之事,而对方“不坦白”,“坦白”方将无罪释放,对方会被判重刑8年;如果双方都坦白则各被判刑5年;而如果双方均“不坦白”,因警察找不到其他证明他们以前违法的证据,只能对他们的偷窃行为进行惩戒,各判刑1年。

在这个博弈中,每个小偷都有两种可选择的策略:坦白或不坦白。

显然,不管对方选择什么策略,每个小偷的最优策略都是“坦白”。

比如说,如果乙选择坦白,甲选择坦白时被判刑5年,选择不坦白时被判刑8年,因而坦白比抵赖好;如果乙选择不坦白,甲坦白时无罪释放,不坦白时的被判刑1年,因而坦白还是比不坦白好。

就是说,“坦白”是囚徒甲的最优策略。

类似地,“坦白”也是囚徒乙的最优策略。

双方均选择“坦白”的策略组合是纳什均衡①。

“囚徒困境”告诉我们,个体理性和集体理性之间存在矛盾。

两个囚徒决策时都以自己的最大利益为目标,结果是无法实现最大利益甚至较大利益,这是理性的囚徒难以摆脱的困境。

与此类似的是公共地悲剧(Tragedy of Com2 mons)。

1968年英国科学家哈丁(G.Hardin)在美国著名的《科学》杂志上发表了《公用地的悲剧》一文,此文描述了理性地追求最大化利益的个体行为是如何导致公共利益受损的恶果。

哈丁设想古老的英国村庄有一片牧民可以自由放牧的公共用地,每个牧民直接利益大小取决于其放牧的牲畜数量,一旦牧民的放牧数超过草地的承受能力,过度放牧就会导致草地逐渐耗尽,而牲畜因不能得到足够的食物就只能挤少量的奶,倘若更多的牲畜加入到拥挤的草地上,结果便是草地毁坏,牧民无法从放牧中得到更高收益,这时便发生了“公用地悲剧”。

这是一种集体行动的悲剧。

哈定说,人口问题,污染问题以及军备竞赛问题,均具有与此相同的结构。