毕业设计_博弈论课程论文

提供全套毕业论文，欢迎咨询

博弈论课程论文

题目博弈论概述

学院(部) 材料科学与工程

专业班级

学生姓名

学号

2014 年 12 月 18 日

武汉理工大学 WUHAN UNIVERSITY OF TECHNOLOGY

本文对博弈论的发展进行了综述。首先介绍了博弈论的基本概念及发展概况,历史阶段及主要成果。介绍了纳什均衡:围绕经典博弈“囚徒困境”求出其纳什均衡。实例表明博弈论中的策略思维是如何影响人们的行为的 ,又是如何使得博弈达到均衡的；列出一些具体实例，分析其博弈过程；围绕策略思维的批判也不断完善着博弈论自身的分析范式 ,最后,就博弈论的应用前景,结合我国经济体制改革和市场经济建设,探讨了其可应用的领域。

关键词：博弈论策略思维纳什均衡

博弈论作为数学的一个重要分支与数学的许多领域有作重要关系,例如概率论、图论、泛函分析等都与之有着深刻的联系。其中利用Kakutani 不动点定理证明纳什均衡的存在性是泛函分析在博弈论中应用最为成功的应用。同时博弈论与其它学科,特别是经济理论有着密切关联,说它是现代经济理论的最主要组成部分恰如其分。本章将围绕四种类型博弈的均衡理论介绍博弈论发展简况。

世界充满矛盾,博弈论主要研究对象是带有对抗性质的模型,其产生有极其深刻的思想根源,内容十分丰富,是人类文明的产物,也推动、加速着人类文明的进程,在社会活动中一部分人因共同利益而结盟以对抗另一部分人,这类对抗、竞争、冲突、联盟、合作、谈判现象称为“对策现象”,从而“博弈论”亦称“对策论”。

1、博弈论的基本概念

1.1博弈的概念

在给定游戏的特定规则(信息结构)下,游戏参与人要想赢得游戏就必须对其他参与人的心理和可能采取的行动进行反复揣摩 ,并据此决定和调整自己的行为 ,这就是制定策略或对策的过程。

我们常用G 表示一个博弈:如G 有n 个局中人,每个局中人的全部可选策略的集合称为“策略空间”,分别用:1S ,2S n S 、、、,表示;ij i S S ,表示局中人的第i 个策略,其中j 可取值有限(有限策略

博弈),也可取值无限(无限策略博弈);局中人i 的收益(支付)则用i u 表示,i u 是各局中人策略的多元函数,n 个局中人的博弈G 常表示为

{}11;n n G S S u u =、、、、、、。

1.2博弈要素

(1)局中人：在一场竞赛或博弈中，每一个有决策权的参与者成

为一个局中人。只有两个局中人的博弈现象称为“两人博弈”，而多于两个局中人的博弈称为“多人博弈”。（2)策略：一局博弈中，每个局中人都有选择实际可行的完整的行动方案，即方案不是某阶段的行动方案，而是指导整个行动的一个方案。（3)得失：一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时的得失，不仅与该局中人自身所选择的策略有关，而且与全局中人所取定的一组策略有关。(4)对于博弈参与者来说，存在着博弈结果。(5)博弈涉及到均衡。均衡是平衡的意思，所谓纳什均衡，它是一稳定的博弈结果。

1.2博弈的类型

合作博弈：研究人们达成合作时如何分配合作得到的收益，即收益分配问题。

非合作博弈：研究人们在利益相互影响的局势中如何选决策使自

己的收益最大，即策略选择问题。

完全信息不完全信息博弈：参与者对所有参与者的策略空间及策

略组合下的支付有充了解称为完全信息；反之，则称为不完全信息。

静态博弈：指参与者同时采取行动，或者尽管有先后顺序，但后

行动者不知道先行动者的策略。

动态博弈：指双方的的行动有先后顺序并且后行动者可以知道先

行动者的策略。

以上是我们常用的分类，总的来说博弈有很多种类型,我们可按不

同的标志从不同的角度来进行分类。具体有:

单人博弈二人博弈

多人博弈

有限博弈

无限博弈完全理性博弈

有限理性博弈当然,以上分类相互之间都是交叉的,都是从博弈结构某方面特征来进行描述的,并不存在严格的层次关系,但我们可以从各种分类对博弈分析影响程度大小排出大致的次序。首先分为非合作博弈与合作博弈,非合作型又分为完全理性与有限理性两种;其次,分为静态、动态与重复型;第三层次根据信息是否完全、完美,可以分为:完全信息静态型、完全且完美信息动态型、完全但不完美信息动态型、不完全信息静态型、不完全信息动态型。上述各类博弈还可分为零和、非零和。当然,

?????局中人的数目 ????? 局中人收益函数零和博弈一般和博弈变和博弈 ???

局中人策略数量局中人行为逻辑 ??? 合作博弈非合作博弈 ???

局中人理性程度博弈表现形式 ??? 展开型策略型（正规型）博弈过程 ?

????

静态博弈动态博弈重复博弈信息结构 ??????? 完全信息博弈

不完全信息博弈完美信息动态博弈不完美信息动态博弈

上述分类有很大的主观性,随着博弈问题的深入研究,理论的不断发展,其分类方法也是完全可以发展变化的。

1.3发展概况

博弈论思想最早源于中国古代,早在2000多年前的春秋时期《孙子兵法》中的军事理论与治国策略,就蕴含了丰富深刻的对策思想。广义上,博弈论可看作是研究各种矛盾向统一和协调转化过程中的条件、方式、结果等问题的一门颇具数量分析特色的理论。

博弈论真正成为数学的一个分支,始于1944年。其奠基性经典著作

《》第一次给博弈论以明确的数学Theory of Games and Economic Behavior

描述:而博弈现象最早用数学方法来研究的则是数学家.E Zermelo,始于国际象棋,体现于其论文《集合论在象棋对策中的应用》(1912)。其后法国数学家Borel讨论引入了“最优策略”,并证明了其普遍存在性,

并预测了一些结论。1928年德国数学家Von Neumann证明了这些结论。这是博弈论成为数学分支以前的大致情况。

从1944年至今,博弈论在理论和应用方面都有长足发展,日臻完善。理论方面,经历了从零和二人博弈发展到非零和n人对策。近10多年来特别在n人合作对策方面的研究进展很快。应用方面,涉及军事、政治、经济学、社会学、心理学等众多方面。特别是近年来在经济学方面得到了重要应用,包括:市场竞争、经营决策、企业管理、寡头市场、费用分摊等;在军事方面,如兵力分配、战前冲突前景分析、空战模型等均涉及博弈论问题;在政治方面,如竞选、政治谈判、联合、

选举等也均与博弈论有关。

以博弈论学科体系的一些主要标志和特征为依据,我们可以把博

弈论发展历史分为以下四个阶段:

第一阶段:萌芽期。20世纪30年代以前,人们关于利益冲突方面的研究是分散的、初步的、零星的,有很大程度的随意性;但博弈论的萌芽就孕育于其中。如我国2000多年前的《孙子兵法》;田忌赛马;1500年前的巴比伦犹太法典中的“婚姻合同问题”等;19世纪30年代古诺的两寡头垄断竞争研究;齐默多与波雷尔的象棋对弈;斯坦克尔伯格的不完全竞争研究:1928年冯诺依曼的合作对策研究中的特征函数法等。

第二阶段:创立期。1944年的

《》发表,创立了对策论的科学体系Theory of Games and Economic Behavior

被视为博弈论的真正起点。该著作概括了经济主体的典型行为特征,引进了对策论的展开型、正规型即策略型、矩阵型表示,定义了极小极大解,并说明了这种解对所有二人零和对策都存在,提出了稳定集解的概念及分析方法。该书在总结以往博弈论研究成果的基础上,给出了博弈论研究的一般框架、概念术语和表述方法,创立了较系统的博弈理论。

第三阶段:发展期。该阶段从20世纪40年代末到20世纪70年代末,也是博弈论发展极为重要的阶段。尽管该时期理论仍未成熟,理论体系还比较乱,概念与方法很不统一,且在经济学中的作用与影响比较有限;但该时期对博弈的研究却是进入了一个崭新、辉煌的时代。我们分为两个时段:

1.20世纪40年代末—50年代初,发展期中的少年时代。主要成就

有:纳什Nash 于1950年提出的非零和博弈、非合作博弈理论的奠基石—纳什均衡、纳什定理;Melvin Dresher 和MerillFlood (1950)在美国兰德公司进行的“囚徒困境”:..L S Shapley 和..D B Gillies 于1952一1953年提出的“核”(core)作为合作博弈的一般解:..L S Shapley 提出的“shapley 值”等。

2.20世纪的50年代中期—70年代末,发展期中的青年时代。该时

段产生了许多重要成果:如“微分博弈”、“强均衡”、“民间定理”、“焦点”等,其中最为重要的有:1965年Selten 提出了在局中人选择“相机选择”的博弈中,不是所有纳什均衡都是合理的,因为可能存在“空头威胁”问题,并提出用“子博弈完美纳什均衡”对纳什均衡作完美精练

的思想,以及1975年提出的“颤抖手均衡”概念。

Harsanyi 于1967-1968完成的具有极其重要地位的成为信息经济学奠基石的三篇论文,创建了不完全信息博弈理论,是个里程碑式的成果;以及其1973年提出的“混合策略”的不完全信息解释和“严格纳什均衡”。?“进化博弈论”的发展,“进化稳定策略”的引进,及Aumann 1976年的“共同知识”均为70后代中最重要的事件。

第四阶段:成熟期。20世纪80、90年代是博弈论走向成熟的时期。其发展已进入前所未有的辉煌时期,博弈论重构经济学大厦的趋势正逐步变为现实。在经济学中的应用领域越来越广泛,并正以主流经济学的面貌出现。该时期最重要的理论成果有:

Kohlberg 1981年引进的“顺推归纳法”:克瑞泼斯和威尔森1982年提出的“序列均衡”:斯密斯1982年出版的《进化与博弈论》;伯恩海

姆和皮尔斯1984年创立的“可理性化”;弗得伯格和泰勒尔提出的“完美贝叶斯均衡”等。

博弈论在该阶段受到经济学家真正广泛重视,并被视为重要的经

济理论和经济学的核心分析方法,开始贯穿于几乎整个微观经济学、产业组织理论,在环境、劳动、福利、国际经济学等学科中也开始占越来越重要的地位,大有“吞噬”西方经济学理论的气势和趋势。上述现象因为两次诺贝尔奖而进一步加强。1994年由于Nash 、Harsanyi 、Selten 致力于博弈论的基础理论研究,对非合作博弈理论的创立与发展作出巨大贡献,共同获得诺贝尔经济学奖。1996年,博弈论与信息经济学Mirrlees 和Vickrey 由于在不对称信息条件下激励机制问题方面的基础性研究而获得诺贝尔经济学奖。

2、Nash 均衡

2.1 Nash 均衡定义

在博弈{}11;n n G S S u u =、、、、、、。中,如由各局中人的各一个策略组成的某个策略组合()1,...,n S S **

中,任一局中人i 的策略劣,都是对其余局中人策略组合()111,..,..,i i n S S S S ****

-+的最佳策略,也即有()()111111,..,,..,,..,,..,i i i i n i i ij i n U S S S S S U S S S S S **********-+-+≥,对ij i S S ?∈又都成立,

则称()1,...,n S S *

*为G 的一个“纳什均衡”。

2.1 Nash 均衡点

定义：纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人零和博弈中，当局中人A 采取其最优策略a*，

局中人B也采取其最优策略b*，如果局中人仍采取b*，而局中人A却采取另一种策略a，那么局中人A 的支付不会超过他采取原来的策略a*的支付。这一结果对局中人B亦是如此。这样，“均衡偶”的明确定义为：一对策略a*(属于策略集A)和策略b*（属于策略集B）称之为均衡偶，对任一策略a(属于策略集A)和策略b（属于策略集B），总有：偶对（a，b*）≤偶对(a*，b*)≤偶对（a*，b）。对于非零和博弈也有如下定义：一对策略a*（属于策略集A）和策略b*（属于策略集B）称为非零和博弈的均衡偶，对任一策略a(属于策略集A）和策略b（属于策略集B），总有：对局中人A的偶对（a，b*）≤偶对(a*，b*)；对局中人B的偶对（a*，b）≤偶对(a*，b*)。有了上述定义，就立即得到纳什定理。定理：任何具有有限纯策略的二人博弈至少有一个均衡偶。这一均衡偶就称为纳什均衡点。纳什定理的严格证明要用到不动点理论，不动点理论是经济均衡研究的主要工具。纳什均衡点概念提供了一种非常重要的分析手段，使博弈论研究可以在一个博弈结构里寻找比较有意义的结果。但纳什均衡点定义只局限于任何局中人不想单方面变换策略，而忽视了其他局中人改变策略的可能性，因此，在很多情况下，纳什均衡点的结论缺乏说服力，研究者们形象地称之为“天真可爱的纳什均衡点”。

纳什博弈论的原理与应用：博弈论毕竟是数学，更确切地说是运筹学的一个分支，谈经论道自然少不了数学语言，外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题，所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗

和决策性质的问题中借用的术语，听上去有点玄奥，实际上却具有重要现实意义。常常深刻道理寓于游戏之中。

2.2 优超

对局中人i 而言,策略i S 被严格优超的策略是指,存在

()1,....,i i n S S S σ***∈使得对所有()1,....,i i n S S S S ***∈有

()()11,....,,....,i i n i i n U S S U S S S σ****≥

对经典博弈论中的囚徒困境(局中人的支付函数用策略型双矩阵表示,见图1),利用优超,通过迭代剔除被优超策略的方法,对局中人1而言,无论局中人2采取何种策略,采用“坦白”策略得到支付都大于采用“不坦白”策略,局中人2类似,从而该博弈的纳什均衡解为(“坦白”,“坦白”)。局中人在任何情况下从某种策略中得到的收益均大于从另一策略中得到的支付,对其而言,前一策略优于后一策略,这就是优超的意义。

该博弈反映了一个很深刻的问题,即个体理性与集体理性的矛盾。两局中人为了自己私利进行理性选择的结果是双方各坐8年牢。然而事实上,他们可以得到更好收益,即双方不坦白而仅各坐1年牢。但这（-8，-8）（0,-10）（-10,0）（-1，-1）坦白

不坦白局中人2 坦白不坦白局中人 1

图一囚徒困境博弈支付矩阵

个帕累托改进的机会将不会实现,因为这不满足个体理性要求,当然也就达不到帕累托最优。

3、常见实例中的博弈思想

3.1囚徒困境

考虑这样一种情形 ,小偷甲和乙联手作案 ,私入民宅被警方逮住 ,但未获证据。警方将两人分别置于两所房间分开审讯。

若一人招供但另一人不招,则招供者立即释放,不招供者判入狱10年 ; 若二人都招供则各判刑 8年 ;若两人都不招供则因未获证据但私入民宅而各拘留1年(见表 1)。试问甲和乙应该如何抉择自己的行为?理性行为人的想法是这样的:对甲来说,无论乙是选择“招”还是“不招”,选择“招”都会比选择“不招”

来得更好。因此 ,“不招”是相对于“招”的严格劣策略,所以 ,甲会选择“招”。同理,根据对称性,乙也会选择“招”,于是纳什均衡解便是甲乙两人都招供,各判 8年。这个例子表明 ,运用“剔除严格劣策略”的方法可以找到问题的均衡解。虽然甲乙两人都选择“不招”是集体最优的 ,但是这个结果不会出现,或者说,甲乙双方都存在偏离这一结果的激励 ,个体理性与集体理性之间存在着冲突。假设从两人都不招供出发 ,只要其中一人变卦,他就能谋取更多的利益。为此 ,即便甲乙两人都有不招供的约定在先,这样的约定也只能是“不可置信的承诺”而已,故而纳什均衡解具有内在稳定性。

表 1 囚徒困境博弈支付矩阵

招供不招供招供 - 8, - 8 0, - 10

不招供- 10, 0 - 1, - 1

下面我们让模型活动起来,也就是说,考虑甲乙两人刑满释放后重新作案,却又被警方逮住,重复上述过程,以此往复。这样的情形称为重复博弈,重复博弈的每次博弈称作阶段博弈。分析阶段博弈和分析一次性博弈的情形十分类似,理性行为人在行动前,依旧会根据各种方案收益与成本的比较,作出最优选择。但不可忽略的是,行为人过去的行为信息将作为共同知识影响行为人当下的决策。在囚徒困境的重复博弈中,有两种著名的策略,一种叫“冷酷”策略,另一种叫“针锋相对”策略所谓“冷酷”策略是指对于事先两人均不招供的攻守同盟,一旦有人招供 ,则对方在以后的任一阶段博弈中,都将选择招供,以示对对方违约的惩罚 ,对方也将丧失改正错误的机会 ;而“针锋相对”策略是指行为人在本阶段选择对方前一阶段的行为选择,相对于“冷酷”策略,“针锋相对”策略允许行为人存在违约的激励 ,因而它不会是精炼均衡。模型表明合作潜在地具有“囚徒困境”的逻辑结构,因而我们可借此分析日常生活中的许多合作与不合作现象。

3.2智猪博弈

假设猪圈中有一头大猪和一头小猪 ,在猪圈的一端设有一个按钮 ,每按一下 ,位于猪圈另一端的食槽中就会有10单位的猪食进槽 ,但按一下按钮会耗去相当于2单位猪食的成本。如果大猪按钮取食,

小猪在一旁等待 ,则大猪能吃到 9单位食物而小猪仅能吃到1单位食物 ;如果两猪同时按钮取食,则大猪吃7单位,小猪吃3单位食物 ;如果小猪按钮取食,大猪在一旁等待,则大猪吃6单位而小猪吃 4单位食物 (见表 3)。这个博弈没有“剔除劣策略均衡”,因为大猪没有劣策略。但是 ,小猪的劣策略是“按”,因为无论大猪作何选择 ,小猪选择“等待”是比选择“按”更好一些的策略。所以,小猪会剔除“按”,而选择“等待”;大猪知道小猪会选择“等待”,从而自己的最优选择是“按”, 所以纳什均衡解就是(按,等待 )。

表 3 智猪博弈支付矩阵

大猪

按等待

小猪

按5, 1 4, 4

等待9, - 1 0, 0

在现实经济生活中,有许多“智猪博弈”的例子,它反映的是一种参与人地位不对等的博弈结构,这种不对等可以是参与人拥有的信

息和支付函数,也可以是参与人所采取的策略和行动。比如在股票市场上 ,大户是大猪,他们进行技术分析 ,收集信息、预测股价走势 ,

而大量散户就是小猪 ,他们几乎不花成本去进行技术分析 ,而是跟