博弈思维逆向归纳法

合集下载

动态博弈中逆向归纳法求解问题

动态博弈中逆向归纳法是一种求解纳什均衡的方法。

在动态博弈中，博弈参与者的行为和策略是相互依存的，参与者需要考虑其他参与者的策略选择，从而做出自己的策略选择。

逆向归纳法的基本思想是从最后一个阶段开始，逆向推理，逐步确定每个参与者在每个阶段的最优策略选择。

具体来说，逆向归纳法的求解步骤如下：
1. 确定最后一个阶段的纳什均衡：在最后一个阶段，每个参与者的最优策略选择是与其他参与者的策略选择无关的。

因此，可以通过求解最后一个阶段的静态博弈来确定最后一个阶段的纳什均衡。

2. 逆向推导到前一个阶段：从最后一个阶段的纳什均衡出发，逆向推导到前一个阶段。

在前一个阶段，每个参与者的最优策略选择是与其他参与者在当前阶段的策略选择有关的。

因此，需要考虑其他参与者的策略选择，并利用逆向归纳法来确定每个参与者的最优策略选择。

3. 继续逆向推导到第一个阶段：重复上述步骤，直到推导到第一个阶段。

在第一个阶段，每个参与者的最优策略选择是与其他参与者的策略选择无关的。

4. 检查纳什均衡的稳定性：最后，需要检查所得到的纳什均衡是否稳定。

稳定的纳什均衡是指，如果某个参与者改变自己的策略选择，其他参与者的策略选择不会发生显著变化，从而使纳什均衡仍然成立。

需要注意的是，逆向归纳法的求解过程可能会非常复杂，特别是在动态博弈中。

因此，在实际应用中，需要根据具体情况选择适当的求解方法和工具。

从趣味推理题到逆向归纳法

从趣味推理题到逆向归纳法：喜欢博弈论的朋友必看网上看到这么一篇文章，上课老师讲的博弈论枯燥幼稚，唯独这篇文章又让我知道了什么是博弈，觉得很适合帮助理解完全信息动态博弈的基本思想（子博弈精炼纳什均衡和逆向归纳法），参考书上什么田忌赛马那些脑残例子贴切得多。

智慧的力量让人看到猛拍大腿，大叫一声“爽”五个海盗抢到了一百颗价值连城的宝石,他们决定先抽签决定自己的号码(1.2.3.4.5),第二步,由1号提出分配方案,然后五个人进行表决,当且仅当超过半数的人同意时,按照他的提案进行分配,否则他将被仍到大海喂鲨鱼,1号死后,再由2号提出分配方案,然后四人进行表决,当且仅当超过半数的人同意时,按照他的提案进行分配,否则也将扔进大海.....以此类推。

每个海盗都能很理智的判断得失,从而做出选择以最大化自己的利益,那么最后的分配结果如何?标准答案： 1号海盗分给3号1颗宝石，4号或5号海盗2颗，独得97颗。

分配方案为：97，0，1，2，0 或 97，0，1，0，2。

推理过程：从后向前推，如果1—3号海盗都喂了鲨鱼，只剩4号和5号的话，5号一定投反对票让4号喂鲨鱼，以独吞全部宝石。

所以，4号唯有支持3号才能保命。

3号知道这一点，就会提出（100，0，0）的分配方案，对4号、5号一毛不拔而将全部宝石占为己有。

因为他知道4号一无所有但还是会投赞成票，再加上自己一票他的方案即可通过。

不过，2号推知到3号的方案，就会提出（98，0，1，1）的方案，即放弃3号，而给予4号和5号各一颗宝石。

由于该方案对于4号和5号来说比在3号分配时更为有利，他们将支持他不希望他出局而由3号来分配。

这样，2号将拿走98颗宝石。

不过，2号的方案会被1号所洞悉，1号将提出(97，0，1，2，0)或(97，0，1，0，2)的方案，即放弃2号，而给3号一颗宝石，同时给4号（或5号）2颗宝石。

由于1号的解决方案对于3号和4号（或5号）来说，相比2号分配时更优，他们将投1号的赞成票，再加上1号自己的票，1号的方案通过，97颗宝石可以轻松落入囊中。

博弈论基础读书笔记三完全信息动态博弈和逆向归纳法

博弈论基础读书笔记三完全信息动态博弈和逆向归纳法第⼆章完全信息动态博弈先来说明两个概念：1、是指在博弈中，参与⼈同时选择或虽⾮同时选择但后⾏动者并不知道先⾏动者采取了什么具体⾏动。

2、是指在博弈中，参与⼈的⾏动有先后顺序，且后⾏动者能够观察到先⾏动者所选择的⾏动。

这⼀章，我们来讨论关于完全信息（即参与者的收益函数是共同知识的博弈）动态博弈的问题。

在这⾥我们还将博弈分为两种：完美信息博弈：即要选择⾏动的参与者完全知道这⼀步之前所有的博弈过程。

完全但不完美信息博弈：即要选择⾏动的参与者不知道这⼀步之前的博弈过程。

进⾏这章之前先简要的解释⼀些东西：所有的动态博弈的中⼼问题都是可信任性。

下⾯给⼀个经典的⼿雷博弈的例⼦：第⼀，参与者1可以选择⽀付1000美元给参与者2或者是⼀分不给。

第⼆，参与者2观察参与者1的选择，然后决定是否引爆⼀颗⼿雷将两个⼈同炸死。

如果参与者2威胁参与者1如果他不付1000美元就引爆⼿雷，如果参与者1相信这个威胁，则最优选择是⽀付1000美元。

但参与者1却不会对这⼀威胁信以为真，因为它不可置信（参与者2不会蠢到因为1000美元⽽同归于尽，⾄于参与者1考虑参与者2是不是疯⼦的情况在第三章讨论）。

这个例⼦就是典型的完全且完美信息博弈。

在2.1节我们将在后⾯使⽤逆向归纳解，来求解这个问题。

在2.2节我们会丰富前⼀节的博弈模型使之成为完全但不完美博弈，我们会定义这种博弈的⼦博弈精炼解，它是逆向归纳法的延申。

在2.3节研究重复博弈，即多次重复⼀个给定博弈。

这⾥分析问题的中⼼使（可信的）威胁和对以后做出的承诺对当前⾏为的影响。

在2.4节中我们介绍分析⼀般的完全信息动态博弈所需要的⼯具。

不再区别信息是否是完美的。

本节和本章的重点都在语⾔，⼀个完全信息动态博弈可能会有多个纳什均衡，但其中⼀些均衡或许包含了不可置信的威胁和承诺，⼦博弈精炼纳什均衡则是通过了可信检验的均衡。

看到这⾥你可能还是⼀头雾⽔，但是⽆所谓，让我们⼀节⼀节的来讲，看到最后你在回头看前⾯的总结可能会更有利于你对本章的理解。

扩展式博弈逆向归纳法

扩展式博弈逆向归纳法简介扩展式博弈逆向归纳法是一种用于解决博弈问题的方法，它通过逆向思维，从最终结果开始，逐步分析游戏的各种策略和决策点，最终找到最优的策略。

本文将详细介绍扩展式博弈逆向归纳法的基本原理和应用。

基本原理扩展式博弈逆向归纳法是一种数学模型，用于描述多方参与的博弈过程。

其基本原理是从最终结果开始逐步向前推导，推算每一步的最优策略。

这种逆向归纳的思维方式可以减少决策的不确定性，并找到最优解。

基本步骤扩展式博弈逆向归纳法可以分为以下几个基本步骤：1. 定义博弈的参与者和规则首先，需要明确博弈的参与者和规则。

博弈可以涉及两个或多个参与者，并存在着一定的规则和限制条件。

2. 定义博弈的终结条件和目标确定博弈的终结条件和目标。

博弈可能在某个特定的条件下终止，并存在着不同的目标，如最大化收益、最小化损失等。

3. 分析可能的决策点和策略在博弈中，存在着多个决策点和不同的策略选择。

需要系统地分析可能的决策点，并列出各个决策点中可能的策略选择。

4. 逆向归纳法推导最优策略从终结条件开始向前推导，利用逆向归纳法分析每一个决策点的最优策略。

逐步迭代，每一步都考虑所有参与者的最优策略，并根据不同的情形进行调整。

5. 检验和优化策略得出最优策略后，需要进行检验和优化。

可以进行数学模型的验证，或者通过模拟实验来检验策略的有效性。

如果策略不理想，可进行调整和优化。

应用领域扩展式博弈逆向归纳法具有广泛的应用领域，包括经济学、管理学、计算机科学等。

1. 经济学领域在经济学中，扩展式博弈逆向归纳法常常用于分析市场竞争和博弈策略。

例如，分析企业之间的定价策略，或者市场中的潜在垄断行为。

2. 管理学领域在管理学中，扩展式博弈逆向归纳法可以用于分析决策制定和资源分配问题。

例如，在制定企业的市场营销策略时，可以运用该方法来寻找最优的策略。

3. 计算机科学领域在计算机科学中，扩展式博弈逆向归纳法可以应用于人工智能算法和游戏设计中。

stackelberg博弈逆向归纳法

stackelberg博弈逆向归纳法Stackelberg博弈逆向归纳法引言：在博弈论的研究中，Stackelberg博弈是一种重要的博弈模型，它考虑的是一个领导者和一个追随者之间的策略选择问题。

在Stackelberg博弈中，领导者先行动，追随者在观察到领导者的行动后做出决策。

逆向归纳法是一种求解Stackelberg博弈的方法，本文将介绍Stackelberg博弈的基本概念和逆向归纳法的应用。

一、Stackelberg博弈的基本概念Stackelberg博弈是一种序贯博弈，由两个角色参与：领导者和追随者。

领导者先行动并选择策略，接着追随者观察到领导者的策略后做出决策。

与其他博弈模型不同的是，Stackelberg博弈中，领导者的行动对追随者的决策产生影响，而追随者的决策对领导者没有影响。

这种序贯性使得Stackelberg博弈与其他博弈模型的分析方法有所不同。

二、逆向归纳法的基本思想逆向归纳法是一种求解Stackelberg博弈的方法，它的基本思想是逆向推导追随者的最优反应函数，然后将这个反应函数代入领导者的目标函数中，从而求解出领导者的最优策略。

逆向归纳法的求解过程可以分为三个步骤：假设追随者的最优反应函数形式；代入反应函数求解领导者的最优策略；迭代求解追随者的最优反应函数。

三、逆向归纳法的应用实例为了更好地理解逆向归纳法的应用，我们以一个简单的Stackelberg博弈实例来说明。

假设某市场上只有两家公司A和B 在销售某种产品，公司A是领导者，先决定自己的销售策略，公司B是追随者，在观察到公司A的销售策略后做出决策。

我们假设公司B的最优反应函数是一个线性函数，即B的销售数量取决于A的销售数量。

接着，我们代入公司B的反应函数，求解公司A的最优销售策略。

假设公司A的目标是最大化利润，我们可以建立一个目标函数，考虑到市场需求和价格弹性等因素。

然后，我们将公司B的反应函数代入公司A的目标函数，求解出公司A的最优销售策略。

博弈行为中的演绎与归纳推理及其问题

博弈行为中的演绎与归纳推理及其问题作者：潘天群文章来源：自然辩证法研究200303【内容提要】博弈逻辑(game logic)是随着博弈论的迅速发展而形成的一个新的学科，它是一行动逻辑。

博弈逻辑研究的是理性的人在互动行动中即博弈中的推理问题。

在博弈行为中存在演绎推理和归纳推理。

正如在传统逻辑中存在逻辑悖论一样，博弈逻辑中同样存在悖论或者“问题”。

博弈参与人运用演绎推理时存在逆向归纳法悖论，而运用归纳推理时存在归纳是否有效的问题。

【关键词】博弈逻辑/演绎推理与归纳推理/逆向归纳法悖论/归纳推理的合理性【正文】中图分类号：BS12文献标识码：A1一种新的逻辑：博弈逻辑博弈论研究人类活动中的互动行为，在经济学中得到广泛的运用。

在博弈论中，人类的所有活动，只要是互动行为，均可以看成是博弈行动。

在此基础上，一种新的逻辑“博弈逻辑”(game logic)得以兴起，它是一种特殊的行动逻辑(action logic)。

博弈论研究多个理性人在互动过程中如何选择自己的策略。

理性的人是使自己的目标或得益最大化的人，在经济活动中理性的人即是使经济目标最大化的人——经济人。

理性人如何使得自己的“得益”最大？关键是“推理”。

博弈逻辑中存在着两种研究纲领。

第一种研究纲领是结合模态逻辑系统，建立新的博弈逻辑系统。

在这方面，日本筑波大学的金子守(Mamoru Kaneko)教授是这方面的权威。

近几年，他在国际刊物上发表了大量有关博弈逻辑方面的论文。

他不仅在模态逻辑系统的基础上建立了多个博弈逻辑(game logic)系统，而且，建立了与博弈逻辑密切相关的公共知识逻辑(common knowledge logic)系统。

第二种研究纲领是研究博弈活动中的实际“推理问题”，许多博弈论专家在此方面做了大量的工作。

对博弈逻辑做整体的分析不是这里的任务，本文的目的是简要论述博弈活动中的推理问题，属于第二种研究纲领。

根据博弈论，人们在实际的博弈活动中涉及到两种推理：演绎推理与归纳推理。

博弈行为中的演绎与归纳推理及其问题(最终)

博弈行为中的演绎与归纳推理及其问题【内容撮要】博弈逻辑(game logic) 是随着博弈论的迅速进展而形成的一个新的学科，它是一步履逻辑。

博弈逻辑研究的是理性的人在互动步履中即博弈中的推理问题。

在博弈行为中存在演绎推理和归纳推理。

正如在传统逻辑中存在逻辑悖论一样，博弈逻辑中一样存在悖论或“问题〞。

博弈参与人运用演绎推理时存在逆向归纳法悖论，而运用归纳推理时存在归纳是不是有效的问题。

【关键词】博弈逻辑/ 演绎推理与归纳推理/ 逆向归纳法悖论/ 归纳推理的合理性【正文】1 一种新的逻辑：博弈逻辑博弈论研究人类活动中的互动行为，在经济学中取得遍及的运用。

在博弈论中，人类的所有活动，只假设是互动行为，均能够当作是博弈行动。

在此根底上，一种新的逻辑“博弈逻辑〞(game logic) 得以兴起，它是一种特殊的步履逻辑(action logic) 。

博弈论研究多个理性人在互动进程中如何选择本身的策略。

理性的人是使本身的目标或得益最大化的人，在经济活动中理性的人便是使经济目标最大化的人——经济人。

理性人如何使得本身的“得益〞最大？关键是“推理〞。

博弈逻辑中存在着两种研究纲领。

第一种研究纲领是结合模态逻辑系统，成立新的博弈逻辑系统。

在这方面，日本筑波大学的金子守(Mamoru Kaneko)传授是这方面的权威。

近几年，他在国际刊物上颁发了大量有关博弈逻辑方面的论文。

他不仅在模态逻辑系统的根底上成立了多个博弈逻辑(game logic) 系统，并且，成立了与博弈逻辑紧密相关的公共常识逻辑(common knowledge logic) 系统。

第二种研究纲领是研究博弈活动中的实际“推理问题〞，许多博弈论专家在此方面做了大量的工作。

对博弈逻辑做整体的阐发不是阿谁地址的任务，本文的目的是简要阐述博弈活动中的推理问题，属于第二种研究纲领。

依照博弈论，人们在实际的博弈活动中涉及到两种推理：演绎推理与归纳推理。

但是，正如传统逻辑中存在着悖论〔演绎悖论和归纳悖论〕，在博弈逻辑中一样存在着悖论。

4.扩展式博弈与反向归纳策略

扩展式博弈的形式
完全信息的情况
①
L
②
R
②
l
2 0
r
2 1
l1Biblioteka 0r 3 1
不完全信息的情况
①
L
R
l
2 0
r
2 1
②
l
1 0
r
3 1
扩展式博弈的规则

在一个偏僻的山里，有一个村庄，村里有100对夫妇。在这个村里已经形成了约定成俗的规定，如果女人发现自己的丈夫对自己不忠的话，就会毫不犹豫的将他杀死，而且当天执行。当然，她必须有确切的证据来证明他丈夫的不忠。由于这个因素，某个女人发现某个男人不忠，她不会告诉那个不忠男人的妻子。但是，她会告诉其他人的妻子，并且女人们会相互的传递这一信息，因此最后，一个男人不忠，除了其妻子不知道外，其他女人都知道。事实上是，村子里的这100对夫妇的男人都不忠，但由于女人不会将她们知道的事实告诉不忠男人的妻子，每个女人不知道自己的男人不忠，因此，该村子一直很稳定，而没有发生妻子杀丈夫的行为。村子里有1个辈分很高的老太太，她德高望重，诚实可敬，对村子里的情况了如指掌。一天，这位老人对这这100个女人说了一句很平常的话： “你们的男人当中至少有一个是不忠的。”于是，村里发生了这样一个事情，前99天，村里风平浪静，但到了第100天，村里发生了一场大屠杀，所有的女人都杀死了她们的丈夫！为什么会这样？
结论

作为博弈方你不应该仅仅是个被动的参与人，满足于接受别人制定的博弈规则，而应该设法改变博弈使其对自己尽量有利

可置信的承诺能够促进长期利润，但承诺方也确实因此而对自己的行动施加了严格的限制。这种通过限制自己行动来获取竞争优势的做法被称为策略性行为

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

巴罗教授提出这个案例旨在警世：一方面，它有启示人们在为私利考虑的时候不要太“精明”，告诫人们精明不等于高明，太精明往往会坏事；另一方面，它对理性行为假设的适用性提出了警告。
魔瓶悖论
某日，你遇上了一个怪老头。怪老头拿出一个瓶子，说你可以买走这个瓶子，瓶子能满足你的各种愿望；但同时，持有这个瓶子会让你死后入地狱永受炼狱之苦，唯一的解法就是把这个瓶子以一个更低的价格卖给别人。
旅行者困境
一个类似囚徒困境的经典博弈案例是哈佛大学巴罗教授提出的著名的“旅行者困境”：
两个旅行者从景德镇旅行回来，他们在同一间店买了同样的花瓶。提取行李时，发现花瓶被摔坏了，于是向航空公司索赔。
航空公司知道花瓶的价格大概八九十元，但不知道两位旅客买花瓶的确切价格。于是，航空公司请两位旅客在100元以内自己写下花瓶的价格。
博弈游戏8：饿狮博弈
请9位同学上台参与游戏。 9位同学是狮群里的狮子，且都十分饥饿。 9位同学排成一行，其从左至右的次序等于狮群里的地位等级，从左
至右逐级下降。即左边排第一者的为狮王，右边第一位为狮群里地位最低者；现在再请一位同学上台，扮演绵羊。这只绵羊误闯狮群。只有狮王才能吃绵羊，其他狮子不能吃。狮王吃掉绵羊后，会打瞌睡；当狮王打瞌睡时，低其一级的狮子会吃掉狮王。但当其吃掉狮王后，它亦会瞌睡，低其一级的狮子也会吃掉它。依此类推，当一只狮子吃掉其上级时，其下级会吃掉它。请问：狮王应该吃掉绵羊吗？请大家在纸上写出答案，写上姓名、学号及答案（吃或不吃），然后交上来。
这个推理有一个很强的前提条件，这也是很多趣味博弈问题的基础——假设每个人都是最聪明的，他们所做的决策都是最优的；并且每个人都知道，每个人都是最聪明的，都将选择自己的最优策略；并且每个人都知道，每个人都知道每个人是最聪明的；并且……这样无限循环下去。
但现实生活中，这个假设明显不成立。或许每个人都绝顶聪明，但这一点并不是所有人都知道；即使所有人都知道，也不是每个人都知道所有人都知道。这就是所谓的不完全信息，它会对整个游戏的结果造成根本性的影响。
你会不会买下这个瓶子？你会以什么价格买下这个瓶子呢？
你当然不愿意花太多的钱，在你的愿望被满足之前你至少还得给自己留一点钱花；但你也不能花太少的钱，否则你会承担着卖不出去的风险。
但是，理性分析后，我们得出了一个惊人的结论：任何人都不应该以任何价格购买这个瓶子。
Байду номын сангаас
魔瓶悖论
严格的推理为什么会得到一个看似荒谬的结果呢？
如果两人写的一样，航空公司将认为他们讲真话，就按他们写的数额赔偿；如果两人写的不一样，航空公司就认定写得低的旅客讲的是真话，按低的价格赔偿，同时，航空公司对讲真话的旅客奖励2元，对讲假话的旅客罚款2元。
“旅行者困境”: 从100到0
罗伯特·巴罗
巴罗教授通过这个虚拟案例，揭示了如果是人彻底理性、能够算计到十几步甚至几十步的话，那么他推论出的结果，很可能并不符合自己的现实利益。