博弈论(不完全信息博弈)
不完全信息下的博弈论研究

不完全信息下的博弈论研究博弈论是研究博弈策略和操作的一门学科,在经济学、社会学、政治学等领域中都有广泛应用。
不完全信息博弈是博弈论研究中的一种重要形式,它强调在博弈过程中参与者没有完全信息,即某些信息是隐匿的或者是不确定的。
在这种情况下,参与者需要借助策略、推理、信息获取等方式来预测对手的动作,以达到最优的结果。
不完全信息博弈的典型例子是扑克游戏。
每个玩家手中的牌都是隐匿的,他们无法得知对手的牌面,而只能通过自己的牌和对手的表现来猜测对手手中的牌。
这种情况下,每个玩家需要制定最优的策略,包括加注、跟注、弃牌等操作,以获得尽量高的胜率。
在不完全信息博弈中,玩家需要根据对手的表现和自己手中的信息来猜测对手的策略。
如果对手的表现不符合自己的预期,就需要调整自己的思路和策略。
例如,在扑克游戏中,如果对手加注的次数比较频繁,那么他可能手中的牌比较好,这时候自己就需要加强对手的猜测和评估,调整自己的策略。
在博弈论研究中,不完全信息博弈的分析需要考虑如下因素:1.信息的不完全性:参与者无法获得完整的信息,需要根据已有的信息和对手的表现来猜测对手的意图。
2.策略的制定:参与者需要制定最优的策略,同时预测对手的策略,以获得最高的胜率。
3.信息获取:参与者需要通过各种手段获取对手的信息,包括观察行为、分析表现、推理对手的策略等。
4.均衡点:在不完全信息博弈中,均衡点是指参与者遵循一定的策略后所达到的状态,该状态对各方来说都是最优解,没有任何一方能够通过改变自己的策略来获得更好的结果。
不完全信息博弈的研究成果在实际应用中具有广泛的价值。
例如,在金融市场中,交易员需要通过对市场信息的收集和分析,来制定交易策略和风险控制方案;在竞拍市场中,竞拍者需要通过对对手出价的猜测和分析,来制定最优的出价策略。
此外,不完全信息博弈还被广泛应用于人工智能领域。
例如,在计算机博弈领域中,通过对不完全信息博弈的研究,可以开发出更加智能和自适应的游戏程序;在机器人与人类进行交互的情境中,即使双方都有不完全信息,机器人如果能够学习并推测人类的行为,就有望更好地实现人机交互。
博弈论7不完全信息动态博弈概论

❖ 参与人1(在位者)的行动空间
A1={m1 (低价格),m2(高价格)} ❖ 参与人1的类型空间
T1={t11 (高成本),t12 (低成本)} ❖ 参与人2(进入者)的行动空间
A2= a1 (进入),a2(不进入)} ❖ 参与人2的类型空间T2={t2},单点集,因此参与人
参与人1对参与人2的信念p1=1; ❖ 参与人2对参与人1的信念p2=(p,1-p); ❖ 参与人1先行动,参与人2后行动。
按照海萨尼转换,该博弈表示为:
L
(2, 2)
t11
[P] 1
R
2
N t12
[1 P] 1
R
L
2
(2, 2)
A
B
A
B
(0, 0)
(0,1)
(1, 0)
(3,1)
图7-1
❖ቤተ መጻሕፍቲ ባይዱ例题2:考察一个市场进入博弈
❖ 但(L,A)又排除不掉,因为没有子博弈。 ❖ 假设在参与人2的信息集h2上,观察到R产生
的后验概率为 p(t11 | R) q, p(t12 | R) 1 q,
❖
❖ 这时,参与者2选择A的期望收益为: 0*q+0*(1-q)=0 选择B的期望收益为: 1*q+1*(1-q)=1>0
所以参与人2一定会选择B.
❖ 当参与人 i在他的某个信息集h上观察到其他
n-1个参与人行动组合 ahi ,条件概率 , pi (ti | ahi ) 是参与者i在观察到 ahi 的情况下,
对参与者的类型t-i的修改,这个修正产生
pi (ti | ahi )的推断称为后验概率
❖ 在例1图7-1中,设R(t11),R(t12)是参与人1的 两个战略。从而该博弈表示为完全但不完美
完全信息博弈和不完全信息博弈例子

完全信息博弈和不完全信息博弈例子完全信息博弈和不完全信息博弈是博弈论中常见的两种博弈模型。
在完全信息博弈中,参与者对对手的策略和利益有完全了解,而在不完全信息博弈中,参与者对对手的策略和利益了解不完全。
下面将给出10个例子来说明这两种博弈模型。
1. 完全信息博弈:象棋对局象棋是一种典型的完全信息博弈。
在游戏开始之前,双方玩家对对手的棋子摆放和可能的走法有全面的了解。
每一个棋子的能力和走法都是公开的,玩家可以根据对手的走法进行推理和决策。
双方都可以清楚地看到棋盘上的所有信息,这使得象棋成为一个完全信息博弈的范例。
2. 完全信息博弈:扑克牌游戏扑克牌游戏是另一个典型的完全信息博弈。
在游戏开始之前,玩家可以看到自己的牌和公共牌,可以推断其他玩家手中可能的牌型。
玩家可以根据对手的表情、下注行为和牌型推断对手的策略,并做出相应的决策。
3. 完全信息博弈:国际象棋比赛国际象棋比赛是另一个典型的完全信息博弈。
在比赛开始之前,双方选手可以看到对手的棋子摆放和可能的走法,可以根据对手的走法进行推理和决策。
选手可以通过分析对手的行为和棋局的发展,制定出相应的策略。
4. 完全信息博弈:囚徒困境囚徒困境是博弈论中著名的例子。
在这个博弈中,两个囚犯被关押在不同的牢房中,检察官给每个囚犯提供了一个交代罪行的机会。
如果两个囚犯都选择交代,那么他们都会被判刑。
如果两个囚犯都选择保持沉默,那么他们都会被判轻刑。
如果一个囚犯交代而另一个保持沉默,那么前者将获得豁免,后者将被判重刑。
这个博弈的特点是,双方玩家知道对方的利益和策略,并可以根据对方的策略做出自己的决策。
5. 完全信息博弈:足球比赛足球比赛是一种典型的完全信息博弈。
在比赛开始之前,双方球队都可以看到对方的阵容和战术,可以根据对手的策略进行相应的调整。
球队可以根据比赛的进展和对手的表现,调整自己的战术和策略。
6. 不完全信息博弈:扑克牌对局尽管扑克牌游戏可以被看作是完全信息博弈的例子,但在某些情况下,扑克牌对局也可以被看作是不完全信息博弈。
不完全信息博弈

不完全信息博弈博弈论在20世纪70年代之后逐渐进入主流经济学体系,主要是由于它在不完全信息条件下的经济分析中表现出一种特别的魅力。
我们主要介绍不完全信息静态博弈与不完全信息动态博弈的一些基本知识,目的是给读者对不完全信息博弈理论及其应有一个初步的了解。
在不完全信息博弈里,参与人并不完全清楚有关博弈的一些信息。
大多数纸牌游戏是不完全信息博弈。
在桥牌里,你并不知道你伙伴手中的牌,也并不知道坐在左右两位对手手里的牌。
你在作决策时,必须对其他三位手中的牌作一个估计,而没有确切的信息。
在拍卖商品或工程招投标中,参加拍卖的潜在买主愿意为拍卖品所支付的最高价格或参加工程招投标的投标者愿意为工程开出的最低价格只能是各个潜在买主或投标者心中的秘密,其他人是不清楚的,即使潜在买主或投标者告诉其他人他们愿支付的最高价格或最低价格,其他人也不会相信他们说的是真的。
当你与一个陌生人打交道时,你并不知道他的特征,如喜欢什么,不喜欢什么。
事实上,即使与你长期共事的人,也很难说你对他有完全的了解;当你想买一件古董或名画时,你并不知道卖主愿意脱手的最低价格是多少,或买主愿意出的最高价格是多少;当一个企业想进入某个市场时,它并不清楚已在市场上的企业的成本函数。
如此等等,这样的例子举不胜举。
类似上述这些不满足完全信息假设的博弈称为不完全信息博弈。
当然,如果对博弈对手一无所知,那么,也就无从博弈。
现实生活中,大多数情况下,虽然对于对手的一些特征不完全了解,但总不至于一无所知。
例如,打牌时,虽然不知道对手具体拿什么牌,但根据自己的牌,还是可以对手的牌有一个估计的,而且,随着牌局的展开,人们会不断改变这些估计。
这些估计,可以用数学上的“概率分布”来表示。
在博弈论中,贝叶斯博弈所指的是:博弈参与者对于对手的收益函数没有完全信息(incomplete information);因此贝叶斯博弈也被称为不完全信息博弈。
在约翰·海萨尼的研究框架下,我们可以将自然(Nature)作为一个参与者引入到贝叶斯博弈中。
博弈论_不完全信息静态博弈

贝叶斯纳什均衡的存在性
贝叶斯纳什均衡的存在性定理 定理3.1.2,见书上第62页,不讲定理的证明 它与第24页的定理2.2.3的比较。定理3.1.2所
要用到的前提条件更强,其原因在于: 在贝叶斯博弈中,局中人i的收益是纯策略下
的期望收益。或,局中人i的收益函数ui(s-i, si, ti)可以随着类型的变化而变化;当ui是si的凹函 数时,其凸组合“∑pi(t-i|ti)×ui(s-i(t-i), si, ti), t-i∈T-I”也是si的凹函数;若拟凹则不成立
义3.1.2做比较 此定义是对纯策略下贝叶斯纳什均衡定义的一
个直接扩展,其中E(ui)是局中人i在混合策略 组合下,对其收益函数ui的数学期望 定理3.1.3:混合策略组合是贝叶斯纳什均衡 的充分必要条件 定理3.1.4:贝叶斯纳什均衡的存在性定理
求解行业博弈的贝叶斯纳什均衡
条件概率 标记混合策略的符号 标记期望收益的符号 计算不同类型下的期望收益 书上的方法:由混合策略下贝叶斯纳什均衡的
对局中人2的计算
局中人 1建厂 高成本
进入
不进入
局中人 1建厂 低成本
进入
不进入
建厂 , -4/3 , 0 建厂 , -4/3 , 0
不建厂 , 1 , 0 不建厂 , 1 , 0
合成后的支付矩阵
局中人 1建厂 高成本
进入
不进入
局中人 1建厂 低成本
进入
不进入
建厂 0, -4/3 2, 0 建厂 1.5, -4/3 3.5, 0
混合策略
在贝叶斯博弈G=[N, {Ti}, P, {Si(ti)}, {ui}]中,局中人i 在类型ti∈Ti下,为每一个纯策略以概率进行选择,则 xi(ti) =(x1(i)(ti), x2(i)(ti), ···, xm_i(i)(ti))称为局中人i在类型 ti下的一个混合策略。有时简写为xi。
博弈论

不完全信息博弈:对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的准确信息,在这种情况下进行的博弈就是不完全信息博弈。
不完美信息博弈:如果没有参与者能够获得其他参与者的行动信息,也就是说当参与者做选择的时候不知道其他参与者的选择,这被称为不完美信息博弈。
简单来说,如果把其他参与者的行动理解为一个参与者做决策时所面对的环境,信息不完美就是决策者不知道自己所处的决策环境。
纳什均衡:是一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应。
所有参与人的最优战略的组合:给定该战略中别人的选择,没有人有积极性改变自己的选择。
贝叶斯均衡:在不完全信息静态博弈中,参与人同时行动,没有机会观察到别人的选择。
给定其他参与人的战略选择,每个参与人的最优战略依赖于自己的类型。
由于每个参与人仅知道其他参与人有关类型的分布概率,而不知道其真实类型,因而,他不可能知道其他参与人实际上会选择什么战略。
但是,他能够正确地预测到其他参与人的选择与其各自的有关类型之间的关系。
即不完全信息下的静态博弈均衡称为完美贝叶斯均衡。
子博弈精炼纳什均衡:1)在原博弈是一个纳什均衡;(2)在每一个子博弈上都是纳什均衡。
子博弈:由原博弈中某个决策点(信息集)开始的部分构成一个子博弈。
冷酷策略:是博弈论中的一个名词,它又称为“触发战略”。
它是指参与人在开始时选择合作,在接下来的博弈中,如果对方合作则继续合作,而如果对方一旦背叛,则永远选择背叛,永不合作。
囚徒困境:说明为什么甚至在合作对双方都有利时,保持合作也是困难的。
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。
帕累托改进:,如果不存在另一种状态能使得没有任何人的处境变坏同时至少有一个人的处境变得更好,则这种状态(资源配置、社会制度等)被称为帕累托最优状态。
简单的说法是:对每个人来说,除非“损人”就不可能“利己”,社会就达到了帕累托最优状态。
不完全信息博弈理论研究

不完全信息博弈理论研究博弈论是运用数学和逻辑学方法分析决策问题的学科,它主要关注的是两个或多个独立行为主体在追求自身利益的情况下所进行的策略选择。
博弈论有完全信息和不完全信息两种情况,完全信息博弈是指每个人都知道自己和其他人的信息,而不完全信息博弈则是指每个人都只知道自己的信息,不知道其他人的信息。
本文将对不完全信息博弈理论进行研究。
不完全信息博弈理论是由约翰·冯·诺伊曼和奥斯卡·摩根斯特恩在20世纪40年代创立的。
之后,迈赫洛普夫和希尔曼在70年代初期对不完全信息博弈理论进行了扩展和深入研究。
不完全信息博弈理论建立在贝叶斯概率理论的基础上,通过对行为者信息不完全性的建模,研究他们在此情况下的最优决策。
在不完全信息博弈中,每个人都只知道自己的信息,而不知道其他人的信息,即每个人都不知道其他人的动作或策略选择情况。
面对这种情况,每个人只能通过对自己的期望收益进行推断和分析,从而进行策略的选择。
因此,在不完全信息博弈中,信念的形成以及决策的权衡和平衡是至关重要的。
在不完全信息博弈中,存在纳什均衡的概念。
它是指在博弈中,每个玩家选择的策略是最优决策的同时,也最小化了其他参与者的利益。
在不完全信息博弈中,纳什均衡概念的应用,不仅能够使得玩家通过分析和推断获取对手的策略选择情况,而且还可以让玩家自身选择最优的策略。
不完全信息博弈的研究对于解决实际问题具有很大的价值。
例如,在拍卖市场中,每个竞拍者都只知道自己的估价,而不知道其他竞拍者对物品的估价。
在这种情况下,采用不完全信息博弈的方法,可以合理地评估物品的市场价值,并确定竞拍的最优策略。
同时,在广告竞价市场中,每家广告公司都只知道自己的信息,而不知道竞争对手的信息。
在这种情况下,采用不完全信息博弈理论可以使得广告公司确定最优竞价策略和展示广告的时机,从而可以在激烈竞争中获得更多的展示机会。
总之,不完全信息博弈理论为人们在实际情况中进行策略分析和决策提供了重要的工具。
博弈的分类名词解释

博弈的分类名词解释博弈论是一门研究决策制定者如何在相互竞争和合作的环境中进行决策的学科。
在博弈论中,博弈被定义为一种涉及多个参与者之间互相影响和干预的决策过程。
根据参与者之间的关系和决策策略的性质,博弈可以被分为不同的类型和分类。
1. 零和博弈零和博弈是一种基于完全对立的博弈形式。
它基于一个假设,即参与者之间的利益是互为相反的。
在零和博弈中,参与者的利益是固定的,一个参与者的收益等于另一个参与者的损失。
经典的零和博弈是“囚徒困境”,其中两个犯罪嫌疑人总是选择背叛对方。
2. 非零和博弈非零和博弈是一种关注参与者利益可以共同增长的博弈形式。
在非零和博弈中,参与者之间的利益可以是互补的,即一个参与者的收益不一定会导致另一个参与者的损失。
这种类型的博弈通常涉及合作和协调,以实现共同的利益。
例如,多家公司在一个市场上进行价格竞争,同时也可以通过合作和协商来提高整个市场的利益。
3. 合作博弈合作博弈是一种参与者通过合作和协商来共同获取利益的博弈形式。
在这种博弈中,参与者可以一起讨论并达成共识,以实现最优的决策结果。
合作博弈通常需要建立持久的关系和互信,并强调参与者之间的联合行动。
合作博弈最常见的应用是在商业合作和联盟中,例如公司合并和合作项目。
4. 非合作博弈非合作博弈是一种参与者在缺乏合作和协商的情况下进行决策的博弈形式。
在非合作博弈中,参与者之间的利益是独立和自私的,他们追求个人最优化的决策。
这种博弈通常涉及竞争和对抗,参与者之间缺乏互信和合作。
经典的非合作博弈是“囚徒困境”,其中两名囚犯在没有沟通的情况下做出决策。
5. 完全信息博弈完全信息博弈是一种参与者在决策过程中拥有全面信息的博弈形式。
在这种博弈中,每个参与者都了解其他参与者的策略和利益,并能够进行理性的决策。
完全信息博弈在理论上较容易分析和求解,因为所有决策因素都是已知的。
然而,在实际情况中,完全信息博弈很少存在。
6. 不完全信息博弈不完全信息博弈是一种参与者在决策过程中不拥有全面信息的博弈形式。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例:
Bayes公式
P ( Am | B )
P ( B| Am ) P ( Am )
P ( Ai ) P ( B| Ai )
i 1
n
P(L)=q1, p(M)=q2, p(R)=1-q1-q2
P=
P( R | L) P( L) 1* q1 p( L | R) q1 q2 P( R)
海萨尼转换
海萨尼转换把不完全信息博弈 转换成不完美信息动态博弈 1.引进虚拟自然局中人,可称为局中人0,其作用是在局中人选择
之前,为每个实际局中人按随机方式或者说抽取他们的类型,构 成向量t (t1 , ,t n ),其中ti Ti , i 1, , n 2.局中人0让每个实际局中人知道自己的类型,但不让(全部或 部分)局中人知道其他局中人的类型 3.在前述基础上,在进行原来的静态博弈,即各个实际局中人 同时从各自的行为空间中选择行动方案a1 , , an 4.各局中人得益ui ui (a1 , , an , ti ), i 1, , n
( ,s ) lim ( , ) , ( , ) , } s s { s
* * n n n n n
各均衡概念间的关系 (张,p382)
NE
SPNE
PBE SE
THPE
§5.4 KMRW 模型
一、Axelrod 竞赛(p172) Tit-For-Tat 策略 TFT策略的优点和缺点
完全信息静态博弈的一般表达式:
G {S1 ,, S n ; u1 ,, un }
静态贝叶斯博弈的一般表达式:
G { A1 , , An ; T1 , , Tn ; u1 , , un } G { A1 , , An ; T1 , , Tn ; p1 , , pn ; u1 , , un }
三、 贝叶斯纳什均衡
静态贝叶斯博弈策略定义:
在静态贝叶斯博弈G { A1 ,, An ; T1 ,, Tn ; p1 ,, pn ; u1 ,, un } 中, 局中人 i 的一个策略,就是自己各种可能类型 ti (ti Ti )的一个 函数Si (ti )。Si (ti )设定对于“自然”可能为局中人 i 抽取的各种 类型ti,局中人 i 将从自己的行为空间Ai中相应选择的行动a i 。
贝叶斯纳什均衡定义
贝叶斯纳什均衡:
在静态贝叶斯博弈G { A1 , , An ; T1 , , Tn ; p1 , , pn ; u1 , , u n } 中,如果对任意局中人 i 和他的每一种可能的类型ti Ti, S (t )所选择的行动a都能满足
* max {ui [ S1* (t1 ), , S i*1 , ai , S i*1 (ti 1 ), , S n (t n ),t i ] p (t i | ti )} ai Ai t i * 则称策略组合S * ( S1* , , S N )为G的一个(纯策略)贝叶斯纳什均衡
§5.2 精炼贝叶斯均衡(BPE)
对BPE的要求
例:SPNE的不足--(R,R’)是SPNE但是不合理
添加要求(Requirement)
例:
给定以上判断后,p2选R’的期望收益为:0*p+(1-p)=1-p 选L’的期望收益为:1*p+2*(1-p)=2-p >1-p 可见R’ 非最优,要求2排除了R’
C合作 C 3,3
D背叛 0,5
D
5,0
பைடு நூலகம்
1,1
二、KMRW定理
1.声誉问题 2.KMRW定理(张,P371)
(δ充分接近1)
KMRW定理的直观解释
冒险与暴露 连锁店悖论 大智若愚 周公恐惧流言日,王莽礼贤下士时 倘若当时身便死,千古忠奸有谁知
分别优化,解得:
a 2c H c1 1 q (c H ) (c H c L ) 3 6 a 2c L c1 * q 2 (c L ) (c H c L ) 3 6 a 2c1 cH (1 )cL * q1 3
* 2
二、 静态贝叶斯博弈的一般表示
第五章 不完全信 息博弈
§5.1 静态贝叶斯博弈和贝叶斯纳什均衡
一、例:不完全信息的古诺模型
不完全信息表现在: 厂商2的成本有两种可能,是 厂商2的私人信息, 厂商1只知道可能性(概率分 布),因此厂商1对厂商2的得益 不完全清楚。
P (Q ) a Q Q q1 q2 C1 c1q1 C2 cH q2 C 2 c L q 2 1
§5.3 颤抖手均衡和序贯均衡
颤抖手均衡 (张,p356)
序贯均衡(Sequential E.)P158-159
K-W的状态(assessment)概念 ( , s) (信念,策略) S.E. (1)后续博弈是NE (2)每一个信息集上的信念都是理性的 (3)信念是一个理性信念序列的极限
各企业的选择
* * max[( a q1 q2 ) cH ]q2或者 max[( a q1 q2 ) cL ]q2 q2 q2 * * max{ [a q1 q2 (cH ) c1 ]q1 (1 )[ a q1 q2 (cL ) c1 ]q1} q1