第10讲-序贯决策分析01

合集下载

第10章 (运筹学) 决策论

第10章 (运筹学) 决策论

第10章 决策论
着各种事件的发生概率不清时,决策者考虑可能由于决策错 误而造成重大经济损失。由于自己的经济实力比较弱,他 在处理问题时就比较谨慎。他分析各种最坏的可能结果, 从中选择最好者,以它对应的策略为决策策略。用符号表 示为max-min决策准则。在收益矩阵中先从各策略所对应的 可能发生的“策略—事件”对的结果中选出最小值,将它 们列于表的最右列。再从此列的数值中选出最大值,以它 对应的策略为决策者应选的决策策略。 悲观决策准则又称小中取大的准则。该准则为: (1)根据收益矩阵A=[aij],确定每一个策略可能得到最 坏结果Mi Mi=min{ai1,ai2,…,ain},i=1,2,…,m (2)选取Sk使得Mk=max{M1,M2,…,Mm}。
第10章 决策论
相应的收益和损失值。如当选择月生产量为20件时,而销出 量为10件,这时收益额为: 10×(35-30)-1×(20-10)=40(元) 可以一一计算出各“策略—事件”对应的收益值和损失值, 记为aij,将这些数据汇总在决策矩阵中,见下表:
Ej Si 策 0 10 事 20 件 30 40
第10章 决策论
或行业负责人)要进行战略性决策,中下层管理人员(如部 门经理、计划管理人员、作业调度指挥人员等)要进行战术 性决策或技术性决策。地位越高,决策在工作中的作用就 显得越重要。决策的正确与否,对经济和让会效益影响极 大,小则影响一个企业、一个部门,大则影响整个国家和 社会的发展。 正确的决策必须建立在认识和了解问题内部关系以及环境 状况的基础上。首先,必须掌握决策对象的运动规律,占 有必要的资料和信息。其次,还要掌握辅助决策的技术和 方法,遵守必要的决策程序和步骤。 1. 决策问题的构成 为了说明决策问题的构成,我们先举一个例子。某工厂生 产的产品要销往销售地,决定自己组织运输,方案有两种: 一是增购车辆,二是租车。如果租车运输,所支付的运费 就高些,如果使用自己的车辆运输,运费就便宜些,

管理决策-决策分析

管理决策-决策分析

管理决策无概率决策问题无概率决策问题(不确定型决策问题),这类决策问题的特点是:决策人面临多种决策方案,对每个决策方案对应的几个不同决策状态无法估计其出现概率的大小,仅凭个人的主观倾向和偏好进行方案选择。

无概率决策问题——基本问题例某公司打算生产一种新产品。

该厂考虑了三种方案:(1)新建一条生产线(A1);(2)改造原有的生产线(A2);(3)从市场上采购部分零件进行组装(A3)。

产品投放市场后,可能有需求量较高(N1)、需求量一般(N2)和需求量较低(N3)三种状态。

由于缺乏信息,无法对状态的概率作出估计,但可以估计出各方案的年收益,收益值如表所示。

但由于缺乏资料,无法估计状态发生的概率,所以这是一个典型的无概率决策问题。

这类问题的决策主要取决于决策者的经验和素质。

无概率决策问题——决策的基本准则典型的无概率决策准则主要包括乐观准则、悲观准则、折中准则、等可能准则和最小后悔值准则。

这些决策准则有时会产生相同的决策,但通常会产生不同的决策。

决策者必须选择最适合自己需要的决策准则或决策准则组合。

为描述方便,作如下假定:假设无概率决策问题的备选方案集为A={A1,A2, …, Am},自然状态集为N={N1, N2, …, Nn},方案Ai 在状态Nj下的收益值为bij。

无概率决策问题——决策的基本准则乐观准则特点:决策者在情况不明时,对自然状态抱最乐观的态度,从最好的自然状态出发,先从各方案中挑选最大收益值,然后再从这些最大收益值中挑选出最优决策方案。

公式则Al 是乐观准则下的最优决策方案。

乐观准则是一种比较冒险的决策方法,实际中很少采用。

… …无概率决策问题——决策的基本准则乐观准则使用乐观准则对例中的最优方案进行决策。

解(1) 取各行的最大收益值,得(2)取各最大收益值中的最大值(3)决策。

由于f(A1)=800,故方案A1为最优决策方案。

……无概率决策问题——决策的基本准则悲观准则(小中取大准则)悲观准则也称小中取大准则。

序贯决策 扩散模型

序贯决策 扩散模型

序贯决策扩散模型序贯决策扩散模型是一种用于分析和预测信息传播过程的模型。

它基于人们在接收到信息后做出的决策行为,并通过模拟这一过程来研究信息传播的规律和特点。

在序贯决策扩散模型中,假设信息的传播是一个连续的过程,每个个体在接收到信息后都需要做出决策,决定是否将信息传播给其他人。

这个决策过程是一个序贯的过程,每个个体会根据自己的判断和目标,选择是否传播信息。

我们需要确定信息传播的初始状态。

在现实生活中,信息传播可以从一个人或一组人开始,也可以通过媒体等渠道传播。

在模型中,我们可以假设初始状态为少数人已经接收到信息,并做出了传播的决策。

接下来,我们需要确定每个个体的决策规则。

这个规则可以是基于个体的认知能力、兴趣爱好、社交网络等因素。

个体可能会根据自己的判断和目标,选择将信息传播给自己的朋友、家人或同事。

这个决策过程可以基于个体对信息的看法、信息来源的可信度、传播成本等因素。

在模型中,我们可以通过设定参数来描述个体的决策规则。

例如,我们可以设定一个阈值,当个体认为信息的传播效果超过这个阈值时,才选择将信息传播出去。

我们还可以设定一个传播概率,表示个体传播信息的可能性。

这些参数可以根据实际情况进行调整,以更好地模拟信息传播的过程。

随着时间的推移,信息会逐渐传播到更多的人群中。

每个个体在接收到信息后都会根据自己的决策规则,选择是否将信息传播给其他人。

当所有个体都做出了决策后,下一个时间步骤开始,新的信息传播过程开始。

通过模拟多次信息传播过程,我们可以观察到信息传播的规律和特点。

例如,我们可以研究信息传播的速度、范围和影响力等指标。

我们还可以通过改变个体的决策规则和参数设置,探索不同情况下的信息传播效果。

序贯决策扩散模型在实际应用中具有广泛的意义。

例如,在疫情防控中,我们可以通过这个模型来研究病毒传播的规律,评估各种防控措施的效果。

在营销推广中,我们可以利用这个模型来研究产品信息的传播过程,优化营销策略。

决策理论与方法多属性决策多目标及序贯决策

决策理论与方法多属性决策多目标及序贯决策

决策理论与方法多属性决策多目标及序贯决策多属性决策是指在决策过程中考虑多个属性或指标,通过对这些属性进行量化和比较,找出最优选择的决策方法。

在实际决策中,我们常常需要考虑多个属性因素,而这些因素往往是相互矛盾甚至相互制约的。

多属性决策的关键是建立合理的评价指标体系,将不同属性进行量化,再通过合适的决策模型或方法进行计算和比较。

常用的多属性决策模型包括加权法、层次分析法和灰色关联法等。

多目标决策是指在决策过程中存在多个决策目标,且这些目标往往是相互冲突或无法同时达到的。

多目标决策的目标是找到一个最佳的折衷方案,使得各个决策目标能够得到尽可能满足。

多目标决策的关键是建立合理的决策模型,将各个决策目标进行量化和比较,再通过适当的优化方法或规划方法寻找最优解。

常用的多目标决策方法包括线性规划、整数规划、动态规划和遗传算法等。

序贯决策是指在决策过程中需要根据不完全的信息和不确定的环境进行连续的决策,即通过一系列的决策步骤逐渐完善和调整决策方案。

序贯决策的关键是建立适当的决策模型,将决策过程分解为多个连续的阶段,每个阶段根据已有的信息和条件做出决策,并根据反馈信息不断调整和优化决策方案。

常用的序贯决策方法包括马尔可夫决策过程、博弈论和贝叶斯决策等。

在实际应用中,多属性决策、多目标决策和序贯决策往往会相互结合使用。

例如,在制定企业的发展战略时,需要考虑多个因素,如市场需求、竞争环境和资源能力等,这涉及到多属性决策的内容。

同时,为了实现企业的长远目标,需要考虑多个决策目标,如利润最大化、成本最小化和风险最小化等,这也涉及到多目标决策的内容。

而在制定战略的实施方案时,可能需要根据不断变化的市场和竞争环境进行序贯的决策,这涉及到序贯决策的内容。

综上所述,多属性决策、多目标决策和序贯决策是决策理论与方法中常用的三个重要方法。

它们分别从不同的角度和需求出发,帮助人们在复杂和不确定的决策环境中做出最佳决策。

这些方法在实际应用中相互结合,能够提供更全面和准确的决策支持。

马尔可夫决策过程AI技术中的序贯决策模型

马尔可夫决策过程AI技术中的序贯决策模型

马尔可夫决策过程AI技术中的序贯决策模型马尔可夫决策过程(Markov Decision Process, MDP)是一种基于序贯决策的数学模型,常用于人工智能(AI)技术中。

该模型能够利用概率和奖励的信息,来制定有针对性的决策策略。

在AI领域中,序贯决策模型在各个领域中有着广泛的应用,如自动驾驶、智能推荐系统、游戏智能等。

本文将介绍马尔可夫决策过程AI技术中的序贯决策模型的基本原理和应用案例。

一、马尔可夫决策过程的基本原理马尔可夫决策过程是一种基于状态的决策模型,其中包含了状态、动作、奖励、概率转移等关键概念。

下面将对这些概念进行简要的介绍。

1. 状态(State):状态是指系统处于的某个情况或者状态,可以是离散的或者连续的。

在马尔可夫决策过程中,状态是根据过去的状态和采取的动作随机转移到新的状态。

2. 动作(Action):动作是指系统在某个状态下可以采取的行为或者决策。

动作的选择将会引起状态的转移。

3. 奖励(Reward):奖励是指系统为了达到某个目标而获得的反馈信号。

奖励可以是正数、负数或者零。

优化策略的目标就是最大化奖励。

4. 概率转移(Transition Probability):概率转移描述了系统在某个状态下,采取某个动作之后转移到下一个状态的概率分布。

概率转移可以用转移矩阵或者概率函数来表示。

基于以上的概念,马尔可夫决策过程可以被形式化表示为一个五元组(S, A, P, R, γ)。

其中,S是状态集合,A是动作集合,P是状态转移概率函数,R是奖励函数,γ是衰减因子。

二、序贯决策模型的建模过程1. 确定状态空间和动作空间:在构建马尔可夫决策过程模型之前,首先需要定义状态空间和动作空间。

状态空间是系统可能处于的所有状态的集合,动作空间是系统可以采取的所有动作的集合。

2. 定义状态转移概率和奖励函数:状态转移概率描述了系统在某个状态下采取某个动作之后,转移到下一个状态的概率分布。

奖励函数定义了系统在某个状态下采取某个动作所获得的奖励值。

序贯决策博弈

序贯决策博弈
1 每个决策节点都是同一个参与人的决策节点; 2 该参与人知道博弈进入该集合的某个决策节点,但不知道自 己究竟处于哪一个决策节点.
• 任何博弈的本身可以称为自身的一个子博弈。
1
2013-3-27
承诺博弈
承诺博弈(commitment game):事先承诺 (commitment)通常是解决同时博弈中信 息不充分的一个重要策略。一旦博弈一方 作出承诺,博弈双方的决策时间就有了先 后,同时博弈就变成了序贯博弈,承诺方 是领头者,另一方是跟从者。
案例讨论:三方对决
• 设有A、B、C三个仇家决斗,每人有两粒子弹,每次可发 射一枪(两个回合)。由于A的技术最差(射中概率为0.3), 让A先发射;B的技术次之(射中概率为0.8),因此B第二发 射;C是一位神枪手(射中概率为1.0),因此他第三发射。 如此依序发射,两轮后对决结束。 • 每次轮到某位发射时,他可以选择向两个对手之一开枪, 或者对空放枪(因此不会伤害任何人)。死亡的射手不允许 对人发射也不允许对空发射。另假定,任何射手一旦被其 他射手射中便会立即毙命。 • 在这样一场博弈中,A的最优策略是什么?
• 再以“不转换选择 ”为策略进行同样 多次数(如50次) 的实验
5
青蛙与蝎子博弈树 但是,蝎子在渡江途中还是忍不住叮了 青蛙,于是蝎子与青蛙都沉入江底。 那么,青蛙犯了什么错误呢? 青蛙的错误是轻信了蝎子的承诺。 因为对蝎子来说,叮青蛙是它的本能, 叮青蛙所带来的效用大于其生命的价值 (见下页图)。如果青蛙了解到这一点 ,就不会送蝎子过江。
Sting
(-10,5)
蝎子
Carry Don’t
青蛙
Refuse(5,3) (来自,0)22013-3-27
承诺机制设计

第八章_序贯决策分析

第八章_序贯决策分析
2 .5( 44万 元 )
E a 2/H 2 3 0 .4 6 3 0 2 .4 6 ( 2 2 )0 .076
2 .6 ( 2 万 元 )
E a 3/H 2 10 0 .4 6 1 2 0 .46 1 2 0 .462
( 1 万 元 )
θ P(θ)
θ1 0.6 θ2 0.3 θ3 0.1
P(H1︱θ) 0.6 0.2 0.2
P(H2︱θ) 0.3 0.6 0.3
--
P(H3︱θ) 0.1 0.2 0.5
例8.1
如不买此项专利,把这笔费用用在其他方 面,在同样的时期可获利1.1万元。那么, 该公司应该如何决策? (1)是否买专利? (2)如果买专利,是否采取试销办法? (3)如果不试销,应大批生产,中批生产还 是小批生产?如果试销,又应该如何根据 试销结果决定其行动?
--

A1
X1=0
4
2
X1=1
5
… X2=0
8
… X2=1
9
a1
a2
(略)
a1
3 a2
A2
A3--
6
7
… A4
【例8.4】
该问题的费
100100100
用矩阵为: Q(qij)232.5 100225
相应的损失矩阵为
97.5 0 0
R(ri j)23
0
0 125
先进行第一次抽样的后验概率计算
3
--
例8.1
❖ 当试销结果为 H1时:
E a 1/H 1 4 0 .8 1 2 0 8 .1 3 ( 3 6 )0 .046
3 .4( 06万 - ---结点元 8 )
E a 2/H 1 3 0 .8 1 3 0 8 .1 3 ( 2 6 )0 .046

博弈论教程(第四版)课件第十章 不完全信息序贯博弈

博弈论教程(第四版)课件第十章 不完全信息序贯博弈
策略组合(s大海,s丽娟)满足序贯理性,即策略组
合(s大海,s丽娟)由逆推法得到。
• 要求2:p大海和p丽娟都是可行的信念,而且对于处
在博弈路径上的信息集,相关推断由策略组合(s
大海,s丽娟)和贝叶斯法则给出。
验证:
策略及信念组合(s大海,s丽娟;p大海,p丽娟)=({芭蕾,
足球},{足球,芭蕾,芭蕾,芭蕾};{0.4,0.6;0.6;
到。
• 要求2:局中人的信念都是可行的,而且对于处在
博弈路径上的信息集,相关信念由策略组合和贝
叶斯推断给出。
情侣博弈的贝叶斯子博弈精炼纳什均衡的要求:
我们称策略及信念组合(s大海,s丽娟;p大海,p丽
娟)是不完全信息序贯情侣博弈的一个贝叶斯子博
弈精炼纳什均衡,如果它满足以下两个要求:
• 要求1:在给定信念组合(p大海,p丽娟)的情况下,
(六)局中人的支付函数:u大海(a大海,a丽娟;t大海),u丽娟
(a大海,a丽娟;t丽娟),行动组合(a大海,a丽娟) 由博弈路径
给出,t大海∈T大海,t丽娟∈T丽娟。
通过加入虚拟局中人的方式,进一步展开
表达不完全信息序贯情侣博弈。
• 大海的类型和丽娟的类型都是外生给定的,服从
一个预先确定的联合概率分布。
例子:均衡可以表达为(s大海,s丽娟;p大海,p丽娟)
贝叶斯子博弈精炼纳什均衡的要求
在一个不完全信息序贯博弈里,如果局中人的
策略组合和信念组合满足下述两个要求,我们就称
它们构成了博弈的贝叶斯子博弈精炼纳什均衡:
• 要求1:在给定局中人的信念的情况下,局中人的
策略组合满足序贯理性,即策略组合由逆推法得
(receiver),以后简记为 “R”。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3
1、多阶段决策
多阶段决策问题的特点
➢ 决策者需要做出时间上有先后之别的多次决策; ➢ 前一次决策的选择将直接影响到后一次决策,后一次决策的状态取决于前一次 决策的结果; ➢ 决策者关心的是多次决策的总结果,而不是各次决策的即时后果(全程最优)。
4
1、多阶段决策
多阶段决策方法
解决多阶段问题的主要方法: ➢ 决策树方法 ➢ 动态规划方法
14
2、序贯决策
15
2、序贯决策
例6-4 设决策者的效用曲线如图6-5所示。试以最大效用期望值为决策准 则,对上例进行决策。
16
2、序贯决策
17
2、序贯决策
➢ 某工厂的产品每1000件装成一箱出售。每箱中产品的次品率有0.01、0.40、0.90三种可 能,其概率分别是0.2、0.60、0.20。 ➢ 现在的问题是:出厂前是否要对产品进行严格检验,将次品挑出。可以选择的行动有两个 :整箱检验,检验费为每箱100元;整箱不检验,但如果顾客在使用中发现次品,每件次品 除调换为合格品外还要赔偿0.25元损失费。 ➢ 为了更好地做出决定可以先从一箱中随机抽取1件作为样本检验它。然后根据这件产品是 否次品再决定该箱是否要检验,抽样成本为4.20元,那么该厂应该如何决策。 ➢ 这里要决策的问题是:是否抽检?如果不抽检,是否进行整箱检验?如果抽检,应如何根 据抽检结果决定行动?
0.352
9
1、多阶段决策
6-3 试销结果下的后验概率
10
2、序贯决策
➢ 有些决策问题,在决策后又产生一些新情况,需要进行新决策,接着又有一 些新情况,又需要进行新决策。这样决策、新情况、决策…,就构成一个系列, 成为系贯决策。 ➢ 多阶段决策的阶段数是确定的,序贯决策的阶段数是不确定的,它依赖于执 行决策过程中所出现的状况。 ➢ 决策方法:决策树
13
2、序贯决策
例6-3 设某石油勘探队,在一片估计能出油的荒田钻探,可以先做地震试 验,然后决定钻井与否。或者不做地震试验,只凭经验决定钻井与否。做地震试 验的费用为每次30000元,钻井费用为10000元。若钻井后出油,这井队可收入 40000元;若不出油就没有任何收入。各种情况下出油的概率已估计出,并标在 图6-2上。问钻井队的决策者如何做出决策使收入的期望为最大。
决策理论与方法
邢立宁
国防科技大学五院管理系 Email:xinglining04@gfkd.mtn 联系电话:0731-84575857
1
第10讲:序贯决策分析
➢ 多阶段决策 ➢ 序贯决策 ➢ 马尔可夫决策
2
1、多阶段决策 多阶段决策问题
在经济管理活动中,由于某些问题的特殊性,需要将活动过程分为若干个相互 联系的阶段,在它的每一个阶段都需要做出决策,从而使整个过程达到最好的活 动效果。 当各个阶段决策确定后,就组成了一个决策系列,决定了整个过程的一条活动 路线。 把一个问题看作是一个前后关联的具有链状结构的多阶段过程就成为多阶段决 策过程。
多阶段决策分析的步骤: ➢ 根据具体问题适当划分阶段; ➢ 确定各阶段的状态变量,寻找多阶段之间的联系; ➢ 由后到前用逆序法进行决策分析
5
应用举例
1、多阶段决策
某公司考虑是否花费4000元钱从某科研机构购买某项技术,然后产销新产品, 如果买技术,可以进行大批(a1)、中批(a2)或小批生产(a3),可能出现的市场情况 也分为畅销、一般和滞销三种情况。其收益矩阵如表6-1所示。
18
3、马尔可夫决策
马尔可夫决策问题
➢ 预测在本质上就是利用预测对象的历史数据去推知预测对象的未来。 ➢ 在经济管理现象中存在一种“无后效性”,即“系统在每一时刻的状态仅仅取 决于前一时刻的状态,而与其过去的历史无关。” ➢ 如:池塘里有三张荷叶,编号为1,2,3,假设有一只青蛙随机地在荷叶上跳来 跳去,在初始时刻,它在2号荷叶上。在时刻,它有可能跳到1号或者3号荷叶上, 也有可能原地不动。
12
2、序贯决策
➢ 产品检验问题:如果进行第一次抽样后,除选择检验还是不检验之外,还可以 根据前面抽样的结果,考虑是否在进行一次容量为1的抽样。第二次抽样完成后, 还可以考虑容量为1的第三次抽样,------如果继续下去,该抽样问题形成一个决 策系列。
➢ 决策终止原则:只要有一个非经抽样的行动的损益值增加值大于进行抽样的费 用时,决策序列终止。
19
3、马尔可夫决策
➢ 把青蛙某时刻所在的荷叶称为青蛙所处的状态,青蛙在未来处于什么状态,只与 它现在所处的状态无关,与它以前所处的状态无关。这种性质就是所谓的“无后效 性”,即马尔可夫(Markov)性。 ➢ 对于某些情况,知道预测对象的当前状态,希望由此推知预测对象的今后状态, 如果这样的对象在状态转移过程中满足马尔可夫性,则可以利用随机过程 (stochastic process)的有关理论进行预测。这种预测技术不需要太多的历史数据和 资料,只需要预测对象最近和当前的资料。
6
1、多阶段决策
为了更准确地了解市场,在正式投产前可先生产少量产品试销。由于要增添少量 生产设备等原因,试销费需要600元。由于试销前未做广告,顾客对产品不太了 解,加之试销销量较小,试销结果很不准确。假设试销结果分为产品受欢迎(H1) 、一般(H2)和不受欢迎(H3)三种,其准确度如表6-2。
7
如不买此项技术,把这笔费用用在其他方面,在同样的时期可获利8000元。那 么,该公司应该如何决策? (1)是否买技术? (2)如果买技术,是否采取试销办法? (3)如果不试销,应大批生产、中批生产还是小批生产?如果试销,又应该如何根 据试销结果决定其行动?
1、多阶段决策
3
P(H1) P(H1 θ j )P(θ j ) j 1
20
3、马尔可夫决策 马尔可夫链与转移概率矩阵
0.4 0.4 0.3 0.2 0.32 0.4 0.34
P(θ1
H1)
P.4 0.34
0.471
P(θ2
H1)
P(H1 θ2 )P(θ2 ) P(H1)
0.2 0.3 0.34
0.177
P(θ3
H1)
P(H1 θ3 )P(θ3 ) P(H1)
0.4 0.3 0.34
相关文档
最新文档