基于连续时间马尔可夫过程的证券投资策略
马尔可夫决策方法

马尔可夫决策方法马尔可夫决策方法是一种基于概率的决策方法,它可以用来解决许多实际问题,如机器人路径规划、股票投资、自然语言处理等。
本文将介绍马尔可夫决策方法的基本概念、应用场景以及解决问题的步骤。
马尔可夫决策方法是基于马尔可夫过程的决策方法。
马尔可夫过程是一种随机过程,它具有马尔可夫性质,即当前状态只与前一状态有关,与之前的状态无关。
在马尔可夫决策方法中,我们将问题抽象成一个马尔可夫决策过程(MDP),它由状态集合、动作集合、状态转移概率、奖励函数等组成。
在MDP中,我们需要根据当前状态和可选的动作,选择一个最优的动作,使得总体奖励最大。
马尔可夫决策方法的应用场景非常广泛。
例如,在机器人路径规划中,我们可以将机器人的位置和可选的动作抽象成一个MDP,然后使用马尔可夫决策方法来选择最优的动作,使得机器人能够快速到达目标位置。
在股票投资中,我们可以将股票价格和可选的交易动作抽象成一个MDP,然后使用马尔可夫决策方法来选择最优的交易策略,使得总体收益最大。
马尔可夫决策方法的解决问题步骤如下:1. 定义状态集合和动作集合。
根据具体问题,我们需要定义状态集合和动作集合,例如在机器人路径规划中,状态集合可以是机器人的位置,动作集合可以是机器人的移动方向。
2. 定义状态转移概率。
根据具体问题,我们需要定义状态转移概率,即在当前状态下,选择某个动作后,转移到下一个状态的概率。
例如在机器人路径规划中,如果机器人选择向上移动,那么它有一定的概率到达上方的位置,有一定的概率到达左边的位置,有一定的概率到达右边的位置。
3. 定义奖励函数。
根据具体问题,我们需要定义奖励函数,即在每个状态下,选择某个动作后,获得的奖励。
例如在机器人路径规划中,如果机器人到达目标位置,那么它会获得一定的奖励,如果机器人碰到障碍物,那么它会获得一个负的奖励。
4. 计算最优策略。
根据定义的MDP,我们可以使用马尔可夫决策方法来计算最优策略,即在每个状态下,选择最优的动作,使得总体奖励最大。
马尔可夫过程模型

马尔可夫过程模型
马尔可夫过程模型是一种用于预测未来的数学模型。
它基于马尔可夫链的概念,即一个随机过程中,下一个状态只与当前状态有关,而与之前的状态无关。
这种模型在许多领域中都有广泛的应用,如金融、天气预报、机器学习等。
在金融领域中,马尔可夫过程模型可以用于预测股票价格的走势。
通过分析历史数据,可以建立一个马尔可夫链模型,来预测未来的股票价格。
这种模型可以帮助投资者做出更明智的投资决策,从而获得更高的收益。
在天气预报领域中,马尔可夫过程模型可以用于预测未来的天气情况。
通过分析历史天气数据,可以建立一个马尔可夫链模型,来预测未来的天气情况。
这种模型可以帮助人们做出更好的出行计划,从而避免不必要的麻烦。
在机器学习领域中,马尔可夫过程模型可以用于预测未来的事件发生概率。
通过分析历史数据,可以建立一个马尔可夫链模型,来预测未来事件的发生概率。
这种模型可以帮助人们做出更好的决策,从而提高工作效率。
马尔可夫过程模型是一种非常有用的数学模型,可以帮助人们预测未来的情况。
无论是在金融、天气预报还是机器学习领域,都有广泛的应用。
因此,我们应该更加深入地研究和应用这种模型,从而
更好地预测未来。
如何在多目标决策中使用马尔可夫决策过程(八)

在生活中,我们经常需要做出各种决策,有时候需要考虑的因素不止一个,这就需要我们进行多目标决策。
多目标决策是一个复杂的问题,因为不同的目标之间可能存在矛盾,导致无法同时满足所有目标。
在这种情况下,我们需要一种有效的方法来进行决策,而马尔可夫决策过程(MDP)可以成为一个很好的解决方案。
首先,我们需要了解什么是马尔可夫决策过程。
马尔可夫决策过程是一种动态规划的方法,用来解决在随机环境下的决策问题。
在马尔可夫决策过程中,我们考虑的是一种连续的决策过程,每一步的决策都会对下一步的状态产生影响。
而且,这种影响是遵循马尔可夫性质的,即下一步的状态只与当前状态和当前决策有关,而不受之前的状态和决策的影响。
在多目标决策中,我们可以使用马尔可夫决策过程来解决问题。
首先,我们需要确定我们要达到的各个目标,然后将这些目标转化为状态空间。
接着,我们需要定义每个目标的奖励函数,以及不同决策对每个目标的影响。
这样,我们就可以将多目标决策问题转化为一个马尔可夫决策过程的问题。
然而,由于多目标决策问题的复杂性,通常情况下我们无法直接求解得到最优解。
这就需要我们借助马尔可夫决策过程的一些解决方法,来进行近似求解。
常用的方法包括值迭代和策略迭代。
在值迭代中,我们通过不断更新每个状态的值函数,来逼近最优值函数。
而在策略迭代中,我们通过不断更新策略函数,来逼近最优策略函数。
这些方法可以帮助我们在多目标决策中找到一个较好的解。
除了近似求解,我们还可以借助一些启发式算法来解决多目标决策问题。
启发式算法是一种基于经验的搜索算法,通常可以在较短时间内找到一个较好的解。
常用的启发式算法包括遗传算法、模拟退火算法等。
这些算法可以帮助我们在多目标决策中进行快速求解,尤其是在状态空间较大的情况下效果更为明显。
在实际应用中,马尔可夫决策过程在多目标决策中有着广泛的应用。
比如在金融领域,我们需要根据多个目标来进行投资决策,比如最大化收益、最小化风险等。
而在工程领域,我们需要考虑多个指标来进行资源分配和任务调度。
如何在马尔可夫决策过程中处理策略评估与改进

在马尔可夫决策过程中处理策略评估与改进马尔可夫决策过程是一种用于解决序贯决策问题的数学框架,它主要应用于强化学习领域。
在马尔可夫决策过程中,智能体需要通过与环境的交互,学习到一种最优的策略,从而使得长期累积回报最大化。
然而,在实际应用中,智能体所采取的策略可能并不是最优的,因此需要对策略进行评估和改进。
本文将讨论如何在马尔可夫决策过程中处理策略评估与改进的方法。
1. 策略评估在马尔可夫决策过程中,策略评估是指对当前策略的价值进行估计。
价值可以通过累积回报来表示,即智能体在一个状态下采取某一策略后所获得的长期回报的期望值。
评估策略的价值有助于我们了解当前策略的优劣程度,从而为改进策略提供依据。
常用的策略评估方法包括蒙特卡罗法和时序差分法。
蒙特卡罗法是一种基于模拟的策略评估方法,它通过多次模拟实验来估计每个状态的价值。
具体而言,智能体在环境中执行一条轨迹,然后根据该轨迹的回报来更新每个状态的价值估计。
蒙特卡罗法的优点是不需要对环境进行先验建模,但缺点是计算效率较低,因为需要进行大量的实验。
时序差分法是一种基于样本的策略评估方法,它通过不断地更新每个状态的价值估计,并逐步趋近于真实值。
具体而言,智能体在每次与环境交互后,根据下一个状态的价值估计来更新当前状态的价值估计。
时序差分法的优点是计算效率高,但缺点是对初始值敏感,需要谨慎设置学习率和折扣因子。
2. 策略改进策略改进是指通过评估结果来更新当前策略,使得策略更加优化。
在马尔可夫决策过程中,常用的策略改进方法包括贪婪策略改进和ε-贪婪策略改进。
贪婪策略改进是一种简单而直接的策略改进方法,它通过选择当前状态下价值最大的动作来更新策略。
具体而言,对于每个状态,智能体选择价值最大的动作作为当前的最优动作。
贪婪策略改进的优点是易于实现,但缺点是可能陷入局部最优。
ε-贪婪策略改进是在贪婪策略改进的基础上引入一定的随机性,以便更好地探索环境。
具体而言,智能体以ε的概率选择随机动作,以1-ε的概率选择当前状态下价值最大的动作。
马尔可夫链模型在股票市场预测中的应用分析

马尔可夫链模型在股票市场预测中的应用分析随着现代经济的快速发展,股票市场成为了人们最为熟悉的金融市场之一。
在过去的几十年中,人们对于股票市场的研究越来越深入,不断有新的算法以及模型被引入到预测股票市场的研究中。
其中,马尔科夫链模型就是一种经典的预测模型,在股票市场预测中有着广泛的应用。
一、马尔科夫链模型的概念及工作原理马尔可夫链模型是指一种有限状态机模型,它满足马尔可夫性质,即下一个状态只与当前状态有关,与前面的状态无关。
在预测股票市场中,我们把股票市场的变化看作一个状态序列,每个状态都对应着一段时间内的股票市场状况。
根据这个状态序列,我们可以构建一个马尔科夫链模型。
马尔可夫链模型的工作原理非常简单。
首先,我们需要确定马尔科夫链的状态。
在预测股票市场中,通常我们将市场波动分为三种状态:上涨,下跌,持平。
接着,我们通过统计历史数据,计算出每种状态之间的转移概率,即从一个状态转移到另一个状态的概率。
最后,我们通过当前的状态,根据转移概率计算出下一个可能的状态,从而得到股票市场的未来走势。
二、马尔科夫链模型在股票市场预测中的应用马尔科夫链模型在股票市场预测中的应用有很多,其中最主要的是预测股票价格的涨跌趋势。
我们可以通过构建马尔科夫链模型,根据当前的市场状况和历史数据,计算出未来市场的走势。
通过对马尔科夫链模型进行优化和调整,可以让我们更加准确地预测股票价格的涨跌趋势,从而帮助投资者制定更加科学合理的投资计划。
除了股票价格的涨跌趋势,马尔科夫链模型在股票市场预测中还有其他的应用。
例如,我们可以使用马尔科夫链模型来预测股票市场的波动范围,从而制定更加具体的交易计划。
同时,马尔科夫链模型也可以帮助我们分析市场的风险和机会,并基于此制定出相应的投资策略。
三、马尔科夫链模型的优缺点尽管马尔科夫链模型在股票市场预测中有着广泛的应用,但是它还是存在一些优缺点。
首先,马尔科夫链模型的预测精度有一定的限制。
由于股票市场的变化过于复杂,所以马尔科夫链模型无法考虑所有相关的因素。
马尔可夫过程与鞅

马尔可夫过程与鞅马尔可夫过程和鞅是概率论和随机过程中常见且重要的概念。
它们在各个领域都有广泛的应用,例如金融、生物学、物理学等。
本文将介绍马尔可夫过程和鞅的基本概念和特性,并探讨它们的应用。
一、马尔可夫过程马尔可夫过程是指具有马尔可夫性质的随机过程。
马尔可夫性质是指在已知当前状态下,未来发展的过程与过去的发展无关。
换句话说,未来的状态只与当前状态有关,与过去的状态无关。
马尔可夫过程可以用一个状态空间和状态转移概率矩阵来描述。
状态空间是指所有可能的状态组成的集合,状态转移概率矩阵描述了从一个状态转移到另一个状态的概率。
马尔可夫过程可以分为离散时间和连续时间两种。
离散时间马尔可夫过程是指时间以离散的方式前进,状态也是离散的。
连续时间马尔可夫过程是指时间是连续的,状态可以是离散的或连续的。
马尔可夫过程有很多重要的性质,例如马尔可夫链的平稳分布、不可约性、遍历性等。
这些性质对于理解和分析马尔可夫过程的行为具有重要意义。
马尔可夫过程在实际应用中有广泛的应用。
例如,在金融领域中,马尔可夫过程可以用来建模股票价格的变动。
在生物学领域中,马尔可夫过程可以用来描述基因的突变和演化。
在物理学领域中,马尔可夫过程可以用来描述粒子在空间中的运动。
二、鞅鞅是一种具有平衡性质的随机过程。
简单来说,鞅是指在给定过去的信息下,未来的期望与当前的值相等。
换句话说,鞅是一种没有偏差的随机过程。
鞅可以用来描述随机过程的平衡性质和无偏性质。
它在金融、统计学、信息论等领域中有广泛的应用。
鞅的性质使得它成为一种重要的工具,在金融领域中可以用来建模和分析股票价格、期权价格等。
在统计学中,鞅可以用来估计未知参数和预测未来值。
在信息论中,鞅可以用来描述信息的平衡性质和无偏性质。
三、马尔可夫过程与鞅的应用马尔可夫过程和鞅在各个领域都有广泛的应用。
它们可以用来建模和分析各种随机过程,并提供了一种有效的工具和方法。
在金融领域中,马尔可夫过程和鞅可以用来建模和分析股票价格的变动。
马尔可夫决策过程中的策略迭代算法与蒙特卡洛树搜索算法比较(五)

马尔可夫决策过程(Markov Decision Process,MDP)是一种用于描述决策制定过程的数学框架,可以用来解决许多涉及不确定性的问题,比如机器人路径规划、自动驾驶、金融投资等。
在MDP中,智能体通过与环境的交互来学习最优策略,以达到最大化长期回报的目标。
策略迭代算法和蒙特卡洛树搜索算法都是用于解决MDP问题的经典算法,它们各有优劣,下面我们将对两种算法进行比较。
策略迭代算法是一种基于值函数的迭代算法,它通过反复迭代优化策略和值函数来求解MDP。
算法的基本思想是从一个随机初始化的策略开始,不断更新值函数和策略,直到策略收敛为止。
在每一次迭代中,算法首先根据当前的策略计算值函数,然后根据值函数更新策略,直到策略不再发生改变。
策略迭代算法的优点是收敛速度较快,而且对于大规模问题也有较好的适用性。
与策略迭代算法不同,蒙特卡洛树搜索算法是一种基于树搜索的算法,它通过模拟大量的随机样本来估计状态值函数和策略。
算法的基本思想是从根节点开始,不断扩展搜索树,直到达到指定的搜索深度或满足终止条件为止。
在每一次搜索中,算法根据当前的策略和值函数来选择动作,并根据环境的反馈来更新值函数和策略。
蒙特卡洛树搜索算法的优点是能够处理高维度、连续动作空间的问题,而且在处理具有大量随机性的问题时表现较好。
在实际应用中,策略迭代算法和蒙特卡洛树搜索算法都有其独特的优势和劣势。
对于维度较小、离散动作空间的问题,策略迭代算法通常能够在较短的时间内找到较优策略,而且收敛速度较快。
但是,策略迭代算法对于高维度、连续动作空间的问题表现不佳,因为值函数的计算和策略的更新需要大量的计算资源。
相比之下,蒙特卡洛树搜索算法在处理高维度、连续动作空间的问题时具有一定的优势,因为它能够通过大量的随机样本来估计状态值函数和策略,而不需要显式地计算值函数和策略。
但是,蒙特卡洛树搜索算法在处理低维度、离散动作空间的问题时通常表现不佳,因为搜索树的构建和更新需要大量的计算资源。
马尔可夫决策过程中的连续时间建模方法(Ⅱ)

马尔可夫决策过程(Markov Decision Process, MDP)是一种用来描述随机决策过程的数学模型。
在实际应用中,很多问题都可以被建模成MDP并通过合适的算法进行求解。
在MDP中,状态空间、动作空间和奖励函数的离散性是基本前提,但在某些应用中,这些变量可能是连续的。
本文将介绍马尔可夫决策过程中的连续时间建模方法,探讨其在实际问题中的应用。
一、连续时间马尔可夫决策过程MDP最早是由Bellman提出的,它适用于描述状态和动作都是离散的情形。
但是,很多实际问题中,状态空间和/或动作空间是连续的,这时需要进行连续时间建模。
连续时间MDP(Continuous-time Markov Decision Process, CTMDP)是对MDP的一种扩展,它考虑状态和动作空间是连续的情形。
在CTMDP中,状态转移由随机微分方程描述,动作空间是连续的。
状态空间一般也是连续的,但有时也可以是离散的。
奖励函数在时间上是连续的,与状态和动作相关。
CTMDP的目标是找到一个策略,使得期望累积奖励最大化。
二、CTMDP的求解方法CTMDP的求解方法与MDP有些不同。
在MDP中,常用的求解方法是值迭代或策略迭代,但这些方法不适用于CTMDP,因为连续状态空间和动作空间使得价值函数和策略函数难以表示。
对于CTMDP,常用的求解方法是近似动态规划。
近似动态规划是通过近似值函数和/或策略函数来求解CTMDP的方法。
其中,近似值函数方法包括函数逼近和蒙特卡洛方法,而近似策略函数方法包括策略梯度和Q-learning等。
近似值函数方法通过对值函数进行逼近来求解CTMDP。
常用的函数逼近方法包括线性函数逼近、非线性函数逼近和神经网络逼近等。
在CTMDP中,值函数是关于状态和动作的函数,它的逼近可以通过对状态和动作空间进行离散化,然后对每个离散状态和动作进行值函数逼近。
此外,蒙特卡洛方法也可以用于求解CTMDP,它通过采样得到的轨迹来估计值函数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2003205220基金项目:国家高技术研究发展计划项目(86329803205)·作者简介:崔海波(1977-),男,黑龙江庆安人,东北大学博士研究生;赵希男(1960-),男,上海人,东北大学教授,博士生导师·第24卷第11期2003年11月东北大学学报(自然科学版)Journal of Northeastern University (Natural Science )Vol 124,No.11Nov.2003文章编号:100523026(2003)1121100204基于连续时间马尔可夫过程的证券投资策略崔海波,赵希男,梁 好,潘德惠(东北大学工商管理学院,辽宁沈阳 110004)摘 要:在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望报酬模型·通过对总期望报酬模型进行变换得到了策略改进算法·同时得到了转移系数矩阵一般表达式,给出了针对具体股票状态转移时间间隔的指数分布并对其进行了估计·关 键 词:证券投资策略;连续时间马尔可夫过程;转移系数矩阵;报酬;决策中图分类号:F 830.9 文献标识码:A在现实生活中投资者往往在证券市场上多期投资,即投资者在一系列相继的时刻点上作决策,在每个时刻点投资者根据观察到证券的状态,从可选的若干方案中选择一个,将决策付诸实施后,投资者将获得与证券所处状态和采取决策有关的报酬,并影响证券在下一个决策点所处的状态·证券在下一个决策点所处的状态是随机的·在这一新的决策点上,投资者根据所获取的信息,并采取新的决策,如此一步一步进行下去·对于此类问题学者们进行了不同程度的研究[1,2],这些研究都是假设股票价格所处状态间转移概率是时间离散的,在此基础上建立了投资策略模型·事实上在证券市场上,股票价格所处的各种状态是随机的,其在各个状态之间转移概率是时间连续的,因此,本文对连续时间马尔可夫过程证券投资策略问题进行了研究·关于连续时间马尔可夫决策过程国外学者作了大量的工作,如文献[3~5]对折扣准则进行了研究;文献[6~12]对平均准则进行了研究;连续时间马尔可夫过程证券投资策略模型的转移系数矩阵一般来说随时间变化而变化,本文给出了转移系数矩阵计算的一般表达式,并就状态时间间隔服从指数分布情况对转移系数矩阵进行了估计·1 模型假设条件①股票价格变化是随机的,下一时刻股价只与当前时刻股票价格和投资者的买卖决策有关,而与以前时刻的股票价格和投资者的买卖决策无关,即股票价格变化满足马尔可夫性·这样假设是因为时刻t +1的股票价格不仅与t 时刻的股票价格有关,同时也与时刻t 以前的股票价格有关,但可以认为时刻t 时的决策已经用到了时刻t 以前的信息,因此可以假定一步转移速率与以前的历史无关;②股票价格所处的状态有n 种;且各个状态之间转移概率是时间连续的;③投资股票收益是买卖股票差价的收益,不考虑股息收益·这样假设是因为目前上市公司很少或者不派股息,也可以理解将股息收入从新买入股票;④股票价格所处不同状态的时间间隔为随机变量·一般来说股票价格不可能总是保持不变,同一状态可以出现在一个时点,也可以出现在另一个时点,在一段时间间隔为一状态,在另一段时间间隔为另一状态,因此股票价格所处不同状态的时间间隔为随机变量·2 模型的建立因为在时刻t =t 0时,从状态i 转移到状态j 的概率为0,所以由前面假设和泰勒展开知,在时间间隔Δt 内从状态i 转移到状态j 的概率可表示为a ij Δt +o (Δt );a ij 与时间无关,只与状态有关·假设在某时刻t 股票处于状态i 的概率设为πi (t ),在t +Δt 股票处于状态j 的概率设为πj(t +Δt ),则由文献[11]有πj (t +Δt )=πj (t )1-6i ≠ja jiΔt+6i ≠jπi(t )a ijΔt(i ,j =1,2,…,n )·(1)令a jj =-6i ≠jaji,则式(1)可以化为πj (t +Δt )=πj (t )(1+a jj Δt )+6i ≠jπj(t )a ijΔt ·(2)可将式(2)整理为πj (t +Δt )-πj (t )Δt=6ni =1πi(t )aij,(3)令Δt →0,得微分方程组d πj (t )d t=6ni =1πi(t )aij(i ,j =1,2,…,n ),(4)将式(4)表示为矩阵的形式d π(t )d t=π(t )A ·(5)其中,π(t )=[π1(t ),π2(t ),…,πn (t )]表示股票处于各个状态的概率行向量,A =[a ij ]n ×n 表示股票状态的转移系数矩阵;r ii 表示股票处于状态转移到状态以前所有时间内,每单位时间所获得的报酬,r ij i 到状态j (i ≠j )所获得的报酬,连续时间系统要同时考虑两种报酬·V i (t )表示股票从状态i 出发在时间t 内所获得的总期望报酬,则在时间t +Δt 内所获得的总期望报酬表示为[11]V i (t +Δt )=(1-6i ≠ja jiΔt )(r iiΔt +V i (t ))+6i ≠ja ij Δt (r ij +V j (t ))·(6)令q i =r ii +6i ≠jaij r ij,则当Δt →0时,可以将式(6)整理为d V i (t )d t=q i +6nj =1a ij V j (t )(i ,j =1,2,…,n )·(7)以V (t )表示以总期望报酬V i (t )为分量的向量,以q 表示以q i 为分量的获得率向量,则式可用矩阵的形式表示为d V (t )d t=q +AV (t )·(8)投资者寻求的目标是采取一系列的决策,求解满足式(8)的V i (t )的最大值·3 问题的解法将式(8)两边对关于时间t 的函数进行拉氏变换,得到V (s )=1s(s I -A )-1q +(s I -A )-1V (0),(9)而(s I -A )-1=1sS +T (s )·(10)其中,大S 为t →∞极限状态的概率矩阵,T (s )由瞬时部分的拉氏变换组成,将式(10)带入式(9)得到V (s )=1s2Sq +1sT (s )q +1sSV (0)+T (s )V (0)·(11)在式(10)中,1s2Sq 表示大小为Sq 的一个单位升跃;1sT (s )q 是来自单位阶梯和指数衰减的瞬时部分与q 摺积·取式(11)的反拉氏变换,当t →∞时有V (t )=tsq +T (0)q +SV (0)·(12)令g =Sq ,V =T (0)q +SV (0),则式(12)化简为V i (t )=tg i +V i (i =1,2,…,n )·(13)这里,V i 是向量V 的第i 个分量,当t →∞,将式(13)的V i (t )代入方程,得到g i =q i +t6ni =1a ij g j +6nj =1a ij V j ·(14)由于式(14)对很大的t 均成立,可得两组方程6nj =1a ij g j =0,g i =q i +6nj =1a ij V j (i =1,2,…,n )·(15)通过以上的分析得到如下的算法·第一步:取每个状态的最大获利方式作为初始策略k ·第二步:定值运算·利用初始策略k 所确定的a ij 和q i 在每个循环链中,令一个V i 为0,解两组方程6nj =1a ij g j =0,g i =q i +6nj =1a ij V j (i =1,2,…,n )·第三步:策略改进·对每个状态i ,利用已有的策略获利,选择使6nj =1a kij g j 取值最大的k 作为1011第11期 崔海波等:基于连续时间马尔可夫过程的证券投资策略状态i的新决策·假如,6n j=1a k ij g j对于某些k都取最大值,可通过使q ki+6n j=1a k ij V j取值最大的方式来确定k,方式k可作为状态i的新决策·如果新决策与原决策完全相同,则计算停止,否则将q ki, a k ij写成q i,a ij带入定值运算·4 模型说明一般来说股票状态的系数转移矩阵A随时间变化而变化,本文假设股票状态转移的时间间隔为随机变量X,其概率密度函数为P(θ1,θ2,…,θm,x),其中,θ1,θ2,…,θm为参数,则在时间间隔Δt内股票状态转移概率为Y(Δt,θ1,θ2,…,θm)=∫ΔtP(θ1,θ2,…,θm,x)d x,(16)将Y(Δt,θ1,θ2,…,θm)在Δt=0处泰勒展开,有Y(Δt,θ1,θ2,…,θm)=Y(0,θ1,θ2,…,θm)+ Y′Δt(0,θ1,θ2,…,θm)Δt+o(Δt)·(17)由式(16)将式(17)化简为Y(Δt,θ1,θ2,…,θm)=P(θ1,θ2,…,θm,0)Δt+o(Δ)t·(18)用P(^θ1,^θ2,…,^θm,0)作为P(θ1,θ2,…,θm,0)的估计,因此转移概率Y(Δt,θ1,θ2,…,θm)近似表示为Y(Δt,θ1,θ2,…,θm)=P(^θ1,^θ2,…,^θm,0)Δt·(19)即可以得到股票状态转移系数矩阵A= [a ij]n×n,其中,a jj=-6i≠j a ji(i,j=1,2,…,n)·针对具体股票,本文转移系数矩阵确定方法如下:首先确定状态转移时间间隔的分布,比如为指数分布;设股票从状态i转移到状态j的时间间隔为随机变量X ij,它服从指数分布,概率密度为E(X ij),f(x ij)=b ij e-b ij x,x≥00,x<0,其中,b ij为正的常数,设随机变量X ij的数学期望为E(X ij),对指数分布有:E(X ij)=1b ij·x1,x2,…,x N表示股票处于第i,j两个状态的时间间隔的N个采样值,则由数理统计知识,可用 x N=x1+x2+…+x NN 作为总体数学期望E(Xij)的估计值,即^b ij=1 xN ,这样由式(19)知,从状态i在Δt时间内转移到状态j的转移概率可表示为b ijΔt,从而可得股票状态转移系数矩阵A=[a ij]n×n,其中a jj=-6i≠j a ji,a ij≈b ij(i,j=1,2,…,n)·5 结 论在现实中投资者往往进行多期投资,本文提出的基于连续时间马尔可夫过程的证券投资策略模型是以收益期望为准则的多期投资模型,在现实的投资决策过程中具有一定的指导意义·本文不足之处在于没有考虑投资决策过程中的不确定性,这也是需要进一步研究的问题·参考文献:[1]陈云贤·风险2收益决策分析[M]·北京:新华出版社,2001.106-113·(Chen Y X.Risk2benef it decision analysts[M].Beijing:Sinhua Press,2001.106-113.)[2]罗捍东·证券动态投资策略[J]·预测,1999,18(2):53-54·(Luo H D.Securities dynamic Investment strategy[J].Forecasti ng,1999,18(2):53-54.[3]Doshi B T.Continuous time control of Markov processes onan arbitrary state space:discounted rewards[J].A nnS tatist,1996,6(3):1219-1235.[4]Doshi B T.Continuous time control of Markov processes onan arbitrary state space:average return criterion[J].S tochastic Process A ppl,2000,4(1):55-77.[5]Doob J L.S tochastic process[M].New Y ork:John Wiley&Sons.1993.78-82.[6]Leve G D.Federgruen A,Tijms H C.A general Markovdecision method1:model and techniques adv[J].A pplProb,2000,99(8):296-335.[7]Leve G D,Federgrue A,Tijms H C.Ageneral Markovdecision method2:application,adv[J].A ppl Prob,1997,7(8):316-335.[8]Kakumanu P.Conti nuous ti me M arkov decision models withapplications to opti miz ation problem[M].New Y ork:TechRep,1999.57-62.[9]Serfozo R F.An equivalence between continuous and discretetime Markov decision processes[J].A ppl Prob,1999,3(11):616-620.[10]复旦大学编·概率论[M]·北京:人民教育出版社,1979.36-42·(Fudan University.S tatistic[M].Beijing:People EducationPress,1979.36-42.)[11]霍华特R A·动态规划与马尔可夫过程[M]·李为政等译·上海:科学技术出版社,1963.90-102·(Hovard R A.Dynamic plan and M arkov process[M].Translated by Li W Z.Shanghai:Science Technology Press,1963.90-102.)[12]李凯,潘德惠·具有破产概率的马尔可夫股利贴现模型[J]·东北大学学报(自然科学版),2000,21(6):665-668·(Li K,Pan D H.Model of Markov dividend discount withbankruptcy probability[J].Journal of NortheasternU niversity(N at ural Science),2000,21(6):665-668.)2011东北大学学报(自然科学版) 第24卷Policy of Stock Investment Based on the Continuous Markov ProcessCU I Hai 2bo ,ZHA O Xi 2nan ,L IA N G 2hao ,PA N De 2hui(School of Business Administration ,Northeastern University ,Shenyang 110004,China.Corres pondent :ZHAO Xi 2nan ,E 2mail :Masterdzxn @ )Abstract :On the assumption that the transfer 2probability of stock prices changes continuously ,differential equation groups are obtained correspondingly.Then ,taking account of the return on changed stock prices in different states and the stocks return gained in unit time period before state changing ,a gross expectation model of return on stock prices which changed in different states is derived.Further ,an algorithm is got for strategy betterment through a transformation of the model.Meanwhile ,a general expression of transfer 2coefficient matrix is derived with exponential distribution of time intervals given and estimated for specific stock price the changing.K ey w ords :strategy of securities investment ;the continuous Markov process ;transfer 2coefficient matrix ;return ;decision(Received J une 6,2003)待发表文章摘要预报在最优准则下的共轭梯度重建算法李 铮,李长军,邵新慧将最小二乘准则与平滑准则相结合,提出了一个关于SIRT 型CT 代数重建模型的实用的最优准则,根据这一准则推导出相应的代数重建方程·分别应用预优共轭梯度算法和另一种新兴的迭代格式SOR 2like 算法对该方程进行求解·在理论上证明:对任意的迭代初值,预优共轭梯度法的收敛速度至少不低于广义SOR 或SOR 2like 法·在数值实验中,验证了预优共轭梯度算法比SOR 2like 算法具有更好的CT 重建效果和消噪能力·由此导出的预优共轭梯度重建算法提高了CT 代数重建的效率·B 对Zr 2Ti 2Ni 2Cu 2Be 块状非晶合金热稳定性的影响武晓峰,张海峰,杨洪才,胡壮麒利用X 射线衍射(XRD )及差热分析(DSC )等方法研究了添加B 对Zr 2Ti 2Cu 2Ni 2Be 块状非晶合金的形成、结晶及热稳定性的影响·结果表明:在Zr 2Ti 2Cu 2Ni 2Be 合金系中添加B 可明显改变该合金的玻璃转变温度T g ,一次结晶温度T x 及过冷液相区ΔT 等参数·当y (B )≤3%时,B 的添加可使合金保持块状非晶,提高T g 、T x 并扩大过冷液相区,使非晶热稳定性增加;当y (B )≥6%时,B 的添加将诱导大量的粗大Zr 2Cu 及ZrB 2等晶体的析出·由于它们非纳米晶,尺寸较大,形状不规整,不能作为非晶复合材料的增强体·3011第11期 崔海波等:基于连续时间马尔可夫过程的证券投资策略。