M-learning研究综述
安全强化学习综述

安全强化学习综述王雪松 1王荣荣 1程玉虎1摘 要 强化学习(Reinforcement learning, RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功. 然而, 许多强化学习算法仍然无法直接移植到真实物理环境中. 这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互, 从而学习最优策略. 但考虑到安全因素, 很多现实世界的应用则要求限制智能体的随机探索行为. 因此, 安全问题成为强化学习从模拟到现实的一个重要挑战. 近年来, 许多研究致力于开发安全强化学习(Safe reinforcement learning, SRL)算法, 在确保系统性能的同时满足安全约束. 本文对现有的安全强化学习算法进行全面综述, 将其归为三类: 修改学习过程、修改学习目标、离线强化学习, 并介绍了5大基准测试平台: Safety Gym 、safe-control-gym 、SafeRL-Kit 、D4RL 、NeoRL.最后总结了安全强化学习在自动驾驶、机器人控制、工业过程控制、电力系统优化和医疗健康领域中的应用, 并给出结论与展望.关键词 安全强化学习, 约束马尔科夫决策过程, 学习过程, 学习目标, 离线强化学习引用格式 王雪松, 王荣荣, 程玉虎. 安全强化学习综述. 自动化学报, 2023, 49(9): 1813−1835DOI 10.16383/j.aas.c220631Safe Reinforcement Learning: A SurveyWANG Xue-Song 1 WANG Rong-Rong 1 CHENG Yu-Hu 1Abstract Reinforcement learning (RL) has proved a prominent success in the game of Go, video games, naviga-tion, recommendation systems and other fields. However, a large number of reinforcement learning algorithms can-not be directly transplanted to real physical environment. This is because in the simulation scenario, the agent is able to interact with the environment in a trial-and-error manner to learn the optimal policy. Considering the safety of systems, many real-world applications require the limitation of random exploration behavior of agents. Hence,safety has become an essential factor for reinforcement learning from simulation to reality. In recent years, many re-searches have been devoted to develope safe reinforcement learning (SRL) algorithms that satisfy safety constraints while ensuring system performance. This paper presents a comprehensive survey of existing SRL algorithms, which are divided into three categories: Modification of learning process, modification of learning objective, and offline re-inforcement learning. Furthermore, five experimental platforms are introduced, including Safety Gym, safe-control-gym, SafeRL-Kit, D4RL, and NeoRL. Lastly, the applications of SRL in the fields of autonomous driving, robot control, industrial process control, power system optimization, and healthcare are summarized, and the conclusion and perspective are briefly drawn.Key words Safe reinforcement learning (SRL), constrained Markov decision process (CMDP), learning process,learning objective, offline reinforcement learningCitation Wang Xue-Song, Wang Rong-Rong, Cheng Yu-Hu. Safe reinforcement learning: A survey. Acta Automat-ica Sinica , 2023, 49(9): 1813−1835作为一种重要的机器学习方法, 强化学习 (Re-inforcement learning, RL) 采用了人类和动物学习中 “试错法” 与 “奖惩回报” 的行为心理学机制, 强调智能体在与环境的交互中学习, 利用评价性的反馈信号实现决策的优化[1]. 早期的强化学习主要依赖于人工提取特征, 难以处理复杂高维状态和动作空间下的问题. 近年来, 随着计算机硬件设备性能的提升和神经网络学习算法的发展, 深度学习由于其强大的表征能力和泛化性能受到了众多研究人员的关注[2−3]. 于是, 将深度学习与强化学习相结合就成为了解决复杂环境下感知决策问题的一个可行方案. 2016年, Google 公司的研究团队DeepMind 创新性地将具有感知能力的深度学习与具有决策能收稿日期 2022-08-08 录用日期 2023-01-11Manuscript received August 8, 2022; accepted January 11,2023国家自然科学基金(62176259, 61976215), 江苏省重点研发计划项目(BE2022095)资助Supported by National Natural Science Foundation of China (62176259, 61976215) and Key Research and Development Pro-gram of Jiangsu Province (BE2022095)本文责任编委 黎铭Recommended by Associate Editor LI Ming1. 中国矿业大学信息与控制工程学院 徐州 2211161. School of Information and Control Engineering, China Uni-versity of Mining and Technology, Xuzhou 221116第 49 卷 第 9 期自 动 化 学 报Vol. 49, No. 92023 年 9 月ACTA AUTOMATICA SINICASeptember, 2023力的强化学习相结合, 开发的人工智能机器人Al-phaGo 成功击败了世界围棋冠军李世石[4], 一举掀起了深度强化学习的研究热潮. 目前, 深度强化学习在视频游戏[5]、自动驾驶[6]、机器人控制[7]、电力系统优化[8]、医疗健康[9]等领域均得到了广泛的应用.近年来, 学术界与工业界开始逐步注重深度强化学习如何从理论研究迈向实际应用. 然而, 要实现这一阶段性的跨越还有很多工作需要完成, 其中尤为重要的一项任务就是保证决策的安全性. 安全对于许多应用至关重要, 一旦学习策略失败则可能会引发巨大灾难. 例如, 在医疗健康领域, 微创手术机器人辅助医生完成关于大脑或心脏等关键器官手术时, 必须做到精准无误, 一旦偏离原计划位置, 则将对病人造成致命危害. 再如, 自动驾驶领域, 如果智能驾驶车辆无法规避危险路障信息, 严重的话将造成车毁人亡. 因此, 不仅要关注期望回报最大化,同时也应注重学习的安全性.García 和Fernández [10]于2015年给出了安全强化学习 (Safe reinforcement learning, SRL) 的定义: 考虑安全或风险等概念的强化学习. 具体而言,所谓安全强化学习是指在学习或部署过程中, 在保证合理性能的同时满足一定安全约束的最大化长期回报的强化学习过程. 自2015年起, 基于此研究,学者们提出了大量安全强化学习算法. 为此, 本文对近年来的安全强化学习进行全面综述, 围绕智能体的安全性问题, 从修改学习过程、修改学习目标以及离线强化学习三方面进行总结, 并给出了用于安全强化学习的5大基准测试平台: Safety Gym 、safe-control-gym 、SafeRL-Kit 、D4RL 、NeoRL, 以及安全强化学习在自动驾驶、机器人控制、工业过程控制、电力系统优化以及医疗健康领域的应用.安全强化学习中所涉及的方法、基准测试平台以及应用领域之间的关系如图1所示.本文结构如下: 第1节对安全强化学习问题进行形式化描述; 第2节对近年来的安全强化学习方法进行分类与综述; 第3节介绍5种基准测试平台;第4节总结安全强化学习的实际应用场景; 第5节对未来研究方向进行探讨; 第6节对文章进行总结.1 问题描述M ∪C M =⟨S ,A ,T ,γ,r ⟩C ={c,d }S A T (s ′|s,a )γr :S ×A →R c :S ×A →R d π∗安全强化学习问题通常被定义为一个约束马尔科夫决策过程 (Constrained Markov decision pro-cess, CMDP) [11], 即在标准马尔科夫决策过程 的基础上添加了关于成本函数的约束项 . 表示状态空间集, 表示动作空间集, 表示用于描述动力学模型的状态转移函数, 表示折扣因子, 表示奖励函数; 表示成本函数, 表示安全阈值. 这种情况下, 安全强化学习问题可以表述为在满足安全约束的情况下, 求解使期望回报最大化的最优可行策略J (π)=E τ∼π(∞t =0γtr (s t ,a t ))τ=(s 0,a 0,s 1,a 1,···)τ∼πτπΠc 其中, , 表示一条轨迹, 表示轨迹 根据策略 采样得到, 表示满足安全约束的安全策略集. 值得注意的是, 本文公式所描述的都是单成本约束的形式, 但不失一般性, 这些公式都可以拓展为多成本约束的形式. 对于不同类型的决策任务,安全策略集可以有不同的表达形式.Πc 对于安全性要求严格的决策任务, 例如自动驾驶[12−13]任务, 通常采用硬约束方式, 即在所有的时刻都需要强制满足单步约束. 这种情况下 表示为环境知识人类知识无先验知识拉格朗日法信赖域法策略约束值约束预训练模型图 1 安全强化学习方法、基准测试平台与应用Fig. 1 Methods, benchmarking platforms, and applications of safe reinforcement learning1814自 动 化 学 报49 卷Π其中, 表示可行策略集. 但由于这种约束方式要求过于严格, 因此通常需要借助模型信息加以实现.Πc 在无模型情况下, 软约束方式有着更广泛的应用, 即对折扣累积成本的期望进行约束, 这种情况下 表示为c :S ×A →{0,1}c (s t ,a t )=0c (s t ,a t )=1E τ∼π(∑∞t =0γtc (s t ,a t ))π这种约束方式可以很好地适用于机器人行走[14]、油泵安全控制[15]和电力系统优化[16]等任务, 但对于需要明确定义状态或动作是否安全的任务却难以处理. 为了使软约束方式更好地适用于不同类型的决策任务, 可以将成本函数修改为 ,利用成本函数对当前状态动作对进行安全性判断,若安全, 则 , 否则, , 并且在智能体与环境交互期间遇到不安全的状态动作对时终止当前回合. 这时, 约束项 可以表示 产生不安全状态动作对的概率, 因此经过这样修改后的软约束也被称为机会型约束. 机会型约束由于其良好的任务适应性, 已被成功应用于无模型的自动驾驶[17]和机械臂控制[18]等任务.M =⟨S ,A ,T ,γ,r ⟩π∗=arg max π∈ΠJ (π)B ={(s,a,r,s ′)}π∗另一方面, 离线强化学习[19−20]从一个静态的数据集中学习最优策略, 它避免了与环境的交互过程,可以保障训练过程中的安全性. 因此, 可以将离线强化学习作为安全强化学习的一种特殊形式. 离线强化学习考虑一个标准马尔科夫决策过程 , 它的目标是求解使期望回报最大化的最优可行策略 , 与在线方式不同的是, 智能体在训练过程中不再被允许与环境进行交互, 而是只能从一个静态数据集 中进行学习. 尽管这种方式可以保障训练过程中的安全性, 但分布偏移问题 (目标策略与行为策略分布不同)[19−20]也给求解 的过程带来了困难.因此, 现如今的离线强化学习方法大多关注于如何解决分布偏移问题. 离线强化学习在有先验离线数据集支持的情况下, 借助于其训练过程安全的优势,已被应用于微创手术机器人控制[21]和火力发电机组控制[22]等任务.2 方法分类求解安全强化学习问题的方法有很多, 受Gar-cía 和Fernández [10]启发, 本文从以下三方面进行综述:1) 修改学习过程. 通过约束智能体的探索范围, 采用在线交互反馈机制, 在强化学习的学习或探索过程中阻止其产生危险动作, 从而确保了训练时策略的安全性. 根据是否利用先验知识, 将此类方法划分为三类: 环境知识、人类知识、无先验知识.2) 修改学习目标. 同样采用在线交互反馈机制, 在强化学习的奖励函数或目标函数中引入风险相关因素, 将约束优化问题转化为无约束优化问题,如拉格朗日法、信赖域法.3) 离线强化学习. 仅在静态的离线数据集上训练而不与环境产生交互, 从而完全避免了探索, 但对部署时安全没有任何约束保证, 并未考虑风险相关因素. 因此大多数离线强化学习能实现训练时安全, 但无法做到部署时安全.三类安全强化学习方法的适用条件、优缺点以及应用领域对比如表1所示. 下面对安全强化学习的现有研究成果进行详细综述与总结.2.1 修改学习过程在强化学习领域, 智能体需要通过不断探索来减小外界环境不确定性对自身学习带来的影响. 因此, 鼓励智能体探索一直是强化学习领域非常重要的一个研究方向. 然而, 不加限制的自由探索很有可能使智能体陷入非常危险的境地, 甚至酿成重大安全事故. 为避免强化学习智能体出现意外和不可逆的后果, 有必要在训练或部署的过程中对其进行安全性评估并将其限制在 “安全” 的区域内进行探索, 将此类方法归结为修改学习过程. 根据智能体利用先验知识的类型将此类方法进一步细分为环境知识、人类知识以及无先验知识. 其中环境知识利用系统动力学先验知识实现安全探索; 人类知识借鉴人类经验来引导智能体进行安全探索; 无先验知识没有用到环境知识和人类知识, 而是利用安全约束结构将不安全的行为转换到安全状态空间中.2.1.1 环境知识基于模型的方法因其采样效率高而得以广泛研究. 该类方法利用了环境知识, 需要学习系统动力学模型, 并利用模型生成的轨迹来增强策略学习,其核心思想就是通过协调模型使用和约束策略搜索来提高安全探索的采样效率. 可以使用高斯过程对模型进行不确定性估计, 利用Shielding 修改策略动作从而生成满足约束的安全过滤器, 使用李雅普诺夫函数法或控制障碍函数法来限制智能体的动作选择, 亦或使用已学到的动力学模型预测失败并生成安全策略. 具体方法总结如下.高斯过程. 一种主流的修改学习过程方式是使用高斯过程对具有确定性转移函数和值函数的动力9 期王雪松等: 安全强化学习综述1815学建模, 以便能够估计约束和保证安全学习. Sui等[38]将 “安全” 定义为: 在智能体学习过程中, 选择的动作所收到的期望回报高于一个事先定义的阈值. 由于智能体只能观测到当前状态的安全函数值, 而无法获取相邻状态的信息, 因此需要对安全函数进行假设. 为此, 在假设回报函数满足正则性、Lipschitz 连续以及范数有界等条件的前提下, Sui等[38]利用高斯过程对带参数的回报函数进行建模, 提出一种基于高斯过程的安全探索方法SafeOpt. 在学习过程中, 结合概率生成模型, 通过贝叶斯推理即可求得高斯过程的后验分布, 即回报函数空间的后验.进一步, 利用回报函数置信区间来评估决策的安全性, 得到一个安全的参数区间并约束智能体只在这个安全区间内进行探索. 然而, SafeOpt仅适用于类似多臂老虎机这类的单步、低维决策问题, 很难推广至复杂决策问题. 为此, Turchetta等[39]利用马尔科夫决策过程的可达性, 在SafeOpt的基础上提出SafeMDP安全探索方法, 使其能够解决确定性有限马尔科夫决策过程问题. 在SafeOpt和SafeM-DP中, 回报函数均被视为是先验已知和时不变的,但在很多实际问题中, 回报函数通常是先验未知和时变的. 因此, 该方法并未在考虑安全的同时优化回报函数. 针对上述问题, Wachi等[40]把时间和空间信息融入核函数, 利用时−空高斯过程对带参数的回报函数进行建模, 提出一种新颖的安全探索方法: 时−空SafeMDP (Spatio-temporal SafeMDP, ST-SafeMDP), 能够依概率确保安全性并同时优化回报目标. 尽管上述方法是近似安全的, 但正则性、Lipschitz连续以及范数有界这些较为严格的假设条件限制了SafeOpt、SafeMDP和ST-SafeM-DP在实际中的应用, 而且, 此类方法存在理论保证与计算成本不一致的问题, 在高维空间中很难达到理论上保证的性能.Shielding. Alshiekh等[41]首次提出Shield-ing的概念来确保智能体在学习期间和学习后保持安全. 根据Shielding在强化学习环节中部署的位置, 将其分为两种类型: 前置Shielding和后置Shielding. 前置Shielding是指在训练过程中的每个时间步, Shielding仅向智能体提供安全的动作以供选择. 后置Shielding方式较为常用, 它主要影响智能体与环境的交互过程, 如果当前策略不安全则触发Shielding, 使用一个备用策略来覆盖当前策略以保证安全性. 可以看出, 后置Shielding方法的使用主要涉及两个方面的工作: 1) Shielding触发条件的设计. Zhang等[42]通过一个闭环动力学模型来估计当前策略下智能体未来的状态是否为可恢复状态, 如果不可恢复, 则需要采用备用策略将智能体还原到初始状态后再重新训练. 但如果智能体的状态不能还原, 则此方法就会失效. Jansen等[43]一方面采用形式化验证的方法来计算马尔科夫决策过程安全片段中关键决策的概率, 另一方面根据下一步状态的安全程度来估计决策的置信度. 当关键决策的概率及其置信度均较低时, 则启用备用策略. 但是, 在复杂的强化学习任务中, 从未知的环境中提取出安全片段并不是一件容易的事情. 2) 备用 (安全)策略的设计. Li和Bastani[44]提出了一种基于tube 的鲁棒非线性模型预测控制器并将其作为备用控制器, 其中tube为某策略下智能体多次运行轨迹组成的集合. Bastani[45]进一步将备用策略划分为不变策略和恢复策略, 其中不变策略使智能体在安全平衡点附近运动, 恢复策略使智能体运行到安全平衡点. Shielding根据智能体与安全平衡点的距离来表 1 安全强化学习方法对比Table 1 Comparison of safe reinforcement learning methods方法类别训练时安全部署时安全与环境实时交互优点缺点应用领域修改学习过程环境知识√√√采样效率高需获取环境的动力学模型、实现复杂自动驾驶[12−13, 23]、工业过程控制[24−25]、电力系统优化[26]、医疗健康[21]人类知识√√√加快学习过程人工监督成本高机器人控制[14, 27]、电力系统优化[28]、医疗健康[29]无先验知识√√√无需获取先验知识、可扩展性强收敛性差、训练不稳定自动驾驶[30]、机器人控制[31]、工业过程控制[32]、电力系统优化[33]、医疗健康[34]修改学习目标拉格朗日法×√√思路简单、易于实现拉格朗日乘子选取困难工业过程控制[15]、电力系统优化[16]信赖域法√√√收敛性好、训练稳定近似误差不可忽略、采样效率低机器人控制[35]离线强化学习策略约束√××收敛性好方差大、采样效率低医疗健康[36]值约束√××值函数估计方差小收敛性差工业过程控制[22]预训练模型√××加快学习过程、泛化性强实现复杂工业过程控制[37]1816自 动 化 学 报49 卷决定选用何种类型的备用策略, 从而进一步增强了智能体的安全性. 但是, 在复杂的学习问题中, 很难定义安全平衡点, 往往也无法直观地观测状态到平衡点的距离. 综上所述, 如果环境中不存在可恢复状态, Shielding即便判断出了危险, 也没有适合的备用策略可供使用. 此外, 在复杂的强化学习任务中, 很难提供充足的先验知识来搭建一个全面的Shielding以规避所有的危险.李雅普诺夫法. 李雅普诺夫稳定性理论对于控制理论学科的发展产生了深刻的影响, 是现代控制理论中一个非常重要的组成部分. 该方法已被广泛应用于控制工程中以设计出达到定性目标的控制器, 例如稳定系统或将系统状态维持在所需的工作范围内. 李雅普诺夫函数可以用来解决约束马尔科夫决策过程问题并保证学习过程中的安全性. Per-kins和Barto[46]率先提出了在强化学习中使用李雅普诺夫函数的思路, 通过定性控制技术设计一些基准控制器并使智能体在这些给定的基准控制器间切换, 用于保证智能体的闭环稳定性. 为了规避风险,要求强化学习方法具有从探索动作中安全恢复的能力, 也就是说, 希望智能体能够恢复到安全状态. 众所周知, 这种状态恢复的能力就是控制理论中的渐近稳定性. Berkenkamp等[47]使用李雅普诺夫函数对探索空间进行限制, 让智能体大概率地探索到稳定的策略, 从而能够确保基于模型的强化学习智能体可以在探索过程中被带回到 “吸引区域”. 所谓吸引区域是指: 状态空间的子集, 从该集合中任一状态出发的状态轨迹始终保持在其中并最终收敛到目标状态. 然而, 该方法只有在满足Lipschitz连续性假设条件下才能逐步探索安全状态区域, 这需要事先对具体系统有足够了解, 一般的神经网络可能并不具备Lipschitz连续. 上述方法是基于值函数的,因此将其应用于连续动作问题上仍然具有挑战性.相比之下, Chow等[48]更专注于策略梯度类方法,从原始CMDP安全约束中生成一组状态相关的李雅普诺夫约束, 提出一种基于李雅普诺夫函数的CMDP安全策略优化方法. 主要思路为: 使用深度确定性策略梯度和近端策略优化算法训练神经网络策略, 同时通过将策略参数或动作映射到由线性化李雅普诺夫约束诱导的可行解集上来确保每次策略更新时的约束满意度. 所提方法可扩展性强, 能够与任何同策略或异策略的方法相结合, 可以处理具有连续动作空间的问题, 并在训练和收敛过程中返回安全策略. 通过使用李雅普诺夫函数和Trans-former模型, Jeddi等[49]提出一种新的不确定性感知的安全强化学习算法. 该算法主要思路为: 利用具有理论安全保证的李雅普诺夫函数将基于轨迹的安全约束转换为一组基于状态的局部线性约束; 将安全强化学习模型与基于Transformer的编码器模型相结合, 通过自注意机制为智能体提供处理长时域范围内信息的记忆; 引入一个规避风险的动作选择方案, 通过估计违反约束的概率来识别风险规避的动作, 从而确保动作的安全性. 总而言之, 李雅普诺夫方法的主要特征是将基于轨迹的约束分解为一系列单步状态相关的约束. 因此, 当状态空间无穷大时, 可行性集就具有无穷维约束的特征, 此时直接将这些李雅普诺夫约束(相对于原始的基于轨迹的约束)强加到策略更新优化中实现成本高, 无法应用于真实场景, 而且, 此类方法仅适用于基于模型的强化学习且李雅普诺夫函数通常难以构造.障碍函数法. 障碍函数法是另一种保证控制系统安全的方法. 其基本思想为: 系统状态总是从内点出发, 并始终保持在可行安全域内搜索. 在原先的目标函数中加入障碍函数惩罚项, 相当于在可行安全域边界构筑起一道 “墙”. 当系统状态达到安全边界时, 所构造的障碍函数值就会趋于无穷, 从而避免状态处于安全边界, 而是被 “挡” 在安全域内.为保证强化学习算法在模型信息不确定的情况下的安全性, Cheng等[50]提出了一种将现有的无模型强化学习算法与控制障碍函数 (Control barrier func-tions, CBF) 相结合的框架RL-CBF. 该框架利用高斯过程来模拟系统动力学及其不确定性, 通过使用预先指定的障碍函数来指导策略探索, 提高了学习效率, 实现了非线性控制系统的端到端安全强化学习. 然而, 使用的离散时间CBF公式具有限制性, 因为它只能通过仿射CBF的二次规划进行实时控制综合. 例如, 在避免碰撞的情况下, 仿射CBF 只能编码多面体障碍物. 为了在学习过程中保持安全性, 系统状态必须始终保持在安全集内, 该框架前提假设已得到一个有效安全集, 但实际上学习安全集并非易事, 学习不好则可能出现不安全状态. Yang 等[51]采用障碍函数对系统进行变换, 将原问题转化为无约束优化问题的同时施加状态约束. 为减轻通信负担, 设计了静态和动态两类间歇性策略. 最后,基于actor-critic架构, 提出一种安全的强化学习算法, 采用经验回放技术, 利用历史数据和当前数据来共同学习约束问题的解, 在保证最优性、稳定性和安全性的同时以在线的方式寻求最优安全控制器. Marvi和Kiumarsi[52]提出了一种安全异策略强化学习方法, 以数据驱动的方式学习最优安全策略.该方法将CBF合并进安全最优控制成本目标中形成一个增广值函数, 通过对该增广值函数进行迭代近似并调节权衡因子, 从而实现安全性与最优性的平衡. 但在实际应用中, 权衡因子的选取需要事先9 期王雪松等: 安全强化学习综述1817人工设定, 选择不恰当则可能找不到最优解. 先前的工作集中在一类有限的障碍函数上, 并利用一个辅助神经网来考虑安全层的影响, 这本身就造成了一种近似. 为此, Emam等[53]将一个可微的鲁棒控制障碍函数 (Robust CBF, RCBF) 层合并进基于模型的强化学习框架中. 其中, RCBF可用于非仿射实时控制综合, 而且可以对动力学上的各种扰动进行编码. 同时, 使用高斯过程来学习扰动, 在安全层利用扰动生成模型轨迹. 实验表明, 所提方法能有效指导训练期间的安全探索, 提高样本效率和稳态性能. 障碍函数法能够确保系统安全, 但并未考虑系统的渐进稳定性, 与李雅普诺夫法类似, 在实际应用中障碍函数和权衡参数都需要精心设计与选择.引入惩罚项. 此类方法在原先目标函数的基础上添加惩罚项, 以此修正不安全状态. 由于传统的乐观探索方法可能会使智能体选择不安全的策略,导致违反安全约束, 为此, Bura等[54]提出一种基于模型的乐观−悲观安全强化学习算法 (Optimistic-pessimistic SRL, OPSRL). 该算法在不确定性乐观目标函数的基础上添加悲观约束成本函数惩罚项,对回报目标持乐观态度以便促进探索, 同时对成本函数持悲观态度以确保安全性. 在Media Control 环境下的仿真结果表明, OPSRL在没有违反安全约束的前提下能获得最优性能. 基于模型的方法有可能在安全违规行为发生之前就得以预测, 基于这一动机, Thomas等[55]提出了基于模型的安全策略优化算法 (Safe model-based policy optimization, SMBPO). 该算法通过预测未来几步的轨迹并修改奖励函数来训练安全策略, 对不安全的轨迹进行严厉惩罚, 从而避免不安全状态. 在MuJoCo机器人控制模拟环境下的仿真结果表明, SMBPO能够有效减少连续控制任务的安全违规次数. 但是, 需要有足够大的惩罚和精确的动力学模型才能避免违反安全. Ma等[56]提出了一种基于模型的安全强化学习方法, 称为保守与自适应惩罚 (Conservative and adaptive penalty, CAP). 该方法使用不确定性估计作为保守惩罚函数来避免到达不安全区域, 确保所有的中间策略都是安全的, 并在训练过程中使用环境的真实成本反馈适应性地调整这个惩罚项, 确保零安全违规. 相比于先前的安全强化学习算法, CAP具有高效的采样效率, 同时产生了较少的违规行为.2.1.2 人类知识为了获得更多的经验样本以充分训练深度网络, 有些深度强化学习方法甚至在学习过程中特意加入带有随机性质的探索性学习以增强智能体的探索能力. 一般来说, 这种自主探索仅适用于本质安全的系统或模拟器. 如果在现实世界的一些任务(例如智能交通、自动驾驶) 中直接应用常规的深度强化学习方法, 让智能体进行不受任何安全约束的“试错式” 探索学习, 所做出的决策就有可能使智能体陷入非常危险的境地, 甚至酿成重大安全事故.相较于通过随机探索得到的经验, 人类专家经验具备更强的安全性. 因此, 借鉴人类经验来引导智能体进行探索是一个可行的增强智能体安全性的措施. 常用的方法有中断机制、结构化语言约束、专家指导.中断机制. 此类方法借鉴了人类经验, 当智能体做出危险动作时能及时进行中断. 在将强化学习方法应用于实际问题时, 最理想的状况是智能体任何时候都不会做出危险动作. 由于限制条件太强,只能采取 “人在环中” 的人工介入方式, 即人工盯着智能体, 当出现危险动作时, 出手中断并改为安全的动作. 但是, 让人来持续不断地监督智能体进行训练是不现实的, 因此有必要将人工监督自动化.基于这个出发点, Saunders等[57]利用模仿学习技术来学习人类的干预行为, 提出一种人工干预安全强化学习 (SRL via human intervention, HIRL) 方法. 主要思路为: 首先, 在人工监督阶段, 收集每一个状态−动作对以及与之对应的 “是否实施人工中断” 的二值标签; 然后, 基于人工监督阶段收集的数据, 采用监督学习方式训练一个 “Blocker” 以模仿人类的中断操作. 需要指出的是, 直到 “Blocker”在剩余的训练数据集上表现良好, 人工监督阶段的操作方可停止. 采用4个Atari游戏来测试HIRL 的性能, 结果发现: HIRL的应用场景非常受限, 仅能处理一些较为简单的智能体安全事故且难以保证智能体完全不会做出危险动作; 当环境较为复杂的时候, 甚至需要一年以上的时间来实施人工监督,时间成本高昂. 为降低时间成本, Prakash等[58]将基于模型的方法与HIRL相结合, 提出一种混合安全强化学习框架, 主要包括三个模块: 基于模型的模块、自举模块、无模型模块. 首先, 基于模型的模块由一个动力学模型组成, 用以驱动模型预测控制器来防止危险动作发生; 然后, 自举模块采用由模型预测控制器生成的高质量示例来初始化无模型强化学习方法的策略; 最后, 无模型模块使用基于自举策略梯度的强化学习智能体在 “Blocker” 的监督下继续学习任务. 但是, 作者仅在小规模的4×4格子世界和Island Navigation仿真环境中验证了方法的有效性, 与HIRL一样, 该方法的应用场景仍1818自 动 化 学 报49 卷。
利用chatgpt生成文献综述

[概述]1.1 背景知识随着人工智能技术的不断发展,自然语言处理成为了其中的一个热门领域。
近年来,GPT-3(Generative Pre-tr本人ned Transformer 3)作为自然语言处理领域的一项重大成果备受关注。
它是由Open本人公司研发的一种语言模型,能够生成高质量的自然语言文本。
其中,chatGPT作为GPT-3的一个子类,在对话生成方面具有出色的表现,被广泛应用于聊聊机器人、智能掌柜等场景中。
1.2 研究背景随着chatGPT的逐渐成熟和应用,越来越多的研究者开始关注其在文献综述方面的应用。
利用chatGPT生成文献综述不仅可以节约人力成本,提高文献综述的效率,还能够保证文献综述的客观性和准确性。
本篇文章旨在探讨利用chatGPT生成文献综述的可行性,并对其应用进行深入分析和讨论。
[chatGPT在文献综述中的应用]2.1 文献综述的重要性文献综述是科研工作中不可或缺的一部分,它能够对某一领域内已有的研究成果和进展进行全面系统的概括和总结。
通过文献综述,研究者可以了解到某一领域内已有的研究状况、研究趋势以及尚未解决的问题,为自己的研究提供有力支持和指导。
2.2 chatGPT生成文献综述的优势相比传统的文献综述方式,利用chatGPT生成文献综述具有以下几个显著的优势:- 高效性:chatGPT能够快速生成大量文本,大大缩短了文献综述的时间成本。
- 客观性:chatGPT生成的文献综述不受个人主观色彩的影响,保证了文献综述的客观性。
- 资源节约:不需要大量的人力物力投入,节约了研究成本,提高了效率。
2.3 chatGPT在文献综述中的挑战然而,利用chatGPT生成文献综述也面临一些挑战,例如:- 可信度:chatGPT生成的文献综述是否准确可信,需要进一步的验证和评估。
- 语言风格:chatGPT生成的文献综述是否符合学术语言风格,需要进行专业的校对和修正。
[实验设计与结果分析]3.1 实验设计为了验证chatGPT在生成文献综述方面的效果,我们设计了一系列实验。
《绩效管理与应用研究的国内外文献综述4000字》

绩效管理与应用研究的国内外文献综述1.1 国外研究现状境外学界较早将绩效管理纳入到了研究范畴,并获取了诸多经验,研究领域在界定绩效方面的研究持续增多,很多新的定义陆续出现,这也为深入分析“绩效管理”提供了支持。
在目前产业结构升级和全球经济一体化的形势下,市场经济形势日益复杂,相应的市场竞争也更复杂,这也促使绩效管理相关研究进一步发展。
以下对国外关于绩效管理问题的研究情况进行综述:1.关于绩效管理目标Marković (1980)的研究结果表明在进行绩效管理体系研究时,应该从战略管理视角出发进行总体全局研究,有效的结合绩效管理与企业战略管理,从而提高研究的应用价值,使得绩效管理为企业管理目标实现提供支持。
Dagmar (1983)在此方面研究中针对绩效管理与考评间的关联性展开了分析,同时探讨了企业实施绩效管理的实践价值。
根据所得结果发现进行科学高效的绩效管理,可充分调动人员的积极性,使其在企业发展中的作用充分的发挥出;在调查了解基础上,明确目前绩效管理中存在的不足和缺陷,然后综合应用相关理论工具提出一些改进绩效管理的方程。
Elina(1995)认为绩效管理过程中,重要工作之一为改进企业和个人的绩效,为实现企业战略发展目标提供支持。
Iwona(1998)此进行了理论研究,其发现绩效管理是一种管理思想,在企业日常管理和发展的各阶段都应该进行适当的绩效管理,将绩效管理和企业发展目标关联起来,可有效的提高企业管理水平,对提高企业的竞争优势提供支持。
Yunikewaty(2009)探讨了绩效管理的实践价值,企业在追求目标的进程中,绩效管理可起到一定促进作用。
2.关于绩效管理内涵从绩效管理的内涵角度进行分析可知,这种管理应该从组织和员工层面出发,通过适当的绩效管理可有效的促进组织目标实现。
Cláudia(1983)所做的研究结果表明,绩效管理工作开展过程中需要考虑到各方面的因素,如人力资源体系,企业文化、战略、计划等,且其影响因素也很复杂,因而在管理中应该突出绩效管理的全面性和综合性,这样才能保证其总体目标实现。
ARCS动机设计模式国内外研究综述

・师资队伍建设・ARCS动机设计模式国内外研究综述贵州师范大学教育科学学院 李昕钰 刘 青 朱 毅摘 要:ARCS动机设计模式作为一种切实可行的动机理论,有利于提高学习者的持续性动机。
本文通过对该模式 的国内外理论研究与实践研究进行分析、回顾,并总结出在各种各样不同角度的实践研究中总结分析出其 研究的趋势。
关键词:ARCS 动机设计模式 综述文章编号:ISSN2095-6711/Z01-2016-05-0119ARCS动机设计模型,为教育者在教学活动中研究如何激发、促进、提高学习者的学习动机提供了有效的思路,为动机设计能够在教学过程中系统化、科学化地应用,打下了坚实的理论基础。
自提出后国内外的研究业诸多,笔者在本篇文章中进行阐述。
一、ARCS动机设计模式简介ARCS动机设计模式由美国弗罗里达大学心理学教授凯勒(J. M. Keller)提出,包含四个动机类别分别为注意(Attention)、相关(Relevance)、信心 (Confidence)和满意(Satisfaction),如下图。
ARCS动机设计模型二、国外研究1983年,凯勒教授在《Development and Use of the ARCS Model of Motivational Design》一文中综合了有关动机的多种相关研究观点,提出了该模式的四个动机类别即注意(Attention)、相关(Relevance)、信心 (Confidence)和满意(Satisfaction)以及该模式的开发的三阶段:定义、开发、和评估。
四个动机类别的英文单词首字母便组合成一个ARCS动机设计模式。
同年,将该模式应用于在职教师培训中。
1988年,应用于课件之中。
1990年,将该理论应用于在非洲的教师培训,次年成功应用于多媒体。
1996年,凯勒教授在教育技术国际研讨会上做了报告,报告中提到结合多媒体的技术特征进行动机设计的相关策略。
随着信息技术的发展,学习环境的改变与扩大,1999年,凯勒教授在《Motivation in Cyber Learning Environments》一文中,开始将该模式应用于计算机辅助教学、远程教育等之中。
小学教育教学评价改革相关研究综述、书单和文献清单

小学教育教学评价改革相关研究综述、书单和文献清单PS:本文档首先对小学教育教学评价改革相关研究进行综述,并附上主要的中外参考文献以及该相关领域的中外权威学者名单。
正文:当今社会,教育教学评价的改革已成为一个热门话题,包括小学教育在内。
在过去,教育教学评价主要关注学生的成绩,以考试分数为主要评价标准,而现在,人们已经意识到这种评价方式的不足,开始尝试采用更加多元化和综合性的评价方式,旨在更好地了解学生的学习情况,促进学生的全面发展。
一、评价目标的明确化小学教育教学评价改革的目标在于提高学生的综合素质和能力,这一点应当在评价标准的制定上有所体现。
评价标准应当更加明确,涵盖学生知识、技能、情感和态度等多方面的综合能力。
二、评价方式的多元化传统的评价方式主要是基于考试成绩,但是现在已经有越来越多的教育工作者开始探索评价方式的多元化,包括日常表现、小组合作、口头报告、实验报告、作业、课外活动、社会实践等。
这种多元化的评价方式可以更好地了解学生的个性特点和综合能力,促进学生全面发展。
三、评价过程的参与化小学生的学习过程应当是积极主动的,而不是被动的。
在评价过程中,学生应当积极参与,通过自我评价、互评、教师评价等多种方式来了解自己的优点和不足,促进自身的进步。
四、教育教学评价的信息化随着信息技术的快速发展,教育教学评价的信息化已成为一种趋势。
通过信息技术的应用,可以更加方便、快捷地收集和整理学生的学习情况,同时也为评价过程提供了更多的数据和分析手段,从而提高评价的准确性和科学性。
五、教育教学评价的增值化最后,2020年中共中央和国务院印发的《深化新时代教育评价改革总体方案》文件中要求要探索增值评价。
这是首次在文件中提及增值评价并要求探索增值评价制度。
笔者以下整理并专对增值评价进行的文献综述。
当今教育教学评价改革的趋势是逐步从以考试成绩为主的传统评价方式,转向更多元、更全面、更综合的评价方式,而“增值评价”是其中一个重要的概念。
《小学生数学提问能力培养策略研究国内外文献综述3600字》

小学生数学提问能力培养策略研究国内外文献综述一、国外研究现状在国外,对问题意识的重视可以追溯到古希腊哲学家苏格拉底的“问答法”。
他只问问题,不回答,让学生自己找到答案。
他说,问题在于助产士,他们为新观念的诞生做出了贡献。
卢梭是18世纪法国著名的思想家。
他坚持埃米尔的中心思想。
问题不在于告诉他真相,而在于教会他如何发现真相。
20世纪,美国实用主义教育家杜威在其著作《民主与教育》和《我们如何思考》中提出了“问题教学法”,使学生在解决问题的过程中获得真正的知识。
Angelo将问题大致分为三类:陈述、发现和创造力。
关于学生提问的障碍,国外研究人员Edwards发现,教师提出的问题和教育指导的方式会影响学生提问的频率和质量。
在他们的文章中,他们还指出了影响学生提问的与教师有关的原因,以及教师缺乏系统的知识。
例如,一些教师不理解布鲁姆的认知分类;例如,教师对学生问题的态度并不鼓励学生在课堂上提问。
其他研究人员发现,范德认为教师的主导地位、学生的被动性、同伴压力和制度障碍会影响学生的提问过程。
多利发现,学生自身的能力因素也会影响他们问题的质量。
King A结合实际调查,研究了11-13岁儿童数学能力与数学提问成绩之间的关系,发现问题意识和提问能力的评价和影响因素应从具体操作量、复杂性、问题解决方法、与算法公式的相似性、,Schoenfeld发现,小学生在数学学习中的问题意识与提问能力之间存在显著相关,同年龄段学生的数学成绩、问题意识与提问能力之间存在正相关。
同时,在研究过程中还发现,除了高年级和低年级,小学生的数字意识和问题复杂性都会受到很大影响。
个体学习动机对学生的问题意识和提问能力也有显著影响。
Jonassen分析了问题意识和问题能力的评价要素,包括问题的原创性和新颖性、流利性、问题的数量和类型等。
泰勒的研究从探索学生在故事情境中的问题开始。
对于问题意识和问题的评价,应从问题的可解性、问题语言表达的清晰性、数学知识的复杂性、问题之间的关系等方面入手。
project based learning外国文献
project based learning外国文献以下是一些关于project based learning(项目学习)的外国文献:1. Thomas, J. W. (2000). A review of research on project-based learning. San Rafael, CA: Autodesk Foundation.这篇文献是对项目学习研究进行综述的一篇重要文献,提供了项目学习的定义、特点和实施指导,以及项目学习对学生学业成就和技能发展的影响等方面的综合评估。
2. Blumenfeld, P. C., Soloway, E., Marx, R. W., Krajcik, J. S., Guzdial, M., & Palincsar, A. (1991). Motivating project-based learning: Sustaining the doing, supporting the learning. Educational psychologist, 26(3-4), 369-398.这篇文献探讨了项目学习的动机因素和实施过程中的支持措施,从社会认知理论和动机理论的视角分析了如何提高学生在项目学习中的积极参与和学习成果。
3. Hung, W. (2006). The 9-step problem design process for problem-based learning: application of the 3C3R model. Educational research review, 1(1), 27-40.这篇文献介绍了一个适用于问题驱动学习的设计过程模型,通过“3C3R”模型(Challenge、Concepts、Cases以及Reflection、Reconstruction、Review)指导教师在项目学习中的问题设计和课程设计。
分层强化学习综述
强化学习(Reinforcement Learning,RL)是机器学习的一个重要分支,它是智能体(Agent)根据自身状态(State)采取动作(Action)与环境进行交互获取奖励,最终完成一个最优策略使奖励最大化。
2017年最具影响力的AlphaGo大胜世界围棋冠军李世石和柯洁事件,其核心算法就是强化学习算法。
但在传统强化学习中面临着维数灾难的问题,因为所有强化学习的方法都把状态动作空间视为一个巨大的、平坦的搜索空间,这也就意味着一旦环境较为复杂,状态动作空间过大,将会导致起始状态到目标状态的路径非常长,需要学习参数以及学习过程中的存储空间将会非常大,使得学习的难度成指数增加,并且强化学习效率以及效果不尽如人意。
之后随着深度学习的再次兴起,其强大的探索能力受到了广大科研人员的热捧,于是结合两者深度强化学习也就此应运而生,深度强化学习不仅具有强大的探索能力,对于复杂的环境状态都能够有一个良好的处理,但当智能体具有复杂动作空间时,其依旧不能取得良好的结果,使得强化学习的发展再次碰触到了瓶颈。
为解决强化学习发展的瓶颈问题,研究者们将分层的思想加入强化学习中,提出分层深度强化学习(Hierarchical Deep Reinforcement Learning,HRL),HRL的本质是通分层强化学习综述赖俊,魏竞毅,陈希亮陆军工程大学指挥控制工程学院,南京210007摘要:近年来强化学习愈发体现其强大的学习能力,2017年AlphaGo在围棋上击败世界冠军,同时在复杂竞技游戏星际争霸2和DOTA2中人类的顶尖战队也败于AI之手,但其自身又存在着自身的弱点,在不断的发展中瓶颈逐渐出现。
分层强化学习因为能够解决其维数灾难问题,使得其在环境更为复杂,动作空间更大的环境中表现出更加优异的处理能力,对其的研究在近几年不断升温。
对强化学习的基本理论进行简要介绍,对Option、HAMs、MAXQ 这3种经典分层强化学习算法进行介绍,之后对近几年在分层的思想下提出的分层强化学习算法从3个方面进行综述,并对其进行分析,讨论了分层强化学习的发展前景和挑战。
小学英语课堂中有效提问的研究与实践【文献综述】
毕业论文文献综述小学英语教育小学英语课堂中有效提问的研究与实践一、引言课堂提问是教师落实教学计划和进行课堂活动的纽带,也是向学生输入语言信息的一种途径。
在小学英语课堂教学中,提问具有“集中学生注意,激发学生学习兴趣,启迪学生思维,锻炼学生表达能力,提供反馈信息”的教育功能。
提高课堂提问的有效性是加强课堂教学质量的一个关键因素。
有效的提问不仅可以启迪学生的思维,培养学生的认知能力、分析能力和创新能力,还有助于发挥教师的主导作用,调节教学进程,及时检查学生的学情,提高课堂教学的有效性。
但是目前小学英语课堂中,教师的提问存在着种种不足:问题含糊不清,目的不明确;问题机械重复,缺少趣味性;问题难度过高,学生难以回答;为了提问而问,缺少真实性和交际性;问题限定于课本、课堂,束缚学生思维;提问对象集中在优秀学生,忽视后进学生……究其原因,教师的教学技能,提问的技巧、艺术和时机等都可能造成课堂提问的不足。
但最根本的原因是教学观念落后:其一,教师关注教学内容的落实,很少有教师关注学生的学习兴趣、学习状态,忽略了学生的主体性。
其二,教师仍在教学中掌握着主动性和权威性,追求单一、标准化的答案。
这样就限制学生的创造力和想象力等思维,使其停留于教材或某一节课,难以把外语运用到实际生活中或其他方面。
由此可见,教师必须改进教学观念,提高先进教学理念,有效提问,使课堂提问发挥应有的魅力和作用,培养学生英语学习兴趣,启迪智慧,开拓思维。
笔者通过各种英语教学的书籍、期刊、杂志、视频、网络,收集并仔细阅读了大量的文献资料,来对本课题进行研究探讨。
比如浙江省2005、2006、2007年度小学英语课堂教学评比的视频,北京师范大学出版社出版的英语课程标准(实验稿)解读,BCIT LEARNING AND TEACHING CENTRE编写的Using Classroom Questions Effectively和Kathleen Cotton编写的Classroom Questioning等。
学业情绪综述
大学生学业情绪研究综述汪岑摘要:最近几年来,阻碍大学生学习的一个重要因素——学业情绪已成为教育学和心理学研究中的一个热点问题,并引发了各国学者的普遍关注。
对大学生的学业情绪进行研究,会对他们适应大学学习和身心健康的培育具有增进作用。
本文要紧对大学生学业情绪的理论、相关研究及阻碍因素等方面进行概述,并在此基础上对以后研究进行了展望。
Abstract:in recent years, affecting the university students' learning is an important factors - academic emotional pedagogy and psychology has become a hot issue in the study, and caused the extensive attention for the scholars of every country. Of college students' academic emotions, for they adapt to college study, as well as health of body and mind to develop a role in promoting. This paper mainly studies on college students' emotion theory, the related research and influence factors were summarized, and based on this, the future research are prospected.关键词:大学生学业情绪相关研究阻碍因素引言对现今大学生而言,学习仍然是大学生的要紧任务,而学业情绪在大学生的学习进程中发挥了重要作用。
因此,大学生学业情绪问题己经引发国内外学者的普遍关注。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
M-learning研究综述 计算机技术和网络技术已经在教育领域得到了广泛的应用,它对教育所起到的积极作用是有口皆碑的,由此诞生的数字化学习(E-learning)目前已经广泛应用于远程教育和企业员工培训中。近几年来,随着移动计算(Mobile Computing)技术的迅猛发展,另一种全新的学习模式——移动学习(M-learning)悄然而生,它被认为是一种未来的学习模式,或者说是未来不可缺少的一种学习模式。由于移动学习还是一个新生儿,作为一个全新的研究领域,还有许多问题待我们去发现、去思考、去解决。
一、M-learning的定义及其特征 目前,关于M-learning还没有一个统一、确切的定义,欧洲和美国一般以M-l
earning或M-education来指称,而我国一般表述为移动学习或移动教育。 Dye等人在他们的题为《Mobile Education – A Glance at the Future》的文章中对M-learning作了一个较具体的定义:移动学习是一种在移动计算设备帮助下的在任何时间任何地点开展的学习,移动学习所使用的移动计算设备必须有效呈现学习内容并提供教师与学习者之间的双向交流。
Chabra和Figueiredo 结合了远程教育的思想,对M-learning作了一个较宽泛的定义:移动学习就是能够使用任何设备,在任何时间、任何地点进行学习。
在芬兰,由爱立信等几家公司联合发起的名为“Telenor WAP Mobile Learning”研究项目的报告中给出的定义是:由于人们地理空间流动性和弹性学习需求的增加而使用移动终端设备进行学习的一种新型学习方式。
Knowledge Planet公司认知系统部主任Clark Quinn认为“移动学习是移动计算与数字化学习的结合,它包括随时、随地的学习资源,强大的搜索能力,丰富的交互性,对有效学习的强力支持和基于绩效的评价。它是通过诸如掌上电脑、个人数字助理或移动电话等信息设备所进行的数字化学习。”
Harris的定义是:移动学习是移动计算技术和E-learning的交点,它为学习者带来一种在随时随地学习的体验。
德国雷根斯堡大学的 Franz Lehner和Holger Nosekahel认为:任何为学习者提供广泛的数字化信息和学习内容,有助于学习者任何时间、任何地点的知识获得的服务机构和部门都属于移动教育范畴。
北京大学现代教育技术中心移动教育实验室崔光佐的定义是:移动教育是指依托目前比较成熟的无线移动网络、国际互联网和多媒体技术,学生和教师通过使用移动设备(如手机等)来更为方便灵活地实现交互式教学活动。
综合以上观点,我们可以发现M-learning相对于E-learning的一些独有特征:
⑴泛在性,这是M-learning区别于E-learning的一个根本特征。所谓泛在性是指任何人(Anyone)在任何时间(Anytime)任何地点(Anywhere)学习任何信息( Anything)。M-learning的这一独特优势是其他学习方式所望尘莫及的,极大地满足了“总在线”一代的学习需求,这也奠定了M-learning在未来学习中的重要地位。
⑵及时性。由于在移动计算环境下,学习时间和空间不受限制,学习者可以在需要某些知识(不用花太长时间学习的知识)的时候马上学习,同时教师也可以通过移动互联网,借助移动终端及时地进行交互,因此移动学习也可以被认为是一种及时学习。
⑶个性化。M-learning可以根据学习者的特点和需求进行专有的、个性化的教育服务,更好地实现学习自助。
二、M-learning的国内外研究现状及成果 1.国外研究现状及成果 目前,M-learning在国外的研究主要集中在欧洲和北美的部分经济发达国家,开始较早的一些研究已经进行了三四年的时间。从研究目的来分主要有两类,一类是由教育机构发起,他们立足于学校教育,试图通过新技术来改善教学和管理;另一类则由E-learning提供商发起,他们力求借鉴E-learning的经验,把M-learning
推向市场,更多的用于企业培训。
(1) From E-learning to M-learning 国际远程教育专家戴斯蒙德·基更(Desmond Keegan )博士主持了欧盟的达·芬奇研究计划中一个名为“从数字化学习到移动学习”的项目,并出版著作《学习的未来:从数字化学习到移动学习》(The Future of Learning: from E-learning to M-l
earning) 详细介绍了该项目的研究成果。该项目由爱立信教育、挪威NKI远程教育机构、德国开放大学、爱尔兰国际远程教育机构和罗马第三开放大学合作研究,被誉为“未来学习的先驱”。该项目旨在为移动技术设计一种虚拟的学习环境,并提出学习环境模型。
(2) MOBIlearn 欧盟《数字化欧洲行动研究计划》(e-Europe Action Plan)中特别开展了一项名为“MOBIlearn行动”的移动学习专项研究计划,研究自2002年7月1日开始至2
004年12月31日完成,参与合作研究的有来自欧洲的九个国家以及非欧盟的美国、以色列、瑞士和澳大利亚。其主要研究目的:①从理论上和实践上定义两个模式:在移动环境中的有效学习、教学与辅导;为移动学习进行的教学设计和数字化学习内容开发。②开发能够吸引世界各国应用者的移动学习体系。③为在欧盟范围内移动学习的成功开发一种商业模式并实施相关策略。④能促使欧洲范围内对移动学习感兴趣的所有组织大规模使用该项目。为了达成这些目标,项目的各项工作根据项目的执行周期被逻辑地分成了13个工作包。
(3) M-learning 该研究项目是由英国学习与技能发展处(LSDA)以及意大利、瑞典的一些大学和公司联合开展,自2001年10月1日开始至2004年9月30日完成,旨在开发一个原型产品,通过欧盟各国的许多年轻人已经拥有的便携式移动设备来为其提供信息与学习内容。该项目是为那些不能参加教育和培训的16-24岁的年轻人开发和设计的,用来帮助他们完成终身学习目标,学习的主题主要集中于年轻人感兴趣的内容如足球、音乐等以及能够发展他们的语言和数学能力的活动上。
(4)斯坦福大学学习实验室(SLL)的研究 斯坦福大学在学校的语言教学中使用移动电话,是该实验室一个极富创新意义的研究项目。他们认为蜂窝电话、掌上电脑、无线Web帮助我们收发电子邮件、进行股票交易并保持联系,它们也应该能帮助我们让学习填满每一天的“碎片”时间。2001年,SLL开发了一个移动学习的初始模式,选择以外语学习作为移动教育的课程内容,让用户练习生词、做小测验、查阅单词和短语的译文、与现场教师实时交流并将单词存储到笔记本中。并初步假定, 移动设备能在一个安全、可信、个性化以及即时需求的环境中提供复习、练习的学习机会。
(5)非洲农村的移动学习 非洲农村的移动学习,既是一个项目,也是南非普里多利亚大学领导的一个正常的研究生教育计划。农村学生通过这个计划学习教育学士学位课程、高级教育证书课程和特殊需求的课程。这个项目的最大特点就是参加学习的学生没有P
DA,也没有E-mail和其他数字化学习设施,他们中99%的人拥有的工具就是移动电话。移动电话在整个教学过程中起到以下作用:①作为教务管理的通用支持和激励支持批量发送事先设计的短信给所有相关的学生;②为具体的教育支持从数据库中向特定学生群发送定制的学习短信;③为具体的教务支持从数据库中向特定的学生发送群体甚至个人定制短信。
(6)爱立信等商业公司开展的“移动学习”项目 该项目由爱立信、Insite、Telenor Mobil与IT Fornebu Knowation联合开展,旨在研究移动学习与传统课堂教学整合的方式。通过在“3G应用入门”的教学中将移动学习方式作为一种辅助学习方式,发现需要将传统课堂学习、E-learning和M
-learning这些学习模式综合起来并进行彻底、全面地规划。作为其中一种学习模式的M-learning,移动技术是实现人们之间信息分享和通信交流的重要工具。
2.国内研究现状及成果 我国对M-learning的研究实践始于两三年前,主要是在教育部的策划下开展,与欧美等国家相比,我们的研究水平还比较低,研究规模还比较小。虽然如此,我们还是取得了一定的成果。
(1)教育部高教司试点项目:移动教育理论与实践 这个项目由国内第一个移动教育实验室北京大学现代教育中心教育实验室承担研究,项目持续四年,从2002年1月到2005年12月。其研究分为四个阶段,开发了三个版本的移动教育平台:
①基于GSM网络和移动设备的移动教育平台。该阶段主要利用短信进行,重点是解决信息交换,实现了基于SMS的移动网和互联网共享。
②基于GPRS的移动教育平台。该平台主要是针对GPRS数据服务,开发适合多种设备的教育资源,使得GPRS手机、PDA和PC可以浏览同一种资源。
③基于本体的教育资源制作、发布与浏览平台。该平台主要是提高教育资源和教育服务的开发规范、动态扩充、可定制性,并为教育语义Web打下了基础。
④教育语义网络平台。该平台主要利用语义Web技术提高教育服务平台的智能性,利用语义Web以及本体技术建立多功能的教育服务平台。
(2)教育部“移动教育”项目 参与该项目的高校有三所,分别是北京大学、清华大学和北京师范大学。其核心内容有两个:一是建立“移动教育”信息网,利用中国移动的短信息平台和GPRS平台向广大师生提供信息服务,同时让师生能够享用更加优质优惠的移动电话服务;二是建立“移动教育”服务站体系,在各主要大学建立“移动教育”服务站,为参与“移动教育”项目的用户提供各种服务。
(3)多媒体移动教学网络系统CALUMET 多媒体移动教学网络系统CALUMET(Computer Aided Learning(CAL)Unite Multimed
ia Education Technology(MET))是由南京大学和日本松下通信工业公司以及SCC公司进行的一个多媒体移动教学的实验研究。实验从1999年4月开始,到2000年4
月结束第一阶段工作,即试验使用和功能完善阶段;2000年5月进入第二阶段,即正式使用阶段。
CALUMET系统它融合了先进的多媒体教育技术、移动通信技术和互联网技术,在校园网中实现了随时随地的教学。它有三大主要功能:移动学习、移动上网、移动通话。
三、M-learning的发展前景及其挑战 基更博士在2000年参加上海电大40周年校庆“新千年:教育技术与远程教育发展——中外专家学者报告会”上作了题为《从远程学习到数字化学习再到移动学习》的报告,其结尾就曾预言:“无线移动技术在90年代的迅猛发展必定会导致在21世纪初第一次通过移动学习授予大学学位。学生们可以通过他们的电话和移动电话,最终应用语音综合和语音输入技术,无线接入因特网,学习大学提供的学习材料,远程学习大学的学位课程。”