一种基于情景感知的学习服务发现算法_朱郑州
基于光学图像的多粒度随动环境感知算法

基于光学图像的多粒度随动环境感知算法陈昊升;张格;叶阳东【期刊名称】《软件学报》【年(卷),期】2016(0)10【摘要】针对快速三维建模中的室内外随动环境感知问题,提出一种基于光学图像的多粒度随动环境感知算法.该算法根据多种光学图像生成拟合真实三维环境的多粒度点云模型,然后通过概率八叉树压缩并统一表示已生成的多粒度三维模型.进而伴随相机轨迹每个时间节点,通过卡尔曼滤波动态融合多粒度点云模型的概率八叉树表示.最终生成唯一的时态融合概率八叉树三维模型,简称TFPOM,使TFPOM能够在较少的噪声影响下以任意粒度动态拟合真实环境.该算法配合剪枝和归并策略能够适应多粒度融合和多粒度表示的环境建模要求,有效压缩环境模型存储空间,实现鲁棒的随动环境感知,便于基于环境模型的视觉导航,增强现实等应用.实验结果表明,该算法能够在以可穿戴设备为代表的内含多种异构光学图像传感器、低计算效能的平台上实时地得到充分拟合真实动态环境的多粒度TFPOM,基于该模型的视觉导航具有较小的轨迹误差.【总页数】15页(P2661-2675)【作者】陈昊升;张格;叶阳东【作者单位】郑州大学信息工程学院,河南郑州450052;郑州大学信息工程学院,河南郑州450052;郑州大学信息工程学院,河南郑州450052【正文语种】中文【中图分类】TP391【相关文献】1.基于道路环境感知的汽车前照灯智能随动转向系统 [J], 郑明锋;关志伟2.基于道路环境感知的汽车前照灯智能随动转向系统 [J], 郑明锋;关志伟3.基于道路环境感知的汽车前照灯智能随动转向系统 [J], 郑明锋;关志伟;4.基于快速响应码的非线性光学图像加密算法 [J], 张文惠; 丁世飞; 谭云兰5.基于改进CycleGAN的光学图像迁移生成水下小目标合成孔径声纳图像算法研究 [J], 李宝奇;黄海宁;刘纪元;李宇因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于部分标记的SOM和MLP混合识别算法

维普资讯
∞ 。 l l Te w e se EtN h s l n i i rl e lx e g n V h e
l
。 …… gQ ~ … ≤
…
0l ~ l
0_ .
,
。 0 _
鲁
的算法将 S M 和 M P分类器相结合 , O L 可得到
了 9 . %的 正确识 别率 。 67
文 章的其 他 部分 安 排 如下 : 二 章 介 绍 特 第 征 的提 取 ; 三章 详细 描述 了分 类器 , 第 包括 部分 标 记 的两 层 S M 分 类 器 和 ML O P分 类 器 ; 验 实
关键 词 孟加 拉数 字
引言
部 分标记 的 S M ML O P
一
、
图 1 述 了部 分孟 加拉 数字 。鉴于人们 书 描
写 风格 的多样性 , 我们 采用 了 6 局部方 向特 4个
近几 十 年 来 , 于 各 种 各 样 的 应 用 需 求 由 ( 邮件 的分 拣 , 行 支 票 的处 理 等 ) 手 写 体 数 银 ,
维普资讯
%发 应 开 与 用}一种基 于部分标 记的 S M 和 ML O P混合识别 算 法
国家邮政局上海研究院 吕淑 静
摘
要
针 对孟 加拉手 写体数 字 的识 别 , 文提 出了一种基 于部分标 记 的两层 S M 分 类 器和 本 O
ML P分类 器相混合 的识 别算 法。对 于 K hnn提 出的 S M 分 类 器 , 分标 记有 利 于降低 ooe O 部
取每 个 区域 的方 向特征 , 包括 水平 方向特征 、 垂
些英 文 、 拉 伯数 字 的机 器 识别 已在许 多 国 家 阿 得 到了 比较成 功 的应 用 。近几 年 , 其 他 地 域 对
引入任务情景的服务发现方法

引入任务情景的服务发现方法
彭艳斌;高济;余洪刚
【期刊名称】《计算机工程》
【年(卷),期】2010(036)017
【摘要】如何准确地发现目标服务是服务计算研究的关键问题.传统的服务发现方法由于没有考虑服务任务情景的适用性,查询精度仍有较大上升空间.基于此,提出包含任务情景的服务发现方法,以自定义本体论为基础,引入结构化概念实例模式来描述任务情景.实验数据表明,该方法提高了服务发现的精度.
【总页数】3页(P10-12)
【作者】彭艳斌;高济;余洪刚
【作者单位】浙江科技学院信息与电子工程学院,杭州,310023;浙江大学计算机科学与技术学院,杭州,310027;浙江大学计算机科学与技术学院,杭州,310027
【正文语种】中文
【中图分类】TP393
【相关文献】
1.巧设情景激趣探究——将情景问题引入数学教学 [J], 谈岳
2.饭店服务教学中案例引入到情景教学方法的运用 [J], 刘中洁
3.一种基于情景感知的学习服务发现算法 [J], 朱郑州
4.浅谈中学化学课堂中的情景引入方法 [J], 卡泽本;
5.紧扣指令做任务融入情景展真情\r——2019年高考作文专项突破之情景设置类任务驱动型作文 [J], 豆党锋
因版权原因,仅展示原文概要,查看原文内容请购买。
融合元学习和PPO算法的四足机器人运动技能学习方法

第41卷第1期2024年1月控制理论与应用Control Theory&ApplicationsV ol.41No.1Jan.2024融合元学习和PPO算法的四足机器人运动技能学习方法朱晓庆†,刘鑫源,阮晓钢,张思远,李春阳,李鹏(北京工业大学信息学部,北京100020;计算智能与智能系统北京市重点实验室,北京100020)摘要:具备学习能力是高等动物智能的典型表现特征,为探明四足动物运动技能学习机理,本文对四足机器人步态学习任务进行研究,复现了四足动物的节律步态学习过程.近年来,近端策略优化(PPO)算法作为深度强化学习的典型代表,普遍被用于四足机器人步态学习任务,实验效果较好且仅需较少的超参数.然而,在多维输入输出场景下,其容易收敛到局部最优点,表现为四足机器人学习到步态节律信号杂乱且重心震荡严重.为解决上述问题,在元学习启发下,基于元学习具有刻画学习过程高维抽象表征优势,本文提出了一种融合元学习和PPO思想的元近端策略优化(MPPO)算法,该算法可以让四足机器人进化学习到更优步态.在PyBullet仿真平台上的仿真实验结果表明,本文提出的算法可以使四足机器人学会行走运动技能,且与柔性行动者评价器(SAC)和PPO算法的对比实验显示,本文提出的MPPO算法具有步态节律信号更规律、行走速度更快等优势.关键词:四足机器人;步态学习;强化学习;元学习引用格式:朱晓庆,刘鑫源,阮晓钢,等.融合元学习和PPO算法的四足机器人运动技能学习方法.控制理论与应用,2024,41(1):155–162DOI:10.7641/CTA.2023.20847A quadruped robot kinematic skill learning method integratingmeta-learning and PPO algorithmsZHU Xiao-qing†,LIU Xin-yuan,RUAN Xiao-gang,ZHANG Si-yuan,LI Chun-yang,LI Peng(Faulty of Information Technology,Beijing University of Technology,Beijing100020,China;Beijing Key Laboratory of Computational Intelligence and Intelligent System,Beijing100020,China) Abstract:Learning ability is a typical characteristic of higher animal intelligence.In order to explore the learning mechanism of quadruped motor skills,this paper studies the gait learning task of quadruped robots,and reproduces the rhythmic gait learning process of quadruped animals from scratch.In recent years,proximal policy optimization(PPO) algorithm,as a typical representative algorithm of deep reinforcement learning,has been widely used in gait learning tasks for quadruped robots,with good experimental results and fewer hyperparameters required.However,in the multi-dimensional input and output scenario,it is easy to converge to the local optimum point,in the experimental environment of this study,the gait rhythm signals of the trained quadruped robot were irregular,and the center of gravity oscillates.To solve the above problems,inspired by meta-learning,based on the advantage of meta-learning in characterizing the high-dimensional abstract representation of learning processes,this paper proposes an meta proximal policy optimization (MPPO)algorithm that combines meta-learning and PPO algorithms.This algorithm can enable quadruped robots to learn better gait.The simulation results on the PyBullet simulation platform show that the algorithm proposed in this paper can enable quadruped robots to learn walking pared with soft actor-critic(SAC)and PPO algorithms,the MPPO algorithm proposed in this paper has advantages such as more regular gait rhythm signals and faster walking speed.Key words:quadruped robot;gait learning;reinforcement learning;meta-learningCitation:ZHU Xiaoqing,LIU Xinyuan,RUAN Xiaogang,et al.A quadruped robot kinematic skill learning method integrating meta-learning and PPO algorithms.Control Theory&Applications,2024,41(1):155–162收稿日期:2022–09–27;录用日期:2023–05–06.†通信作者.E-mail:*******************.cn.本文责任编委:吴敏.国家自然科学基金项目(62103009),北京市自然科学基金项目(4202005)资助.Supported by the National Natural Science Foundation of China(62103009)and the Natural Science Foundation Project of Beijing(4202005).156控制理论与应用第41卷1引言近些年,移动机器人由于可在多种场景下完成任务受到广泛关注,移动机器人被分类为:轮式机器人、履带式机器人和足式机器人[1];由于结构问题,传统轮式机器人和履带式机器人可应用的场景范围较小,在非平坦地形上,存在越障能力差以及由于地形多变而造成重心不稳等问题[2].相反,足式机器人由于其仿生的腿部结构而拥有更高的灵活性和适应性,可以像动物一样在各种地形完成行走任务[3–4].根据足数量的不同可以将足式机器人进行分类,相较于双足机器人和六足机器人,四足机器人在结构上具备更稳定和更易控制的优点.正因此四足机器人在医疗、物资运输、环境勘探和资源采集等场景中具备很大的应用前景.通过人为指定运动速度的方式,使机器人具备像动物一样的行走姿态[5],这种方法需要人为设置控制器.然而,这种控制器的设计流程更为繁琐,特别是针对机器人的系统和腿部的控制器,不仅对设计者的专业知识水平有较高的要求,而且,在实际应用过程中,控制器的具体参数也需要反复调整和试验[6–7].强化学习[8]具备让智能体自己学习的能力,近年来该技术在各应用领域蓬勃发展[9–11].在机器人设计、操作、导航和控制等方面,也以此为基础不断拓展[12–13].为了解决传统的基于人工设计的控制器存在的问题,越来越多的研究使用强化学习来代替原有设计方式[14],Kohl和Stone[15]在底层控制器设计完善的基础上,通过强化学习调整控制器参数,训练出了四足机器人Aibo的行走控制策略,代替原有的手动设置参数的过程,并且由强化学习训练的步态行走速度快于当时手动调参可达到的最快步态;Peng等人[6]先对动物的动作进行捕捉,得到四足机器人目标动作,之后利用强化学习来让四足机器人完成目标动作,实现了让机器人通过模仿动物来学习运动技能;ETH团队[16]引用策略调整轨迹生成器(policies modulating trajectory generators,PMTG)架构,即设计一个轨迹生成器作为先验,再通过强化学习对前面轨迹生成器进行调整,其中应用了课程学习[17],教师策略中通过编码器将视觉信息和本体感知信息融合编码成隐变量,再让学生策略通过机器人的历史状态来提取隐变量得到机器人的控制策略,并通过在机器人建模时使用随机化处理和训练神经网络电机模型实现了将强化学习算法实际部署在物理机器人上,完成了多种地形上的鲁棒性行走[18–20].上述研究或通过良好的运动先验知识或通过精心设置的奖励函数实现了机器人步态学习和在物理机器人上的部署,然而如何在少量运动先验前提下,通过简单奖励函数快速有效地学会四足机器人步态仍是一个正在面临的挑战.本文在Shi等人的研究[21]基础上,提出一种基于生物启发的元近端策略优化(meta proximal policy opti-mization,MPPO)算法,在有运动先验知识的情况下,仅通过简单奖励函数来快速学习机器人行走技能,和现有强化学习算法柔性行动者评价器(soft actor-critic, SAC)和近端策略优化(proximal policy optimization, PPO)的对比试验结果来看,本文的算法具备一定程度的有效性.2算法设计2.1近端策略优化算法对于机器人系统,策略梯度(policy gradient)算法针对连续动作空间的任务,可取得显著成效,传统策略梯度算法的基本思想是通过最大化状态价值(value)函数Vπ(s)来更新策略(policy)函数,即直接去优化策略网络,更新策略函数的损失函数被定义为L(θ)=∑logπ(a|s;θ)f(s,a),(1)其中f(s,a)为在状态s下采取动作a的评估,策略的梯度表示为g(θ)=E[∞∑t=0φt∇θlogπθ(a t|s t)],(2)最后通过式(3)更新参数θθ←θ+αg(θ).(3)其中φt有多种计算方法,通常被表示为优势函数(adv-antage function),如式(4)所示,作为一个衡量当前动作好坏的标准,如结果为正,证明当前动作a在此策略下要更好,并且之后提高此动作的概率以优化策略,即Aπ(s t,a t)=Qπ(s t,a t)−Vπ(s t),(4)将式(4)代入式(2)得到g(θ)=E[∞∑t=0∇θlogπθ(a t|s t)Aπ(s t,a t)].(5)然而,传统的策略梯度算法在计算式(4)–(5)时会因偏差和方差的问题导致无法准确估计优势函数.以下考虑两种极端情况,以整条轨迹来估计优势函数时虽然不会有偏差,但是会有高方差的问题,即过拟合;假如以单步更新,虽然不会有方差,但会有很大的偏差,即欠拟合.因此,需要在这两种极端情况中间找到一个平衡,但是优势函数估计的偏差是无法避免的,导致算法性能对更新步长十分敏感,假如一次更新步长过大,将可能会导致下次采样完全偏离,也就导致策略偏离到新的位置,从而形成恶性循环.为了解决这个问题,PPO算法[22]在信任域策略优化(trust region pol-icy optimization,TRPO)[23]的基础上被提出.PPO算法在策略梯度这个同策略(on-policy)算法的基础上引入了重要性采样(importance sampling),将其变成了一个近–异策略(near off-policy)的算法.第1期朱晓庆等:融合元学习和PPO 算法的四足机器人运动技能学习方法157E x ∼p (x )[f (x )]=p (x )f (x )d x =q (x )p (x )q (x )f (x )d x =E x ∼q (x )[p (x )q (x )f (x )].(6)上式为重要性采样过程,将式(6)代入式(5)得到ˆg t =ˆEt [πθ(a t |s t )πθold (a t |s t )πθ(a t +1|s t +1)πθold (a t +1|s t +1)...πθ(a T |s T )πθold (a T |s T )∇θlog πθ(a t |s t )log ˆA t ],(7)只计算t 时刻的梯度公式就变为了ˆg t ≈ˆE t [πθ(a t |s t )πθold (a t |s t )∇θlog πθ(a t |s t )log ˆA t]=ˆEt [πθ(a t |s t )πθold (a t |s t )∇θπθ(a t |s t )πθ(a t |s t )ˆA t ]=ˆE t [∇θπθ(a t |s t )πθold (a t |s t )ˆA t ],(8)于是损失函数由式(1)变成了L (θ)=ˆEt [πθ(a t |s t )πθold (a t |s t )ˆA t ].(9)作为一个策略梯度算法的优化算法,PPO 算法核心思想是通过对式(9)引入截断(CLIP)限制更新幅度,让每次策略更新后落在一个信任域(trust region)里,以此解决了更新步长的问题,PPO 算法的损失函数如式(10)所示:L CLIP (θ)=ˆEt [min(πθ(a t |s t )πθold (a t |s t )ˆA t ,CLIP(πθ(a t |s t )πθold (a t |s t ),1−ϵ,1+ϵ)ˆA t )],(10)其中:ϵ是超参数,用来限制更新的大小;ˆAt 是优势函数在t 时刻的估计值.最终训练时的损失函数为L (θ)=ˆEt [L CLIP (θ)+c 1L VF (θ)−c 2S [πθ](s t )],(11)其中:c 1,c 2为系数,S 为熵,L VF (θ)是平方误差损失(V θ(s t )−V targ t )2.与TRPO 算法相比,PPO 的超参数较少,在计算上更易实施,且效果更好,因而受到广泛的关注和应用.2.2MPPOPPO 具有在大部分实验环境中有很好效果且具有较少超参数的优势,但是在多维输入输出场景下,如本文涉及的四足机器人步态学习任务实验环境中的呈现效果一般,且容易收敛到局部最优,表现为步态节律信号杂乱、重心震荡严重.为此,本文在融合元学习的基础上提出了MPPO 算法.不可知模型元学习(Model-agnostic meta-learning,MAML)[24–25]由元学习(meta learning)引出,元学习优势体现在可快速适应新任务且减轻过拟合现象.从特征学习角度看,元学习训练的模型参数通过少量梯度更新能在新任务上产生良好结果,这样的过程可被视为构建广泛适用于许多任务的模型本质表示.从系统角度看,元学习是最大化了新任务损失函数对参数的敏感性:灵敏度较高时,参数微小局部变化可导致任务损失的大幅改善.本文提出的MPPO 算法,融合元学习和强化学习思想,即不是找到当前观测下的最佳参数,而是希望找到可以广泛适应在不同观测上采样到的数据上的参数,让四足机器人遵循奖励函数学习到运动技能的本质,获得更高奖励值并达到更优步态.其算法伪代码和框图如表1和图1所示.表1算法1:MPPO 算法伪代码Table 1Pseudocode输入:49维观测向量.输出:12维动作向量.1初始化θ,θ′,设置α;2while 不收敛do3使用πθ策略和环境交互T 步,收集D =(s,a π(θ),r );4通过策略梯度下降方法更新参数得到预更新参数θ′,即θ′=θ−α∇θL (πθ),其中的L (πθ)使用式(2)计算;5使用πθ′策略和环境交互T 步,收集D =(s,a πθ′,r );6通过梯度策略下降法更新参数θ,即θ=θ−α∇θ′L (πθ′),其中的L (πθ′)使用式(2)计算.7end图1算法框图Fig.1Algorithmic flowchart首先,使用全局策略πθ0和环境交互,并通过PPO算法流程更新参数得到预更新的参数θ′.由于PPO 策略的输出动作是一个高斯分布的采样结果,其训练方向会很多样.通过πθ′0和环境的交互收集到的D 0[s,a (πθ′0),r,s ′]作为数据用于更新策略πθ0,这步可以看作一个有预见性和兼顾性的预更新,对应了元学习中通过单个任务的训练误差更新一个中间策略,通过中间策略把当前任务上的测试误差作为元学习训练误差的更新方法,即不追求当前状态下的最优方向,转为追求下一状态下的优势方向,以此更新全局策略.在本文中,PPO 算法的演员(actor)和评判家(critic)网158控制理论与应用第41卷络都采用了长短期记忆网络(long short-term memory,LSTM)[26]网络,相比多层感知器(multilayer perce-ptron,MLP)网络,其对像机器人系统这样序列型的输入有更好效果.3实验3.1实验对象本文使用pybullet物理引擎[27]在gym环境中进行模拟实验,机器人为Laikago,它是一个12自由度的四足机器人,每条腿有3个自由度,分别为髋关节、摆动关节和膝关节,控制频率为38Hz,其身体参数即各关节活动范围如表2所示.表2四足机器人身体参数Table2Body parameters of quadruped robot身体参数数值正常站立尺寸/cm370×270×295整机质量/kg11关节自由度12髋关节活动范围/(◦)−46∼46摆动关节活动范围/(◦)−60∼240膝关节活动范围/(◦)−154.5∼−52.53.2实验设计为了验证本文MPPO算法有效性,将此算法和传统SAC[28]和PPO算法进行对比实验,实验设置如下.3.2.1奖励函数在强化学习问题中,奖励函数可以被视为智能体的目标,在智能体与环境交互的每一个时刻中,当遇到状态时,智能体会根据策略选择一个动作(action),同时由设定的奖励函数给出一个奖励值(reward),而智能体的目标就是学习到一个策略来最大化这个奖励,因此这个奖励函数的设置应与想达到的训练目标相匹配,通过奖励函数来教会智能体一个期望的技能或者说引导智能体的策略向期望的目标上发展.在本文使用的策略梯度算法中,首先通过设计奖励函数引导价值函数向其靠拢,再通过价值函数来引导策略进行学习,以此让机器人学习到期望的行走技能.为了让机器人学会平稳快速节能的行走,奖励函数被设计为r t=c1r vt +c2r et+c3r st,(12)其中c1,c2和c3为各部分奖励函数之间的系数.r v t =X t−X t−1t,(13)其中:X t代表机器人所处位置,t为根据控制频率计算的时间,这部分的奖励函数是为了鼓励机器人朝着期望的方向前进并且速度越快越好.r e t =E t,(14)其中E t代表能耗,这部分的奖励函数是通过负的系数来促使机器人兼顾能耗问题.r st=[1−tan(roll2+pitch2)],(15)其中:roll和pitch为机器人惯性运动单元(Inertial mo-tion unit,IMU)测得的俯仰角和横滚角,这部分的奖励通过一个双曲正切函数来引导机器人以更平稳的姿态行走.3个系数的大小影响了3个部分在奖励函数中的重要程度,通过这3部分奖励之间相互制约,机器人学会了一种兼顾速度稳定和低能耗的行走技能.3.2.2训练流程本文实验训练流程图如图2,为了加速训练过程,采用类似文献[14]的实验框架,受残差控制[29]启发,机器人输出由a cpg(t)和a mppo(t)两部分构成,a cpg(t)作为运动先验知识输出一个周期性的节律信号[30];a mppo(t)作为残差信号,其中a mppo(t)策略的输入即状态是49维的由3部分构成:1)12维的运动先验中枢模式发生器(Central pattern generators,CPG)参数;2)34维的机器人状态信息,其中24维是机器人的电机信息,包含4条腿的髋关节和2个膝关节的角度和速度,6维机器人质心姿态信息包含位姿(俯仰,横滚,偏航)与加速度(x,y,z3个方向)各3项,4维的足端接触检测信息(检测每条腿是否触地);3)3维机器人的位置信息(包括x,y,z3方向的位移).输出即动作是12维的期望位置,即每条腿髋关节和2个膝关节电机的期望位置,叠加成为机器人的动作输出.动作合成后,由比例微分控制(Proportion Differential,PD)控制器来跟踪实现对机器人腿部的控制.为了维持训练过程稳定性,两部分的动作网络采取分时训练[21]方法,即训练过程中先固定a cpg(t)网络的参数,并根据MPPO的算法流程更新a mppo(t)的参数,当交互够N步后,固定a mppo(t)的网络参数,通过进化算法对a cpg(t)进行更新,当一个网络参数进行训练的时候另一个网络就维持参数停止训练.图2训练流程图Fig.2Trainingflowchart4实验结果本实验使用笔记本电脑,训练过程中每2048步作为一个回合(episode),并在每个回合结束时进行一次第1期朱晓庆等:融合元学习和PPO 算法的四足机器人运动技能学习方法159评估.按照第3节设计的实验流程进行训练1,训练过程中四足机器人的行走步态和身体数据如图3–4所示.图3四足机器人行走步态学习过程截图,其中(a)–(c)为训练初期,(d)–(f)为训练末期Fig.3Screenshot of quadruped robot walking gait learningprocess.At the beginning of training,it appears as (a)–(c),and at the end of training,it appears as(d)–(f)图4训练前后机器人行走质心高度变化曲线Fig.4Height variation curve of robot walking centroid beforeand after training从图3(a)–(c)和图4可看出,在训练初期,四足机器人步态非常不稳定,身体上下晃动幅度在0.21到0.26之间,呈现较大且不规律的晃动,无法以正常姿态前进.随着训练进行300个回合时,机器人步态及身体数据如图3(d)–(f)和图4所示.可看出,在训练完成时,机器人的步态呈现出对角接触步态,行走过程中,身体的上下晃动幅度较小,在0.24到0.265之间,高于刚开始训练质心高度并呈现稳定的节律行走步态.该训练结果是由奖励函数中的r st 引导而来.对比上图训练开始时和训练结束时机器人行走质心高度的变化可看出,训练完成后机器人行走时更稳定且质心高度更高.图5是训练过程中的奖励值,从中可以看出,本文提出的MPPO 算法在四足机器人步态学习的任务中,奖励值可以从零开始迅速上升,大约到75个回合时,收敛于4000左右,75回合之间的过程是四足机器人从初始状态开始学习到可以初步完成行走任务的过程,训练回合超过75回合之后,奖励值缓慢上升至4500左右,并且策略趋于收敛,代表完成行走步态的学习.图5训练过程奖励值Fig.5Rewards during training图6和图7分别是机器人行走距离和行走偏移变化曲线,横坐标为回合数量,纵坐标分别为训练过程中机器人行走距离(每一次评估最多进行500步)和行走偏移量,虚线为期望前进方向即0偏移.图6中看出,本文提出的MPPO 算法在行走距离上从零开始迅速上升,在20个回合左右行走距离达到12左右,并在后续逐渐波动,最终在250个回合左右收敛至11.偏移量在100到150回合中逐渐变大,在150到200步逐渐变小,最终在300步时收敛到–0.1左右.这种笔直前进步态是由奖励函数中r vt 部分引导而来的.图6机器人行走距离变化曲线Fig.6Variation curve of robot walking distance1训练过程视频:https:///video/BV1Q24y117EQ/?vd source=4b5a3b89f1ef3731413895e73cb00b7e.160控制理论与应用第41卷图7机器人行走偏移变化曲线Fig.7Variation curve of robot walking deviation5讨论与总结5.1讨论为了验证本文算法的优势,本文将传统的PPO 算法和传统的SAC 算法与MPPO 算法进行了对比试验.在四足机器人步态的全部训练过程中,每2048步设置为一个回合,并且在每一个回合进行一次数据评估,实验结果如图8所示.图8机器人质心高度变化曲线Fig.8Height variation curve of robot centroid训练完成后分别对3种算法训练出的四足机器人步态进行行走测试2,图8为机器人行走测试中质心高度的变化,可看到本文提出的MPPO 算法训练结果相比较于传统PPO 算法和SAC 算法,行走步态质心起伏幅度更小,说明本文提出的MPPO 算法训练出的四足机器人步态有更好的稳定性;并且MPPO 算法训练的行走步态的质心高度整体高于传统的SAC 和PPO 算法,说明其行走步态使机器人在行走过程中拥有腿伸展程度更高,因此可以迈出更大的步伐.图9为训练过程中机器人行走的距离曲线,横坐标为回合数量,纵坐标为评估一次机器人行走的距离(每一次评估最多进行500步).从图中可看出,本文提出的MPPO 算法在行走距离上从零开始迅速上升,在20个回合左右行走距离达到12左右,并在后续逐渐波动,最终在250个回合左右收敛至11.相较于传统SAC 算法在20–50个回合行走距离从6上升至10,最终收敛至9.和传统PPO 算法在前100个回合有起伏最终收敛于6左右的实验结果.在相同上限步数的情况下,行走更远的距离就相当于拥有更大的步长和更快的速度,此实验结论和对比机器人行走时质心高度变化曲线得到结论相同,即本文提出的MPPO 算法训练出的行走步态有更大的行走步长和更好的稳定性.图9训练过程机器人行走距离曲线Fig.9Walking distance curve of robot during training从图10中可看出,本文提出的MPPO 算法在四足机器人步态学习的任务中,奖励上升幅度大,且最终收敛时的奖励值最高.图10训练过程奖励值Fig.10Rewards during training23种算法训练出的机器人步态对比视频:https:///video/BV17M411r7Ri/?vd source=4b5a3b89f1ef3731413895e 73cb00b7e.第1期朱晓庆等:融合元学习和PPO算法的四足机器人运动技能学习方法161而传统的SAC算法在有先验知识的基础上奖励值先降低后缓慢升高,大约到100回合的时候,奖励值收敛到3000左右,训练效果略低于本文提出算法;传统PPO算法在训练过程中奖励值略微升高后就急剧下降,收敛至2000左右陷入局部最优,训练效果远小于传统SAC算法和本文提出的MPPO算法,由上可知,本文所提出的算法在四足机器人步态学习的任务中效果优于传统的强化学习算法.5.2总结为阐明复现高等生物的运动技能学习机理,本文以四足机器人为研究对象,基于强化学习框架探究四足机器人技能学习算法,鉴于元学习具有刻画学习过程高维抽象表征优势,本文将元学习引入了PPO算法,提出了一种MPPO算法.以四足机器人行走步态作为任务进行学习训练,仿真实验结果验证了该算法可行性.本文提出的算法,仅需简单设计的奖励函数即可使得四足机器人学会走起来,并且相比较于SAC算法和PPO算法,本文的MPPO算法不仅在训练速度上有一定的优势,并且训练出的步态也呈现更佳效果,如其质心姿态更加平稳,震荡小.对比实验结果表明本文提出的MPPO算法具有兼顾性和预见性优势,可以解决四足机器人步态学习过程中出现的局部最优问题,学习到更优步态.后续将继续在MPPO算法中引入动态奖励函数,以获得更快的收敛速度以及更稳健的更新方向,并且在多地形任务上进行实验.在完成仿真实验后,将进行实物实验.参考文献:[1]MENG X G,WANG S,CAO Z Q,et al.A review of quadruped robot-s and environment perception.The35th Chinese Control Conference (CCC).Chengdu,China:IEEE,2016:6350–6356.[2]RUBIO F,V ALERO F,LLOPIS A C.A review of mobile robots:Concepts,methods,theoretical framework,and applications.Inter-national Journal of Advanced Robotic Systems,2019,16(2):1–22.[3]ZHONG Y H,WANG R X,FENG H S,et al.Analysis and researchof quadruped robot’s legs:A comprehensive review.International Journal of Advanced Robotic Systems,2019,16(3):1–15.[4]ZHUANG H C,GAO H B,DENG Z Q,et al.A review of heavy-dutylegged robots.Science China Technological Sciences,2014,57(2): 298–314.[5]GONC¸ALVES R S,CARV ALHO J C M.Review and latest trends inmobile robots used on power transmission lines.International Jour-nal of Advanced Robotic Systems,2013,10(12):408.[6]PENG X B,COUMANS E,ZHANG T N,et al.Learning agile robot-ic locomotion skills by imitating animals.ArXiv Preprint,2020:arX-iv:2004.00784.[7]CHEN Guangrong,GUO Sheng,HOU Bowen,et al.Motion controlof redundant hydraulic driven quadruped robot based on extended Ja-cobian matrix.Control Theory&Applications,2021,38(2):213–223.(陈光荣,郭盛,侯博文,等.基于扩展雅可比矩阵的冗余液压驱动四足机器人运动控制.控制理论与应用,2021,38(2):213–223.)[8]SUTTON R S.Introduction:The challenge of reinforcement learn-ing.Reinforcement Learning.Boston,MA:Springer,1992:1–3.[9]WEN Jianwei,ZHANG Li,DUAN Yanduo,et al.Activefloor controlin data center based on model deep reinforcement learning.Control Theory&Applications,2022,39(6):1051–1056.(温建伟,张立,段彦夺,等.基于模型深度强化学习的数据中心主动地板控制.控制理论与应用,2022,39(6):1051–1056.)[10]QIN Rui,ZENG Shuai,LI Juanjuan,et al.Parallel enterprise re-source planning based on deep reinforcement learning.Acta Auto-matica Sinica,2017,43(9):1588–1596.(秦蕊,曾帅,李娟娟,等.基于深度强化学习的平行企业资源计划.自动化学报,2017,43(9):1588–1596.)[11]YU Shengping,HAN Xinchen,YUAN Zhiming,et al.Dynamic trainscheduling method for high speed rail based on strategy gradient rein-forcement learning.Control and Decision,2022,37(9):2407–2417.(俞胜平,韩忻辰,袁志明,等.基于策略梯度强化学习的高铁列车动态调度方法.控制与决策,2022,37(9):2407–2417.)[12]KHAN M A,KHAN M R J,TOOSHIL A,et al.A systematic re-view on reinforcement learning-based robotics within the last decade.IEEE Access,2020,8:176598–176623.[13]ZOU Qijie,LIU Shihui,ZHANG Yue,et al.Rapid exploration ofrandom tree path reprogramming algorithm based on reinforcemen-t learning in special environments.Control Theory&Applications, 2020,37(8):1737–1748.(邹启杰,刘世慧,张跃,等.基于强化学习的快速探索随机树特殊环境中路径重规划算法.控制理论与应用,2020,37(8):1737–1748.)[14]WANG J Y,HU C X,ZHU Y.CPG-based hierarchical locomotioncontrol for modular quadrupedal robots using deep reinforcement learning.IEEE Robotics and Automation Letters,2021,6(4):7193–7200.[15]KOHL N,STONE P.Policy gradient reinforcement learning for fastquadrupedal locomotion.Proceedings of the IEEE International Con-ference on Robotics and Automation.New Orleans,LA:IEEE,2004: 2619–2624.[16]ISCEN A,CALUWAERTS K,TAN J,et al.Policies modulating tra-jectory generators.ArXiv Preprint,2019:arXiv:1910.02812.[17]CHEN D,ZHOU B,KOLTUN V,et al.Learning by cheating.ArXivPreprint,2019:arXiv:1912.12294.[18]HWANGBO J,LEE J,DOSOVITSKIY A,et al.Learning agile anddynamic motor skills for legged robots.Science Robotics,2019, 4(26):eaau5872.[19]LEE J,HWANGBO J,WELLHAUSEN L,et al.Learning quadrupe-dal locomotion over challenging terrain.Science Robotics,2020, 5(47):eabc5986.[20]MIKI T,LEE J,HWANGBO J,et al.Learning robust perceptive lo-comotion for quadrupedal robots in the wild.Science Robotics,2022, 7(62):eabk2822.[21]SHI H J,ZHOU B,ZENG H S,et al.Reinforcement learning withevolutionary trajectory generator:A general approach for quadru-pedal locomotion.IEEE Robotics and Automation Letters,2022,7(2): 3085–3092.[22]SCHULMAN J,WOLSKI F,DHARIWAL P,et al.Proximal policyoptimization algorithms.ArXiv Preprint,2017:arXiv:1707.06347.。