基于强化学习补偿器的水下航行器姿态控制
基于btt控制的无人水下航行器动力学模型

基于btt控制的无人水下航行器动力学模型1. 简介无人水下航行器是一种可以在水下环境中自主航行的机器人。
为了实现精确的控制和导航,需要建立准确的动力学模型。
本文将介绍基于btt(背推头)控制的无人水下航行器动力学模型。
2. 动力学模型2.1 水下航行器结构水下航行器通常由机体、推进装置和控制系统组成。
机体是整个水下航行器的主体,包括浮力装置、外壳和传感器等。
推进装置用于提供推进力,常见的有螺旋桨和喷射式推进器。
控制系统负责接收指令并控制航行器进行相应动作。
2.2 btt控制原理btt(背推头)控制是一种常用的姿态控制方法,在水下航行中具有广泛应用。
其原理是通过调整推进装置产生的推进力矩来实现姿态调整。
在btt控制中,通过改变螺旋桨或喷射式推进器的转速来改变推进力的方向和大小。
当推进力矩与航行器的姿态矩平衡时,航行器可以保持稳定的姿态。
2.3 动力学方程为了建立水下航行器的动力学模型,需要考虑以下因素:质量、浮力、推进力和阻力。
2.3.1 质量水下航行器的质量可以表示为:m=m机体+m推进装置+m控制系统2.3.2 浮力水下航行器在水中受到浮力的作用,浮力可以表示为:F b=ρ⋅g⋅V其中,ρ是水的密度,g是重力加速度,V是水下航行器的体积。
2.3.3 推进力推进装置产生的推进力可以表示为:F p=k p⋅n2其中,k p是推进装置的系数,n是转速。
2.3.4 阻力水下航行器在水中受到阻力的作用,阻力可以表示为:F r=k r⋅n2其中,k r是阻力系数。
根据牛顿第二定律,可以得到水下航行器的动力学方程:m⋅a=F p−F r−F b2.4 控制系统设计为了实现btt控制,需要设计合适的控制系统。
控制系统主要包括姿态传感器、控制器和执行器。
姿态传感器用于测量水下航行器的姿态,常见的有陀螺仪和加速度计。
控制器根据姿态传感器的数据计算出相应的控制指令。
执行器根据控制指令调整推进装置产生的推进力矩。
3. 实验与仿真为了验证动力学模型和btt控制方法的有效性,可以进行实验和仿真。
SINS_DVL_USBL水下组合导航系统的设计与验证

(4) Experimental verification: the corresponding static and dynamic experiments are designed. The experimental results show that the navigation accuracy of the integrated navigation system meets the design requirements, and the system is stable and reliable. The
(2) Principle and error analysis: on the premise of defining common navigation coordinate system, the basic principles of sins, DVL and USBL are analyzed; on this basis, the corresponding error model is established; the IMU in SINS system is calibrated and compensated and the random error parameters are identified.
基于RBF网络Q学习的AUV路径跟踪控制方法

西北工业大学学报 Journal of Northwestern Polytechnical University
https: / / doi.org / 10.1051 / jnwpu / 20213930477
June 2021 Vol.39 No.3
图 3 AUV 路径跟踪示意图
向角速度,当 AUV 在路径段 pipi+1 右侧,εe 取正,反 之 εe 取负。 εe = | ξ(ηi+1 - ηi) + η(ξi+1 - ξi) + (ηiξi+1 - ηi+1ξi) |
(ξi+1 - ξi)2 + (ηi+1 - ηi)2 (1)
ψcmd =
图 2 AUV 深度控制原理图
1.1 AUV 路径跟踪导引律 水平面路径跟踪示意如图 3 所示, pi( ξi,ζ0,ηi)
和 pi+1( ξi+1,ζ0,ηi+1) 为相邻的 2 个路径点,两点连线 即为期望路径,ψ0,ψ 分别表示路径切线方向和 AUV 当前航向,εe 表示 AUV 当前位置(ξ, ζ, η) 距路径 段 pipi+1 的位置偏移, 计算如(1) 式所示。 采用如 (2) 式的 AUV 目标路径航向导引控制律,其中 c0, c1 ,c2 ,ε0 ,εmax ,ψmax 均为大于零的常数,ψ̇ 为 AUV 航
·478·
西 北 工 业 大 学 学 报
第 39 卷
化以下 2 个子问题组合控制:即调整目标路径航向 ψcmd 的导引控制,以及对 ψcmd 的航向角跟踪控制。
图 1 欠驱动 AUV 水平面路径跟踪控制原理图
为实现水平面路径跟踪,AUV 需要保持在指令 深度 ζ0 处航行,控制原理如图 2 所示。
小型水下自航行器动力学建模与控制

小型水下自航行器动力学建模与控制随着无人机技术的快速发展,水下自主航行器已经成为了海洋采样、水下勘探和海底修复等领域的重要工具。
然而,水下环境的特殊性质带来了水下自主航行器设计和控制方面的特殊挑战。
本文将介绍小型水下自航行器的动力学建模和控制策略。
动力学建模小型水下自航行器通常由四个关节驱动器驱动,分别控制航向和俯仰。
考虑到水下环境中流体阻尼的影响,可以将水下自航行器的动力学建模为以下状态方程:$$M\dot{v} + C(v) v + D(v)v + g(\xi) + g_b = f$$其中,$M$为质量矩阵,$\dot{v}$为加速度,$C(v)$表示水阻阻力和海洋涡流阻力矩阵,$D(v)$表示附加质量影响矩阵,$g(\xi)$表示重力和仰角作用,$g_b$表示浮力作用,$f$为推力。
控制策略为了使水下自航行器能够自主控制,需要设计一种有效的控制策略。
传统的PID控制器可以在水下环境中使用,但由于水下环境中流体的阻尼作用,PID控制器的效果可能不如在空气中控制的那么好。
因此,我们可以使用模型预测控制器(MPC)等高级控制算法。
模型预测控制器是一种最优控制方法,通过对未来时间步的预测模型进行优化,选择最优控制输入。
基于MPC控制器,可以设计出以下控制策略:$$f = f_{ss} + K_p(v - v_{ss}) + K_d(\dot{v} - \dot{v}_{ss}) + K_i \int_0^t (v - v_{ss}) dt + f_{mpc}$$其中,$f$为推力,$f_{ss}$为稳态推力,$K_p$、$K_d$和$K_i$为控制器增益。
$v_{ss}$和$\dot{v}_{ss}$为目标状态的速度和加速度。
$f_{mpc}$表示MPC算法输出的控制输入。
总之,本文介绍了小型水下自航行器的动力学建模和控制策略。
采用MPC等高级控制算法,可以使得水下自航行器的控制效果更好。
在未来,随着技术的不断发展,水下自航行器将会得到广泛的应用。
基于专家S面控制的UUV姿态控制系统设计

基于专家S面控制的UUV姿态控制系统设计黄悦华;刘瑞勇;杨培培;李闯;向东旭【摘要】近年来,长航程UUV的应用越来越多,长航程UUV在水下进行长距离航行时,由于不同水域的海水密度不同,使得UUV的受力状况发生变化,从而影响其航行姿态角,使其不能按照预定的路径完成航行任务,甚至发生危险.本文针对姿态变化问题,将专家控制和S面控制相结合,设计一种专家S面控制器,并进行半实物仿真.仿真试验结果表明,该方法可以实现对UUV实时准确的定深定向调节,满足实际使用要求.【期刊名称】《三峡大学学报(自然科学版)》【年(卷),期】2015(037)006【总页数】5页(P80-84)【关键词】UUV;整体构架;专家S面控制;定深定向;半实物仿真【作者】黄悦华;刘瑞勇;杨培培;李闯;向东旭【作者单位】三峡大学电气与新能源学院,湖北宜昌 443002;三峡大学电气与新能源学院,湖北宜昌 443002;三峡大学电气与新能源学院,湖北宜昌 443002;三峡大学电气与新能源学院,湖北宜昌 443002;三峡大学电气与新能源学院,湖北宜昌443002【正文语种】中文【中图分类】TP273UUV恶劣的工作环境决定了其可能会遇到各种可控或不可控的危险,如果UUV没有性能良好的控制系统,极有可能会导致水下机器人失事或失联[1],最终沉入海底或者被他国所窃取.基于此,面对复杂的海域工作环境,如何研究有效且可靠的UUV控制系统,成为装备高质量UUV设备的重要课题.综合控制系统是整个UUV的核心组成部分,其设计的优劣直接影响到整个UUV的性能以及航行的安全性.该课题中UUV的航行分为自主航行和遥控模式两种航行方式,其中自主航行由中央控制单元自主决策控制航行,遥控模式下的航行是通过上位机以无线电或者有揽通信的方式与实验艇通信;自主航行模式下,通过惯导(INS)、深度计、多普勒测速仪(DVL)等传感器获取UUV的运动信息,并根据这些信息做出控制决策,来完成自主航行任务.本课题设计的UUV综合控制系统整体构架如图1所示.此UUV具有如下功能:1)通过操控台可对UUV进行操控,包括对各个模块的电源控制、对UUV进行手操驾驶、预编程操控、定向航行、定深航行控制.2)UUV实时信息可以实时反馈给操控台.包括UUV电池组的测量系统和控制系统的电流、电压、已用电量,实验艇的实时姿态:横滚角、俯仰角、偏航角、航行速度、电机转速、实时位置、深度,离底高度,各个阀门开关状态、各个水舱水量、以及舱内实时图像等.这些数据通过两路信道传输,为保证航行安全,主要考虑无线电通信的顺畅[2].3)对UUV运行状态进行实时监测,包括7个舱的漏水检测、温度检测、氢气浓度检测、火警检测;控制系统、测量系统以推进电机电流和电压监测以及超深、超速、无线电通信等各种报警检测,并具备在运行故障(主要指超深)情况下通过释放压载确保实验艇的安全.4)通过给定推电机的转速或者航速(一般而言,转速和航速对应有一定的关系)可以控制UUV的前进,通过给定水平舵机、垂直舵机和围壳舵机一定角度来控制UUV转向和下潜运动,通过压载水舱注排水及左右浮力水舱调水可以控制艇的横滚、俯仰等艇态和负浮力的设定,以在水面环境不利于水平舵机发挥舵效的时候辅助UUV顺利下潜.5)对UUV位置进行实时监测,并具有导航定位功能.UUV在水面标定时完成GPS的信息的收集,并将该信息给到惯性导航装置,当实验艇下潜到水下时,由惯性导航装置和多普勒计程仪计算出当前的航行位置,当实验艇浮出水面时,通过操控台给定校准指令,将当前实验艇的位置与GPS位置进行校准.实验艇同时利用深度计和多普勒计程仪实时获取UUV在水下的深度和离底高度、航行速度等信息.6)可通过路径规划来实现实验艇的路径跟踪航行.采用智能积分时应该遵循的判断条件是:当>0时,对偏差进行积分;当<0时,不对误差进行积分.此条件为是否引入智能积分的基本判断条件.除此之外,还应该考虑边界条件[3],即偏差及偏差变化率出现的极值点的情况,综合上述3种情况组合,可以将是否引入智能积分的条件总结如下:1)当>0且e≠0时,对偏差进行积分控制;2)当或e=0时,不对偏差积分.这样的积分作用即为智能积分.引入智能积分,能够在模糊控制的基础上提高控制系统的稳态状态和精度.有智能积分的条件可以得到智能积分的S面控制模型[4],如下描述:由S面控制模型可知,控制参数为k1、k2和ki,相比模糊控制,S面控制需要调整的变量简单得多.改变k1、k2和ki的值就能实现偏差和偏差变化率在控制输出中的比重的调整,达到对超调量和收敛速度的控制效果的优化[5],同时控制系统的稳态误差,以满足智能作业的要求.在S面控制系统中,一般采用人工调整或者自适应调整这两种参数调整方式.所谓人工调整,指的是通过对k1、k2和ki大小的调节,实现水下机器人在一般情况下的运动控制精度.所谓自适应调整,指的是需对k1、k2两个参数进行智能的在线调整,实现系统实时的动态性能和稳态性能.应该注意的是,在参数调整的过程中,由于是全局范围内的参数调整,导致自适应调整和人工调整都不能达到控制参数的最佳匹配.但是,S面控制方法主要关注控制过程的全局性,注重控制过程稳定、超调小、平滑、收敛速度快等控制效果.通过对S面控制器参数的修改,能够比较方便地完成控制器全局过程的控制.在自适应调整中,参数k1、k2对S面控制器的控制作用有重要影响,即这两个参数的变化会对S面控制器的输出产生大的干扰,导致控制系统的动态性能和稳态性能的变化,对于水下机器人而言,固定k1、k2的值不能达到较好的控制效果[6].通过本章前面的阐述,可以建立一个完整的智能控制理论模型—专家S面控制器,其控制模型如图2所示.专家S面控制器是以间接专家控制系统为基础,运用人的知识和经验[7],并按照专家在求解控制问题时的启发式思维模式和控制规则构造而成的控制策略.专家S面控制器通过对参数k1、k2和ki的在线调整,使得系统动态性能和稳态性能达到要求.专家S面控制器作为一个二级实时智能协调控制器,由两部分组成:专家智能协调级、基本控制级.由S面控制和专家控制组成控制级,S面控制器为控制系统的基本控制级,控制级与被控对象组成实时闭环控制系统.专家智能协调级由数据库、知识库和智能协调器组成,数据库主要用来存放误差变化率和误差的阈值以及参数k1、k2的在线调整范围;知识库主要为常规的产生式规则的集合;智能协调器为推理机.专家智能协调级主要实现在线监测控制系统,实时监测系统性能[8].根据系统的数据信息,通过推理机完成对S面控制器参数的在线调整,实现对控制对象的有效控制.在本文的研究对象中,存在规则库少、推理搜索空间有限的缺点,因此本文采用有条件推理结论的正向推理机制[9],通过对控制规则的逐条匹配,实现控制规则集的完善和在线智能.由S面的数学控制模型可知,在S面控制系统中,控制参数k1、k2分别对偏差和偏差变化率有很大的影响效果,下面对系统响应的影响进行具体分析:控制参数k1影响偏差e在系统中的控制作用.k1的变化将引起误差的控制效果,如果k1取值增大,误差的控制效果相应增强,导致系统控制所要上升时间变短,由于控制的惯性作用,产生较大的超调量,收敛速度变慢,如果k1选取过大,系统可能产生较大幅度的震荡现象,所以k1的值不能过大.如果减小参数k1的值,削弱误差的控制作用,这样可以减小超调量,同时避免震荡的产生,但如果k1的值过小,导致误差的控制作用不够,将使得上升速度变缓,收敛时间增长,稳定状态下的误差变大,同样不能达到控制效果.控制参数k2影响偏差变化率在系统中的控制作用.k2的变化将会引起误差变化率的控制效果,如果k2取值增大,误差变化率的控制效果相应增强,S面控制系统的灵敏度得到提升,能够抑制超调的发生.如果k2的值选取过大,将使S面控制器对出现的细微变化过于敏感,超前使用了误差变化率的控制作用,使系统的响应时间变长.如果k2的值过小,S面控制系统的灵敏度被大幅削弱,将不能对超调产生较好的控制效果.通过分析,控制参数k1、k2的选取将对控制器的控制效果造成不同的影响,在系统的不同控制阶段,参数k1、k2的值都将对控制器的控制效果产生不同的影响.通过对S面控制系统经验的总结,得到了如下所示的控制参数在线调整算法,这样的一组产生式的控制规则用来实现本文控制策略中的k1、k2和ki选取:R1 IF (e>0 and<0 and e>δ)THEN(K1=Δk1,K2=0)R3 IF (e<0 and<0) THEN(K1=-Δk1,K2=Δk2)R5 IF (e>0 and>0) THEN(K1=Δk1,K2=0)R6 IF>0 or=0且e≠0) THEN(ki=ki)R7 IF<0 and=0) THEN(ki=0)上述规则中,e和为系统中的偏差和偏差的变化率,Δk1、Δk2表示k1和k2的极小增量,其值可按照实际控制情况选取,K1和K2表示k1和k2的动态修正因子.如果k1(t)、k2(t)、k1(t-1)、k2(t-1)为上一时刻和当前时刻的参数,那么他们具有如式(1)所示的调整规则.本文中,k1(0)、k2(0)和ki的初始值主要按照控制系统的特性和控制经验选取.UUV定深定向控制系统半实物仿真试验,要求能为UUV定深定向控制系统提供真实的工作环境,模拟不同的工作条件,并能模拟各种极端条件下的工作情况,以检验系统的控制器的各种功能和可靠性,分析系统、设备的临界工作条件.UUV定深定向控制系统半实物仿真试验具体应实现如下功能:1)仿真机建立UUV的模型,包括6个自由度的受力模型以及动力系统、浮力、均衡模型,并对UUV的6自由度非线性模型进行仿真解算.2)采用半实物模拟机构,即三轴转台,直观地体现给定艉水平舵、艉垂直舵、围壳舵舵角时,三轴转台的运动状态,分析反馈数据的正确性.在UUV预编程航行及自主航行时候,观察定深定向航行过程中三轴转台的变化过程,分析其合理性.3)通过海流模拟器模拟不同的海况,浪涌、温度、盐度、深度等数据,分析在不同的海况下算法的适应性.4)通过中央控制单元输入的UUV定深航行的深度,模拟定深航行过程,分析到达预定深度的仿真波形图;通过中央控制单元输入UUV的航向,模拟定向航行过程,分析到达预定航向的仿真波形图.UUV定深定向控制系统半实物仿真试验原理图如图3所示,为了UUV定深定向控制系统的功能,在进行UUV定深定向控制系统半实物仿真系统设计时,必须包括以下设备:1)DSPACE实时仿真系统:主要功能是仿真被控对象和环境;2)Matlab仿真工作站:主要功能是建立UUV定深定向控制系统的数学模型;3)Fluent仿真工作站:主要完成UUV结构特性分析、流体动力性能分析;4)GPS 及深度信号给定机构:自主航行和预编程航行时,需要最初的GPS位置信号才能开始航行,深度给定信号后才能进行定深航行,为提供UUV的航行深度控制;5)中央控制单元:本课题使用的中央控制单元是由盛博协同设计制作,主要是基于PC104主板设计的.主要的定深定向算法均在中央控制单元中执行.在进行定深定向控制时,根据Matlab仿真工作站反馈的深度信息进行定深控制,同时根据三轴转台给定的航向角进行航向控制,根据三轴转台给定的横滚角和俯仰角进行航行过程中的姿态控制;6)本文所研究的控制对象比较特殊,不同于一般UUV,在下潜过程中先进行注水动作使得实验艇处于零浮力的状态,然后电机启动,艉水平舵、围壳舵、艉垂直舵开始打舵.因此在Matlab仿真工作站的仿真模型应建立均衡系统模拟完成注排水过程.基于均衡系统设计需要准确的主排水流量信息,故在本文中使用的模型没有采用均衡系统.在下潜准备过程中直接将潜深初值设置为-2 m.浮力状态设置为小负浮力状态下开始仿真.如图4所示为定深定向的Matlab工作站半实物仿真模型,主要由3部分组成,控制算法、深度控制模型、航向控制模型.定深算法中,对俯仰角的控制具有重大意义,它除了能更好地控制航行器下潜姿态以外,还是衡量控制算法的一个重要指标.为了保证航行器定深控制的性能,俯仰角在定深控制过程中至关重要.在实际航行过程中,由于海流等各种干扰因素的存在,控制定深常态状态下会存在一定的偏差,UUV在航行时就会通过不停的打舵来校正俯仰角,保持航行的姿态,一般情况下,UUV的俯仰角不应该超过正负10°的范围,对于本文的研究对象而言,由于其体积重量庞大,艇体长的特点,一般控制实验艇的俯仰角在正负5°的范围以内,否则就要进行水下均衡调整艇的状态,甚至进行应急处理以保证实验的安全.定深控制主要是航行器从水面下潜到某一深度和航行器在某一深度航行时受到各种扰动而加以纠正控制.深度的变化必将伴随着俯仰角的的变化,俯仰角如果变化过于剧烈,深度控制将产生较大的超调量,如果俯仰角变化过于缓慢,将导致深度变化也很缓慢,调节时间长.该控制算法是基于专家S面控制算法研究而设计的,控制算法考虑了UUV的垂向速度以及俯仰角速度,由于UUV的排量大,机动能力较小型UUV差,因此通过UUV的艉水平舵和艏水平舵来实现的.1)定深20 m,即深度从0 m变深到20 m的过程,航向角定向10°,且从0°变到10°,如图5所示.如图5(a)所示,此次定深定向航行过程中第240 s时航行深度第一次达到20 m,之后60 s发生了超调,超调量0.8 m左右,第400 s时航行深度收敛于20 m的设定深度值,具有较好的深度控制效果;在定深定向航行的过程中,由图5(b)可以看出,实验艇在0~100的范围内产生了一个大的埋首,根据智能控制的理念,俯仰角提前产生归零趋势,在200 s时俯仰角为0°,此时系统检测深度未到20 m,再次产生埋首的效果,直到第400 s系统深度到达20 m,实验艇开始抬首,此时抬首,产生了一定的超调量.此定向航行中航向角的基本趋势、控制趋势与定深航行相同.图5(d)中也对定深航行过程中(0~400 s的时间内)的垂向速度进行了分析,可以看出,在340 s左右的时间上,垂向速度由正值向负值过渡,以抵消超调.2)定深12.5 m,即深度从0 m变深到12.5 m,航向角5°方向,且从0°到5°,如图6所示.如图6(a)所示,此次定深定向航行过程中第170 s时航行深度第一次达到12.50 m,之后50 s发生了超调,超调量0.6 m,第340 s时航行深度收敛于12.5 m的设定深度值,具有较好的深度控制效果;在定深定向航行的过程中,由图6(c)可以看出,实验艇在0~200的范围内产生了一个大的埋首,根据智能控制的理念,俯仰角提前产生归零趋势,在1 200 s时俯仰角为0°,12.5 m定深航行的效果与20 m定深航行的不同,俯仰角曲线在很长时间范围内均存在波动,其原因是小深度控制存在近水面干扰.本文将专家控制与S面控制相结合,设计了一种专家S面控制器,对专家S面控制算法进行半实物仿真分析,分别在定深20 m和定深12.5 m,定向10°时对定深效果和定向效果进行分析,得出了较好的结论;进行了水下变深的半实物仿真实验,实验结果表明,变深过程中姿态基本稳定,能够满足实际使用要求.。
基于深度强化学习的四旋翼航迹跟踪控制方法

基于深度强化学习的四旋翼航迹跟踪控制方法在科技的海洋中,四旋翼无人机犹如一艘精巧的帆船,而深度强化学习技术则是引领它穿越波涛的罗盘。
本文将探讨这一技术的奥秘,以及它如何革新航迹跟踪控制领域。
首先,我们必须认识到,四旋翼无人机的航迹跟踪控制是一项极具挑战性的任务。
它要求无人机在复杂的环境中精确地遵循预定路径,这就像要求一位舞者在狂风暴雨中完成一套完美的舞蹈动作。
传统的控制方法往往难以应对这种高度动态和不确定性的环境,而深度强化学习提供了一种全新的解决思路。
深度强化学习,这一机器学习的分支,通过让机器自我学习最优策略,来实现对复杂系统的控制。
在这个过程中,算法不断与环境互动,通过试错来优化其行为。
这就像是给无人机装上了一双会思考的眼睛,让它能够在飞行中自我调整,适应各种未知的挑战。
那么,深度强化学习是如何在四旋翼无人机的航迹跟踪控制中发挥作用的呢?首先,我们需要构建一个准确的模型来描述无人机的动态特性和环境因素。
这个模型就像是一张精细的地图,为无人机的飞行提供指导。
然后,我们设计一个奖励函数,用来评价无人机的飞行表现。
这个奖励函数就像是一面镜子,反映出无人机是否偏离了预定的航迹。
最后,我们利用深度神经网络来学习最优的控制策略。
这个网络就像是无人机的大脑,能够处理复杂的信息并做出决策。
在实际应用中,这种方法展现出了惊人的效果。
无人机能够在风速变化、障碍物突然出现等极端情况下,依然紧密地跟随预定航迹。
这就像是在狂风巨浪中依然能够保持航线的船只,展现了深度强化学习的强大能力。
然而,我们也必须看到这项技术面临的挑战。
深度强化学习需要大量的数据和计算资源,这对于实际部署来说是一个不小的障碍。
此外,如何确保学习过程的稳定性和安全性,也是一个亟待解决的问题。
总的来说,基于深度强化学习的四旋翼航迹跟踪控制方法为我们打开了一扇通往未来的大门。
它不仅提高了无人机的性能,也为我们提供了一个理解复杂系统的新视角。
尽管这条路上充满了挑战,但正如航海家面对茫茫大海时的勇气一样,我们也有理由相信,这项技术将带领我们驶向一个更加智能和自主的未来。
基于深度强化学习算法的自主式水下航行器深度控制

收稿日期:2020−11−08;修回日期:2020−11−30 通信作者:李慧平,lihuiping@ 基金项目:国家自然科学基金资助项目(No.61922068,No.61733014);陕西省杰出青年科学基金资助项目(No.2019JC-14); 西北工业大学翱翔青年学者项目(No.20GH0201111)
AUV 在执行任务时,一般要求在固定的深度保
持稳定的运动,因此深度控制是 AUV 的基本控制 目标。本文的目的是探索一种更加先进的 AUV 深 度控制方法,解决 AUV 模型的不确定性和非线性 给控制带来的难题,并提高 AUV 的控制性能;仅 依靠训练得到的与周围环境的交互数据,设计 DRL 算法,从而实现 AUV 的深度控制。
−
xc
cosθ
)
+
1 2
ρv2
SLmz
)
,
m11
= m + λ11 ,
·356·
智能科学与技术学报
第2卷
m22
=
m + λ22
,m26
=
mxc
+ λ26 ,mz
=
mαy α
+
mδe y
δ
e
+
mϖy zϖ z 。m 是 AUV 的质量;G 是 AUV 的重力;λ11 、
λ22 、λ26 、λ66 是与流体动力学有关的附加质量;xc 、 yc 是 AUV 重心到浮力中心的距离在 x 轴和 y 轴上 的分量;T 是由螺旋桨提供的推力;CxS 是 AUV 的
其中, γ ∈ (0,1) 为折扣因子, 保 证 G 是收敛的。
图 2 强化学习的基本框架
强化学习理论推导是在马尔可夫决策模型下进行
我国深海自主水下机器人的研究现状

我国深海自主水下机器人的研究现状一、本文概述随着科技的飞速发展,深海探索已成为人类认识地球、拓展生存空间、开发资源的重要领域。
深海自主水下机器人(AUV)作为深海探索的核心装备,其技术水平直接决定了我国在深海资源开发、深海科学研究、海洋环境监测等领域的竞争力。
本文旨在全面梳理我国深海自主水下机器人的研究现状,分析存在的问题和挑战,并展望未来的发展趋势,以期为推动我国深海自主水下机器人技术的进一步发展提供参考和借鉴。
本文将首先回顾深海自主水下机器人的发展历程,阐述其在我国海洋战略中的重要地位。
接着,将从设计制造、导航定位、智能感知与控制等方面,详细介绍我国深海自主水下机器人的技术现状,以及在国际上的地位和影响力。
在此基础上,本文将深入探讨我国在深海自主水下机器人技术研究中面临的主要问题和挑战,包括核心技术瓶颈、关键部件依赖进口、研发周期长、经费投入不足等。
本文将对未来深海自主水下机器人技术的发展趋势进行展望,提出针对性的建议,以期为我国深海自主水下机器人技术的持续创新和发展提供有益的参考。
二、深海自主水下机器人技术概述深海自主水下机器人(AUV,Autonomous Underwater Vehicle)是海洋工程技术与机器人技术相结合的产物,具有高度的自主性,能够在无人操控的情况下,独立完成复杂的海洋环境探测、海底地形测绘、海洋资源勘探等任务。
我国深海自主水下机器人的研究,经过多年的积累和发展,已经取得了一系列显著的成果。
在硬件设计方面,我国的深海AUV已经具备了较高的耐压性、稳定性和续航能力。
许多型号的AUV采用了先进的复合材料和轻量化设计,有效减轻了机体的重量,提高了其在深海环境中的机动性和灵活性。
同时,AUV的推进系统也经过了优化设计,能够在各种复杂的海洋环境中稳定运行,保证了探测任务的顺利完成。
在软件与控制系统方面,我国的深海AUV已经实现了较高的智能化水平。
通过搭载先进的导航、定位和控制系统,AUV能够自主完成路径规划、避障、目标跟踪等任务。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于强化学习补偿器的水下航行器姿态控制近年来,水下航行器的研发和应用越来越广泛。
然而,由于水下环境的复杂性和航行器自身的动力学特性,水下航行器的姿态控制问题一直是一个具有挑战性的任务。
传统的基于模型的控制方法在面对水下环境的不确定性时表现不佳。
为了解决这一问题,本文提出了一种基于强化学习补偿器的水下航行器姿态控制方法。
一、介绍
水下航行器姿态控制是指通过控制航行器的角度和方向,使其达到所期望的目标姿态。
传统的控制方法通常采用PID控制器等经典控制方法,但这些方法需要精确的数学模型,并且对于水下环境的不确定性敏感。
因此,基于强化学习的方法成为研究的热点,其能够通过试错学习,自适应地调整控制策略,提高控制性能。
二、强化学习补偿器原理
强化学习补偿器是一种通过学习方式自适应调整航行器控制策略的方法。
其基本原理是建立一个强化学习器,以反馈信号作为输入,输出一个补偿控制指令,用于修正传统控制器的输出。
补偿器通过与控制器串联连接,实现对传统控制方法的增益和补偿。
三、强化学习补偿器的设计
1. 状态空间设计
为了实现姿态控制,首先需要定义航行器的状态空间。
状态空间可
以包括航行器的位置、方向、速度等信息。
这些状态信息将作为强化
学习器的输入。
2. 动作空间设计
动作空间定义了航行器姿态控制的可行动作集合。
例如,俯仰角、
横滚角和偏航角等。
强化学习器将在动作空间中选择合适的动作,以
实现期望的姿态控制。
3. 奖励函数设计
为了引导强化学习器学习到良好的控制策略,需要定义一个奖励函数。
奖励函数应该根据航行器的当前状态和期望的姿态,给出一个适
当的奖励,以鼓励学习器选择正确的动作。
四、实验与结果分析
为了验证基于强化学习补偿器的水下航行器姿态控制方法的有效性,进行了一系列的实验。
实验使用了一台水下航行器,并通过搭载的各
种传感器获取姿态信息。
实验结果表明,与传统的PID控制方法相比,基于强化学习补偿器的控制方法能够更好地适应水下环境的不确定性,并且具有良好的控制性能。
五、结论
本文基于强化学习补偿器的水下航行器姿态控制方法,通过学习方
式实现了对传统控制方法的增益和补偿。
实验结果表明,该方法能够
有效地提高水下航行器的姿态控制性能,具有应用潜力。
未来的研究可以进一步优化强化学习算法,并将其应用于更多实际任务中。
总结起来,本文介绍了基于强化学习补偿器的水下航行器姿态控制方法,并详细阐述了方法的原理、设计步骤,以及实验结果分析。
该方法在水下环境的不确定性下表现出良好的控制性能,为水下航行器的姿态控制领域提供了一种新的解决方案。
相信该方法的研究将进一步推动水下航行器技术的发展和应用。