基于强化学习的四旋翼无人机路径规划方法研究

哈尔滨工业大学工学硕士学位论文

摘要

路径规划是机器人导航控制中非常重要的环节之一,是指机器人按照时间,距离等性能指标,搜索一条从起点到终点的最优、近似最优或者次优的路线。

路径规划问题由来已久且具有较为丰富的算法,但目前的算法中大都需要已知环境,然而在多数情况下,环境模型难以描述和获取。另一方面由于多数方法中路径拐点较多且只能够沿着四个方向运动,极大程度的限制的路径的平滑程度并且给机器人的导航控制带来了巨大挑战。针对以上问题,本文在栅格地图的基础之上,将四个方向增加至八个方向,能够进一步平滑路径且获取距离更短的路径,并进行了一下研究:

首先,在诸多强化学习方法中,以时间差分方法中的异策略的Q-learning 方法为基础,以栅格为状态集,八个动作为动作集,不需要环境模型,依靠自身与环境交互即可完成路径规划任务。

其次,由于Q-learning产生动作的策略与评估的策略不同,可以利用其它经验帮助自身学习,因此,引入谱图理论和流形学习的思想,借此获取能够清晰反应起点到终点距离关系的先验知识,与Q-learning方法融合共同指导智能体寻找最优路径。

再次,引入Dyna框架,智能体通过与环境交互获取实际经验,一方面,这些数据会被直接强化学习使用更新值函数,另一方面,通过学习得到环境的估计模型,该模型会运行产生虚拟样本用来更新值函数。该方法能够加快收敛速度,迅速找到最优路径。

最后,针对三种强化学习方法,在多种地图中进行了仿真研究及对比分析。

关键词:强化学习;Q-learning;拉普拉斯特征映射;Dyna-Q方法

-I-

相关主题
相关文档
最新文档