基于Q学习算法的移动机器人避障控制策略

合集下载

机器人自主导航技术的路径规划和避障策略

机器人自主导航技术的路径规划和避障策略机器人自主导航是指机器人能够在无人干预的情况下，根据外部环境和自身感知信息，自主地决策和规划路径，以达到预定目标的能力。

路径规划和避障是机器人自主导航中两个重要的技术环节，下面将对这两个方面的技术进行全面的介绍和探讨。

路径规划是指机器人通过一系列算法和决策机制，在环境中找到一条最优或次优的路径，以达到目标点。

路径规划主要有两种方法，一种是基于图算法的方法，另一种是基于采样的方法。

基于图算法的路径规划方法主要有最短路径算法和搜索算法。

其中最常使用的最短路径算法是A*算法和Dijkstra算法。

A*算法是一种适用于有向图的寻路算法，通过综合考虑启发式评估函数和实际路程代价，能够在保证最佳路径的同时，有效地减少搜索空间。

Dijkstra算法则主要用于无向图的单源最短路径求解，通过不断更新路径的距离估计值，可以找到起点到各个顶点的最短路径。

这两种算法结合启发式评估函数等方法，可以在复杂的环境中高效地规划路径。

另一种基于采样的路径规划方法是通过对环境进行采样，然后利用采样数据进行路径搜索。

常见的算法有RRT算法和PRM算法。

RRT算法通过随机采样和迭代生成一棵树形结构，再根据目标点进行路径搜索。

PRM算法则是先进行采样，然后建立一个具有连接关系的节点集合，最后根据环境中的障碍物信息进行检查和优化。

这两种采样算法具有较强的鲁棒性和适应性，对于不确定的环境可以依然能够找到一条较为合适的路径。

除了路径规划，避障也是机器人导航中一个非常关键的环节。

机器人在移动过程中需要不断对周围环境进行感知，以避免碰撞和采取必要的规避动作。

避障主要有两种策略：基于传感器的避障和基于模型的避障。

基于传感器的避障策略是依靠机器人的传感器获取周围环境的信息，并基于这些信息做出避障决策。

常用的传感器有激光雷达、摄像头、超声波传感器等。

激光雷达可以通过扫描环境，获取障碍物的距离和形状信息，从而判断机器人行进的安全路径。

机器人避障算法研究

机器人避障算法研究随着科技的迅猛发展，机器人已经成为了人类生活中不可或缺的一部分。

它们可以为我们执行一些重复性、危险或者需要高精度要求的任务，让我们的生活更方便、更安全，甚至可以帮助我们完成一些环境过于恶劣或者人类无法完成的工作。

但是，机器人在处理任务的过程中会遇到各种各样的问题。

其中，避障就是一个非常重要的问题。

为了让机器人在执行任务的时候可以自主寻路，我们需要对避障算法进行深入研究和探讨。

一、避障算法的分类机器人避障算法可以分为传感器型、图像型和机器学习型三种类型，每种类型算法都有其优势和适用场景。

1. 传感器型避障算法传感器型避障算法主要是通过机器人上搭载的传感器进行障碍物检测和距离计算，根据传感器的测量结果来进行路径规划和避障。

传感器常见的类型有超声波、激光雷达、红外线等。

由于传感器的精度和响应速度较高，因此传感器型避障算法被广泛应用于工业自动化和机器人导航。

2. 图像型避障算法图像型避障算法通过使用摄像头或者深度相机等设备，对机器人周围的环境进行视觉识别和分析，从而判断地面的地形、避开障碍物、规划最佳路径。

这种算法广泛应用于无人驾驶、智能家居、商业物流等领域，尤其是在机器人越野、复杂环境下的移动中，图像型避障算法的应用尤为突出。

3. 机器学习型避障算法机器学习型避障算法是最近几年出现的一种算法，它利用深度学习和强化学习等机器学习技术，通过机器自主学习周围环境和历史经验，从而进行障碍物检测和路径规划。

这种算法广泛应用于智能家居、医疗机器人、智能农业等领域。

二、机器人避障算法的研究进展机器人避障算法的研究已经有了很大的进展。

近年来，人们在机器人避障方面取得了很多成果，例如：1. 激光雷达技术的应用激光雷达是机器人避障中应用最为广泛的传感器之一。

激光雷达可以高精度地检测物体的距离和位置，在避障算法中扮演着非常重要的角色。

近年来，人们得到的最突出的成就之一是开发了具有高精度激光雷达的移动机器人系统，这些系统可以在大型仓库等环境中自主运行，从而提高了运行效率。

移动机器人避障问题

关键词：
最短路径
最优化模型
避障路径
解析几何
1
一、问题重述
下图是一个 100×80 的平面场景图，在 R（0，0）点处有一个机器人，机器人只能在该 100×80 的范围内活动，图中四个矩形区域是机器人不能与之发生碰撞的障碍物，障碍物的数学描述分别为 B1（20，40；5，10）、B2（30，30；10， 15）、B3（70，50；15，5）、B4（85，15；5，10），其中 B1（20，40；5，10）表示一个矩形障碍物，其中心坐标为（20，40），5 表示从中心沿横轴方向左右各 5 个单位，即矩形沿横轴方向长 5×2=10 个单位，10 表示从中心沿纵轴方向上下各 10 个单位，即矩形沿纵轴方向长 10×2=20 个单位，所以，障碍物 B1 的中心在（20，40），大小为 10×20 个单位的矩形，其它三个障碍物的描述完全类似。
在平面场景中、障碍物外指定一点为机器人要到达的目标点（要求目标点与障碍物的距离至少超过 1 个单位），为此，须要确定机器人的最优行走路线—— 由直线段和圆弧线段组成的光滑曲线，其中圆弧线段是机器人转弯路线，机器人不能折线转弯，转弯路径是与直线相切的一圆形曲线段，也可以是两个或多个相切的圆弧曲线段组成，但每个圆形路线的半径都必须大于某个最小转弯半径，假设为 1 个单位。另外，为了不与障碍物发生碰撞，要求机器人行走线路与障碍物间的最短距离为 1 个单位，越远越安全，否则将发生碰撞，若碰撞发生，则机器人无法到达目标点，行走失败。请回答如下问题： 1. 场景图中有三个目标点 A（50，40）、B（75，60）、C（95，20），请用数学建模的方法给出机器人从 R（0，0）出发安全到达每个目标点的最短路线。 2. 求机器人从 R（0，0）出发，依次安全通过 A、B 到达 C 的最短路线。

机器人智能控制系统中的路径规划与避障技术

机器人智能控制系统中的路径规划与避障技术机器人在现代社会中扮演着越来越重要的角色，它们不仅在工业自动化中发挥着巨大作用，还在日常生活中提供服务。

为了更好地完成任务，机器人需要具备智能控制系统，并能够进行路径规划与避障。

本文将介绍机器人智能控制系统中的路径规划与避障技术。

路径规划是机器人在给定环境中找到从起点到目标点的最佳路径的过程。

在路径规划中，机器人需要考虑多个因素，包括地图信息、机器人的动力学、环境中的障碍物等。

最常见的路径规划算法是A*算法，它通过综合考虑路径的代价和启发式信息来选择下一步的行动。

此外，Dijkstra算法、最小生成树算法和深度优先搜索算法等也经常被用于路径规划。

这些算法可以帮助机器人在复杂环境中避免碰撞并快速到达目标位置。

避障技术是机器人智能控制系统中的另一个重要组成部分。

机器人在执行任务的过程中可能会遇到各种障碍物，如墙壁、家具、人群等。

为了确保机器人的安全，并能够顺利完成任务，机器人需要能够实时感知障碍物并做出相应的避让行为。

机器人避障技术的实现离不开传感器技术的支持。

常见的传感器包括激光雷达、超声波传感器和红外传感器等。

这些传感器能够感知周围环境中的障碍物，并向智能控制系统提供相应的信息。

智能控制系统根据传感器的反馈信息，对机器人的行动进行实时调整，以避免与障碍物发生碰撞。

除了传感器技术，机器人避障还可以借助于机器视觉技术。

通过摄像头采集环境图像，并对图像进行处理和分析，机器人可以更加准确地感知到障碍物的位置和形状。

利用机器学习算法，机器人可以通过大量的训练数据学习到识别不同类型的障碍物，并根据识别结果做出相应的避让决策。

还有一种常见的避障技术是躲避行为。

机器人可以通过编程实现一些基本的躲避行为，如避让方向的调整、速度的调整等。

当机器人检测到障碍物时，它可以根据障碍物的位置和运动方向，做出相应的躲避决策，从而避免与障碍物碰撞。

除了单个机器人的路径规划和避障，还有一些研究将多个机器人的路径规划和避障进行了集成。

机器人避障策略综述

机器人避障策略综述
机器人避障策略是机器人自主导航的重要组成部分，它指的是机器人在运动过程中如何避免与障碍物发生碰撞。

以下是一些常见的机器人避障策略：
1. 全局规划：通过预先规划机器人的路径，使其避开已知的障碍物。

这种方法通常需要对环境进行建模，并使用搜索算法或路径规划算法来找到最优路径。

2. 局部避障：当机器人在运动过程中遇到未知的障碍物时，通过实时感知周围环境并做出反应来避开障碍物。

这种方法通常使用传感器（如激光雷达、摄像头等）来获取环境信息，并使用算法（如人工势场法、模糊逻辑等）来决定机器人的运动方向。

3. 动态避障：当机器人在运动过程中遇到动态障碍物（如移动的人或车辆）时，通过实时感知和预测障碍物的运动轨迹来避开障碍物。

这种方法通常需要使用传感器和机器学习算法来预测障碍物的运动轨迹。

4. 协同避障：当多个机器人在同一环境中运动时，通过相互通信和协作来避免碰撞。

这种方法通常需要使用通信协议和协调算法来实现。

5. 基于地图的避障：通过使用预先构建的地图来避开障碍物。

这种方法通常需要使用传感器和地图匹配算法来实现。

不同的避障策略适用于不同的场景和机器人类型，选择合适的避障策略需要考虑机器人的运动能力、传感器配置、环境复杂度等因素。

机器人运动规划中的轨迹优化与避障策略

机器人运动规划中的轨迹优化与避障策略在机器人运动规划中，轨迹优化与避障策略起着重要的作用。

轨迹优化是指通过算法和策略的优化，使机器人在给定的环境下找到最优的运动轨迹。

而避障策略则是机器人在运动过程中，如何避免与周围障碍物发生碰撞，以确保安全、高效地完成任务。

轨迹优化是机器人运动规划中的重要内容。

在机器人运动规划中，通常需要考虑多个方面的因素，如路径长度、时间成本、能量消耗等。

因此，通过优化算法，寻找最优的轨迹是提高机器人性能的关键。

常用的轨迹优化方法包括遗传算法、贪婪算法、模拟退火算法等。

遗传算法是一种模仿生物进化的优化算法，通过模拟自然进化的过程，逐步优化轨迹。

贪婪算法则是一种基于局部最优的算法，每次选择最优的方向进行前进。

而模拟退火算法则是通过模拟金属退火的过程，随机选择一条新路径，并根据一定概率接受较差解以避免陷入局部最优。

除了轨迹优化，避障策略也是机器人运动规划中的关键问题。

在现实环境中，机器人往往需要避免与各种障碍物发生碰撞，以确保安全。

避障策略可以分为静态避障和动态避障两种情况。

静态避障是指机器人在运动过程中遇到固定的障碍物，通过规划合理的运动轨迹，绕过障碍物。

常用的静态避障方法包括基于图像处理的视觉避障、基于激光雷达的距离避障等。

视觉避障通过分析环境中的图像信息，识别障碍物，并规划安全的运动轨迹。

激光雷达则可以测量机器人与障碍物之间的距离，在接近障碍物时及时调整机器人的运动轨迹。

动态避障是指机器人在运动过程中还可能遇到移动的障碍物，如其他移动机器人、行人等。

为了克服动态避障问题，需要利用传感器获取周围环境的信息，并实时更新运动轨迹。

常用的动态避障方法包括基于多智能体系统的协同避障、基于概率模型的动态避障等。

多智能体系统通过协调多个机器人的运动，避免碰撞，并保证高效执行任务。

概率模型则通过分析周围的运动模式，预测其他物体的运动轨迹，并相应调整机器人的运动轨迹。

综上所述，机器人运动规划中的轨迹优化与避障策略是实现机器人高效、安全运动的关键。

自主移动机器人路径规划与避障算法研究

自主移动机器人路径规划与避障算法研究随着科技的不断进步和智能机器人的快速发展，自主移动机器人已经成为现实生活中的重要组成部分。

而要实现机器人的自主移动，路径规划和避障算法是至关重要的研究方向之一。

本文将探讨自主移动机器人路径规划与避障算法的研究现状和发展趋势。

路径规划是指在给定的环境中，通过算法计算机器人从起始点到目标点的最优路径。

路径规划算法的目标是使得机器人能够以最短的时间或者最小的代价到达目标点，并且避免与障碍物发生碰撞。

常见的路径规划算法包括A*算法、Dijkstra算法和深度优先搜索等。

这些算法通过搜索算法和最优化方法来计算机器人应该采取的移动方向和行动序列，以达到目标。

在路径规划的过程中，机器人需要检测并避免与环境中的障碍物发生碰撞。

避障算法是指通过感知和决策，使机器人能够避开障碍物并选择一个安全的路径前进。

避障算法通常包括传感器数据采集、障碍物检测和路径调整等步骤。

常见的避障算法包括基于几何模型的避障算法、基于传感器数据的避障算法和基于人工智能的避障算法等。

近年来，随着深度学习和人工智能的飞速发展，机器人的路径规划和避障算法也得到了极大的改进。

传统的基于几何模型的避障算法在处理复杂环境中往往效果不佳，而基于深度学习的避障算法通过神经网络学习机器人与环境的交互信息，使得机器人能够更加智能地避开障碍物。

同时，在路径规划的领域，也出现了一些基于机器学习的新算法，例如强化学习和深度强化学习等，通过模仿学习和试错学习来优化机器人的路径选择。

然而，自主移动机器人路径规划与避障算法研究还存在着一些挑战和问题。

首先，复杂环境中机器人的路径规划和避障仍然存在一定的局限性，比如决策过程中的不确定性和难以预测的情况。

其次，现有的算法在处理动态环境和多机器人协同移动等问题上还有待改进。

此外，机器人的感知能力和决策能力也需要进一步提升，以适应更加复杂多变的现实场景。

为了解决这些问题，未来的研究可以集中在以下几个方面。

移动机器人的那些避障方法你知多少？

移动机器人的那些避障方法你知多少？移动机器人是机器人的重要研究领域，人们很早就开始移动机器人的研究。

世界上第一台真正意义上的移动机器人是斯坦福研究院（SRI）的人工智能中心于1966年到1972年研制的，名叫Shakey，它装备了电视摄像机、三角测距仪、碰撞传感器、驱动电机以及编码器，并通过无线通讯系统由二台计算机控制，可以进行简单的自主导航。

Shakey的研制过程中还诞生了两种经典的导航算法：A*算法（the Asearch algorithm）和可视图法（the visibility graphmethod）。

虽然Shakey只能解决简单的感知、运动规划和控制问题，但它却是当时将AI应用于机器人的最为成功的研究平台，它证实了许多通常属于人工智能（AriTIficial Intelligence，AI）领域的严肃的科学结论。

从20世纪70年代末开始，随着计算机的应用和传感技术的发展，以及新的机器人导航算法的不断推出，移动机器人研究开始进入快车道。

移动机器人智能的一个重要标志就是自主导航，而实现机器人自主导航有个基本要求避障。

下面让我们来了解一下移动机器人的避障，避障是指移动机器人根据采集的障碍物的状态信息，在行走过程中通过传感器感知到妨碍其通行的静态和动态物体时，按照一定的方法进行有效地避障，最后达到目标点。

实现避障与导航的必要条件是环境感知，在未知或者是部分未知的环境下避障需要通过传感器获取周围环境信息，包括障碍物的尺寸、形状和位置等信息，因此传感器技术在移动机器人避障中起着十分重要的作用。

避障使用的传感器主要有超声传感器、视觉传感器、红外传感器、激光传感器等。

移动机器人避障常用的传感器1、激光传感器激光测距传感器利用激光来测量到被测物体的距离或者被测物体的位移等参数。

比较常用的测距方法是由脉冲激光器发出持续时间极短的脉冲激光，经过待测距离后射到被测目标，回波返回，由光电探测器接收。

根据主波信号和回波信号之间的间隔，即激光脉冲从激光器到被测目标之间的往返时间，就可以算出待测目标的距离。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于Q学习算法的移动机器人避障控制策略
【摘要】提出基于Q学习算法的移动机器人避障控制策略，能使移动机器人在不确定环境中顺利躲避障碍物，以最佳路径到达最终目标。

将BP神经网络结合到Q学习算法中，采用人工势场法来确定强化函数值，并利用Boltzmann 分布方法实现随机动作选取。

仿真试验结果证明了此种控制策略具有良好的可行性。

【关键词】移动机器人；强化学习；Q学习算法；避障
1.引言
在实际的环境中，机器人的无碰撞路径规划是智能机器人研究的重要课题之一。

Elisha Sacks详细地介绍了路径规划的前期研究工作[1]。

在障碍空间中，机器人运动规划的高度复杂性使得这一问题至今未能很好的解决。

特别对于不确定的动态环境下避障轨迹的生成是较为困难的。

本研究应用强化学习算法来实现移动机器人的路径规划。

强化学习是机器人通过学习来完成任务，它是将动态规划和监督学习结合起来的一种新的学习方法，通过机器人与环境的试错交互，借助于来自成功和失败经验的奖励和惩罚信号不断改进机器人的自治能力，从而到达最终目标，并容许后评价。

在强化学习中，Q学习算法是从有延迟的回报中获取最优控制策略的方法[2]。

自从Watkins 提出Q学习算法并证明其收敛性后[3]，该算法在强化学习研究领域中受到了人们的普遍关注。

Wiliam 利用HEDGER算法实现了Q函数值的更新，并把此算法成功地应用在移动机器人上，从而实现了Q学习算法在连续状态和空间的求解问题[4]。

Takahashi提出了连续值的Q学习方法，可以用来估计连续的动作值，但此方法只能实现简单的动作，有待于进一步的研究。

我们将BP人工神经网络与Q学习算法相结合，采用人工势场法确定强化函数值和Boltzmann分布方法选取动作。

利用这种控制策略得到的仿真结果证明，移动机器人能够在不确定环境下，有效地躲避障碍物，沿着最佳路径到达目标。

2.强化学习
强化学习是一种重要的机器学习方法，同时也是连接主义学习的一种。

在与复杂不确定环境交互作用时，它是决策者寻找最小耗费费用的方法。

RL起源于人工智能领域的试凑学习。

强化学习不同于监督学习，在监督学习中，对每次输入而言，相应的期望输出是已知的，即学习系统知道它的实际输出与期望输出的差值。

然后通过真实输出和参考输出的差值来修改参数。

在强化学习中，接收的信号是对一个行为的评价，这个评价可能是正、负或者零。

这个信号表示不用告诉系统怎么做，而是系统自己决定做什么。

机器人用这个信号决定到达目标的策略。

强化学习算法如下所述：
1）在每个离散时间步t，机器人感知到当前状态x（t），
2）在这个状态选择可能活动中的一个动作a（t），
3）给出一个强化信号，并产生一个新的后继状态x（t+1），
4）t<—t+1，
5）如果信号的状态是最终的状态，那么停止运动，如果不是则返回2）步。

若X是机器人可感知到其环境的不同状态的集合，A是一个可执行动作的集合。

强化信号r（t）是在状态x（t）选择动作a（t）的结果。

强化学习的目标函数是最优控制策略π：X→A，它在给定当前状态X集合中的x时，从集合A中输出一个合适的动作a。

通常，最优控制策略采用两种方法计算：第一种是策略重复，直接对策略进行操作；第二种是值重复，寻找最优值函数。

这两个方法分别给出了专门的强化学习算法。

3. BP神经网络与Q学习算法结合
3.1 Q学习算法
Q学习算法是求解信息不完全马尔可夫决策过程的一种有效的强化学习方法，也可以将其视为一种异步动态规划方法。

Q学习算法用Q （x，a）函数来表达在每个状态之下的每种动作的效果。

有限马尔可夫决策问题的模型如下：在每个离散时间步k=1，2，…，控制器观察马氏过程的状态为xk，选择决策ak，收到即时回报rk，并使系统转移到下一个后继状态yk，转移概率为Pxy（a），则控制的目的是寻求极大化回报期望值的最优控制策略，0≤γ<1为折扣因子。

给定一个策略π，定义Q值为：
（1）
其中：
（2）
定义，其中π*表示最优策略，b为在状态y下所对应的动作。

Q学习的目的就是在转移概率和所获回报函数未知的情况下来估计最优策略的Q值。

在初始阶段学习中，Q可能是不准确地反映了它们所定义的策略，初始值Q （x，a）对所有的状态和动作假定是给出的。

Q学习系统结构不同于AHC （Adaptive Heuristic critic）算法的结构，采用Q学习的智能系统只有一个决策单元，同时起到动作的评价及选择作用，这样有利于移动机器人根据外界环境实时
选择相应的动作。

3.2 Q学习算法的实现
Q函数的实现方法主要有两种方式：一种是采用神经网络方法；另一种是采用lookup表格方法。

采用lookup表格方法，就是利用表格来表示Q函数，当在环境状态集合下，智能系统可能的动作集合A较大时，Q （x，a）需要占用大量的内存空间，而且也不具有泛化能力。

那么，在一个合理的时间里，访问所有的状态和检测到所有的动作，将变得十分困难。

因此，在一个连续的状态空间和一个离散的动作空间的情况下，用BP人工神经网络来实现Q学习算法。

应用神经网络实现Q学习的关键是学习算法的确定。

根据Q函数的定义可以简化为：
（3）
只有在得到最优策略的前提下上式才成立。

在学习阶段，误差信号为：
（4）
其中，Q（xt+1，at）表示下一状态所对应的Q值，其中ΔQ通过调整网络的权值使误差尽可能小一些。

4.强化函数和动作选取
4.1强化函数
移动机器人总共配置3个超声波传感器，采用人工势场法来确定强化函数值。

其基本思想是将机器人在环境中的运动视为一种虚拟的人工受力场中的运动。

障碍物对机器人产生斥力，而目标点对机器人产生引力，引力和斥力的合力作为机器人的加速力来控制机器人的运动方向和计算机器人的位置。

该法结构简单，便于低层的实时控制，在实时避障和平滑轨迹控制方面，得到了广泛应用。

F（t）为机器人所受的斥力的合力，相邻时刻受力之差为
（5）
故奖励函数r（t）可表示为：
（6）
r（t）=-1表明移动机器人离障碍物较近，应该得到惩罚；r（t）=1表明移动机器人离障碍物较远，应该得到奖励；r（t）=0表明移动机器人距离障碍物的相对位置没变化，即不得到奖励，也不得到惩罚。

4.2 动作选取
在Q学习收敛以后，最优策略就是对每一个状态选择一个使Q函数值最大的动作，这个最优策略也被称为贪婪策略。

然而，在训练的开始，Q（x，a）并不是非常有意义，因此，时常会产生局部的重复。

为了获得Q的一个有用的估计值，移动机器人必须扫描和估计所有状态下可能的活动。

探测方法有三种：第一种方法是随机Pseudo方法，最佳值的动作按概率P 选择，否则，在被给定的状态下所有可能的动作中任意的选取一个动作；第二种方法是极端Pseudo方法，最佳值的动作按概率P选择，否则，我们选取在给定的状态下很少选择的动作；第三种方法是Boltzmann分布方法。

Q学习算法的目的是迭代出一个最大的希望折扣强化信号，这意味着学习的目的是学会对应于环境状态的最优的策略动作。

因为强化学习只能根据当前的状态（包括Q值和环境的状态）加以某种随机源产生一个动作。

探测方法中的第三种方法能很好的实现随机动作的选取。

因此，选用第三种方法作为随机源产生随机动作的方法。

5.仿真试验结果
为了验证算法的可行性，对基于Q学习算法移动机器人的控制进行了仿真，仿真平台使用的是MOBOTSIM，并在此基础上进行了二次开发。

6.结论
本文提出了一种用Q学习算法来实现移动机器人智能避障的控制策略，把BP神经网络结合到Q学习算法中，应用人工势场法来确定强化函数值。

仿真试验结果证明了移动机器人能够在不确定的环境下成功地躲避障碍物，并以最佳的路径到达目标。

基于Q学习算法的控制策略能使移动机器人获取自学习功能，增强了机器人自治导航的能力。

参考文献：
[1]Elisha Sacks. Path Planning for Planar Articulated Robots Using Configuration Spaces and Compliant Motion. IEEE Transactions on Robotics and Automation ，2003 19（3）：381-390.
[2]Leslie Pack Kaelbling，Michael L. Littman and Andrew W. Moore. Reinforcement Learning：A Survey[J].Artificial Intelligence Research. 1996，4：237～285.
[3]Watkins C I C H .Learning from delayed rewards. Ph. D Dissertation，King’s ，1989.
[4]Wiliam D Smart. Practical Reinforcement Learning in Continuous Spaces. http：///～wds/content/papers/icml00.pdf
崔月盟：（1980—）男，天津津航物理研究所，工程师。

出生年月1980年，研究方向：力学分析。