天富平台公司 - 天富平台APP下载|天富平台代理【官网登录】

【天富娱乐代理奖金】移动机器人路径规划上障碍物躲避算法

未知环境下的移动机器人路径规划是机器人领域的一个基本问题,也是一个具有挑战性的问题。动态窗口法(DWA)是一种有效的局部路径规划方法,但它的一些评价函数不足,且缺乏这些函数的权重选择算法,这使得DWA方法高度依赖全局参考量,在未知环境下容易失效。该研究提出了一种改进的基于Q-学习的DWA算法。首先,对原有的评估函数进行了修改和扩展,增加了两个新的评估函数,提高了全局导航的性能。然后,考虑到效率和速度的平衡,定义了机器人运动规划所采用的Q-学习算法的状态空间、动作空间和奖励函数。在此基础上,通过Q-学习自适应地学习DWA的参数,得到一个适应未知环境的经过训练。最后,通过一系列比较仿真,表明该方法在复杂未知环境下具有较高的导航效率和较高的导航成功率。基于XQ-4Pro机器人的实验验证了该方法在静态和动态环境下的导航能力。

本文以“Reinforcement based mobile robot path planning with improved dynamic window approach in unknown environment”为题于2020年9月30日发布于《Autonomous Robots》杂志上。

《【天富娱乐代理奖金】移动机器人路径规划上障碍物躲避算法》

研究背景


在工农业生产、智能物流、空间探索和应急救援等领域,移动机器人的应用越来越广泛。机器人可以携带不同的工具,如机器人手臂,测距仪,灭火器来完成不同的任务。完成任务的基础是机器人能够自主地、自适应地移动。

路径规划是移动机器人的关键技术之一,它被描述为在工作环境中找到连接起始点和目标的无冲突路径。路径的优化指标可以选择为最短长度、最短行程时间、最小碰撞概率、通过特定位置等。根据环境感知和规划范围,路径规划算法可分为:(1)全局路径规划,机器人在已知的全局环境图下找到与目标无碰撞的路径,通常只进行一次,得到一条参考全局路径;(2)局部路径规划,机器人根据激光雷达等距离传感器获取的实时信息进行运动。超声波通常用于避障,并在每个时间步骤执行。

为了说明该实验的应用场景,以仓库中的机器人任务为例进行了研究。仓库机器人每天都需要将货物从仓库入口处运送到仓库中的某个位置,但仓库中其他货物的分布情况却是未知的。机器人只能感知到其在仓库中的位置、目标的位置以及周围障碍物(行人或其他货物)在感知范围内的位置。在这种情况下,机器人只知道离线获取的静态全局地图,机器人的运动主要是基于实时感知到的局部信息。因此,该实验在为解决未知环境下机器人导航问题提供一种有效的局部路径规划方法。

近年来,机器学习技术在具有基于知识积累的自适应学习能力的自主机器人中得到了广泛的应用。强化学习(RL)是ML的一个重要分支,它通过反复试验,根据环境反馈不断更新Agent的动作策略。由于模拟技术的发展和测量数据的积累,训练样本越来越多。RL在复杂环境下具有强大的学习能力,在移动机器人导航领域有着广阔的应用前景。改进了路径规划算法的结构,并利用丰富的数据对这些算法的参数进行了优化。此外,早期的研究也使用ML来提高对广阔、动态或部分非结构化环境的认识。

该实验以局部路径规划算法为研究对象,对原有的动态窗口算法(DWA)进行了改进,提高了全局导航能力,并提出了一种基于Q-学习的DWA参数最优自适应学习方法。Q-学习算法是一种适合于机器人路径规划的RL算法。首先,Q学习算法不需要环境的任何先验信息,而是通过与环境的交互来积累对环境的感知。同样,机器人没有任何全球地图的信息,而只是基于动作策略和对周围环境的实时感知。第二,作为一种离线学习方法,Q-学习算法使得以往的经验可重用到非实时学习中,并且不需要采取更新操作。该学习方法可以有效地节约训练成本,提高移动机器人的训练效率。第三,Q-学习的训练数据是没有标记的,并不是每一个动作都能从环境中得到即时的奖励。大多数情况下,动作序列的总体回报是在完全交互完成后得到的。同样,环境可能不会告诉机器人一项行动是否正确,而是在每一集之后给予奖励,即每一次路径规划的结束(到达目标、与障碍物碰撞、被迫停止或其他终止条件)。最后,Q-学习算法的主要目标是为同一组任务训练一个通用模型。类似地,经过训练的模型在包含复杂条件的地图上,也可以在其他环境中获得满意的规划结果。

在机器人速度由Q-学习直接产生的情况下,该研究采用Q-学习来调整DWA中的参数,机器人的速度仍然由DWA生成,从而保证了路径的一致性和可实现性。动态调整的参数是各评价函数的权重和前向仿真时间,构成Agent的动作空间。基于机器人的姿态及其与目标的关系,设计了机器人的状态空间和奖励函数。

该实验的研究内容包括移动机器人的路径规划算法及其与RL的结合。有关工作和结果的摘要如下。

近几十年来,许多学者对路径规划技术进行了研究。提出了基于不同理想和地图描述的方法,如势场法(PFM)、基于网格的方法、基于抽样的规划(SBP)、智能算法、DWA、RL等。该研究简要介绍了其它几种路径规划算法,重点介绍了DWA算法和RL算法,并分析了它们的不足。

基于网格的方法是一种经典的全局路径规划算法,它将地图划分为二维网格。如果有足够接近某一网格的障碍物,这个网格就被认为是不可到达的网格。否则,它就是一个可达的网格。连接起始点和目标的路径将在可到达的网格中找到。

生物或物理规律已经从自然界中总结出来,服务于各个领域,被称为智能算法。该研究对智能算法在机器人路径规划中的一些最新研究成果进行了综述。提出了一种将差分进化(DE)算法和量子行为粒子群优化(QP-SO)相结合的DEQPSO算法,并利用该方法在不同威胁环境下生成了一条安全、可飞的无人机路径。为了减少到达最优路径的时间,提出了一种基于模糊局部化的广义智能水滴算法(IWD)。该方法将图分成等截面,用模糊推理系统比较它们上的路径,并通过比较确定每个解的值。

基于抽样的规划(SBP)是通过采样配置空间(C-空间)来进行规划的唯一方法。从某种意义上说,SBP试图通过采样来获取C空间的连通性。主要的SBP算法包括概率路线图法(PRM)、随机势规划法(RPP)、快速探索随机树(RRT)、探索/开发树(EET)、扩展空间树(EST)等。为了减少迭代次数,提出了基于势函数的RRT结合人工势场算法,提高了内存利用率和收敛速度。引入了灵活的PRM概念,以解决在含有障碍的工作场所规划路径的问题,并将偏好表示为可取程度。为了提高计算效率,EET计划器故意用概率完整性进行交换。

首先将局部路径规划和避障问题转化为约束速度空间优化问题,并用曲率速度法(CVM)算法求解。在CVM的基础上,提出了一种更完备的动态窗口方法(DWA),该方法考虑了机器人的物理约束、环境约束和当前速度。DWA算法首先根据机器人的运动学模型和当前速度得到一个速度采样窗口,然后生成该窗口内每一组速度的轨迹,最后利用评价函数对这些轨迹进行评估,找出下一时刻的最优速度。根据传感器和机器人的姿态信息,评价函数通常考虑速度、路径角和距离形成障碍三个因素。

学习的路径规划


在路径规划中最有趣的方法之一是RL。在RL的过程中,机器人就像一些生物一样,通过与环境的交互来学习路径规划的最佳策略。在所提出的方法中,机器人路径规划采用q-学习,这是首次引入的延迟奖励学习。Q-学习在机器人导航中的首次应用之一是利用实例轨迹引导值函数逼近,并将学习分为两个阶段。提出了一种改进粒子群算法(IPSO)的Q学习新方法,通过减少转向角和路径长度(DAS等),降低了经典Q-学习的复杂度和机器人的能耗。

近年来,Q学习与深度学习相结合已成为一种新的趋势。摘要在具有全局信息的情况下,提出了一种基于q-学习和神经网络规划的解决静态和动态障碍环境中自主运动问题的新方法。提出了一种基于模型的Q-学习路径规划方法,其Q值用深度Q学习神经网络逼近,并根据网格图计算奖励。为了提高轮式移动机器人避障的成功率,在深度Q学习中引入了基于日志的奖励函数。Q-学习也被应用于具有全子多智能体结构的协同路径规划系统。结合Boltzmann策略避免陷入局部最优,Q-学习可以显著提高多机器人系统的效率,减少探索次数,收敛过程。

在上述将Q-学习应用于机器人导航的文献中,他们优化了Q值的生成方式或奖励函数的选择,以降低程序和机器人的操作成本。然而,状态速度只考虑了机器人与障碍物或目标的位置关系,而忽略了机器人的方向和速度,这可能无法完全描述机器人的状态。此外,动作速度相对简单,一般是向右或向左转,向多个方向移动一步(特别是在网格地图中)。这些直截了当的行为往往会使路径变得不连贯,无法跟踪,而一些更好的路径则被忽略。相比较而言,Q-学习方法的应用是为了提高DWA的性能,保留了DWA的可行性和优越路径的优点。

总结和动机

【天富最大总代是谁?】【天富平台是合法的金融平台吗】


如前所述,现有的路径规划算法大多依赖于已知的静态全局映射。如果地图有动态障碍物,则需要高度了解它们的状态(位置、形状或速度)。因此,这些算法在具有未知静态和动态障碍的环境中可能表现不佳。此外,它们往往获得参考路径而不是速度指令,因此需要采用更多的传感器或方法来跟踪路径,这增加了移动机器人导航和计算的复杂性。

在该研究中,导航场景只包含全局地图的轮廓而不包含障碍物,机器人上的传感器对障碍物进行实时检测,因此路径规划算法只能利用周围障碍物的信息。同时,为了简化导航框架,该算法更好的是直接获得所需的速度,而不是期望的路径。因此,研究者们发现DWA满足这些要求,适合作为路径规划算法。针对以上分析的DWA的两个缺陷,研究者们在Q-学习的基础上,通过增强评价函数和参数自适应来修正这些缺陷。

实验内容与结果


实验在基于Ubuntu 14.04的XQ-4 Pro双轮移动机器人上进行,该机器人采用Intel Core i7-4500u1.8GHz CPU,8GB内存和机器人操作系统(ROS),如图所示,该机器人配备了陀螺仪、激光雷达、红外、摄像机等多种传感器,其运动学模型与分段仿真结果基本一致。

《【天富娱乐代理奖金】移动机器人路径规划上障碍物躲避算法》

图为XQ-4 Pro机器

在ROS中,自主导航任务涉及多个节点,根据不同的功能将其划分为四类:传感器节点、定位节点、路径规划节点(命名为(移动基地))和电机控制节点。

《【天富娱乐代理奖金】移动机器人路径规划上障碍物躲避算法》

自主导航框架

《【天富娱乐代理奖金】移动机器人路径规划上障碍物躲避算法》

a为原实验场景图1,b为真实实验场景1

《【天富娱乐代理奖金】移动机器人路径规划上障碍物躲避算法》

机器人实验过程,a–e分别按时间顺序显示机器人的位置

《【天富娱乐代理奖金】移动机器人路径规划上障碍物躲避算法》

a为实验场景2的原始地图,b为真实实验场景2

《【天富娱乐代理奖金】移动机器人路径规划上障碍物躲避算法》

机器人实验过程2,a–h分别按时间顺序显示机器人的位置

实验结果


在静态或动态障碍物未知环境下进行了实验,验证了该方法的有效性。所有的实验环境都建立在办公大楼的走廊上。


通过一系列仿真,验证了改进后的DWA及其与Q-学习的结合。第一部分仿真结果表明,改进后的DWA在离散和螺旋障碍物环境下的导航效率明显优于原始DWA。在第二部分的仿真中,训练过程呈现出降低时间消耗和提高成功率的趋势,测试结果表明,训练Agent的DWA训练成功率明显高于固定参数DWA的训练成功率,并与其他局部规划方法进行了比较,验证了该方法的优越性。基于XQ-4Pro机器人的硬件实验验证了该方法的有效性.实验结果表明,改进的基于训练Agent的DWA算法能够在静态和动态未知环境中对机器人进行导航。

在今后的工作中,将在训练过程中考虑动态障碍,在实验中设置更复杂的障碍。此外,还可以研究行人避障机器人的行为,以促进机器人避障。

文章链接:http://211.70.148.4:8000/rwt/CNKI/https/NSVX643PPNZHE4LPM7TYELUDN7XB/article/10.1007/s10514-020-09947-4

【天富娱乐最高待遇】【天富代理网址】

点赞