改进Q-learning算法在路径规划中的应用摘要:Q-learning算法是环境未知条件下的有效强化学习算法,该算法在路径规划中被广泛应用。针对Q-learning算法在离散状态下存在运行效率低、学习速度慢等问题,提出一种改进的Q-learning算法,在栅格环境下进行仿真实验,并成功地应用在多障碍物环境下移动机器人路径规划,结果证明了算法的可行性。改进Q-learning算法可以以更快的速度收敛、学习次数明显减少、效率最大可提高20%。同时该算法框架对解决同类问题具有较强的通用性。关键词:路径规划;改进Q-learning算法;强化学习;栅格法;机器人中图分类号:TP391文献标志码:AApplicationofimprovedQ-learningalgorithminpathplanningAbstract:Q-learningalgorithmisaneffectivereinforcementlearningalgorithmundertheconditionofunknownenvironment,whichiswidelyusedinpathplanning.AimingattheproblemoflowefficiencyandslowlearningindiscretestateofQ-learningalgorithm,animprovedQ-learningalgorithmisproposedtosimulateingridenvironment.Ithasbeen收稿日期:2018年月日.基金项目:吉林省重点科技攻关计划项目(20170204052GX).大学生创新创业训练项目(2016A65288).作者简介:千承辉(1975年),女,高工,博士.研究方向:智能仪器与微弱信号采集技术.E-mail:qianch@jlu.edu.cnsuccessfullyappliedtothepathplanningofamobilerobotinamultibarrierenvironment,andtheresultsprovethefeasibilityofthealgorithm.TheimprovedQ-learningalgorithmcanconvergefaster,reducethenumberoflearning,andincreasetheefficiencyby20%.Atthesametime,theframeworkofthealgorithmhasstronggeneralityforsolvingthesamekindofproblems.Keywords:pathplanning;improvedQ-learningalgorithm;reinforcementlearning;gridmethod;robot收稿日期:2018年月日.基金项目:吉林省重点科技攻关计划项目(20170204052GX).大学生创新创业训练项目(2016A65288).作者简介:千承辉(1975年),女,高工,博士.研究方向:智能仪器与微弱信号采集技术.E-mail:qianch@jlu.edu.cn0引言移动机器人可以在人类不可到达或危险未知的地方完成任务,已经成功的运用在很多领域,在移动机器人研究领域中路径规划是一个关键的问题Error:Referencesourcenotfound。路径规划问题已经有很多方法可以借鉴,如蚁群算法、人工磁场法、神经网络法等Error:Referencesourcenotfound。本文采用改进的Q-learning算法进行最优路径规划,即指在可以满足预先设定的条件的同时,从起点出发沿最短路径不经过障碍物到达终点。Q-learning算法是环境未知条件下的有效强化学习算法,它的迭代是一个试错和探索的过程,其收敛的一个条件要求对每个可能的状态动作对都多次尝试,最终学到最优的控制策略。Q-learning算法因其不需要建立环境的模型、算法简单、易于使用,已在非线性控制、机器人规划、人工智能问题求解、组合优化和调度制等领域中得到应用。针对不同的应用方向很多人提出了改进的方法Error:Referencesourcenotfound,改进后算法的学习效率都得到了一定的提高,但其改进的方法比较繁琐。Q-learning算法应用于路径规划时,存在着学习利率低、收敛速度慢等缺点,且相关研究大多停留在理论层面,缺少对实际问题的解决和实践。本文对Q-learning算法做出改进,并将其应用在多障碍物环境下移动机器人的路径规划,使其在短时间内以最优路径从起点移动到终点。验证了改进算法的高效性,为Q-learning算法的改进提供了新的思路。1建立环境模型1.1栅格法建模栅格法简单有效,对障碍物的适应能力强,可减少建模的复杂性,便于计算机存储与处理,也可以直观进行视觉判断,已被广泛用于环境建模方法中Error:Referencesourcenotfound。本文通过建立一个n×m的栅格,结合二维直角坐标系来确定栅格位置,并对每个栅格从左至右,从上到下依次标明序号。如图1建立一个3×4的栅格。图13×4栅格1.2问题描述本文利用摄像头采集环境信息、识别障碍物、根据获取的实际信息采用栅格法建立环境模型、设定起点与终点、采用Q-learning算法进行路径规划、根...