登录    注册    忘记密码

详细信息

基于最小二乘策略迭代的无人机航迹规划方法    

Route Planning Method Based on Least-Squares Policy Iteration for Unmanned Aerial Vehicle

文献类型:期刊文献

中文题名:基于最小二乘策略迭代的无人机航迹规划方法

英文题名:Route Planning Method Based on Least-Squares Policy Iteration for Unmanned Aerial Vehicle

作者:陈晓倩[1];刘瑞祥[1]

第一作者:陈晓倩

机构:[1]北京联合大学智慧城市学院

第一机构:北京联合大学智慧城市学院

年份:2020

卷号:56

期号:1

起止页码:191-195

中文期刊名:计算机工程与应用

外文期刊名:Computer Engineering and Applications

收录:CSTPCD;;北大核心:【北大核心2017】;CSCD:【CSCD_E2019_2020】;

基金:英国皇家工程院牛顿基金(No.UK-CIAPP\324);北京联合大学研究生资助项目

语种:中文

中文关键词:无人机;航迹规划;强化学习;最小二乘法;Q学习;连续状态空间

外文关键词:unmanned aerial vehicle;route planning;reinforcement learning;least squares method;Q-learning;continuous state spaces

摘要:针对传统强化学习方法因对状态空间进行离散化而无法保证无人机在复杂应用场景中航迹精度的问题,使用最小二乘策略迭代(Least-Squares Policy Iteration,LSPI)算法开展连续状态航迹规划问题研究。该算法采用带参线性函数逼近器近似表示动作值函数,无需进行空间离散化,提高了航迹精度,并基于样本数据离线计算策略,直接对策略进行评价和改进。与Q学习算法的对比仿真实验结果表明LSPI算法规划出的三维航迹更为平滑,有利于飞机实际飞行。
Traditional reinforcement learning methods,in which the state space is discretized,can’t ensure the trajectory accuracy in complex flight applications.The route planning method with continuous state space based on Least-Squares Policy Iteration(LSPI)is presented in this paper.The approximate function is used to represent value function to ensure the trajectory accuracy without space discretization.By offline policy generation based on samples,the policy is evaluated and improved by LSPI directly.Compared with Q-learning,simulation results show that the trajectory planned by LSPI is smoother and more conducive to the actual flight of aircraft.

参考文献:

正在载入数据...

版权所有©北京联合大学 重庆维普资讯有限公司 渝B2-20050021-8 
渝公网安备 50019002500408号 违法和不良信息举报中心