首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于强化学习的水空两栖无人航行器路径规划方法_江苏科技大学_202111381994.2 

申请/专利权人:江苏科技大学

申请日:2021-11-22

公开(公告)日:2024-06-21

公开(公告)号:CN114089762B

主分类号:G05D1/43

分类号:G05D1/43;G05D1/46

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2022.03.15#实质审查的生效;2022.02.25#公开

摘要:本发明公开了一种基于强化学习的水空两栖无人航行器路径规划方法。步骤是:S1、选取两栖无人航行器执行路径规划任务的区域S,根据区域S,提取电子海图中对应区域S的数据进行三维环境建模;S2、构建两栖无人航行器路径规划的马尔可夫决策过程MDP;S3、给定起始点和目标点,根据两栖无人航行器路径规划的MDP,基于深度Q网络DQN算法根据两栖无人航行器的不同工作场景完成全局路径规划。本发明较现有的针对两栖无人航行器路径规划的环境建模方法的规划范围提高到了几十公里,并有效的考虑两栖无人航行器的运动特性,结合DQN算法,可以更加快速有效的找到一条符合其工作场景的最优路径。

主权项:1.一种基于强化学习的水空两栖无人航行器路径规划方法,其特征在于,包括如下步骤:S1、选取两栖无人航行器执行路径规划任务的区域S,根据区域S,提取电子海图中对应区域S的数据进行三维环境建模;S2、构建两栖无人航行器路径规划的马尔可夫决策过程MDP;S3、给定起始点和目标点,根据两栖无人航行器路径规划的MDP,基于深度Q网络DQN算法根据两栖无人航行器的不同工作场景完成全局路径规划;所述S2步骤中构建两栖无人航行器路径规划的马尔可夫决策过程MDP关于两栖无人航行器动作空间和状态空间定义的具体内容如下:1、两栖无人航行器的状态空间,被定义为两栖无人航行器的位置坐标x,y和高度z,位置坐标x,y表示为二维的连续空间,为了简化训练过程,高度z表示为一维的离散空间;因此两栖无人航行器的状态空间表示为[x1,y1,z1,x2,y2,z2,.......,xn,yn,zn]32、考虑到两栖无人航行器同时具备水中航行和空中飞行的特点,所以将两栖无人航行器的动作离散成上、下、左、右、起飞和降落六个动作,即动作空间A=[up,down,left,right,fly,descend];3、在航行情况下,通过对实验室自船的航行速度测试,采取其一分钟前进的位移距离为上、下、左、右动作的移动距离dsail;在飞行情况下,通过对实验室自船的航行速度测试,采取其一分钟前进的位移距离为上、下、左、右动作的移动距离dflight;起飞和降落动作的移动距离做了简化处理,即起飞动作执行后,两栖无人航行器会垂直起飞到达其所能到达最大高度hmax,而降落动作执行后,两栖无人航行器会垂直降落到水面高度为0;根据定义的状态和动作空间,以一个给定的动作进行状态转换,可以表示为 其中[x'y'z']是下一个状态,[xyz]是当前状态;所述S2步骤中构建两栖无人航行器路径规划的马尔可夫决策过程MDP关于两栖无人航行器奖励函数定义的具体内容如下:1、目标区域奖励rterminal;提高训练效率在两栖无人航行器到达目标点区域视为完成任务;2、距离奖励函数rdistance;旨在加强目标区域的影响力,约束两栖无人航行器能更快的前往目标区域; 其中DistanceNow表示的是当前状态两栖无人航行器与目标点的距离,DistanceFuture表示下一步状态两栖无人航行器与目标点的距离;λdistance为距离权重系数;3、能耗奖励函数rpower;两栖无人航行器在运动时,其飞行和航行状态所消耗的能量是不同的,为了使路径规划的路线中飞行航行的占比符合不同的工作场景需求,采用了能耗奖励函数rpower;通过对实验室的两栖无人航行器进行能耗测试,得知其一分钟的飞行能耗λflight以及其一分钟的航行能耗λsail,得到它们的比值为λflight:λsail,所以能耗奖励函数可以表示为 其中α是一个比例系数,当两栖无人航行器为飞行状态和航行状态时,每做一个动作都会产生负的能耗奖励;4、水深奖励rdepth;根据电子海图解析出来的环境模型,每个坐标点都有对应的水深;与其他工作不同时,本研究采用坐标点的水深值Depth大小,来表示两栖无人航行器与陆地、岛礁等大型障碍物的距离;正常来说,水深越大的地方距离陆地越远,水深越小的地方离陆地越近;水深奖励函数rdepth可以表示为: 其中λ1~λ6为奖励函数的数值,障碍物标志位obstance是为了更好的保证两栖无人航行器的安全性以及起飞时机的恰当性,本研究将两栖无人航行器外围一周构成一个3*3的正方形区域,当作两栖无人航行器的探测区域,如果区域有障碍物,则输出obstance=1;5、碰撞奖励函数robstance;碰撞奖励旨在防止两栖无人航行器碰撞到障碍物;在强化学习算法训练过程中,一但两栖无人航行器与障碍物发生碰撞,碰撞奖励函数将返回一个的大的负奖励;碰撞奖励函数可以表示为:robstance=-λobstanceDepth>0andz=09λobstance代表碰撞奖励返回的负奖励值,当两栖无人航行器下一个状态所处的坐标水深值为正且不在飞行状态即视为与障碍物发生碰撞,产生碰撞奖励;6、总的奖励函数可以表示为:rtotal=λa*rterminal+λb*rdistance+λc*rpower+λd*rdepth+λe*robstance10其中λa、λb、λc、λd、λe为权重系数;所述S3步骤中给定起始点和目标点,根据两栖无人航行器路径规划的MDP,基于深度Q网络DQN算法的具体过程如下:1、给定路径规划的起始点和目标点;2、导入S1建立的环境模型,选用深度Q网络DQN算法用作路径规划的算法,设定批尺寸Batch_size=32、学习率Learningrate=0.01、训练次数episode=5000、衰减因子gamma=0.9、内存回放单元大小memory_size=20000,设定Q网络的层数为3层,根据S2的两栖无人航行器的MDP和S1的三维环境模型进行训练。

全文数据:

权利要求:

百度查询: 江苏科技大学 一种基于强化学习的水空两栖无人航行器路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。