一种基于强化学习的高超声速飞行器航迹规划方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：哈尔滨工程大学

摘要：本发明公开了一种基于强化学习的高超声速飞行器航迹规划方法，本发明根据航迹规划分2个阶段：离线训练阶段，训练一个不依赖于固定环境的RL智能体作为航迹规划的基线策略；在线规划阶段，RL‑CEM利用环境模拟器预测未来的状态进行规划，之后选择优于基线策略的策略作为执行策略，否则将使用基线策略。本发明提出的RL‑CEM不仅有效地回避航迹规划中的局部最优，还展现出了令人满意的成功率。RL‑CEM弥补了以往基于RL的航迹规划方法容易陷入局部最优、规划失败时无替代方案的缺点。本发明的航迹规划方法回避了高超声速飞行器复杂的动力学，仅通过其运动学来解决该问题。

主权项：1.一种基于强化学习的高超声速飞行器航迹规划方法，其特征在于：步骤如下：步骤1：构建模拟环境来模拟真实的飞行环境；飞行器为子弹形状的刚体，威胁和禁飞区为大小相同的圆形刚体；飞行器执行任务的空域大小为：2000km×400km；任务成功的条件是避开不利的区域抵达目标点；步骤2：构建MDPMarkovDecisionProcess，MDP模型MDP模型能够观察到飞行器的信息和目标的信息，还能观察到所有威胁的相关信息；步骤3：根据步骤2，设置网络结构；步骤4：根据步骤3，确保RL智能体构建的航迹平滑；步骤5：根据步骤4，设计RL-CEM规划方法；将RL和CEM结合，通过CEM对RL智能体的策略进行优化；每次规划时，在给定状态st下，通过CEM规划一个动作序列该动作序列最大化目标函数其中t+1，...，t+H时刻的状态则通过环境模拟器来预测；定义一个权重为的CEM策略；该策略以RL智能体的动作为输入，输出一个新的动作aCEM；在每次迭代时，CEM从Nμ,∑中采样P组参数之后，按的顺序选择前E个精英样本去拟合一个新高斯分布；下一次迭代则从新的高斯分布中采样；每轮优化都将最优的精英个体存储起来，在优化结束时从存储的个体中选择J·最大的个体作为θCEM*；最终从和πθ中选择累积奖励最大的策略作为规划的最优策略；求解最大化H步的累积奖励的参数θCEM*，所使用的公式为：拟合新高斯分布所使用的公式为：

全文数据：

权利要求：

百度查询：哈尔滨工程大学一种基于强化学习的高超声速飞行器航迹规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种信创环境下超融合一体机的USB设备管理方法及系统

下一篇：基于PLC控制系统的生产数据恢复方法和装置

相关技术

一种信创环境下超融合一体机的USB设备管理方法及系统

基于PLC控制系统的生产数据恢复方法和装置

一种柔性亲肤硅胶材料及其制备方法

一种燃气灶具、控制方法和装置

一种输送工艺下线自动释放装置、方法、系统及存储介质

一种种植槽及生态集装箱种植装置

一种用于水产食品的干燥装置

一种吡咯并喹啉醌二钠盐的泡腾片及其制备方法

基于PI控制器的全景视频控制系统及方法

电致发光测试装置及系统

一种自调节双炉膛镀膜机

热泵机组及其控制方法、装置、计算机可读存储介质

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于强化学习的高超声速飞行器航迹规划方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务