买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京航空航天大学
摘要:本发明公布了融合经验共享与平衡奖励Actor‑Critic网络的编队路径规划方法,所述方法首先构建无人机编队路径规划的任务场景;其次通过设定编队与路径规划平衡奖励,根据稀疏性和信息性准则求解平衡的编队奖励和路径奖励;然后根据经验共享策略使得每个无人机能够在自身学习探索的同时获取其他无人机的学习经验;最后在对整个模型完成训练后,在动态环境下实现了无人机编队路径规划。本发明基于多智能体演员‑评论家算法基本框架,利用平衡奖励设定编队与路径规划奖励,提出经验共享策略,有效解决了编队路径规划方法收敛速度较慢的问题,可确保编队无人机实现高效路径规划。
主权项:1.融合经验共享与平衡奖励Actor-Critic网络的编队路径规划方法,其特征在于,该方法包括以下步骤:步骤1构建无人机编队路径规划的任务场景,包括无人机数量,编队队形,自身位置,起点位置,终点位置和障碍信息。步骤2利用平衡奖励设定式求解编队奖励设定值和无人机在到达终点时的奖励设定值具体方法为:2.1首先定义奖励的稀疏性评价模型和信息性评价模型,具体如下:奖励的稀疏性评价模型表示为: 式中,为奖励的支撑集,这里s为局部状态,S为全局状态,为智能体奖励,a为局部动作,为联合动作。奖励的信息性评价模型表示为: 式中,为单调非减的凹函数,为满足的最优差,为最优策略,h为回合数,为总回合数。2.2利用奖励的信息性评价模型式2求最优解具体为: 式中,为子目标,为总目标,满足2.3对式3求最优解,得2.4定义平衡奖励设定式为: 式中,D为先验知识,λ≥0;2.5利用向前逐步选择法对平衡奖励设定式4进行求解,得到编队奖励设定值和无人机在到达终点时的奖励设定值步骤3建立每个无人机的Actor网络和Critic网络,通过智能体间经验共享策略,得到MAAC网络模型的策略损失函数Lθi和值函数的损失函数Lφi,学习更新网络参数,得到更高的学习效率。步骤4设定无人机编队路径规划的状态空间S、动作空间A、避障奖励robs和机间避碰奖励rnav,由步骤2求解出的平衡奖励得到编队奖励rformation和路径规划奖励rpath,计算无人机编队路径规划的总奖励函数R。步骤5训练经验共享结合平衡奖励的MAAC的无人机编队路径规划模型。步骤6将训练好的经验共享结合平衡奖励的MAAC算法应用到实际飞行场景中,得到编队路径规划路线。
全文数据:
权利要求:
百度查询: 南京航空航天大学 融合经验共享与平衡奖励Actor-Critic网络的编队路径规划方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。