基于策略集合MADDPG多无人机协同攻防对抗方法

导航：龙图腾网> 最新专利技术> 基于策略集合MADDPG多无人机协同攻防对抗方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：南京航空航天大学

摘要：本发明公布了基于策略集合MADDPG多无人机协同攻防对抗方法，所述方法首先构建多无人机协同攻防对抗作战任务环境；其次建立多无人机系统的联合状态空间和联合动作空间；然后，针对多无人机攻防对抗问题设计了基于群体目标的奖赏函数，包括进攻方无人机和防御方无人机两个部分；接着，对基于策略集合MADDPG网络进行训练；最终使用训练完成的网络模型实现多无人机协同攻防对抗决策。本发明对MADDPG算法进行改进，设计基于群体目标的奖赏函数，引导协同攻防策略的学习，使用策略集合有效解决了多无人机系统中单个智能体针对其竞争对手出现过拟合强策略的问题，攻防效率更高，从而赋予了无人机更好的协同攻防对抗能力。

主权项：1.基于策略集合MADDPG多无人机协同攻防对抗方法，其特征在于，该方法包括以下步骤：步骤1建立多无人机协同攻防对抗作战示意图，包括任务目标、隐蔽区域和障碍物位置，以及进攻无人机和防御无人机，进而构建多无人机攻防对抗作战任务，包含目标攻防和无人机追逃两个方面；步骤2建立多无人机系统的联合状态空间S和联合动作空间A；步骤3设计多无人机系统中基于群体目标状态的奖赏函数rt，其中，进攻方无人机的奖赏函数包括攻占目标、避免冲突和避免被敌机击毁三个方面，防御方无人机的奖赏函数分为避免冲突和打击进攻方无人机两部分；步骤4对基于策略集合MADDPG网络进行训练，具体为：4.1随机初始化无人机的Online策略网络参数θμ和OnlineQ网络参数θQ，以及Target策略网络参数θμ′和TargetQ网路参数θQ′，同时初始化经验回放缓冲区；4.2初始化一个随机过程χ进行动作探索，并对联合状态S进行初始化；4.3对于每个无人机i，利用其当前的策略网络和随机过程选择动作计算t时刻n个无人机的状态st、所执行的动作得到奖赏值rt＝rtattack_1，...，rtattack_i，...rtattack_m，rtdefence_1...，rtdefence_j，...，rtdefence_n-m和下一时刻的状态s′，并将其存入经验回放缓冲区D；4.4从D中随机抽取一批样本，样本数为S，其中一条为sj，aj，rj，s′j，利用最小化损失函数更新无人机的OnlineQ网络；4.5从无人机i的策略网络中选择某一子策略针对每一个子策略更新其Online策略网络；4.6通过softupdate算法更新Target策略网络和TargetQ网络的参数，具体为：式中，τ为学习率，θμ′为Target策略网络参数，θQ′为TargetQ网络参数；步骤5使用训练完成的网络模型实现多无人机协同攻防决策。

全文数据：

权利要求：

百度查询：南京航空航天大学基于策略集合MADDPG多无人机协同攻防对抗方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：集中供暖设备

下一篇：一种混凝土养护设备及养护方法

相关技术

集中供暖设备

一种混凝土养护设备及养护方法

一种电子水泵噪声振动测试台架装置及噪声测试方法

用于使用子图片对特征进行视频编码的系统和方法

一种基于FIFO处理CAN通信消息的优化系统及方法

一种面向单层隔振系统的惯容器设计方法

半导体器件及其制备方法

一种用于肺癌新辅助免疫治疗及化疗的预后标志物及其应用

一种缺陷检测方法和相关设备

基于空间差分技术的动作捕捉方法和系统

一种耳道清洗装置

流媒体推流方法、流媒体推流系统和存储介质

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于策略集合MADDPG多无人机协同攻防对抗方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务