首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于策略集合MADDPG多无人机协同攻防对抗方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京航空航天大学

摘要:本发明公布了基于策略集合MADDPG多无人机协同攻防对抗方法,所述方法首先构建多无人机协同攻防对抗作战任务环境;其次建立多无人机系统的联合状态空间和联合动作空间;然后,针对多无人机攻防对抗问题设计了基于群体目标的奖赏函数,包括进攻方无人机和防御方无人机两个部分;接着,对基于策略集合MADDPG网络进行训练;最终使用训练完成的网络模型实现多无人机协同攻防对抗决策。本发明对MADDPG算法进行改进,设计基于群体目标的奖赏函数,引导协同攻防策略的学习,使用策略集合有效解决了多无人机系统中单个智能体针对其竞争对手出现过拟合强策略的问题,攻防效率更高,从而赋予了无人机更好的协同攻防对抗能力。

主权项:1.基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,该方法包括以下步骤:步骤1建立多无人机协同攻防对抗作战示意图,包括任务目标、隐蔽区域和障碍物位置,以及进攻无人机和防御无人机,进而构建多无人机攻防对抗作战任务,包含目标攻防和无人机追逃两个方面;步骤2建立多无人机系统的联合状态空间S和联合动作空间A;步骤3设计多无人机系统中基于群体目标状态的奖赏函数rt,其中,进攻方无人机的奖赏函数包括攻占目标、避免冲突和避免被敌机击毁三个方面,防御方无人机的奖赏函数分为避免冲突和打击进攻方无人机两部分;步骤4对基于策略集合MADDPG网络进行训练,具体为:4.1随机初始化无人机的Online策略网络参数θμ和OnlineQ网络参数θQ,以及Target策略网络参数θμ′和TargetQ网路参数θQ′,同时初始化经验回放缓冲区;4.2初始化一个随机过程χ进行动作探索,并对联合状态S进行初始化;4.3对于每个无人机i,利用其当前的策略网络和随机过程选择动作计算t时刻n个无人机的状态st、所执行的动作得到奖赏值rt=rtattack_1,...,rtattack_i,...rtattack_m,rtdefence_1...,rtdefence_j,...,rtdefence_n-m和下一时刻的状态s′,并将其存入经验回放缓冲区D;4.4从D中随机抽取一批样本,样本数为S,其中一条为sj,aj,rj,s′j,利用最小化损失函数更新无人机的OnlineQ网络;4.5从无人机i的策略网络中选择某一子策略针对每一个子策略更新其Online策略网络;4.6通过softupdate算法更新Target策略网络和TargetQ网络的参数,具体为: 式中,τ为学习率,θμ′为Target策略网络参数,θQ′为TargetQ网络参数;步骤5使用训练完成的网络模型实现多无人机协同攻防决策。

全文数据:

权利要求:

百度查询: 南京航空航天大学 基于策略集合MADDPG多无人机协同攻防对抗方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。