恭喜中国人民解放军海军航空大学付宇鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国人民解放军海军航空大学申请的专利一种基于稀疏奖励的无人机机动策略生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118798065B 。
龙图腾网通过国家知识产权局官网在2025-03-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411280348.0,技术领域涉及:G06F30/27;该发明授权一种基于稀疏奖励的无人机机动策略生成方法是由付宇鹏;邓向阳;方君;徐涛;余应福;朱子强;王萌设计研发完成,并于2024-09-13向国家知识产权局提交的专利申请。
本一种基于稀疏奖励的无人机机动策略生成方法在说明书摘要公布了:本发明涉及一种基于稀疏奖励的无人机机动策略生成方法,属于机动策略生成方法技术领域。为了解决现有技术中提到的稀疏奖励任务收敛慢的问题,该方法包括轨迹收集:分布式执行者与环境独立交互,将其轨迹进行收集并计算折扣回报,并将收集到的轨迹存储到用于离线策略训练的全局回放经验池;更新学习者的策略网络和价值网络模型:更新执行者的策略网络模型:学习者将策略网络参数发布给每个执行者,从而更新所有执行者的策略网络模型,每个执行者利用参数掩码,随机重塑嵌入网络的非活动权重,增加策略随机性从而提高环境探索能力,该方法既提高了算法的收敛性,也提高了无人机的机动能力。
本发明授权一种基于稀疏奖励的无人机机动策略生成方法在权利要求书中公布了:1.一种基于稀疏奖励的无人机机动策略生成方法,其特征在于:基于智能体模型包含嵌入网络、策略网络和价值网络实现,其中嵌入网络和策略网络构成部署时的机动决策模型,价值网络用来评估智能体的状态价值,嵌入网络输入自身飞行参数、相对态势等信息,提取隐式特征作为策略网络和价值网络的输入,策略网络输出飞行控制和武器控制指令,价值网络输出状态价值,所述智能体模型包括分布式执行者和学习者,具体包括以下步骤:S1、轨迹收集:分布式执行者与环境独立交互,将其轨迹进行收集并计算折扣回报,并将收集到的轨迹存储到用于离线策略训练的全局回放经验池;每个执行者都有自己的模型和环境,与环境独立交互,收集长度为N的轨迹;所述折扣回报为:,式中:表示累加过程的时间变量,表示当前时间,表示时刻奖励,表示时刻状态,表示时刻动作,T表示回合结束时间,为折扣系数,r表示奖励函数,a表示动作空间,s表示环境状态,所述奖励函数r由击败对手、被击败、攻击成功、规避成功的奖励组成,上述事件奖励与获胜机率正相关;回报估计:,式中:表示t+1时刻估计回报,为Rt+1的估计值;如果采集的轨迹数据的最后一条是对局终止时刻,则,为真实回报,否则为估计回报,表示t+1时刻的状态价值;当轨迹采样结束后,轨迹保存在全局回放经验池中;S2、更新学习者的策略网络和价值网络模型,具体包括以下步骤:步骤S2.1、计算在线策略梯度;步骤S2.2、计算离线策略梯度;步骤S2.3、更新策略网络模型:将步骤S2.1计算出的在线策略梯度和步骤S2.2计算出的离线策略梯度相加构成策略梯度,利用梯度上升法更新策略网络模型;步骤S2.4、更新价值网络模型:学习者以当前价值网络模型参数为均值,正态分布对其随机采样,获得价值网络模型种群,选择绝对优势最小的价值网络参数并更新价值网络模型;S3、更新执行者的策略网络模型:学习者将策略网络参数发布给每个执行者,从而更新所有执行者的策略网络模型,每个执行者利用参数掩码,随机重塑嵌入网络的非活动权重,增加策略随机性从而提高环境探索能力。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军海军航空大学,其通讯地址为:264000 山东省烟台市芝罘区二马路188号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。