首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】六自由度环境下基于双延时确定策略梯度的空战决策方法_北京航空航天大学_202410458544.6 

申请/专利权人:北京航空航天大学

申请日:2024-04-17

公开(公告)日:2024-06-14

公开(公告)号:CN118192212A

主分类号:G05B11/42

分类号:G05B11/42

优先权:

专利状态码:在审-公开

法律状态:2024.06.14#公开

摘要:本发明涉及一种六自由度环境下基于双延时确定策略梯度的空战决策方法,属于无人机控制领域。本发明针对现有技术存在的模型简单、与空战实际相去较远的问题,建立了UCAV非线性六自由度全量方程并在此基础上构建了双延时确定策略梯度算法的空战决策框架。本发明建立了UCAV的非线性六自由度模型,相较于以过载为输入的三自由度质点模型更加贴近空战实际,得到的结果更具有参考价值。本发明采用了具有连续决策输出的双延时确定策略梯度算法,相较于以DQN算法为代表的离散决策输出算法,无需将控制指令离散化为几个机动动作,拓宽了决策指令的可选择范围,更具有实际应用价值。

主权项:1.一种六自由度环境下基于双延时确定策略梯度的空战决策方法,其特征在于,该方法包括如下步骤:步骤S1、建立UCAV(UnmannedCombatAirVehicle)非线性六自由度模型,在MATLABSIMULINK中构建六自由度模型并利用PID方法设计控制器;步骤S2、构建仿真空战环境,其中,敌我两架UCAV性能相同,采用了基于攻击区假定的胜负判定方法,敌机决策采用纯追踪法;步骤S3、实现基于双延时确定策略梯度算法的空战决策训练框架,将空战决策问题建模为马尔可夫决策过程,设计状态空间、动作空间及奖励函数;步骤S4、随机初始化空战态势并通过不断训练得到空战决策训练框架中用于决策的策略网络;步骤S5、利用得到的策略网络在仿真环境中进行空战,我机使用策略网络输出的指令,敌机使用纯追踪法产生的指令。

全文数据:

权利要求:

百度查询: 北京航空航天大学 六自由度环境下基于双延时确定策略梯度的空战决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。