首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于SAC的间歇采样转发干扰方法、装置和计算机设备_中国人民解放军国防科技大学_202410141544.3 

申请/专利权人:中国人民解放军国防科技大学

申请日:2024-01-31

公开(公告)日:2024-05-07

公开(公告)号:CN117991202A

主分类号:G01S7/38

分类号:G01S7/38;G06N3/092;G06N3/045

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.24#实质审查的生效;2024.05.07#公开

摘要:本申请涉及一种基于SAC的间歇采样转发干扰方法、装置和计算机设备。所述方法包括:将干扰机对雷达执行突防任务过程建模为马尔可夫模型;构建SAC模型;从回放缓冲区中采样经验数据,利用经验数据训练SAC模型中的Q网络,目标Q网络生成目标Q值辅助Q网络进行更新,得到训练好的Q网络,根据当前策略网络得到经验数据中同一状态下的新动作;将经验数据中的状态和新动作对应的新状态动作对输入训练好的Q网络,得到对应的Q估计值,优化Q估计值,根据优化后的Q估计值引导策略网络优化,得到训练好的策略网络;根据训练好的策略网络进行干扰决策。采用本方法能够在降低雷达探测性能的同时获得功率高效的干扰策略。

主权项:1.一种基于SAC的间歇采样转发干扰方法,其特征在于,所述方法包括:将干扰机对雷达执行突防任务过程建模为马尔可夫模型;所述马尔可夫模型的每一时间步包括当前状态、动作、状态转移概率和奖励值;所述状态包括当前时刻干扰机与雷达之间的距离;所述动作包括干扰机选择的干扰参数;所述干扰参数包括干扰功率、间歇采样周期和采样脉宽;所述状态转移概率包括雷达在干扰机采取干扰动作后,根据工作性能指标从当前状态转移到下一状态的概率;所述工作性能指标包括干扰是否有效;所述奖励值包括当前时刻合作场景下或非合作场景下对应的奖励函数值;构建SAC模型;所述SAC模型包括Q网络、目标Q网络和策略网络;所述Q网络包括第一Q网络和第二Q网络;目标Q网络包括第一目标Q网络和第二目标Q网络;所述Q网络的输出为第一Q网络和第二Q网络输出的Q估计值中的较小值;在当前策略网络指导下,干扰机在突防任务过程中进行干扰决策,得到干扰机和雷达之间的交互数据,将交互数据作为经验数据放入回放缓冲区;所述经验数据包括当前状态、动作、奖励值以及下一状态;从所述回放缓冲区中采样经验数据,利用经验数据训练Q网络,目标Q网络生成目标Q值辅助Q网络进行更新,得到训练好的Q网络;根据当前策略网络得到所述经验数据中同一状态下的新动作,根据所述经验数据中的状态和所述新动作得到新状态动作对,将新状态动作对输入训练好的Q网络,得到对应的Q估计值,根据所述经验数据中的原始状态动作对对应的干扰是否有效调整所述Q估计值,得到优化后的Q估计值,根据优化后的Q估计值引导所述策略网络优化,得到训练好的策略网络;根据所述训练好的策略网络辅助所述干扰机进行雷达突防任务过程中的干扰决策。

全文数据:

权利要求:

百度查询: 中国人民解放军国防科技大学 基于SAC的间歇采样转发干扰方法、装置和计算机设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。