买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州电子科技大学
摘要:本发明公开了一种基于OC‑CDRL的三变跳频图案智能决策方法。本发明通过状态‑动作‑奖励三元组构造将“三变”跳频图案决策问题建模为马尔可夫决策过程。设计的跳频频率根据伪随机序列选择的小频段范围内连续变化,跳频速率和瞬时带宽离散取值。本发明将TD3和D3QN算法相结合,分别设计了相应的状态、动作和奖励,用于处理连续和离散的动作空间。在OC‑CDRL的D3QN模块中,提出了一种OES策略进行动作选择,提高探索程度。此外,通过对经验回放缓冲区之外的状态‑动作对进行保守估计来改进损失函数,减少过高估计,提高算法的稳定性和收敛性。本发明方法产生的三变跳频图案有效地避开了大部分干扰较大的区域,并展现出更好的适应性和抗干扰能力。
主权项:1.一种基于OC-CDRL的三变跳频图案智能决策方法,其特征在于,步骤如下:步骤1、根据感知到的频谱状态,估计干扰的主要参数;所述感知到的频谱状态包括预测时间段[0,Δ]和频段[Flower,Fupper]内的频谱状态;步骤2、初始化伪随机序列C、跳频速率的离散集合V和瞬时信道带宽的离散集合B;步骤3、在TD3模块中,初始化critic网络、目标critic网络、actor网络和目标actor网络,设置critic网络和actor网络的学习率分别为αω和αθ、经验池容量R1、采样样本数量M1、actor网络更新周期Tactor、随机噪声的噪声方差σ,最小噪声方差σmin,“软更新”系数ρ;步骤4、在D3QN模块中,初始化并行Q网络、并行目标Q网络,设置学习率经验池容量R2,采样样本数量M2、目标Q网络更新周期T2、并行Q网络的数量为K、OES调谐参数α、权衡因子β;步骤5、初始化奖励折扣因子γ,奖励函数阈值δ,算法训练回合数n←0,算法总训练回合数N;步骤6、初始化跳数h←0,随机初始化状态步骤7、对于当前状态对TD3模块的actor网络输入状态得到输出动作并根据根据动作选择策略选择动作将动作离散化为状态和组合得到状态步骤8、对于当前状态根据OES选择动作执行和得到下一个状态分别计算奖励和步骤9、将经验存储进经验回放池R1,若回放池已满,新的经验将替换最旧的经验;步骤10、若经验回放池R1中数据足够,则从R1中采样M1组数据并用采用得到的数据更新TD3模块的critic网络和目标critic网络;每次当critic网络和目标critic网络的更行周期达到actor网络的更新周期Tactor,则同步更新TD3模块的actor网络和目标actor网络;步骤11、对于当前状态对TD3模块的actor网络输入状态得到输出动作根据动作选择策略选择动作将动作离散化为状态和组合得到状态将经验存储进回放池R2,若回放池已满,则新的经验将替换最旧的经验;步骤12、若R2中数据足够,分别从R2中采样M2组数据计算损失函数,更新D3QN模块中每个Q网络,并且每隔T2步更新所有的目标Q网络;步骤13、若状态不是终止状态,则回到步骤8;若状态是终止状态,且算法训练回合数达到N,则结束算法,否则更新噪声方差σ,算法训练回合数n←n+1,回到步骤5。
全文数据:
权利要求:
百度查询: 杭州电子科技大学 一种基于OC-CDRL的三变跳频图案智能决策方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。