首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种拦截随机机动目标航天器的深度强化学习制导律 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工业大学

摘要:本发明提供一种拦截随机机动目标航天器的深度强化学习制导律。本发明设计了在目标可以进行随机机动规避拦截的场景下,一对一的深度强化学习训练环境,并设计相关奖惩训练机制,探究在随机性环境中在拦截卫星决策上的可行性与应用效果。用来拦截传统方法难以解决的目标卫星随机机动的任务。

主权项:1.一种拦截随机机动目标航天器的深度强化学习制导律,其特征在于,所述深度强化学习制导律包括以下步骤:步骤1:建立追击卫星的拦截模型及约束设计;步骤2:对拦截模型的模块进行初始化;步骤3:追击卫星根据神经网络拟合选取多组动作,其中动作包括带探索的动作;步骤4:目标卫星根据二者预计最短距离判断是否需要机动,若需要,则追击卫星在目标卫星进行自主决策变轨后再进行步骤5;若不需要,则进行步骤5;步骤5:追击卫星与目标卫星两者在运行了前者的动作中采取的一定间隔时间后,进入强化学习的下一个状态;步骤6:利用步骤5的运行状态更新经验池,并判断经验池是否已满,若经验池未满,则进行步骤11;若经验池已满,则进行步骤7;步骤7:神经网络进行拟合更新学习,同时判断步骤5在轨运行状态的训练效果是否可以进行评估,若能进行评估则将步骤3追击卫星根据神经网络拟合选取多组带探索的动作中的一组变为追击卫星都采取网络拟合的最优动作,若不能进行评估则进行步骤8;步骤8:当前幕数的奖励值累计并进行步骤9;步骤9:判断当前幕数的拦截过程是否结束,若已结束,则进行步骤10;若未结束则返回步骤3;步骤10:判断是否达到设定幕数,若达到,则进行步骤11;若未达到,则返回步骤2;步骤11:结束;步骤12:重复步骤2-11的5个训练总幕数,将步骤3追击卫星根据神经网络拟合选取的多组带探索的动作中的每一组均变为追击卫星都采取网络拟合的最优动作;步骤13:基于选取的最优动作,输出评估效果与绘图;所述步骤1的约束设计具体为,运行70000个训练幕数,设置训练期间探索率ε-greedy=0.03,避免达到局部最优的局限问题;训练效果评估:每隔5000幕数进行训练效果评估,在评估中取消探索,只取最优决策;训练频率等其他设计:神经网络学习训练频率5幕、经验池预存数据200组、批数据学习量32组,强化学习学习率0.005与衰减因子0.85;所述步骤1具体为,步骤1.1:追击卫星在原轨道O1上,在初始任务t0时间的位置P1接到追击指令,采用喷气脉冲变轨,从初始轨道O1进入第一次变轨后的轨道Otran1;步骤1.2:追击卫星继续选择变轨动作,从第一次变轨时刻的轨道Otran1进入下一状态的轨道Otran2;判断追击卫星是否进入目标的察觉范围,若进入目标的察觉范围,则进入步骤1.3;若未进入目标的察觉范围,则继续选择变轨动作,进而判断追击卫星是否进入目标的察觉范围;步骤1.3:目标卫星在原轨道O2上进行随机变轨机动规避拦截;步骤1.4:目标变轨后,对追击卫星针进行变轨脉冲策略的调整,即脉冲此时设为Δvtran1,则速度由v-tran1变为v+tran1,从目标变轨开始时刻的轨道Otran2进入下一状态的轨道Otran3,持续变轨过程,直至追击卫星进入轨道Otrani达到在已有约束下的拦截失败或拦截成功条件;步骤1.5:重复步骤1.2-步骤1.4直至认定追击卫星与目标卫星相对距离达到10km为拦截成功,到达10km距离后,认为拦截卫星可以通过各种手段进行对目标的锁定与攻击;所述步骤2拦截模型的模块具体为包括算法模块、智能体模块和神经网络模块;所述算法模块,包含神经网络的损失函数计算,网络参数的梯度更新算法,智能体的两种动作决策算法,以及神经网络深度复制功能;所述智能体模块,智能体模块与环境模块交互的学习训练功能,架构中的智能体还拥有两个动作选取决策:第一个决策是在训练过程中施加随机探索率ε-greedy,以ε-greedy的约束大小30%的概率去选择在已有情况下可以获得最优奖励值之外的未知动作,来避免智能体策略训练的局部最优,能更加高效寻找全局最优解;第二个决策是用来评估学习训练效果,并不参与训练,在每隔5000个幕数后的评估过程中调用;同时智能体模块中搭建了计算图,加入了适配实验室服务器linux系统的gpu训练架构;最后模块配置了与环境模块及算法模块之间数据输入输出的端口,直接从python类中进行功能调用;所述神经网络模块,参数拟合与复制、动作空间价值列表的输出及对智能体动作输出决策的嵌入调用。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 一种拦截随机机动目标航天器的深度强化学习制导律

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术