首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习的高超声速变外形飞行器姿态控制方法 

申请/专利权人:中南大学

申请日:2023-09-12

公开(公告)日:2024-06-28

公开(公告)号:CN117289709B

主分类号:G05D1/495

分类号:G05D1/495;G05D1/46;G05D101/15;G05D109/20

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2024.01.12#实质审查的生效;2023.12.26#公开

摘要:本公开实施例中提供了一种基于深度强化学习的高超声速变外形飞行器姿态控制方法,属于控制技术领域,具体包括:步骤1,建立飞行器的三自由度非线性再入姿态控制模型,化简模型并转化为状态空间模型;步骤2,根据状态空间模型设计飞行器的超螺旋控制器;步骤3,定义马尔可夫决策过程,将姿态控制问题转化为深度强化学习模型;步骤4,在传统TD3算法基础上,建立双经验回放池,并分别在执行网络和评价网络中引入LSTM网络架构,对该深度强化学习模型进行离线训练,利用训练好的决策模型进行参数的自适应调整。通过本公开的方案,提高了控制的稳定性、鲁棒性和精准度。

主权项:1.一种基于深度强化学习的高超声速变外形飞行器姿态控制方法,其特征在于,包括:步骤1,建立飞行器的三自由度非线性再入姿态控制模型,化简模型并转化为状态空间模型;步骤2,根据状态空间模型设计飞行器的超螺旋控制器;步骤3,定义马尔可夫决策过程,将姿态控制问题转化为深度强化学习模型;所述步骤3具体包括:步骤3.1,选择预设数量的多数据帧作为当前时刻的状态空间;步骤3.2,将超螺旋控制器中的自适应律调整参数作为动作空间;步骤3.3,设置姿态角跟踪误差连续奖励函数、角速度变化率奖励函数、舵偏角变化率奖励函数、滑模面奖励函数、角速率误差奖励函数、边界稀疏奖励函数和常量奖励函数,并将全部函数联立得到单步奖励函数;所述姿态角跟踪误差连续奖励函数的表达式为re=k1|eα|+k2|eβ|+k3|eσ|;所述角速度变化率奖励函数的表达式为r1=|Δωx|+|Δωy|+|Δωz|;所述舵偏角变化率奖励函数的表达式为r2=|Δδx|+|Δδy|+|Δδz|;所述滑模面奖励函数的表达式为r3=|s1,α|+|s1,β|+|s1,σ|;所述角速率误差奖励函数的表达式为r4=|e2,1|+|e2,2|+|e2,3|;所述边界稀疏奖励函数的表达式为r5=t1r5,α+t2r5,β+t3r5,σ;其中,eα,eβ,eσ表示姿态角的误差,Δωx,Δωy,Δωz表示三轴角速度的变化量,Δδx,Δδy,Δδz表示舵偏角的变化量,s1,α,s1,β,s1,σ表示滑模面的三个分量,e2,1,e2,2,e2,3表示三轴角速度的误差项,r5,α,r5,β,r5,σ均为常数,表示对三个姿态角超出边界的惩罚项,i=1,2,3,xi表示三个姿态角,i_high,i_low表示姿态角的上下边界值;所述单步奖励函数的表达式为R=-re-k1r1-k2r2-k3r3-k4r4-r5+c;步骤4,在传统TD3算法基础上,建立双经验回放池,并分别在执行网络和评价网络中引入LSTM网络架构,对该深度强化学习模型进行离线训练,利用训练好的决策模型进行参数的自适应调整;所述在传统TD3算法基础上,建立双经验回放池并分别在执行网络和评价网络中引入LSTM网络架构,对该深度强化学习模型进行离线训练的步骤,包括:步骤4.1,初始化两个评价网络和执行网络πφ,评价网络的参数θ1,θ2、执行网络的参数φ、目标网络参数;步骤4.2,建立正经验回放池Dpos和负经验回放池Dneg;步骤4.3,预设回合数M,在每个回合中执行以下步骤:步骤4.3.1、预设每个回合中飞行器的最大限定步数T;步骤4.3.2、飞行器根据当前状态和策略选择动作,并添加随机噪声;步骤4.3.3、根据当前执行动作计算下一状态并获得奖励;步骤4.3.4、将步骤4.3.2和步骤4.3.3中的当前状态、策略选择执行动作、奖励及下一状态存储至经验回放池,根据奖励的大小将其存储至正经验回放池或负经验回放池,当奖励大于0时存储至正经验回放池,反之,存储至负经验回放池;步骤4.3.5、为两个经验池设置重要系数δi:从Dpos和Dneg中提取的数量分别为:根据δi得到每个经验回放池的采样概率:Pi=Pi+λδi,步骤4.3.6、通过目标网络参数中的两个目标评价网络计算动作的期望回报,选择其中最小的期望回报,更新评价网络的参数;步骤4.3.7、更新执行网络参数;步骤4.3.8、更新完评价网络的参数和执行网络的参数后,更新目标网络参数;步骤4.3.9、直到步数达到最大限定步数,结束一个回合。

全文数据:

权利要求:

百度查询: 中南大学 基于深度强化学习的高超声速变外形飞行器姿态控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。