首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种弱模型依赖的高超声速变形飞行器智能控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:大连理工大学

摘要:本发明属于航空航天飞行器控制领域,涉及一种弱模型依赖的高超声速变形飞行器智能控制方法。本发明首先建立面向控制的高超声速变形飞行器动力学模型,用于智能控制的准备工作。之后,设计弱模型依赖的积分强化学习算法,构建智能控制的基本框架,降低对变形飞行器的模型依赖程度。进一步,设计面向策略梯度的自适应学习律,通过策略梯度更新控制律中的关键部分,结合数据堆栈的更新思想,减轻在线更新的数据压力,提升控制系统的更新速度。该方法是一种降低控制方法对模型的依赖程度的智能控制方法,且具有广阔的应用前景。

主权项:1.一种弱模型依赖的高超声速变形飞行器智能控制方法,其特征在于,包括如下步骤:(1)建立面向控制的高超声速变形飞行器动力学模型为适应不同工况的任务需求,将变后掠飞行器的纵向模型表述为如下形式: 1式中:V是速度的导数,是速度的导数,h是高度,是高度的导数,α是攻角,是攻角的导数,θ是俯仰角,是俯仰角的导数,q是俯仰角速率,是俯仰角速率的导数,Iyy是俯仰转动惯量,m是飞行器质量;T为发动机推力,D为飞行阻力,L为飞行器升力,M是俯仰力矩,且表示为: 2式中:为推力系数,为燃油当量比,为升降舵指令;ρ为空气密度,为机翼参考面积,为平均几何弦长,表示升力系数,表示阻力系数,表示俯仰力矩系数; 为翼展变形率,取值范围为,为后掠角变形率,取值范围为,分别定义如下: 3式中:b为翼展;bmin和bmax分别为飞行器无变形时的翼展以及最大形变时的翼展;s为后掠角;smin和smax分别为飞行器无形变时的后掠角以及最大形变时的后掠角;升力系数CL,阻力系数CD,俯仰力矩系数CM函数关系定义如下: 4式中:为攻角为0时升力与形变量的系数关系,为升力与攻角的系数关系,为升力与降舵指令的系数关系;为攻角为0时升力与形变量的系数关系,为升力与攻角的系数关系,为升力与攻角平方项的系数关系;为攻角为0时俯仰力矩与形变量的系数关系,为俯仰力矩与攻角的系数关系,为升力与降舵指令的系数关系;(2)设计弱模型依赖的积分强化学习算法将翼展变形率和后掠角变形率视为额外的控制输入,得到如下的系统模型: 5式中:为状态向量,是状态向量的导数;为控制输入向量;描述了状态向量的一阶导数与状态、输入构成的函数关系,为输出向量;公式5的系统模型为非仿射系统,因此设计基于演员评论家网络的高超声速变形飞行器积分强化学习策略,具体如下:首先给出Q函数的表达式: 6其中,表示与状态量xt和控制输入量ut相关的函数,是评论家网络的权值向量,表示Lc维的向量组,分别表示是权值向量的Lc个子向量,是评论家网络的基向量,分别表示是评论家基函数的Lc个子向量;对于策略函数存在一个权值向量组,使得 7其中,表示在策略函数下产生的控制量,是演员网络的权值矩阵,表示La行4列的矩阵,分别表示演员网络权值向量的La个子向量;是演员网络的基向量,表示La行1列的向量,分别表示是演员网络基向量的La个子向量;定义评论家网络逼近误差为,定义演员网络逼近误差为,这两个误差随着向量矩阵包含的信息量的增加而趋近于0;然后,定义最优动作-价值函数和最优动作值;由于理想的权重是未知的,相应的和也难以计算得到;因此,采用评论家网络和演员网络进行逼近,表示为如下形式: 8其中,表示与状态量x和控制量u相关的动作-价值函数估计值,表示与状态量x相关的动作估计值,和分别是评论家网络权重Wc和演员网络权重Wa的估计值;基于演员-评论家结构,对公式(8)中的策略迭代积分强化学习的控制量u进行优化整定;(3)设计面向策略梯度的自适应学习律基于策略梯度的积分强化学习算法可以通过演员和评论家网络中的函数逼近的强化学习算法实现;将策略评估表示为 9式中:Ts表示每次迭代的时间间隔;和表示上一时刻的状态量和控制量,表示上一时刻的基函数,表示Ts时间间隔内的评论家网络策略评估效果;表示连续可微且正定的实值函数;可采用递推最小二乘法或批量最小二乘法更新公式(8)中的动作-价值函数的参数;基于策略迭代的思想,采用梯度下降法对演员网络参数进行更新: 10式中,σ为待设计的正参数,表示当前第i时刻的演员神经网络估计值,表示当前时刻的评论家神经网络权重,是演员网络的基向量,表示当前第i时刻的演员神经网络关于控制量u的梯度信息;迭代的时间间隔Ts的值根据从观测中接收有意义的信息需要多长时间来改变;为此,定义演员网络数据三维存储栈,其具有La行、4列、以及最大页数;定义评论家数据二维堆栈,其具有行、以及最大列数;其中,对于当前序列,具有和;设计基于数据堆栈的两步更新策略: 11式中:将第列的最新栈定义为和,其中和表示演员网络数据存储栈和评论家数据堆栈的最新数值;表示最小奇异值,其大小可通过奇异值分解方式计算得到;定义当前时刻为,对应的下一时刻为;由于在线数据堆栈的最大维度为,每个维度下的数值大小各不相同;定义为最大数值堆栈对应的时刻,使用最新飞行数据的目标列对进行更新,并满足表示在所取得的值域范围内的最大值;ηa是一个待设计的正常数;对于公式(8)得到的控制量,为方便稳定性证明,定义第i个时刻产生的控制策略,存在实值函数满足连续可微分且正定,因此值函数满足如下关系 12其中,为第i个时刻对应的动力学关系;存在正常数,使得;选取值函数为李雅普诺夫函数,对其求导可得 13因此,闭环系统的平衡点是渐近稳定的,即控制策略是可行的。

全文数据:

权利要求:

百度查询: 大连理工大学 一种弱模型依赖的高超声速变形飞行器智能控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。