首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

变展长飞行器在气动不确定性下的智能变形决策方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学宁波研究院

摘要:本发明涉及变展长飞行器在气动不确定性下的智能变形决策方法,采用主动考虑实际飞行过程中存在的气动不确定性,采用一阶马尔科夫决策对气动参数不确定性进行描述,并基于卡尔曼滤波算法对气动参数摄动进行估计和矫正,然后采用深度确定性策略梯度算法对变展长飞行器进行训练,使得变展长飞行器在面对复杂飞行环境时无需人为干预或离线数据库就能做出相应的变形决策,使变展长飞行器滑翔阶段在气动不确定性的情况下实现飞行性能的提升。

主权项:1.一种变展长飞行器在气动不确定性下的智能变形决策方法,其特征在于,包括:步骤1.基于多刚体动力学建模方法和牛顿欧拉法,建立两侧机翼对称且连续伸缩的变展长飞行器的三自由度运行模型;步骤2.基于变展长飞行器的三自由度运行模块,采用一阶马尔科夫决策对气动参数不确定性进行描述,得到扩维后的系统方程;接着根据加速度采集的视加速度构建量测方程,并设计基于扩展卡尔曼滤波的气动参数在线矫正方法,得到气动参数摄动估计值和升阻比的估计值;步骤3.以最大化升阻比为变形决策性能指标,搭建变展长飞行器滑翔阶段的强化学习模型,采用深度确定性策略梯度算法对训练强化学习模型,得到变展长飞行器在滑翔阶段的变形策略;步骤4.利用MATLAB验证变展长智能体在气动参数不确定性情况下变形策略的有效性;所述步骤1建立的变展长飞行器的三自由度运行模型表达式为: ;式中,依次表示为变展长飞行器的飞行速度、航迹倾角和航迹偏角;依次表示升力、阻力和侧力;表示为重力加速度在半速度坐标系下的投影;表示为变形附加力在半速度坐标系下的投影;其中,关于升力、阻力和侧力的计算公式为: ;式中,表示动压,表示变展长飞行器在机翼未变形时的参考面积;表示为升力、阻力和侧力的等效气动力系数,其计算公式为: ;上式中,分别表示在x、y、z通道中的舵偏角;表示参考面积变化视作变形率的函数,变形率定位为机翼移展的归一化参数,,表示为机翼翼展,表示为翼展的最小值,表示为翼展的最大值;分别表示马赫数、攻角、侧滑角;关于重力加速度的计算公式为: ;式中,表示为地球引力常数;表示为地球半径;表示为飞行器到地心的矢径;关于变形附件力在体坐标系下的计算公式为: ;式中,表示为飞行器三轴旋转角速度;表示为变形机翼质心相对于机身质心的矢径;所述步骤2中基于变展长飞行器的三自由度运行模块,采用一阶马尔科夫决策对气动参数不确定性进行描述,得到扩维后的系统方程表示为: ;式中,分别表示阻力系数的摄动、升力系数的摄动;为系统状态噪声;所述步骤2中加速度采集的视加速度构建量测方程表示为: ;式中,为加速度计量测噪声;所述步骤2中设计基于扩展卡尔曼滤波的气动参数在线矫正方法包括:首先,构建扩展卡尔曼滤波的系统方程和量测方程: ;式中,系统状态,量测状态;其次,基于扩展卡尔曼滤波的系统方程进行状态估计: ;式中,为状态转移矩阵,其中为系统方程的雅可比矩阵;为系统噪声矩阵;表示第步状态估计,表示积分,表示采样时刻;表示状态向量的协方差阵;接着,更新第步的状态估计: ;式中,表示为量测方程的雅可比矩阵,表示为量测噪声矩阵;然后,根据扩展卡尔曼滤波算法的状态估计结果,计算得到升阻比的估计值: ;式中,分别表示为扩展卡尔曼滤波算法估算得到的阻力系数的摄动估计值和升力系数的摄动估计值;所述步骤3以最大化升阻比为变形决策性能指标的表达式为: ;式中,,表示为折扣因子;表示为升阻比与飞行器能达到的升阻比极大值的误差;为设定的奖励函数;所述步骤3中搭建变展长飞行器滑翔阶段的强化学习模型,具体包括:首先,设定动作空间、观测空间观测空间和奖励函数;其中:动作空间为变展长飞行器的期望变形率,动作空间的设计为: ;观测空间设计为: ;式中,;奖励函数的表达式为:;式中,,其中,为预设的奖励函数的第一项和第二项的权重;表示为升阻比的预期效果阈值,表示为升阻比的最低容忍阈值;其次,所述强化学习模型包括评价网络、动作网络、目标评价网络和目标动作网络,所述评价网络为以观测空间和动作空间作为输入、以动作价值函数作为输出的深度神经网络,动作网络为使用一个具有观察输入和一个动作输出的深度神经网络;所述步骤3中采用深度确定性策略梯度算法对训练强化学习模型具体包括:步骤301.随机初始化评价网络和动作网络的权重和;初始化目标评价网络和目标动作网络,并进行权重传递,;初始化经验回放池;步骤302.初始化动作探索的一个随机进程,获得初始观测状态;步骤303.根据目前的策略和探索噪声生成动作,;表示探索噪声;表示目前的策略;执行动作,获得下一个观测状态和奖励;收集初始观测状态、动作、奖励以及下一个观测状态存入经验回放池;从经验回放池随机抽取小样本数据,表示当前迭代训练轮次;计算Q值:;通过最小化损失函数来更新评价网络: ;使用策略梯度来更新动作网络: ;更新目标评价网络和目标动作网络: ; ;步骤304、,判断是否满足,表示单次训练的仿真时长,若是,则返回步骤303,若否,则计算平均回报,绘制平均回报曲线,根据平均回报判断是否达到变形决策性能指标,若是,则进入步骤4,若否,则,判断是否满足,M表示预设的迭代训练轮次总数。

全文数据:

权利要求:

百度查询: 西北工业大学宁波研究院 变展长飞行器在气动不确定性下的智能变形决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。