首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于强化学习的无人飞行器自主编队智能控制方法_北京航空航天大学;北京控制与电子技术研究所_202210369183.9 

申请/专利权人:北京航空航天大学;北京控制与电子技术研究所

申请日:2022-04-08

公开(公告)日:2024-06-18

公开(公告)号:CN114815882B

主分类号:G05D1/46

分类号:G05D1/46;G05D1/695

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2022.08.16#实质审查的生效;2022.07.29#公开

摘要:本发明公开了一种基于强化学习的无人飞行器自主编队智能控制方法,应用于多无人机系统。本发明方法首先构建多无人飞行器系统模型,确定多无人飞行器协同编队的任务目标;然后基于MADDPG框架构建自主编队协同控制器,布置在每个跟随无人飞行器上;自主编队协同控制器包括基于策略梯度的编队行为者网络和编队目标行为者网络,以及基于值的编队评价者网络和编队目标评价者网络;行为者网络允许单个智能体策略网络的优化过程使用邻居节点的观测信息,训练完成之后每个智能体以分散的方式行动,本发明方法可实现多飞行器智能协同编队,共同完成特定的队形保持、冲突协调以及避免碰撞等协同问题,提高采样效率,适用于大规模的多智能体系统。

主权项:1.一种基于强化学习的无人飞行器自主编队智能控制方法,其特征在于,包括:步骤1,确定多无人飞行器协同编队的任务目标;设多无人飞行器系统包括1个领航者和N个跟随者,在t时刻,领航者的状态向量为x0t,跟随者i的状态向量为xit,i=1,2,…,N,N为正整数;协同编队的任务目标为:使所有跟随者通过自主训练学习与领航者形成期望队形,设fi为跟随者i的期望位置,对于任意有界的初始状态,若跟随者与领航者的队形保持误差满足则表示多无人飞行器实现了期望队形保持;步骤2,构建自主编队协同控制器,布置在每个跟随无人飞行器上;所述自主编队协同控制器采用MADDPG框架,包括四个深度神经网络:基于策略梯度的编队行为者网络和编队目标行为者网络,基于值的编队评价者网络和编队目标评价者网络;无人飞行器i的编队行为者网络的输入是飞行器i的邻域飞行器的位置信息,输出动作是飞行器i的速度;编队行动者网络的目标是最小化达到期望编队队形的累积代价;无人飞行器i的编队评价者网络的输入是飞行器i及其邻域飞行器的编队行为者网络的输出动作,以及飞行器i及其邻域飞行器使用对应动作与环境交互后的位置,编队评价者网络的输出是飞行器i的值函数,用于表示飞行器i及其邻域飞行器的期望编队的误差;无人飞行器i的编队目标行为者网络的结构和输入、输出与编队行为者网络相同,定期利用经验池中的数据更新网络参数,为编队行为者网络提供一个参考目标;无人飞行器i的编队目标评价者网络的结构和输入、输出与编队评价者网络相同,定期利用经验池中的数据更新网络参数,为编队目标评价者网络提供一个参考目标;所述自主编队协同控制器中还包括经验池,用于存储所有飞行器的元组数据,元组表示为X,A,R,X',其中X记录所有飞行器当前位置,A记录所有飞行器通过编队行为者网络得到的速度,R记录所有飞行器执行动作A后从环境中得到的奖励,X′记录所有飞行器通过动作A与环境交互后转换的下一个位置;步骤3,训练各无人飞行器的自主编队协同控制器。

全文数据:

权利要求:

百度查询: 北京航空航天大学;北京控制与电子技术研究所 一种基于强化学习的无人飞行器自主编队智能控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。