买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:天目山实验室;北京航空航天大学
摘要:本发明公开了一种基于多目标强化学习的无人机控制方法,包括模型的构建和仿真环境的搭建、规定无人机控制要求、根据控制要求设计多目标强化学习进行训练以及以多目标强化学习算法Actor网络模型作为控制器部署算法的步骤;通过规定无人机的控制要求为在保证安全以及节省能量的条件下依次达到期望的偏航、高度、速度和滚转,提出多目标强化学习算法自适应的调整各控制目标权重,以满足规定的控制要求。本发明解决了在无人机控制场景中,强化学习奖励函数设计存在的多目标权重确定问题,减少了奖励函数设计对专家知识的依赖,避免了对多目标权重反复尝试的过程,能够快速得到控制器。
主权项:1.一种基于多目标强化学习的无人机控制方法,其特征在于:包括以下步骤:S1、建立无人机模型,并搭建仿真环境:S1-1、定义坐标系;S1-2、模型的构建,包括六自由度固定翼模型的平动动力学模型的构建、六自由度固定翼模型的转动动力学模型的构建、六自由度固定翼模型的平动运动学模型的构建、六自由度固定翼模型的转动运动学模型和发动机建模为一阶延迟模型的构建;S1-3、搭建仿真环境,包括初始化模块、算法动作输出模块、模型解算模块和仿真结束判断模块;S2、规定无人机的控制要求为在保证安全以及节省能量的条件下依次达到期望的偏航、高度、速度和滚转;S3、根据无人机模型和控制要求设计强化学习观测空间,动作空间,偏航、高度、速度、滚转控制目标的奖励函数,能量、安全控制目标的惩罚函数,并规定单局仿真惩罚之和不允许超过的最大限制值;S4、按照步骤S2规定的控制要求设计多目标强化学习算法并进行训练;S4-1、按照步骤S2的控制要求,定义多目标强化学习的优化问题;S4-2、选择多目标强化学习依赖的基础强化学习算法;S4-3、采用拉格朗日松弛技术求解多目标强化学习优化问题的无约束对偶问题;S5、以多目标强化学习算法Actor网络模型作为控制器部署算法。
全文数据:
权利要求:
百度查询: 天目山实验室 北京航空航天大学 一种基于多目标强化学习的无人机控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。