首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于强化学习与事件触发的离散非线性系统混合容错协调跟踪控制方法 

申请/专利权人:重庆大学

申请日:2024-03-07

公开(公告)日:2024-06-28

公开(公告)号:CN118259588A

主分类号:G05B13/04

分类号:G05B13/04

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本发明涉及基于强化学习与事件触发的离散非线性系统混合容错协调跟踪控制方法,属于控制学习领域。该方法包括以下步骤:S1:问题描述;S2:事件触发函数设计;S3:基于神经网络的评价性能函数设计;S4:自适应分布式控制器设计;本发明设计算法针对执行器饱和以及执行器故障的非线性高阶严反馈多智能体系统,对实际控制系统中的系统部件的物理局限性以及执行器长期使用下产生的精度遗失问题具有很好的自适应控制能力。

主权项:1.基于强化学习与事件触发的离散非线性系统混合容错协调跟踪控制方法,其特征在于:该方法包括以下步骤:S1:问题描述;S2:事件触发函数设计;S3:基于神经网络的评价性能函数设计;S4:自适应分布式控制器设计;所述S1具体为:考虑一类由N个跟随机器人一个领导者机器人构成的多移动机器人系统,每个跟随者机器人的动态模型用以下离散严格反馈非线性系统描述: 其中uik∈R和yik∈R分别表示第i个跟随者控制输入和输出;f·∈Rn为未知的内部状态性能函数;hix,hiv∈R为输入函数并有为正常数,其中fi,x,fi,v未知,hi已知;Rn表示n维实欧式空间,Rn×m表示n×m维实数矩阵集合,dik为未知干扰;多个机器人所构成的通信拓扑中需有一棵有向生成树;每个机器人获取各自邻居节点信息及自身信息,在事件触发的控制作用下,完成对领导者的一致性跟踪任务;定义每个机器人的跟踪误差ei1k=yik-ydk,ydk是领导者的状态,每个跟随者的局部一致跟踪误差zixk定义为: 当第i个跟随者直接收到领导者信息时,ai0>0,否则ai0=0;当每个机器人跟踪上领导者且达到局部一致的时候,即1.3成立: 同时考虑执行器饱和以及故障的混合容错控制问题,对执行器输入进行如下约束: 其中θfi是执行器的输入,对其进行限制,和Ui分别是控制器输入的上界和下界,同时考虑执行器存在以下故障:θfik=Γiθik+bikθFik1.5其中θfi,θFik分别是每个机器人执行器的控制信号和误差信号,其中0<Γi≤1,且bi是误差信号系数,考虑如下四种情况:1当Γi=1,bi=0时,即执行器正常工作,即无故障情况;2当0<Γi1,bi=0时,即执行器存在部分故障问题;3当0<Γi1,bi=1时,即执行器存在偏执故障问题;4当Γi=0,bi=1时,即执行器完全无法正常工作;采用像前一步预测器的方式来设计控制器:根据1.1有:xik+1=fixxik+hixvik:=Ψ1xik,vik1.6向前预测一步则为:xik+2=fixxik+1+hixvik+1:=Ψ1xik,vik,vik+11.71.7写为:xik+2=Fixxik,vik+hixvik+11.8其中Fixxik,vik是一个非线性未知函数,利用神经网络的万能逼近性值,在后续的控制器设计中采用神经网络对其进行逼近;结合前面的分析,得到向前一步预测系统模型,1.1写为: 所述S2具体为:设计带补偿的事件触发策略,定义误差函数:Δθik=θtik-θik=θiks-θik,ks≤k<ks+12.1其中θtik=θiks代表上一触发时刻的控制信号,θik代表当前时刻的控制信号,ks代表触发时刻且ks∈N,则触发机制条件写为: ks+1=inf{k∈Z+||Δθik|≥mi},k1=02.3其中mi>0是待设计的参数,则更新此时的控制器输入,根据触发策略设计,即存在一个时变参数|ηik|≤1使得:θtik=θik+ηikmi,k∈ks,ks+12.4在执行器中设计一个补偿项,实际执行器的输入为: 其中是补偿项,这里设计补偿项为如下形式: 其中vi是待设计的一个正常数,则最终执行器的输入为: 定义补偿项:

全文数据:

权利要求:

百度查询: 重庆大学 基于强化学习与事件触发的离散非线性系统混合容错协调跟踪控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。