首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

具有时变状态约束的多智能体有限时间事件触发控制方法 

申请/专利权人:重庆大学

申请日:2022-02-24

公开(公告)日:2024-06-07

公开(公告)号:CN114547980B

主分类号:G06F30/27

分类号:G06F30/27;G06F111/04

优先权:

专利状态码:有效-授权

法律状态:2024.06.07#授权;2022.06.14#实质审查的生效;2022.05.27#公开

摘要:本发明涉及一种具有时变状态约束的多智能体有限时间事件触发控制方法,属于计算机领域。本发明针对存在时变非对称状态约束且部分模型未知的异构一阶非线性多智能体系统,为实现系统的状态一致性控制,采用非线性映射函数将受时变约束的状态转化为不受约束的状态,并针对该不受限制的系统设计了有限时间事件触发的控制算法。该算法不仅可以减少的通信资源的浪费,整个算法的可行性通过李雅普诺夫稳定性理论进行了证明。另外为了求得基于事件触发机制下的有限时间最优控制策略引入了强化学习算法,并结合Critic神经网络实现对未知值函数的逼近,再通过在线策略迭代求解出最优的控制策略。

主权项:1.具有时变状态约束的多智能体有限时间事件触发控制方法,其特征在于:该方法包括以下步骤:S1:建立问题;考虑如下由n个智能体组成的无领导者的非线性多智能体系统,其中每个智能体的模型表示为: 其中为状态向量,为控制输入,设跟随者模型中的为未知光滑的非线性函数;局部邻居误差定义为: 定义平均状态为跟踪误差定义为:yit=xit-x0t1-3为便于描述,将yit,xit,x0t,eit分别写为yi,xi,x0,ei,同时令xt=[x1,x2,...,xn]T,et=[e1,e2,...,en]T,得: 其中为克罗内克积,In为n阶单位矩阵;状态x1,x2,...,xn且始终满足非对称时变约束,即有: 其中n为跟随者的个数,xit,分别为受限状态的上下限,其值与时间有关,该约束对于任意时间都满足;在t=0时刻要人为的设置一个足够大上界和一个足够小的下界xi0使得满足;设上下限的导数和均存在;假设系统中的Fixit为未知光滑的非线性函数,采用神经网络对未知的函数进行拟合,如下所示: 其中Z和OX分别为神经网络的输入和输出,φ·为基函数,W为权重系数;基函数φ·选取为双曲正切函数,具体形式如下: 将未知函数Fixit用神经网络替换得Fixit=WiTφVTZ+εi1-9其中W为神经网络理想的权重系数,ε为逼近误差,且满足||ε||≤εm,||W||≤Wm,εm,Wm均为未知的正常数,||·||为标准欧几里得范数;S2:状态映射;非线性多智能体系统的状态要始终保持在某个非对称时变约束中,采用非线性映射的方式将受事变约束的状态转换为不受约束的状态,具体过程如下:假设xit满足以下等式,即选取如下的非线性映射函数: 对3-2移项再取反函数得: 其中i=1,2,...,n,si为经过映射后得到的状态,不难看出,当xit趋近于上界时有趋于正无穷,当xit趋近于下界xit时有趋于负无穷,即有: 经过2-2的映射之后,先前受时变非对称约束的状态xit转化为了不受约束的状态si,另外显然tan·在区间上为单调递增的函数,只需要保证变化后的状态si在任意时刻下始终是有界的,那么就存在唯一的一个映射前的状态xit以及一组上下界与之相对应;即将该状态经过非线性映射函数映射后得到不受约束的状态si,对于这个不受约束的状态只需要保证该状态始终有界,就能时映射前后的系统等价,通过该状态来实现原先状态受约束系统的一致性控制;显然si为与xit,xit有关的函数,因此 将3-5写成矩阵形式得 其中Γ=[Γ1,Γ2,...,Γn]T,u=[0,...,0,u]T,Fx=[F1xi,F2xi,...,Fnxi]T;S3:设计分布式有限时间事件触发控制器设控制策略在满足以下条件时会进行触发,控制策略为: 神经网络的自适应率为: 其中p,q均为后续设计的控制增益常数,为理想的神经网络权重系数,表示第i个智能体的第k个采样时刻,且满足上述策略更新的触发条件为: 其中d为正常数;对该控制策略以及触发条件的可行性进行证明,实现选取如下的李雅普诺夫函数: 其中为自定义的正定矩阵,tr·为矩阵的迹;对V0t沿时间t求导,具有时变非对称约束的状态xt可状态非线性映射函数的映射下转换为不受约束的状态st;yt和xt的关系转换为: 则为: 由于无向图的拉普拉斯矩阵的任意一行或任意一列的元素之和等于0,即有为n维的列向量,在3-5式两边同乘得再将代入,并将未知非线性函数Fx用神经网络替换得: 代入神经网络的自适应率,并结合引理二知: 其中将控制增益系数p,q分别设置为将引理三代入上式得: 其中由事件触发条件知,在时间时,总有||zit||2+||rit||2≤d||eit||2满足,即有 其中将其带入到上式中得: 其中在分布式控制策略3-1和神经网络自适应率3-2,以及事件触发条件3-3的作用下,使得系统1-1实现有限时间一致性;S4:Zeno行为的消除在控制器设计时再引入一个动态的可变参数αit,将αit的自适应率设计为: 其中αit>0,βi∈[0,1为折扣因子;神经网络的自适应率改为: 有限时间事件触发条件变为: 其中δi为正常数;接下来对其可行性进行证明: 对不等式两边同时取t∈[τn,τn+1的积分,并结合引理二知: 选取李雅普诺夫函数Vt为: 其中为正定矩阵;对Vt沿时间t求导,将3-11代入得: 将神经网络的自适应率代入上式得: 其中θi=||zit||2+||rit||2-||eit||2;在时,总有成立,且令代入上式并结合1-3得: 其中中的最大值;在触发条件上添加动态系数之和,原来的系统仍然能达到有限时间的一致性;接下来,则对该添加动态系数后的控制策略和触发条件是否使得系统避免Zeno行为的产生;首先假设对于任意一个智能体i,使得成立,其中T*为正常数;由极限定理知,存在一个足够大的正整数N,使得k≥Nω0满足,其中令τ1=t*,并对4-9两边同时取积分得: 当成立时,会有: 上式表明对于任意一个智能体i的控制策略触发时间间隔都能满足其大于0,即触发条件不能在有限时间内被无限次数的触发,避免了Zeno行为的产生;S5:利用强化学习算法求解最优事件触发控制器对于系统中的任一智能体,针对映射后不受非对称时变约束的状态st,该智能体的动力学模型表示为: 定义该智能体在控制策略uit作用下的成本函数为: 其中0<γi<1为折扣因子;另外引入指数项的作用是为保证最终一定能够达到收敛,如果没有这一负指数项,成本函数在t趋于无穷大时会发散; 其中为可调整的正参数,Q,R均为正定矩阵;设Vi*si为最优的成本函数,数学定义为: 其中表示定义在上Ωi所有可容许策略的集合;要想得到最小的成本函数,则让哈密顿方程求得的最小值等于0,即有: 其中将代入得HJB方程为: 定义最优控制策略为在稳定性条件下有对上述HJB方程两边同时对ui求导并移项得最优策略 再将最优控制策略带回到哈密顿方程中得: 其中为得到事件触发条件下的最优控制器,将HJB方程改为ETHJB方程;假设只在事件触发的瞬间时刻对信号进行采样,既有其中为si在时刻的采样值;定义采样此时的误差为ei,k 另外,控制策略在事件触发条件满足时,立即更新,在触发条件不满足时始终和上一时刻触发时的控制策略保持一致,使用零阶保持器来实现;假设在触发时刻下的控制策略更新为则在整个区间范围内,控制策略保持为假设该控制策略通过零阶保持器的输出策略为且满足: 在控制策略取得最优时,有: 将零阶保持器输出的最优控制策略代入到5-7得ETHJB方程为: 为便于后续对ETHJB方程的求解,最优控制策略是始终满足Lipschitz条件的,既有:其中为正常数;对未知的值函数进行逼近,求得最优控制策略;令: 其中为Critic神经网络的权重系数,为神经网络的基函数,为逼近误差;同理得 并假设理想的神经网络权重系数为即当取时,逼近误差再将其带入到中得: 将其带入到哈密尔顿方程中,并由于,则取二者的差值得: 其中为使得所求得的最优控制策略更加精确,充分对历史信息进行利用,通过引入一项历史误差项来实现;设在第k0不步之前的累计误差为历史状态其中表示前d个状态下,第i的智能体在第k步时所产生的累计误差;则定义总体误差Ei为,并构造以下目标函数,通过使得εθt最小化来调整critic神经网络的权重系数: 更新事件触发的条件为: 其中||Ei,T||2为事件触发条件的下限,λminQi为Qi矩阵的最小特征值,θi∈0,+∞均为可调节的参数;取Critic神经网络权重系数的自适应为: 其中为可调整的正参数,接下来基于5-8、5-15和5-19式,利用critic神经网络实现对值函数和策略函数的同步更新,设计基于策略迭代的在线强化学习算法来求解ETHJB方程,以求解最优事件触发控制输入。

全文数据:

权利要求:

百度查询: 重庆大学 具有时变状态约束的多智能体有限时间事件触发控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术