首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于协同训练模型改进IQL的多智能体协同控制方法 

申请/专利权人:山东工商学院

申请日:2024-04-26

公开(公告)日:2024-06-25

公开(公告)号:CN118092195B

主分类号:G05B13/04

分类号:G05B13/04

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2024.06.14#实质审查的生效;2024.05.28#公开

摘要:本发明属于多智能体协同控制技术领域,具体涉及基于协同训练模型改进IQL的多智能体协同控制方法,步骤包括:S1、对传统生成式对抗网络GAN进行改进,建立跨域生成对抗网络CoGAN;S2、构建鱼鳞预测算法,并鱼鳞预测算法将引入CoGAN中;S3、基于鱼鳞预测算法和CoGAN,建立非线性协同系统,完成对深度协同对抗训练模型DCATM的构建,即为完成对IQL的改进,获得基于改进IQL的多智能体协同控制方法。本发明通过改进传统GAN、引入鱼鳞预测算法以及建立非线性协同系统等手段,有效提升了协同训练效果,使得多智能体的协同得到了准确的训练和优化,从而在多个应用领域中都能取得显著的性能提升和实际效益。

主权项:1.基于协同训练模型改进IQL的多智能体协同控制方法,其特征在于包括以下步骤:S1、对传统生成式对抗网络GAN进行改进,建立跨域生成对抗网络CoGAN,步骤包括:S11、构建各个智能体的动态过程,其中包括两个智能体之间的相互作用;S12、对于两个智能体之间的相互作用进行优化;S13、获取各个智能体在训练过程中的对抗损失函数;S14、建立关于反向平衡器的虚拟控制系统;S2、构建鱼鳞预测算法,并鱼鳞预测算法将引入CoGAN中;S3、基于鱼鳞预测算法和CoGAN,建立非线性协同系统,完成对深度协同对抗训练模型DCATM的构建,即为完成对IQL的改进,获得基于改进IQL的多智能体协同控制方法;所述的S11中,构建各个智能体的动态过程的步骤为:S111、应用场景下的智能体数量设定为N,智能体集合agent表示为;第i个智能体对应的状态变量为,;每个智能体对应一个生成器网络,用于生成该智能体在当前状态下采取的动作策略,将每个智能体的智能体状态作为输入,并生成每个智能体的动作策略,其中,的参数表示为,则;S112、第i个智能体的动态过程表示为: (1);式中,是第i个智能体的状态增长率,用于反映智能体在多智能体协同控制中的动态行为;为智能体j对i的作用系数,即为两个智能体之间的相互作用,且j≠i;和分别为第i个智能体的环境容量、自我抑制系数和外部影响系数;t为时间;所述的S12中,对两个智能体之间的相互作用,即为对进行优化的方法为:对于第i个智能体,其余N-1个智能体对第i个智能体的综合影响表示为,外部环境对第i个智能体的影响表示为,此时的表示为: (2);式中,表示外部因素对第i个智能体的作用系数;所述的S13中,获取各个智能体在训练过程中的对抗损失函数的步骤为:S131、设定判别器网络为,通过评估生成的动作策略的质量;接收的真实动作记为,输出的动作策略即为;将和均作为的输入,的参数用表示,则: (3);式中,为的判别输出;为中的真实动作判别输出;为中的生成动作判别输出;用于调节和;以及不断调节和;S132、第i个智能体在训练过程中的对抗损失函数表示为: (4);式中,为真实动作个数;为噪声分布个数;和分别为和的期望;是关于以及的判别;是关于的判别;所述的S14中,建立关于反向平衡器的虚拟控制系统的过程为:S141、将的虚拟控制器设定为;是智能体在环境容量下,输出动作和真实动作的反向平衡器,是在中引入的生成器网络参数,用于形成虚拟控制器;S142、关于反向平衡器的虚拟控制系统表示为: (5);式中,为第i个智能体的反向平衡器;=,即同样表示智能体在环境容量下,输出动作和真实动作的反向平衡器;S143、公式(5)使得: (6); (7);式中,和是第i个智能体的初始判别器网络和初始输出动作;是动作策略为时的初始判别器网络;是关于渐近增长率的上限;S144、由于是的输入,因此: (8); (9);式中,即为哈密顿算子;S145、将公式(8)和公式(9)带入公式(6),得到: (10);S146、由于,因此的变化会影响,的变化会导致发生变化,此时的会加强对来自中真实动作的判定,因此,在每一轮判定中都会增加,由此得到: (11);式中,为在新一轮迭代中的表达式;S147、的增加会导致产生更多的,同时也将增加,受到来自其余智能体的影响,设定虚拟控制系统的临界变化率为,则;当时,虚拟控制系统处于过拟合状态,出现不收敛现象;当时,虚拟控制系统处于欠拟合状态;当时,虚拟控制系统处于稳定状态;其中,为变化的时间间隔;为在内的变化量;S148、对公式(5)进行移项,得到;通过对的变化进行控制,得到: (12);式中,为在新一轮迭代中的表达式;为在新一轮迭代中的表达式;为在新一轮迭代中的表达式;通过公式(12),利用调节了的平衡,完成对于GAN的改进,获得CoGAN;所述的S2中,构建鱼鳞预测算法的步骤为:S21、鱼鳞预测算法中,鱼鳞个数为N,即为与智能体的数量相同,每个鱼鳞对应一个智能体,每个鱼鳞的维度为D,所有鱼鳞的初始数据集合表示为:,每个鱼鳞的初始数据都是n个数据的融合,即为D=n;S22、每个鱼鳞关于调控对象的期望范围为,其中p1为期望范围的最低标准;p2为期望范围的最高标准;S23、定义鱼鳞预测算法的参数差异为,且;为稳态参数,用于调节中的的稳定性,的大小在一个长度为的领域范围内,即;因此,当时,参数异常;S24、通过鱼鳞差异矩阵来表示每个参数差异的状态: (13);关于的结构矩阵表示为: (14);S25、设定为扰动因子,建立扰动平衡方程: (15);式中,表示鱼鳞预测算法的抗干扰输出;为鱼鳞预测算法的稳态输入参数;为鱼鳞预测算法的控制输入参数;为鱼鳞预测算法当前的输入;S26、迭代后的鱼鳞参数表示为:;代表每次迭代的学习率;第k个鱼鳞的参数适应度函数表示为; (16); (17); (18); (19);式中,为第k−1个鱼鳞的参数适应度函数;为第k个鱼鳞的分配权重;为第k个鱼鳞对应参数的稳定误差;和表示和对迭代更新的影响函数;为迭代优化后的鱼鳞参数;公式(17)表示隶属于;公式(18)和公式(19)为约束条件;公式(18)表示满足的领域范围之内;代表鱼鳞参数的迭代范围;代表迭代后所组成的参数向量;所述的S3中,建立非线性协同系统,完成对深度协同对抗训练模型DCATM的构建的步骤为:S31、关于和的非线性协同系统表示为: (20);式中,和分别作为的主系统和子系统,并将和设置为随时间的变量;和是关于的参数适应度函数;是关于的参数适应度函数;是第i个智能体在影响下的状态增长率;是环境发生动态变化后外部因素对智能体的作用系数;是第i个智能体的平衡参数;S32、关于主系统的限定定理为,令,;和为智能体拥有l个状态变量的扰动集合;若每个状态变量始终小于,则存在非负参数适应度函数和,在公式(20)的基础上,使得公式(21)成立: (21);式中,和作为的稳态输入参数;作为的稳态输入参数;表示;S33、在中,假设每个智能体都提供一个关于和的状态置信系数;通过生成关于和的抵消参数,以抵抗来自和变化所引起的非正常主系统;和的最低期望标准为;S34、为便于表示,令;当和发生过度变化时,会导致发生过度变化,使得;为达到扰动平衡的目的,根据主系统的限定定理,关于的扰动平衡方程表示为: (22);式中,为每一次发生动态变化后的抗干扰输出;S35、和的过度变化会导致M中的增加,使的对抗性增加,则会发生以下变化: (23);式中,是动态变化之后的;和分别为动态变化前、动态变化后关于的变化量;S36、通过S31-S35可知,当虚拟控制系统发生变化时,通过限定定理不断缩放以满足平衡条件,而当过度变化发生时,公式(22)的扰动平衡方程又会根据公式(23)产生反向逆变,即,通过正向和逆向对来自和的变化进行抵抗;S37、满足: (24); (25);式中,和为动态变化后的;代表不同的状态;S38、通过公式(24)和公式(25)可得,每一次在环境容量的影响下均大于的上限;若,或者,则,即,直到满足公式(24)和公式(25)为止;S39、对价值函数进行扩展: (26); (27); (28);式中,是关于行动为和的价值函数;是在的影响下的;l的数值在智能体协同控制过程中不断更新;和的影响下的不断扩展到中,对和进行预测和抵抗。

全文数据:

权利要求:

百度查询: 山东工商学院 基于协同训练模型改进IQL的多智能体协同控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。