基于协同训练模型改进IQL的多智能体协同控制方法

导航：龙图腾网> 最新专利技术> 基于协同训练模型改进IQL的多智能体协同控制方法

申请/专利权人：山东工商学院

申请日：2024-04-26

公开（公告）日：2024-06-25

公开（公告）号：CN118092195B

主分类号：G05B13/04

分类号：G05B13/04

优先权：

专利状态码：有效-授权

法律状态：2024.06.25#授权;2024.06.14#实质审查的生效;2024.05.28#公开

摘要：本发明属于多智能体协同控制技术领域，具体涉及基于协同训练模型改进IQL的多智能体协同控制方法，步骤包括：S1、对传统生成式对抗网络GAN进行改进，建立跨域生成对抗网络CoGAN；S2、构建鱼鳞预测算法，并鱼鳞预测算法将引入CoGAN中；S3、基于鱼鳞预测算法和CoGAN，建立非线性协同系统，完成对深度协同对抗训练模型DCATM的构建，即为完成对IQL的改进，获得基于改进IQL的多智能体协同控制方法。本发明通过改进传统GAN、引入鱼鳞预测算法以及建立非线性协同系统等手段，有效提升了协同训练效果，使得多智能体的协同得到了准确的训练和优化，从而在多个应用领域中都能取得显著的性能提升和实际效益。

主权项：1.基于协同训练模型改进IQL的多智能体协同控制方法，其特征在于包括以下步骤：S1、对传统生成式对抗网络GAN进行改进，建立跨域生成对抗网络CoGAN，步骤包括：S11、构建各个智能体的动态过程，其中包括两个智能体之间的相互作用；S12、对于两个智能体之间的相互作用进行优化；S13、获取各个智能体在训练过程中的对抗损失函数；S14、建立关于反向平衡器的虚拟控制系统；S2、构建鱼鳞预测算法，并鱼鳞预测算法将引入CoGAN中；S3、基于鱼鳞预测算法和CoGAN，建立非线性协同系统，完成对深度协同对抗训练模型DCATM的构建，即为完成对IQL的改进，获得基于改进IQL的多智能体协同控制方法；所述的S11中，构建各个智能体的动态过程的步骤为：S111、应用场景下的智能体数量设定为N，智能体集合agent表示为；第i个智能体对应的状态变量为，；每个智能体对应一个生成器网络，用于生成该智能体在当前状态下采取的动作策略，将每个智能体的智能体状态作为输入，并生成每个智能体的动作策略，其中，的参数表示为，则；S112、第i个智能体的动态过程表示为：（1）；式中，是第i个智能体的状态增长率，用于反映智能体在多智能体协同控制中的动态行为；为智能体j对i的作用系数，即为两个智能体之间的相互作用，且j≠i；和分别为第i个智能体的环境容量、自我抑制系数和外部影响系数；t为时间；所述的S12中，对两个智能体之间的相互作用，即为对进行优化的方法为：对于第i个智能体，其余N-1个智能体对第i个智能体的综合影响表示为，外部环境对第i个智能体的影响表示为，此时的表示为：（2）；式中，表示外部因素对第i个智能体的作用系数；所述的S13中，获取各个智能体在训练过程中的对抗损失函数的步骤为：S131、设定判别器网络为，通过评估生成的动作策略的质量；接收的真实动作记为，输出的动作策略即为；将和均作为的输入，的参数用表示，则：（3）；式中，为的判别输出；为中的真实动作判别输出；为中的生成动作判别输出；用于调节和；以及不断调节和；S132、第i个智能体在训练过程中的对抗损失函数表示为：（4）；式中，为真实动作个数；为噪声分布个数；和分别为和的期望；是关于以及的判别；是关于的判别；所述的S14中，建立关于反向平衡器的虚拟控制系统的过程为：S141、将的虚拟控制器设定为；是智能体在环境容量下，输出动作和真实动作的反向平衡器，是在中引入的生成器网络参数，用于形成虚拟控制器；S142、关于反向平衡器的虚拟控制系统表示为：（5）；式中，为第i个智能体的反向平衡器；=，即同样表示智能体在环境容量下，输出动作和真实动作的反向平衡器；S143、公式（5）使得：（6）；（7）；式中，和是第i个智能体的初始判别器网络和初始输出动作；是动作策略为时的初始判别器网络；是关于渐近增长率的上限；S144、由于是的输入，因此：（8）；（9）；式中，即为哈密顿算子；S145、将公式（8）和公式（9）带入公式（6），得到：（10）；S146、由于，因此的变化会影响，的变化会导致发生变化，此时的会加强对来自中真实动作的判定，因此，在每一轮判定中都会增加，由此得到：（11）；式中，为在新一轮迭代中的表达式；S147、的增加会导致产生更多的，同时也将增加，受到来自其余智能体的影响，设定虚拟控制系统的临界变化率为，则；当时，虚拟控制系统处于过拟合状态，出现不收敛现象；当时，虚拟控制系统处于欠拟合状态；当时，虚拟控制系统处于稳定状态；其中，为变化的时间间隔；为在内的变化量；S148、对公式（5）进行移项，得到；通过对的变化进行控制，得到：（12）；式中，为在新一轮迭代中的表达式；为在新一轮迭代中的表达式；为在新一轮迭代中的表达式；通过公式（12），利用调节了的平衡，完成对于GAN的改进，获得CoGAN；所述的S2中，构建鱼鳞预测算法的步骤为：S21、鱼鳞预测算法中，鱼鳞个数为N，即为与智能体的数量相同，每个鱼鳞对应一个智能体，每个鱼鳞的维度为D，所有鱼鳞的初始数据集合表示为：，每个鱼鳞的初始数据都是n个数据的融合，即为D=n；S22、每个鱼鳞关于调控对象的期望范围为，其中p1为期望范围的最低标准；p2为期望范围的最高标准；S23、定义鱼鳞预测算法的参数差异为，且；为稳态参数，用于调节中的的稳定性，的大小在一个长度为的领域范围内，即；因此，当时，参数异常；S24、通过鱼鳞差异矩阵来表示每个参数差异的状态：（13）；关于的结构矩阵表示为：（14）；S25、设定为扰动因子，建立扰动平衡方程：（15）；式中，表示鱼鳞预测算法的抗干扰输出；为鱼鳞预测算法的稳态输入参数；为鱼鳞预测算法的控制输入参数；为鱼鳞预测算法当前的输入；S26、迭代后的鱼鳞参数表示为：；代表每次迭代的学习率；第k个鱼鳞的参数适应度函数表示为；（16）；（17）；（18）；（19）；式中，为第k−1个鱼鳞的参数适应度函数；为第k个鱼鳞的分配权重；为第k个鱼鳞对应参数的稳定误差；和表示和对迭代更新的影响函数；为迭代优化后的鱼鳞参数；公式（17）表示隶属于；公式（18）和公式（19）为约束条件；公式（18）表示满足的领域范围之内；代表鱼鳞参数的迭代范围；代表迭代后所组成的参数向量；所述的S3中，建立非线性协同系统，完成对深度协同对抗训练模型DCATM的构建的步骤为：S31、关于和的非线性协同系统表示为：（20）；式中，和分别作为的主系统和子系统，并将和设置为随时间的变量；和是关于的参数适应度函数；是关于的参数适应度函数；是第i个智能体在影响下的状态增长率；是环境发生动态变化后外部因素对智能体的作用系数；是第i个智能体的平衡参数；S32、关于主系统的限定定理为，令，；和为智能体拥有l个状态变量的扰动集合；若每个状态变量始终小于，则存在非负参数适应度函数和，在公式（20）的基础上，使得公式（21）成立：（21）；式中，和作为的稳态输入参数；作为的稳态输入参数；表示；S33、在中，假设每个智能体都提供一个关于和的状态置信系数；通过生成关于和的抵消参数，以抵抗来自和变化所引起的非正常主系统；和的最低期望标准为；S34、为便于表示，令；当和发生过度变化时，会导致发生过度变化，使得；为达到扰动平衡的目的，根据主系统的限定定理，关于的扰动平衡方程表示为：（22）；式中，为每一次发生动态变化后的抗干扰输出；S35、和的过度变化会导致M中的增加，使的对抗性增加，则会发生以下变化：（23）；式中，是动态变化之后的；和分别为动态变化前、动态变化后关于的变化量；S36、通过S31-S35可知，当虚拟控制系统发生变化时，通过限定定理不断缩放以满足平衡条件，而当过度变化发生时，公式（22）的扰动平衡方程又会根据公式（23）产生反向逆变，即，通过正向和逆向对来自和的变化进行抵抗；S37、满足：（24）；（25）；式中，和为动态变化后的；代表不同的状态；S38、通过公式（24）和公式（25）可得，每一次在环境容量的影响下均大于的上限；若，或者，则，即，直到满足公式（24）和公式（25）为止；S39、对价值函数进行扩展：（26）；（27）；（28）；式中，是关于行动为和的价值函数；是在的影响下的；l的数值在智能体协同控制过程中不断更新；和的影响下的不断扩展到中，对和进行预测和抵抗。

全文数据：

权利要求：

百度查询：山东工商学院基于协同训练模型改进IQL的多智能体协同控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种砻谷机风选取粮器

下一篇：一种巡检方便的电容补偿柜

相关技术

一种砻谷机风选取粮器

一种巡检方便的电容补偿柜

一种宽度紧凑型半导体封装结构

一种纸箱印刷机用送料装置

电池的装配结构、圆柱电池、电池模组和电池包

一种新型预制电力排管

一种薄荷醇制取用原料粉碎装置

一种自动开盖的压力烹饪器具

生产混凝土用碎石仓

一种单双缸风冷柴油机发电机组吸排汇流冷却风道

一种砂浆压实装置

一种公共卫生用预防传染病喷雾装置

IQL相关技术

基于协同训练模型改进IQL的多智能体协同控制方法_山东工商学院_202410508860.X

智能相关技术

智能家居控制方法、系统及其智能终端、智能子设备_深圳拓邦股份有限公司_202110826249.8

智能门锁的控制方法及智能门锁_青岛海信智慧生活科技股份有限公司_202211673479.6

立式智能泵_青岛三利泵业有限公司_202211672398.4

智能马桶水箱结构_余姚市美格卫浴工业有限公司_202322642468.8

智能NIC的成组_威睿有限责任公司_202280076727.0

智能文件柜_深圳市蓄腾科技有限公司_202322180533.X

智能电动洗耳器_澳迈迪科技(东莞)有限公司_202322214753.X

智能轨道小车_艾信智慧医疗科技发展(苏州)有限公司_202410219184.4

智能摄像头_重庆晶实佳塑胶模具有限公司_202322194066.6

一种智能蜂箱_西安学超商贸有限公司_202322995359.4

改进相关技术

结构改进的电炊具_慈溪市易商电器有限公司_202322730483.8

改进的抗原结合受体_豪夫迈·罗氏有限公司_201880034376.0

一种改进的输尿管鞘_浙江医高医疗科技有限公司_202111601835.9

铜/锡/铅生产中的改进_梅塔洛比利时公司_202210302097.6

改进的粘性阻尼器_驱动系统有限公司_202322240402.6

对植物中免疫应答的改进_塞恩斯伯里实验室_202280070173.3

一种改进的升降电暖桌_中山市特美新电子商务有限公司_202323314613.6

改进型储能连接器_宁波高松技术有限公司_202410373155.3

一种蒸发式冷风机改进结构_应潇逸_202323050084.3

一种改进型煤矿传输装置_江苏领赫安全设备有限公司_202410507489.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于协同训练模型改进IQL的多智能体协同控制方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务