基于注意力机制的多智能体值函数分解方法及装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：清华大学

摘要：本发明公开了一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置，该方法包括：获取多个智能体决策下的状态轨迹；构建注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络；基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程，对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于注意力机制学习值函数分解的多智能体算法。

主权项：1.一种连续动作控制下基于注意力机制的多智能体值函数分解方法，其特征在于，包括以下步骤：步骤S1：获取多个智能体决策下的状态轨迹；步骤S2：构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络；步骤S3：基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程，对所述Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新；以及步骤S4：根据更新的多个网络生成更新后的策略模型，对策略模型进行测试；其中，所述步骤S3，包括：步骤S31，初始化仿真环境env、所述Attention注意力机制网络Attentionψ、所述各个智能体主值网络Qi、所述各个智能体主策略网络πi、所述QMIX主值网络QMIX、所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′；步骤S32，在当前状态依据策略选取动作并转移到下一状态并得到当前时刻的奖励值rt，根据当前状态ot、当前动作at、当前时刻的奖励值rt和下一状态ot+1组成四元组ot,at,rt,ot+1，并将所述四元组存储进生成数据缓存器Bπ；步骤S33，在所述生成数据缓存器Bπ中的数据量达到预设数据量阈值后，每个时间步取出部分数据对所述Attention注意力机制网络、所述各个智能体主值网络、所述QMIX主值网络进行更新；步骤S34，每隔预设时间利用确定性策略梯度对所述各个智能体主策略网络进行更新，并对所述各个智能体副值网络Q′i、所述各个智能体副策略网络πi′、所述QMIX副值网络QMIX′的参数进行软更新；所述步骤S33，包括：S331，依据各个智能体的策略网络π′i和随机扰动选择下一时刻的动作：其中，为智能体i的副策略网络，代表引入的随机扰动；S332，计算各个智能体的状态-动作值其中，为智能体i的状态-动作值；为智能体i主值网络Qi中的两层全连接网络；为智能体i主值网络Qi中的编码网络；为除智能体i外，其它智能体值函数的加权和；S333，计算各个智能体的目标状态-动作值其中，为智能体i的目标状态-动作值；为智能体i目标主值网络Qi′中的两层全连接网络；为智能体i目标主值网络Qi′中的编码网络；为除智能体i外，其它智能体值函数的加权和；S334，利用QMIX主值网络计算混合状态-动作值其中，为QMIX主值网络的两层全连接网络，并对该网络的权重取绝对值，s为所有智能体的全局观测；S335，利用QMIX副值网络计算目标混合状态-动作值其中，为QMIX副值网络的两层全连接网络，并对该网络的权重取绝对值，s′为所有智能体的下一时刻的全局观测；S336，利用梯度下降法更新所述各个智能体主值网络的参数θi，QMIX主值网络参数Attention注意力机制网络参数ψ：其中，为混合状态-动作值，为目标混合状态-动作值，N为从Bπ中采集到的样本数量；在所述步骤S34中，所述各个智能体主策略网络的更新方式为：其中，k为计算梯度所用的样本编号，为对智能体i所选择的动作ai求梯度，为智能体i的值函数，ai为智能体i所选择的动作，a-i为除智能体i外的其它智能体所选择的动作，为对智能体i的策略网络求导，φi为智能体i的策略网络，oi为智能体i的观测；所述对所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′的参数的更新方式为：φ′i←τφi+1-τφ′i，θ′i←τθi+1-τθ′i，其中，τ是超参数，用于控制从主网络更新副网络参数的程度；所述步骤S332进一步包括：其中，为输入的嵌入向量，V为线性变换矩阵，W1为query矩阵，Wk为key矩阵，这三个矩阵在所有智能体中共享，h为非线性转移函数。

全文数据：

权利要求：

百度查询：清华大学基于注意力机制的多智能体值函数分解方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：恒湿机

下一篇：一种基于固体废物的晶须增强免烧多孔陶瓷及其制备方法

相关技术

恒湿机

一种基于固体废物的晶须增强免烧多孔陶瓷及其制备方法

一种烟叶分拣定级用的翻转分料装置及方法

电池单体、储能设备及用电装置

一种单元幕墙系统内嵌装饰线条的结构体系

一种多能源能量调度系统及调度控制方法

一种可移动式预装变电站

一种惯性传感器探头装置及多自由度检测方法

天然气发动机配气相位控制方法和天然气发动机

一种齿轨车的制动方法、装置、设备及存储介质

一种紫外活化过一硫酸盐联用过程去除水中硫酸羟基氯喹的方法

一种生物质燃料防结焦气化燃烧炉

值相关技术

暗场共焦显微测量宽度定值方法_哈尔滨工业大学_202210031996.7

基于信用值的速率控制方法、装置和设备_新华三技术有限公司_202410833334.0

一种pH值自动检测设备_深圳安贝格测控科技有限公司_202323605536.X

一种基于通道相关性的自适应Bayer图像插值方法_合肥君正科技有限公司_202310226045.X

一种超小型高Q值高斜率衰减带通滤波器_江苏飞特尔通信有限公司_202410203271.0

一种最优尺度下半监督流形二值神经网络构建方法_西北工业大学_202410740473.9

一种基于三维曲面拟合的机床RTCP精度插值方法_成都飞机工业(集团)有限责任公司_202410558481.1

一种十六烷值测定机用可变喉管进气装置_上海沪顺石化装备有限公司_202323418099.0

基于值分布的多智能体协同控制方法、装置、设备和介质_之江实验室_202410879988.7

一种基于插值网络的视觉SLAM方法及系统_中国科学技术大学_202210354322.0

体相关技术

封装体_日本碍子株式会社_201980098280.5

检体分析装置以及检体分析方法_希森美康株式会社_202410253058.0

体感座椅及体感座椅的控制方法_中建三局集团有限公司_202410652471.4

热塑性弹性体组合物及其成型体_MCPP创新有限责任公司_202380019440.9

元件安装体_三菱电机株式会社_202280086541.3

液体容纳体_珠海纳思达企业管理有限公司_202420235775.6

肘关节假体_北京市春立正达医疗器械股份有限公司_201910404719.4

复合铁芯体结构_汎速科技有限公司_202420164967.2

固体电池封装体_株式会社村田制作所_202380019967.1

光学层叠体_日东电工株式会社_202380017403.4

函数相关技术

函数缓存的方法及系统_华为云计算技术有限公司_202310745731.8

用于用户定义的函数的容器框架_毕威拓软件公司_201880095563.X

利用隐函数控键编辑三维模型_奥多比公司_202410007161.7

基于多级收敛块和综合损失函数系统的极低光图像增强方法_南京邮电大学_202410761487.9

一种无参函数的mock方法及装置_中国联合网络通信集团有限公司_202410871721.3

基于数据流特征的比较函数识别系统及识别方法_中国人民解放军战略支援部队信息工程大学_202210398639.4

光学神经网络系统、非线性激活函数设备和制备方法_山东云海国创云计算装备产业创新中心有限公司_202410904220.0

基于改进径向基函数的AI生成音乐识别方法、装置及设备_厦门理工学院_202410831481.4

一种基于Boltzmann时间函数的地表沉陷动态预计方法及系统_安徽理工大学_202410704668.8

一种基于人工势函数的无人水面船编队容错控制方法_哈尔滨理工大学_202311838227.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于注意力机制的多智能体值函数分解方法及装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务