首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于注意力机制的多智能体值函数分解方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:清华大学

摘要:本发明公开了一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置,该方法包括:获取多个智能体决策下的状态轨迹;构建注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于注意力机制学习值函数分解的多智能体算法。

主权项:1.一种连续动作控制下基于注意力机制的多智能体值函数分解方法,其特征在于,包括以下步骤:步骤S1:获取多个智能体决策下的状态轨迹;步骤S2:构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;步骤S3:基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对所述Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;以及步骤S4:根据更新的多个网络生成更新后的策略模型,对策略模型进行测试;其中,所述步骤S3,包括:步骤S31,初始化仿真环境env、所述Attention注意力机制网络Attentionψ、所述各个智能体主值网络Qi、所述各个智能体主策略网络πi、所述QMIX主值网络QMIX、所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′;步骤S32,在当前状态依据策略选取动作并转移到下一状态并得到当前时刻的奖励值rt,根据当前状态ot、当前动作at、当前时刻的奖励值rt和下一状态ot+1组成四元组ot,at,rt,ot+1,并将所述四元组存储进生成数据缓存器Bπ;步骤S33,在所述生成数据缓存器Bπ中的数据量达到预设数据量阈值后,每个时间步取出部分数据对所述Attention注意力机制网络、所述各个智能体主值网络、所述QMIX主值网络进行更新;步骤S34,每隔预设时间利用确定性策略梯度对所述各个智能体主策略网络进行更新,并对所述各个智能体副值网络Q′i、所述各个智能体副策略网络πi′、所述QMIX副值网络QMIX′的参数进行软更新;所述步骤S33,包括:S331,依据各个智能体的策略网络π′i和随机扰动选择下一时刻的动作: 其中,为智能体i的副策略网络,代表引入的随机扰动;S332,计算各个智能体的状态-动作值 其中,为智能体i的状态-动作值;为智能体i主值网络Qi中的两层全连接网络;为智能体i主值网络Qi中的编码网络;为除智能体i外,其它智能体值函数的加权和;S333,计算各个智能体的目标状态-动作值 其中,为智能体i的目标状态-动作值;为智能体i目标主值网络Qi′中的两层全连接网络;为智能体i目标主值网络Qi′中的编码网络;为除智能体i外,其它智能体值函数的加权和;S334,利用QMIX主值网络计算混合状态-动作值 其中,为QMIX主值网络的两层全连接网络,并对该网络的权重取绝对值,s为所有智能体的全局观测;S335,利用QMIX副值网络计算目标混合状态-动作值 其中,为QMIX副值网络的两层全连接网络,并对该网络的权重取绝对值,s′为所有智能体的下一时刻的全局观测;S336,利用梯度下降法更新所述各个智能体主值网络的参数θi,QMIX主值网络参数Attention注意力机制网络参数ψ: 其中,为混合状态-动作值,为目标混合状态-动作值,N为从Bπ中采集到的样本数量;在所述步骤S34中,所述各个智能体主策略网络的更新方式为: 其中,k为计算梯度所用的样本编号,为对智能体i所选择的动作ai求梯度,为智能体i的值函数,ai为智能体i所选择的动作,a-i为除智能体i外的其它智能体所选择的动作,为对智能体i的策略网络求导,φi为智能体i的策略网络,oi为智能体i的观测;所述对所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′的参数的更新方式为:φ′i←τφi+1-τφ′i,θ′i←τθi+1-τθ′i, 其中,τ是超参数,用于控制从主网络更新副网络参数的程度;所述步骤S332进一步包括: 其中,为输入的嵌入向量,V为线性变换矩阵,W1为query矩阵,Wk为key矩阵,这三个矩阵在所有智能体中共享,h为非线性转移函数。

全文数据:

权利要求:

百度查询: 清华大学 基于注意力机制的多智能体值函数分解方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。