首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于变分循环网络模型的信念一致多智能体强化学习方法 

申请/专利权人:大连理工大学

申请日:2021-10-15

公开(公告)日:2024-05-28

公开(公告)号:CN114037048B

主分类号:G06N3/0442

分类号:G06N3/0442;G06N3/092;G06N3/008;G06N5/04;G06N20/00;G06F30/27;G06Q10/101

优先权:

专利状态码:有效-授权

法律状态:2024.05.28#授权;2022.03.01#实质审查的生效;2022.02.11#公开

摘要:本发明提供一种基于变分循环网络模型的信念一致多智能体强化学习方法,该方法启发于人类团队之间的可以产生默契合作的现象,即通过共同的信念在任务上达成一致性共识。与人类社会群体类似,分布式学习系统中的智能体也可以受益于一致的信念,在有限的通信条件下实现协作。在本文中,我们展示了在分散式协作任务中智能体之间的一致性信念的作用。我们提出了一种新的基于值的方法——一致性信念多智能体强化学习方法,它使用变分模型来学习智能体之间的信念。我们还利用与变分模型结合的循环网络模型RNN充分利用智能体历史行为轨迹。我们的算法使智能体能够学习一致的信念,以优化完全分散的策略。我们在两个网格世界游戏以及星际争霸II微观管理基准上验证了该方法。我们的实验结果表明,该方法学习到的共同信念可以有效提高离散和连续状态下的智能体的协作效果。

主权项:1.基于变分循环模型的信念一致多智能体强化学习方法,其特征在于,所述的智能体是一个战斗单元,执行的动作分为运动动作和开火动作,其中运动动作为:向上、向下、向左、向右或停留,开火动作的对象为敌方所对应的智能体;智能体是在网格世界环境和星际争霸II独立控制环境上进行的;其中,网格世界环境是一个离散时间、离散空间和离散动作空间的游戏环境,星际争霸II独立控制环境是一个离散时间、连续空间和离散动作空间的游戏环境;步骤如下:1变分模型对分布式部分观测马尔科夫过程Dec-POMDP建模在变分模型VAE中,潜变量z用于预测可观察变量x;难以处理的真实后验pz|x由易于处理的分布qz|x逼近,然后在对数似然上最大化证据下限ELBO:变分循环网络VRNN是VAE的扩展,用于处理序列数据;将VRNN推广到多智能体顺序决策设置;在Dec-POMDP设置中有N个智能体;对于每个智能体,状态转换函数poi,t+1|oi,t,ai,t和奖励函数很容易地嵌入到图形模型中;将奖励r与智能体i的部分观察oi拼接为一个整体xi=oi,r;初始分布和先验分布分别是pθzi,1和pθzi,t|zi,t-1,xi,t-1,ai,1:t-1;在生成模型中,未来的观测是通过其潜在变量来预测的,pθxi,t|zi,1:t,xi,1:t-1;在推理模型中:潜在变量zi,t由推理模型近似qφzi,t|zi,1:t-1,xi,1:t,ai,1:t-1;从对数似然上最大化证据下限ELBO扩展,智能体i的潜在变量模型的对数似然重写为: 最大化ELBO相当于最小化损失函数分别将qφzi,t|zi,1:t-1,xi,1:t,ai,1:t-1命名为编码器,将pθxi,t|zi,1:t,xi,1:t-1命名为解码器;表示损失函数的小批量版本;变分模型与门控循环单元GRU网络相结合,该网络是高度灵活的函数逼近器;每个智能体的隐藏层变量通过递推方程更新:di,t=GRUdi,t-1;zi,t,xi,t2利用高斯分布对其中分布进行重参数化近似生成模型变分模型以GRU的隐藏层变量di,t为条件;根据历史信息得到一个先验分布,具有对角协方差结构I由于面临高维连续状态空间的问题,使用高斯分布作为输出;参数化的对角高斯分布如下: 其中和是参数化的先验分布,θprior·是先验分布的神经网络参数;给定内部状态通过生成模型预测未来观察结果: 其中和是参数化的预测观测分布,θp·是神经网络参数;推理模型智能体i的一致信念zi,t参数化为高斯分布给定变量xi,t:其中和表示参数化的高斯后验分布,φq·是后验分布的神经网络参数;给定以上模型,计算出中的两项;第一项是生成模型是负重构误差;对于每个智能体i,有以下公式:其中xi,t是从重放缓冲区采样的原始状态和奖励,是基于历史信息和潜在变量的重构变量,基于等式假设属于参数化高斯分布,均值为方差为得到参数化的其中∈是辅助噪声变量第二项是KL散度;类似地,qφzi,t|zi,1:t-1,xi,1:t,ai,1:t-1和pθzi,t|zi,t-1,xi,t-1,ai,1:t-1参数化为高斯分布,这两个分布之间的KL散度如下所示: 生成模型和推理模型是联合训练的,目标是优化参数使得最大化ELBO;3智能体之间形成一致性信念每个智能体推断关于全局状态s的潜在变量;给定先验分布pzt|st,使用DKLqφzi,t|zi,1:t-1,xi,1:t,ai,1:t-1||pzt|st来推断一致信念;让智能体之间的变分分布相互近似,以实现智能体之间的信念一致性; 上述损失LCB将使智能体i的信念qφzi,t|zi,1:t-1,xi,1:t,ai,1:t-1与智能体j的信念qφzj,t|zj,1:t-1,xj,1:t,aj,1:t-1接近,这意味着智能体i和j将实现一致信念;3构建强化学习损失函数和变分模型损失函数:CBMA的训练基于QMIX系列算法,通过并行最小化时序差分损失和变分模型损失;时序差分损失:使用时序差分损失的梯度更新每个智能体的Q网络θQ和混合网络θm;对于每个智能体的Q-networkQi,输入是oi,ai,di,然后每个单独的效用被送入混合网络,用于计算全局动作值Qtot;网络由以下等式更新: 其中ytot=r+γmaxa′Qtoto′,d′,a′,s′;ξ-,智能体的Q网络和混合网络参数表示为ξ=θQ,θm和ξ-是目标网络的参数;包含每个智能体的部分可观察信息,是变分模型计算的内部状态;一致信念变分模型损失变分公式和一致信念损失的组合如下:其中LVR是训练一致信念变分网络的损失;超参数α用于平衡LCB的权重。

全文数据:

权利要求:

百度查询: 大连理工大学 基于变分循环网络模型的信念一致多智能体强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。