恭喜西安邮电大学姜静获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜西安邮电大学申请的专利基于多智能体深度强化学习的动态协作簇选择方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115087117B 。
龙图腾网通过国家知识产权局官网在2025-03-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210676655.5,技术领域涉及:H04W72/54;该发明授权基于多智能体深度强化学习的动态协作簇选择方法及装置是由姜静;王洁晨;甄立;杜剑波;王宠召;岳志宇设计研发完成,并于2022-06-15向国家知识产权局提交的专利申请。
本基于多智能体深度强化学习的动态协作簇选择方法及装置在说明书摘要公布了:本公开实施例是关于一种基于多智能体深度强化学习的动态协作簇选择方法及装置。该方法包括:建立系统模型;对全局状态动作值Q函数进行分解;收集智能体的状态、动作、奖励以及下一状态作为网络的训练数据,并存入缓冲区;训练Q网络;利用所述最佳协作簇选择方案为用户进行服务。本公开实施例在深度强化学习算法的基础上结合了多智能体系统来解决去蜂窝大规模MIMO系统中AP与用户之间的组合优化问题。利用值函数分解网络改善多智能体系统的环境非平稳问题。通过值分解避免由智能体独立学习造成的非稳态环境,降低了计算量,使每个智能体的训练过程更有针对性。为系统中的多用户同时选择出最佳协作簇进行服务,使系统的频谱效率得到提升。
本发明授权基于多智能体深度强化学习的动态协作簇选择方法及装置在权利要求书中公布了:1.一种基于多智能体深度强化学习的动态协作簇选择方法,其特征在于,包括以下步骤:步骤S100,建立系统模型:根据去蜂窝大规模MIMO系统建立多智能体深度学习系统模型,并定义所述系统模型的状态空间、动作空间和即时奖赏;在所述步骤S100中,所述系统模型的动作空间Ak={aj|j=1,...ζk}为用户k在接入点候选集中的每种选择的组合;步骤S200,对全局状态动作值Q函数进行分解;步骤S300,收集智能体的状态、动作、奖励以及下一状态作为网络的训练数据,并存入缓冲区;步骤S400,训练Q网络,获取当前状态下最佳协作簇选择方案;步骤S500,利用所述最佳协作簇选择方案为用户进行服务;步骤S100,建立系统模型:强化学习模型用三元数组S,A,r来表示;S是状态空间,A是动作空间,r是奖励函数;每个用户为一个智能体,寻找使得频谱效率最大的接入点AP子集;对于用户k,首先将该用户的信道向量{h1,k|,...hM,k\}按降序排序,然后设置一个阈值δ,选取其信道前δ%作为该用户的候选AP集;该用户k在该候选AP集中的每种选择组合,即为该智能体的一个可选动作;候选AP集的大小为Ωk,则用户k的动作有种,将用户k在接入点候选集中的每种选择的组合表示为以下动作空间Ak:Ak={aj|j=1,...ζk}1.12式中,ζk为动作的数量,aj为所述智能体的一个可选动作向量,所述向量中的每个元素值为0或1,其中,1代表对应接入点服务于用户k,0代表对应接入点没有服务于用户k;当智能体执行一个动作后,智能体状态将发生变化,在初始阶段,智能体随机选择AP,而在最后阶段,用户会挑选AP集合,将被用户选择的AP的数量视为不同状态值;用户k的状态空间表示为:Sk={sl|l=1,...Ωk}1.13式中,Ωk为状态的数量;在每次迭代过程中,奖励函数值的大小由智能体的行为决定,智能体在一状态下采取一动作后,通过计算频谱效率函数获得即时奖赏,所述即时奖赏的奖励函数r如下: 式中,Rk为用户k的频谱效率;在步骤S200中,采用值函数分解的方法对全局状态动作值Q函数Qtotal进行线性分解,分解出的子值函数的数量对应于去蜂窝大规模MIMO系统中用户的数量K,将总的团队奖励函数分解为K个子值函数,群体中每个智能体根据自身学习的策略对团体做出的贡献大小来各自优化自己的子值函数,值函数分解方式为: 其中,环境中智能体的数量为K,Qk为智能体k经分解后的子值函数,Qtotal对应于去蜂窝大规模MIMO系统中的总频谱效率Rsum,经分解后的智能体k的子值函数Qksk,ak对应于系统中用户k的下行频谱效率Rk;步骤S300包括步骤S301-步骤S304:步骤S301,通过去蜂窝大规模MIMO系统模型产生信道数据集{hm,k};其中,gm,k为服从独立同分布的小尺度衰落系数,βm,k是大尺度衰落系数,其中m=1,...,M,k=1,...K;步骤S302,初始化多智能体状态,根据协作簇选择策略执行不同动作,选取概率最大的动作并接收即时奖励且转移到下一状态,采用ε-贪心策略选择动作: 其中,rand为[0,1]之间的随机值,ε值的大小决定智能体的探索或利用频率;步骤S303,将智能体的状态、动作、奖励以及下一状态et=st,at,rt,st+1存入经验回放缓冲区;步骤S304,判断当前状态是否为终止状态或者是否达到最大迭代次数,若是,则执行步骤S400,否则,将下一状态st+1作为神经网络的输入数据,返回步骤S302;所述步骤S400包括以下步骤:步骤S401,利用经验回放机制从缓冲区中均匀随机采样抽取Z个样本数据,其中步骤S402,利用目标网络更新Q值,即当在线估计网络参数每更新C步后,再将其网络参数复制给目标网络,然后再用更新后的目标网络来生成接下来C步的参数更新;将目标网络的网络参数表述为ω-,在线值函数估计网络的参数表述为ω,值函数估计网络每一步都执行更新,而目标网络每C步与其同步更新一次,使训练更加稳定,其中,C步是目标网络更新周期,计算目标网络: 步骤S403,计算损失函数并利用梯度下降法将ω传给每个智能体以更新各自的子值Q函数Qksk,ak;步骤S404,每隔C步重置在线值函数估计网络与目标网络的参数
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安邮电大学,其通讯地址为:710061 陕西省西安市长安南路563号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。