首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于多智能体强化学习的高性能集群资源公平分配方法 

申请/专利权人:北京航空航天大学

申请日:2022-03-22

公开(公告)日:2024-06-25

公开(公告)号:CN114638167B

主分类号:G06F30/27

分类号:G06F30/27;G06F9/48;G06F9/50

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2022.07.05#实质审查的生效;2022.06.17#公开

摘要:本发明涉及一种基于多智能体强化学习的高性能集群资源公平分配方法及系统,其方法包括:S1:建立高性能集群资源调度的马尔科夫博弈模型;S2:采集真实集群数据,利用仿真环境进行作业回放,构建高性能集群模拟环境;S3:在高性能集群模拟环境中对策略与状态价值评估网络进行训练;其中,策略与状态价值评估网络包括:动作策略神经网络NNactor和值评估神经网络NNcritic,并分别构建对应的损失函数进行用于参数更新。本发明提供的方法,保证了在不影响集群资源使用率的情况下,能够维护用户间的资源使用公平。

主权项:1.一种基于多智能体强化学习的高性能集群资源公平分配方法,其特征在于,包括:步骤S1:建立高性能集群资源调度的马尔科夫博弈模型,包括:定义作业特征状态、集群资源使用状态、单一用户状态以及单一智能体的环境状态;步骤S2:采集真实集群数据,利用仿真环境进行作业回放,构建高性能集群模拟环境;步骤S3:在所述高性能集群模拟环境中对策略与状态价值评估网络进行训练;其中,所述策略与状态价值评估网络包括:动作策略神经网络NNactor和值评估神经网络NNcritic,并分别构建对应的损失函数进行用于参数更新,具体包括:步骤S31:获取当前所述高性能集群模拟环境的集群状态向量s: ,其中,q代表当前队列中作业数量,N代表当前集群环境中用户数量;步骤S32:通过对于所述集群状态向量s进行转换,得到每个智能体所对应的作业与集群状态矩阵Mjob_and_cluster和用户信息矩阵Muser;步骤S33:利用智能体隐状态记录用户历史资源使用信息,将每个智能体的隐状态和Mjob_and_cluster输入NNactor,生成对应的智能体的优先度折扣因子,同时根据Mjob_and_cluster生成作业优先级,从而生成单个智能体动作auser与选择当前动作auser概率的log值log_pauser;将所有智能体的动作合并,生成联合动作ajoint作为前集群作业队列中所有作业优先度,并按照ajoint进行资源分配,使动作生效;步骤S34:根据公式1,计算各个智能体的奖励值: 1其中,和为超参数;wp代表所有智能体的等待时间比的集合;wpi代表智能体i的作业等待时间比:;步骤S35:将所述用户信息矩阵Muser输入NNcritic网络中,计算每个智能体将会获得当前动作的价值vuser;步骤S36:令ti={s1,s2,…,sN,a1,a2,…,aN,log_p1,log_p2,…,log_pN,v1,v2,…,vN},并存入MAPPO_buffer中;当当前样本完成调度,则生成一条轨迹{t1,t2,…,tT};步骤S37:当MAPPO_buffer中轨迹数量到达阈值后,进行网络参数的更新:分别将NNactor和NNcritic拟合动作策略函数与值评估函数表示为与,其中,与分别表示所述动作策略网络的参数与所述值评估网络的参数,s所述为当前集群状态向量;利用GAE公式进行优势函数的估计,GAE为多个价值估计的加权平均,如公式2所示: 2其中,t表示当前时刻,,为折扣因子,表示未来每一步的价值估计所占比重,表示对于t时刻状态的价值评估;t+1代表下一时刻;l表示时间间隔;同时,进行reward-to-go的计算,如公式3所示,用于所述值评估神经网络NNcritic的参数更新: 3定义所述动作策略网络与所述值评估网络的损失函数和,如公式4~5所示: 4 5其中,n代表该轨迹长度;通过所述动作策略网络与所述值评估网络的损失函数,利用梯度反向传播对所述动作策略网络与所述值评估网络参数进行更新,参数变为与;步骤S38:当完成了一次网络参数更新之后,通过计算策略相似度,如公式6所示,即KL散度来判定是否需要重新进行轨迹生成; 6当KL散度小于预设的阈值,通过引入概率的放缩进行训练,即动作策略神经网络的损失函数变为如公式7所示: 7步骤S39:重复步骤S32~S38,直至达到预定的epoch值。

全文数据:

权利要求:

百度查询: 北京航空航天大学 基于多智能体强化学习的高性能集群资源公平分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。