基于多智能体强化学习的高性能集群资源公平分配方法

导航：龙图腾网> 最新专利技术> 基于多智能体强化学习的高性能集群资源公平分配方法

申请/专利权人：北京航空航天大学

申请日：2022-03-22

公开（公告）日：2024-06-25

公开（公告）号：CN114638167B

主分类号：G06F30/27

分类号：G06F30/27;G06F9/48;G06F9/50

优先权：

专利状态码：有效-授权

法律状态：2024.06.25#授权;2022.07.05#实质审查的生效;2022.06.17#公开

摘要：本发明涉及一种基于多智能体强化学习的高性能集群资源公平分配方法及系统，其方法包括：S1：建立高性能集群资源调度的马尔科夫博弈模型；S2：采集真实集群数据，利用仿真环境进行作业回放，构建高性能集群模拟环境；S3：在高性能集群模拟环境中对策略与状态价值评估网络进行训练；其中，策略与状态价值评估网络包括：动作策略神经网络NNactor和值评估神经网络NNcritic，并分别构建对应的损失函数进行用于参数更新。本发明提供的方法，保证了在不影响集群资源使用率的情况下，能够维护用户间的资源使用公平。

主权项：1.一种基于多智能体强化学习的高性能集群资源公平分配方法，其特征在于，包括：步骤S1：建立高性能集群资源调度的马尔科夫博弈模型，包括：定义作业特征状态、集群资源使用状态、单一用户状态以及单一智能体的环境状态；步骤S2：采集真实集群数据，利用仿真环境进行作业回放，构建高性能集群模拟环境；步骤S3：在所述高性能集群模拟环境中对策略与状态价值评估网络进行训练；其中，所述策略与状态价值评估网络包括：动作策略神经网络NNactor和值评估神经网络NNcritic，并分别构建对应的损失函数进行用于参数更新，具体包括：步骤S31：获取当前所述高性能集群模拟环境的集群状态向量s：，其中，q代表当前队列中作业数量，N代表当前集群环境中用户数量；步骤S32：通过对于所述集群状态向量s进行转换，得到每个智能体所对应的作业与集群状态矩阵Mjob_and_cluster和用户信息矩阵Muser；步骤S33：利用智能体隐状态记录用户历史资源使用信息，将每个智能体的隐状态和Mjob_and_cluster输入NNactor，生成对应的智能体的优先度折扣因子，同时根据Mjob_and_cluster生成作业优先级，从而生成单个智能体动作auser与选择当前动作auser概率的log值log_pauser；将所有智能体的动作合并，生成联合动作ajoint作为前集群作业队列中所有作业优先度，并按照ajoint进行资源分配，使动作生效；步骤S34：根据公式1，计算各个智能体的奖励值： 1其中，和为超参数；wp代表所有智能体的等待时间比的集合；wpi代表智能体i的作业等待时间比：；步骤S35：将所述用户信息矩阵Muser输入NNcritic网络中，计算每个智能体将会获得当前动作的价值vuser；步骤S36：令ti={s1,s2,…,sN,a1,a2,…,aN,log_p1,log_p2,…,log_pN,v1,v2,…,vN}，并存入MAPPO_buffer中；当当前样本完成调度，则生成一条轨迹{t1,t2,…,tT}；步骤S37：当MAPPO_buffer中轨迹数量到达阈值后，进行网络参数的更新：分别将NNactor和NNcritic拟合动作策略函数与值评估函数表示为与，其中，与分别表示所述动作策略网络的参数与所述值评估网络的参数，s所述为当前集群状态向量；利用GAE公式进行优势函数的估计，GAE为多个价值估计的加权平均，如公式2所示： 2其中，t表示当前时刻，，为折扣因子，表示未来每一步的价值估计所占比重,表示对于t时刻状态的价值评估；t+1代表下一时刻；l表示时间间隔；同时，进行reward-to-go的计算，如公式3所示，用于所述值评估神经网络NNcritic的参数更新： 3定义所述动作策略网络与所述值评估网络的损失函数和，如公式4~5所示： 4 5其中，n代表该轨迹长度；通过所述动作策略网络与所述值评估网络的损失函数，利用梯度反向传播对所述动作策略网络与所述值评估网络参数进行更新，参数变为与；步骤S38：当完成了一次网络参数更新之后，通过计算策略相似度，如公式6所示，即KL散度来判定是否需要重新进行轨迹生成； 6当KL散度小于预设的阈值，通过引入概率的放缩进行训练，即动作策略神经网络的损失函数变为如公式7所示： 7步骤S39：重复步骤S32~S38，直至达到预定的epoch值。

全文数据：

权利要求：

百度查询：北京航空航天大学基于多智能体强化学习的高性能集群资源公平分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种奶牛饲料生产用研磨装置

下一篇：一种芦笋种植用废料混合装置

相关技术

一种奶牛饲料生产用研磨装置

一种芦笋种植用废料混合装置

一种锂电池外壳冲压设备

一种高弹性一体编织鞋面

一种移动式自填充胶枪

一种具有分级过滤功能的纳滤膜元件

建筑工程管理招标装置

一种船舶舷外机通风型保护罩

一种高强度组合式不锈钢管

一种用于治疗小儿肌性斜颈的固定器

自穿刺铆钉、电池及用电设备

一种具有固定结构的快客杯

集群相关技术

集群管理方法及装置_北京国双科技有限公司_202211696052.8

一种集群扩容方法和装置_网联清算有限公司_202211694783.9

智能体集群控制方法、装置、设备及存储介质_香港城市大学深圳研究院_202011015034.X

一种集群节点故障检测方法及装置_中国建设银行股份有限公司_202111108527.2

服务器集群的测试方法及装置_北京国双科技有限公司_202211684720.5

智能业务的GPU集群调度方法、系统与设备_浙江宇视科技有限公司_202410675187.9

集群管理系统与方法、计算设备、机器可读存储介质_第四范式(北京)技术有限公司_202211686081.6

一种多级联邦YARN集群的资源分配方法、装置、设备_浪潮电子信息产业股份有限公司_202111018099.4

分布式芯片集群的异常恢复方法、装置及存储介质_寒武纪(西安)集成电路有限公司_202211683457.8

应用于分布式集群的模型训练方法、装置_北京沃东天骏信息技术有限公司_202211716053.4

高性能相关技术

高性能高温高压安全阀_恒华阀门有限公司_201811293874.5

一种高性能门窗提升机构_启迪设计集团股份有限公司_202111396313.X

一种高性能水晶烫钻镀膜设备_建德市鑫辉水晶工艺品有限公司_202323261944.8

一种高性能组合散热电脑机箱_常州大学_202410145896.6

全固废高性能环保透水砖制备方法_上饶师范学院_202410402183.3

一种低温制备高性能氧化镍空穴传输层的方法_无锡众能光储科技有限公司_202410350378.8

一种基于超高性能混凝土连接的预制混凝土剪力墙结构_同济大学_202211683201.7

一种大模型训练场景的高性能网络优化方法及系统_北京蓝耘科技股份有限公司_202410424536.X

一种高性能复合防弹板及制造方法_杭州巨力绝缘材料有限公司_202410619302.0

一种阻燃高性能ABS复合材料及其制备方法_合肥杰事杰新材料股份有限公司_202211692502.6

资源相关技术

带宽资源调整方法、网络系统和带宽资源调整系统_中国联合网络通信集团有限公司_202111659552.X

一种水资源监控装置_唐山市陡河水库事务中心_202322649007.3

资源处理方法、装置、设备及介质_中国建设银行股份有限公司_202410435681.8

资源指示的方法与通信装置_华为技术有限公司_202211684691.2

一种海洋资源分布可视化方法及海洋资源勘探机器人_中国海洋大学_202410684437.5

用于车辆通信中的资源预留的方法_交互数字专利控股公司_202410408970.9

一种草畜业水资源回收装置_水利部牧区水利科学研究所_202410487289.8

与虚拟化资源相关的性能测量_苹果公司_201880033427.8

一种水资源雨水蓄积装置_保定市满城区水利局_202322970832.3

虚拟资源的分配方法、装置及设备_北京声智科技有限公司_202410257021.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于多智能体强化学习的高性能集群资源公平分配方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务