首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种针对AI推理集群进行在线优化调度的方法与装置_南京认知物联网研究院有限公司_202410370829.4 

申请/专利权人:南京认知物联网研究院有限公司

申请日:2024-03-29

公开(公告)日:2024-06-21

公开(公告)号:CN117971502B

主分类号:G06F9/50

分类号:G06F9/50;G06F9/48;G06N5/04

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.05.21#实质审查的生效;2024.05.03#公开

摘要:本发明公开了一种针对AI推理集群进行在线优化调度的方法与装置。该方法包括对预先构建的推理集群和共享算力池进行信息配置,实时采集所述推理集群中各个GPU服务器当前的状态信息,接收外部的客户端发送的推理资源申请信息,并分配状态为可提供推理服务的GPU服务器,实时采集各个GPU服务器当前的负载信息,若推理集群当前的负载达到其算力容量的上限阈值,则向共享算力池申请新的GPU服务器,若当前的负载达到其算力容量的下限阈值,且推理集群中存在从共享算力池申请的GPU服务器时,则进行释放操作。本发明实现不同集群间的算力资源共享和分配,提高资源利用率,节省项目实际建设费用,降低资源管理难度和管理成本和能耗。

主权项:1.一种针对AI推理集群进行在线优化调度的方法,其特征在于,包括:对预先构建的推理集群和共享算力池进行信息配置,所述推理集群和共享算力池分别包括若干GPU服务器,并获取用于计算每一GPU服务器针对不同推理作业的算力容量所需的基础信息,以计算出每一GPU服务器针对不同推理作业的算力容量,每一推理集群中的GPU服务器中安装有完成相应推理作业所需的软件和模型;实时采集所述推理集群中各个GPU服务器当前的状态信息,所述GPU服务器当前的状态信息包括可提供推理服务和不可提供推理服务;接收外部的客户端发送的推理资源申请信息,并根据所述资源申请信息向所述客户端分配状态为可提供推理服务的GPU服务器,以使所述客户端向分配的GPU服务器发送推理作业;实时采集所述推理集群中的各个GPU服务器当前的负载信息,并根据所述各个GPU服务器的负载信息计算推理集群当前的负载,若所述推理集群当前的负载达到其算力容量的上限阈值,则向共享算力池申请新的GPU服务器,并向申请的新的GPU服务器中安装相应的软件和模型;若所述推理集群当前的负载达到其算力容量的下限阈值,且所述推理集群中存在从共享算力池申请的GPU服务器时,则将若干从共享算力池申请的GPU服务器释放至共享算力池中。

全文数据:

权利要求:

百度查询: 南京认知物联网研究院有限公司 一种针对AI推理集群进行在线优化调度的方法与装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。