Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京邮电大学李士刚获国家专利权

北京邮电大学李士刚获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京邮电大学申请的专利一种大模型训练容错方法、系统、介质及程序产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119938407B

龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510024249.4,技术领域涉及:G06F11/14;该发明授权一种大模型训练容错方法、系统、介质及程序产品是由李士刚;王菁精;王雪莹;黄勇华;丁嘉豪;马志设计研发完成,并于2025-01-07向国家知识产权局提交的专利申请。

一种大模型训练容错方法、系统、介质及程序产品在说明书摘要公布了:本发明提供一种大模型训练容错方法、系统、介质及程序产品,方法在三维分布式并行系统上执行,系统将目标大模型训练过程的参数按照数据并行、张量并行和流水线并行划分到多个GPU上并获得包含各GPU负责的模型参数和优化器状态参数的多个检查点分区;获取目标大模型当前训练批次中的多个流水线空泡时间,将前一轮训练批次中的各GPU的检查点分区作为自身检查点分区并从GPU传输至对应CPU双缓冲区的一个缓冲区,并将另一个缓冲区中的自身检查点分区写入远程持久化存储后交换两个缓冲区的用途;将多个进程构建为二维通信拓扑图并对CPU中自身检查点分区分块,多个检查点分块上的邻居进程收集操作插入到多个流水线空泡时间,利用系统空闲时间进行检查点备份。

本发明授权一种大模型训练容错方法、系统、介质及程序产品在权利要求书中公布了:1.一种大模型训练容错方法,其特征在于,所述方法在三维分布式并行系统上执行,所述三维分布式并行系统将目标大模型训练过程中的参数按照数据并行、张量并行和流水线并行三个并行维度划分到多个GPU上并获得多个检查点分区,所述多个检查点分区中的每个检查点分区包含根据训练时间排列的模型参数和优化器状态参数,该方法包括以下步骤: 获取所述目标大模型当前训练批次中的多个流水线空泡时间;所述流水线空泡时间是由于流水线并行产生的资源空闲时间; 将所述目标大模型前一轮训练批次中每个所述GPU负责的检查点分区作为自身检查点分区并获得所述多个GPU运行的进程,通过PCIE总线将多个所述进程中的自身检查点分区从所述GPU传输至对应CPU中部署的双缓冲区中的一个缓冲区进行存储,将另一个缓冲区中存储的自身检查点分区写入远程持久化存储中,当自身检查点分区写入远程持久化存储后交换两个所述缓冲区的用途; 将多个所述进程构建为二维通信拓扑图并对各自身检查点分区进一步分块获得检查点分块,所述检查点分块按照所述二维通信中各检查点分区的位置关系执行邻居进程收集操作以将相邻进程检查点分区收集至自身检查点分区的所述CPU中,所述邻居进程收集操作被依次插入到多个所述流水线空泡时间中。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京邮电大学,其通讯地址为:100876 北京市海淀区西土城路10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。