首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种参数文件保存加载方法、装置、设备及存储介质_苏州元脑智能科技有限公司_202410317212.6 

申请/专利权人:苏州元脑智能科技有限公司

申请日:2024-03-20

公开(公告)日:2024-06-21

公开(公告)号:CN117931302B

主分类号:G06F9/4401

分类号:G06F9/4401;G06F16/172;G06F16/176;G06F3/06

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.05.14#实质审查的生效;2024.04.26#公开

摘要:本申请实施例涉及数据存储技术领域,具体而言,涉及一种参数文件保存加载方法、装置、设备及存储介质,旨在提升参数文件的存储和加载速度。所述方法包括:在第一容器集群中执行模型训练任务的情况下,确定所述模型训练任务对应的共享存储目录;针对所述第一容器集群中的每个容器,生成所述容器对应的本地缓存目录;建立所述本地缓存目录与所述共享存储目录之间的映射关系,所述映射关系用于将所述本地缓存目录中存储的参数文件复制至所述共享存储目录中;将所述容器在训练过程中生成的参数文件保存至所述本地缓存目录中,所述参数文件用于保存模型训练过程中产生的参数。

主权项:1.一种参数文件保存加载方法,其特征在于,所述方法包括:在第一容器集群中执行模型训练任务的情况下,确定所述模型训练任务对应的共享存储目录;针对所述第一容器集群中的每个容器,生成所述容器对应的本地缓存目录,所述本地缓存目录是在所述容器所在的节点中的存储空间中创建的缓存目录;建立所述本地缓存目录与所述共享存储目录之间的映射关系,所述映射关系用于将所述本地缓存目录中存储的参数文件复制至所述共享存储目录中;将所述容器在训练过程中生成的参数文件保存至所述本地缓存目录中,所述参数文件用于保存模型训练过程中产生的参数,所述参数文件至少包括模型权重参数、激活值、梯度、损失值;在所述模型训练任务执行的过程中出现训练中断的情况下,创建第二容器集群,所述第二容器集群中的所述容器的数量与所述第一容器集群中的所述容器的数量相同;根据预设的编号规则对所述第二容器集群中的每个所述容器进行编号,得到每个所述容器对应的容器编号;为所述第二容器集群中的每个所述容器分配对应的节点编号;根据所述节点编号以及主机之间的对应关系,将所述第二容器集群中的每个所述容器分配至对应的所述主机中;在所述节点编号对应的所述主机无法运行所述容器的情况下,确定主机集群中的空闲主机;确定所述空闲主机的主机状态;在所述空闲主机的主机状态为正常运行状态时,通过调度器将所述容器调度至所述空闲主机中;在所述第二容器集群中启动所述模型训练任务的情况下,针对每个所述容器,获取所述本地缓存目录中的第一参数文件信息以及所述共享存储目录中的第二参数文件信息;根据所述第一参数文件信息以及所述第二参数文件信息,确定最新版本的所述参数文件;将最新版本的所述参数文件对应的文件目录信息发送至所述容器中;根据所述文件目录信息,确定所述参数文件对应的目录地址;从所述目录地址中获取所述参数文件;将所述参数文件加载至所述容器中;将所述参数文件中记录的模型参数加载至待训练模型中;在所述待训练模型的基础上执行所述模型训练任务。

全文数据:

权利要求:

百度查询: 苏州元脑智能科技有限公司 一种参数文件保存加载方法、装置、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。