首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于Pytorch框架的数据并行优化方法_电子科技大学_202310750946.9 

申请/专利权人:电子科技大学

申请日:2023-06-25

公开(公告)日:2023-07-28

公开(公告)号:CN116501502A

主分类号:G06F9/50

分类号:G06F9/50;G06N3/098

优先权:

专利状态码:有效-授权

法律状态:2023.09.05#授权;2023.08.15#实质审查的生效;2023.07.28#公开

摘要:本发明公开了一种基于Pytorch框架的数据并行优化方法,属于计算机技术领域,具体为:加载模型阶段;按照前一轮训练后各节点之间的性能比例,将对应份的数据划分并加载至对应节点中;各节点将加载的数据按照当前轮批大小,对待训练模型进行当前轮训练;第一轮训练中的批大小为总批大小与节点数的比值,第二轮训练中的批大小根据第一轮训练后的性能比例分配总批大小,第三轮及之后的训练中根据前一轮训练所占用的时间计算时间波动率,若大于波动率阀值,根据第一轮训练后的性能比例分配总批大小;否则,采用前一轮训练的批大小。本发明可及时应对集群性能波动,同时避免由于节点性能微小波动而频繁调整批大小,进而带来的额外性能损耗。

主权项:1.一种基于Pytorch框架的数据并行优化方法,其特征在于,包括以下步骤:步骤1、加载模型阶段:将基于Pytorch框架编写的待训练模型加载至J个节点中,J个节点的初始性能相同;并设置训练参数,包括:初始数据集的等分数量N,总批大小b,波动率阀值T,显存阈值S,以及显存调整步进P;步骤2、加载数据阶段:在对待训练模型进行当前轮训练前,按照前一轮训练后J个节点之间的性能比例,将对应份的数据划分为J个数据集分区,并行加载至对应节点中;其中,各节点的性能高低与被划分的数据量正相关;对第一轮训练,按照J个节点之间的初始性能比例,将对应份的数据划分为J个数据集分区;步骤3、各节点将加载的数据按照当前轮的批大小,对待训练模型进行当前轮训练,包括前向传播阶段、损失计算阶段、反向传播阶段和模型参数更新阶段,获得各节点在当前轮训练过程中所占用的时间;其中,在第一轮的训练过程中,以总批大小b与节点数J的比值为当前轮的批大小;在第二轮的训练过程中,先计算各节点在第一轮训练后的性能,按照J个节点之间的性能比例,基于总批大小b重新分配当前轮训练所需的各节点的批大小;在第三轮及之后的训练过程中,先根据各节点在前一轮训练过程中所占用的时间,计算前一轮的时间波动率,若大于波动率阀值T,则计算各节点在前一轮训练后的性能,再按照J个节点之间的性能比例,基于总批大小b重新分配当前轮训练所需的各节点的批大小,各节点的性能高低与被分配的批大小正相关;否则,将前一轮训练采用的批大小作为当前轮训练所需的批大小;并且,在第二轮及之后的训练过程中,还包括对各节点所需显存大小的调节过程,具体为:根据Pytorch框架运行所需显存大小以及待训练模型在训练过程中所占用显存大小,计算各节点所需的显存大小,对显存大小大于显存阈值S的节点,将前一轮训练后与前两轮训练后之间的性能增加量减少P%,并将所减少的P%按照性能比例分配至其他节点,得到各节点在前一轮训练后的新性能,根据各节点之间的新性能比例,再次基于总批大小b重新分配当前轮训练所需的各节点的批大小;重新进行对各节点所需显存大小的调节过程,直至各节点的显存大小不超过显存阈值S;步骤4、重复执行步骤2~3,直至加载第N份数据,并完成第N轮训练。

全文数据:

权利要求:

百度查询: 电子科技大学 一种基于Pytorch框架的数据并行优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。