首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】文本生成方法及其模型梯度剪枝方法、装置、设备、介质_浪潮电子信息产业股份有限公司_202410309633.4 

申请/专利权人:浪潮电子信息产业股份有限公司

申请日:2024-03-19

公开(公告)日:2024-06-07

公开(公告)号:CN117910536B

主分类号:H04L43/08

分类号:H04L43/08;G06N3/082;G06N3/098;G06N3/0495;G06N5/04

优先权:

专利状态码:有效-授权

法律状态:2024.06.07#授权;2024.05.07#实质审查的生效;2024.04.19#公开

摘要:本发明涉及人工智能技术领域,公开了文本生成方法及其模型梯度剪枝方法、装置、设备、介质,训练预热阶段保持文本生成模型当前的模型梯度不变;非训练预热阶段,基于滑窗尺寸信息和性能损失函数,确定出文本生成模型在每个训练步数下以损失函数变化率为表征的性能;根据设定的训练状态条件以及每个训练步数下以损失函数变化率为表征的性能和单步训练时长,依次对每个训练步数下的梯度剪枝量进行调整。每得到一个调整后的梯度剪枝量,则按照调整后的梯度剪枝量对文本生成模型进行梯度剪枝操作,直至当前训练步数达到文本生成模型的总训练步数,结束对文本生成模型的剪枝操作,保证了文本生成模型的训练任务能够在低速不稳定的网络环境中顺利完成。

主权项:1.一种文本生成方法,其特征在于,适用于多个分散的图形处理器通过以太网连接构建的分布式网络环境,包括:获取输入文本;在文本生成模型处于训练预热阶段的情况下,保持所述文本生成模型当前的模型梯度不变;在所述文本生成模型不处于训练预热阶段的情况下,基于设定的滑窗尺寸信息以及训练步数对应的性能损失函数,确定出所述文本生成模型在每个训练步数下以损失函数变化率为表征的性能;当分布式网络环境发生变化的情况下,根据设定的训练状态条件以及所述文本生成模型在每个训练步数下以损失函数变化率为表征的性能和单步训练时长,依次对所述文本生成模型在每个训练步数下的梯度剪枝量进行动态调整;其中,所述训练状态条件包括模型性能和训练时长;每得到一个训练步数所对应的调整后的梯度剪枝量,则按照所述调整后的梯度剪枝量对所述文本生成模型进行梯度剪枝操作,直至当前训练步数达到所述文本生成模型的总训练步数,则结束对所述文本生成模型的剪枝操作;利用梯度剪枝后的文本生成模型对所述输入文本进行分析,以得到应答文本;所述基于设定的滑窗尺寸信息以及训练步数对应的性能损失函数,确定出所述文本生成模型在每个训练步数下以损失函数变化率为表征的性能包括:调用以损失函数变化率为表征的性能计算公式,对与当前训练步数相邻的滑窗尺寸信息内的性能损失进行处理,以得到所述文本生成模型在当前训练步数下以损失函数变化率为表征的性能;所述以损失函数变化率为表征的性能计算公式为: ;其中,t表示当前训练步数,M表示滑窗尺寸,L(t)表示当前训练步数对应的性能损失函数,L(t-M)表示当前训练步数减去滑窗尺寸所在步数对应的性能损失函数,表示当前训练步数之前的滑窗尺寸中对应的滑动平均损失,τ表示当前训练步数之前的滑窗尺寸内的训练步数,L(τ)表示当前训练步数之前的滑窗尺寸内的训练步数所对应的性能损失函数,表示滑窗尺寸中最小性能损失,表示当前达到的最小性能损失相比滑动平均损失的偏差,表示当前训练步数下以损失函数变化率为表征的性能;所述根据设定的训练状态条件以及所述文本生成模型在每个训练步数下以损失函数变化率为表征的性能和单步训练时长,依次对所述文本生成模型在每个训练步数下的梯度剪枝量进行动态调整包括:判断当前训练步数下以损失函数变化率为表征的性能是否满足所述模型性能;在以损失函数变化率为表征的性能不满足所述模型性能的情况下,下调所述文本生成模型在当前训练步数下的梯度剪枝量,按照下调后的梯度剪枝量对所述文本生成模型进行梯度剪枝;在以损失函数变化率为表征的性能满足所述模型性能的情况下,判断当前训练步数的单步训练时长是否满足所述训练时长;在当前训练步数的单步训练时长不满足所述训练时长的情况下,上调所述文本生成模型在当前训练步数下的梯度剪枝量,按照上调后的梯度剪枝量对所述文本生成模型进行梯度剪枝。

全文数据:

权利要求:

百度查询: 浪潮电子信息产业股份有限公司 文本生成方法及其模型梯度剪枝方法、装置、设备、介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。