首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

训练大语言模型的方法、装置、电子设备 

申请/专利权人:北京百川智能科技有限公司

申请日:2023-12-29

公开(公告)日:2024-06-28

公开(公告)号:CN118260589A

主分类号:G06F18/214

分类号:G06F18/214;G06F40/205;G06F40/30

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本公开涉及一种训练大语言模型的方法、装置、电子设备及计算机可读存储介质。本公开通过对大语言模型进行多个阶段的训练,以在不同的训练阶段对其进行正能量的知识增强。首先,在预训练阶段,通过具有积极标签的训练样本对所述大语言模型进行预训练,使得大语言模型获取正确的认知能力。接着,在微调训练阶段,通过使得大语言模型产生定向的输出响应,并据此采样具有特定标签的响应来对大语言模型进行参数的微调,使得大语言模型提高输出正能量响应的能力。然后,在强化学习训练阶段,调整大语言模型输出具有积极标签的响应文本的概率。通过这三个训练阶段对大语言模型进行定向的知识增强,大幅度地降低了大语言模型输出有害响应的概率。

主权项:1.一种训练大语言模型的方法,包括:从训练样本中采样具有积极标签的训练样本,对所述大语言模型进行预训练;获取第一前缀向量和第二前缀向量,所述第一前缀向量与第二前缀向量具有相反的语义信息;获取提示文本,确定所述提示文本对应的嵌入向量;将所述提示文本对应的嵌入向量和所述第一前缀向量进行拼接得到第一训练特征向量;将所述提示文本对应的嵌入向量和所述第二前缀向量进行拼接得到第二训练特征向量;对预训练后的大语言模型进行微调训练,所述微调训练包括:基于所述第一训练特征向量,利用微调训练中的所述大语言模型,确定第一响应;基于所述第二训练特征向量,利用微调训练中的所述大语言模型,确定第二响应;以及基于所述第一训练特征向量、所述第二训练特征向量、所述第一响应与所述第二响应的标签,调整所述大语言模型的参数,以使得所述大语言模型生成的响应的标签均为正向标签或积极标签。

全文数据:

权利要求:

百度查询: 北京百川智能科技有限公司 训练大语言模型的方法、装置、电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。