首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于人类反馈强化学习的奖励模型训练方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江实在智能科技有限公司

摘要:本发明属于模型训练技术领域,具体涉及基于人类反馈强化学习的奖励模型训练方法及系统。方法包括:S1,采用标注的指令提示和回复文本对基座模型进行监督训练,获得监督训练模型;S2,获得一组增加人类偏好提示后的指令提示和回复文本列表;S3,使用大模型对增加人类偏好提示后的指令提示和回复文本列表进行打分标注,获得标注的排序数据;S4,对标注的排序数据进行数据增强,获得数据增强后的排序数据;S5,利用数据增强后的排序数据并采用低秩适配LORA的方法,对奖励模型进行训练,获得一个多门混合专家模型MMOE;S6,结合多门混合专家模型MMOE,采用强化学习方法训练步骤S1中的监督训练模型,得到最终的对话模型。

主权项:1.基于人类反馈强化学习的奖励模型训练方法,其特征在于,包括如下步骤;S1,采用标注的指令提示和回复文本作为监督数据对基座模型进行监督训练,获得监督训练模型;S2,收集需要的指令提示,将所述指令提示输入监督训练模型中生成多个回复文本,并且对原指令提示增加人类偏好提示,获得一组增加人类偏好提示后的指令提示和回复文本列表;S3,使用大模型对增加人类偏好提示后的指令提示和回复文本列表进行打分标注,获得标注的排序数据;S4,对标注的排序数据进行数据增强,获得数据增强后的排序数据;S5,利用数据增强后的排序数据并采用低秩适配LORA的方法,对奖励模型进行训练,获得一个多门混合专家模型MMOE,用于学习多个方向的人类偏好;S6,结合步骤S5得到的多门混合专家模型MMOE,采用强化学习方法训练步骤S1中的监督训练模型,得到最终的对话模型;在步骤S5中,多门混合专家模型MMOE中的每个专家模型,均为以监督训练模型为基础的奖励模型;步骤S5中,在训练阶段,损失函数loss的计算过程如下:S51,对于一对指令提示和回复文本组成的输入xh,xl,对于每个输入x,每个专家模型的输出为fix;其中,xh为输入和得分较高的回复,xl为输入和得分较低的回复;S52,每个门Gate的输出gkx为:gkx=softmaxwgkx;其中,wgk∈Rn×d是可训练的矩阵,n为专家数量,d为特征纬度;gkx为第k个门的输出,输出的维度为专家的数量;S53,线性层的输出fkx为: 其中,gkxi为gkx的第i维输出结果;S54,每个方向的偏好的输出分数yk为:yk=hkfkx;其中,hk∈Rd×1为任务k的分数计算权重矩阵;S55,分别对xh,xl计算分数:ykxh=hkfkxh;ykxl=hkfkxl;得到损失函数loss=-logsigmoidykxh-ykxl;步骤S5还包括如下步骤:S56,通过在训练数据上进行迭代优化,最小化损失函数loss,获得训练后的奖励模型rθ;步骤S5中,对于每个专家模型,使用相同的基于转换器transformer的架构,每个专家模型共用同一个预训练权重W;对于每个专家模型,各自对应有不同的LORA自适应矩阵组;采用低秩适配LORA的方法对奖励模型进行训练时,对于每个专家模型,仅更新各自对应的LORA自适应矩阵组;步骤S6包括如下步骤:S61,设定为待训练的监督训练模型,D为强化学习训练数据,πSFT为第一步中训练的基座模型,β是KL奖励系数,强化学习的目标函数为: 其中,Ep,r~D为奖励函数和对数函数的差在训练集D分布上的期望,r为训练数据D中输入p对应的监督训练模型的回复;利用训练数据D进行目标函数最大化训练,得到最终的对话模型。

全文数据:

权利要求:

百度查询: 浙江实在智能科技有限公司 基于人类反馈强化学习的奖励模型训练方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。