基于人类反馈强化学习的奖励模型训练方法及系统

导航：龙图腾网> 最新专利技术> 基于人类反馈强化学习的奖励模型训练方法及系统

申请/专利权人：浙江实在智能科技有限公司

申请日：2024-04-29

公开（公告）日：2024-05-28

公开（公告）号：CN118095402A

主分类号：G06N3/092

分类号：G06N3/092;G06N3/09;G06N3/0442

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.06.14#实质审查的生效;2024.05.28#公开

摘要：本发明属于模型训练技术领域，具体涉及基于人类反馈强化学习的奖励模型训练方法及系统。方法包括：S1，采用标注的指令提示和回复文本对基座模型进行监督训练，获得监督训练模型；S2，获得一组增加人类偏好提示后的指令提示和回复文本列表；S3，使用大模型对增加人类偏好提示后的指令提示和回复文本列表进行打分标注，获得标注的排序数据；S4，对标注的排序数据进行数据增强，获得数据增强后的排序数据；S5，利用数据增强后的排序数据并采用低秩适配LORA的方法，对奖励模型进行训练，获得一个多门混合专家模型MMOE；S6，结合多门混合专家模型MMOE，采用强化学习方法训练步骤S1中的监督训练模型，得到最终的对话模型。

主权项：1.基于人类反馈强化学习的奖励模型训练方法，其特征在于，包括如下步骤；S1，采用标注的指令提示和回复文本作为监督数据对基座模型进行监督训练，获得监督训练模型；S2，收集需要的指令提示，将所述指令提示输入监督训练模型中生成多个回复文本，并且对原指令提示增加人类偏好提示，获得一组增加人类偏好提示后的指令提示和回复文本列表；S3，使用大模型对增加人类偏好提示后的指令提示和回复文本列表进行打分标注，获得标注的排序数据；S4，对标注的排序数据进行数据增强，获得数据增强后的排序数据；S5，利用数据增强后的排序数据并采用低秩适配LORA的方法，对奖励模型进行训练，获得一个多门混合专家模型MMOE，用于学习多个方向的人类偏好；S6，结合步骤S5得到的多门混合专家模型MMOE，采用强化学习方法训练步骤S1中的监督训练模型，得到最终的对话模型。

全文数据：

权利要求：

百度查询：浙江实在智能科技有限公司基于人类反馈强化学习的奖励模型训练方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于3C零件组装的点胶设备

下一篇：电芯和电子设备

相关技术

一种用于3C零件组装的点胶设备

电芯和电子设备

一种家用温湿度传感器

一种双向限位器

一种生态护坡绿化模块

混料搅拌装置

一种细分子印刷喷粉加工用研磨装置

一种水利施工用混凝土搅拌装置

一种连续制备五氯化磷的装置

一种宽度紧凑型半导体封装结构

一种数控机床主轴箱冷却装置

一种螺旋输送装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于人类反馈强化学习的奖励模型训练方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务