基于人类反馈强化学习的奖励模型训练方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江实在智能科技有限公司

摘要：本发明属于模型训练技术领域，具体涉及基于人类反馈强化学习的奖励模型训练方法及系统。方法包括：S1，采用标注的指令提示和回复文本对基座模型进行监督训练，获得监督训练模型；S2，获得一组增加人类偏好提示后的指令提示和回复文本列表；S3，使用大模型对增加人类偏好提示后的指令提示和回复文本列表进行打分标注，获得标注的排序数据；S4，对标注的排序数据进行数据增强，获得数据增强后的排序数据；S5，利用数据增强后的排序数据并采用低秩适配LORA的方法，对奖励模型进行训练，获得一个多门混合专家模型MMOE；S6，结合多门混合专家模型MMOE，采用强化学习方法训练步骤S1中的监督训练模型，得到最终的对话模型。

主权项：1.基于人类反馈强化学习的奖励模型训练方法，其特征在于，包括如下步骤；S1，采用标注的指令提示和回复文本作为监督数据对基座模型进行监督训练，获得监督训练模型；S2，收集需要的指令提示，将所述指令提示输入监督训练模型中生成多个回复文本，并且对原指令提示增加人类偏好提示，获得一组增加人类偏好提示后的指令提示和回复文本列表；S3，使用大模型对增加人类偏好提示后的指令提示和回复文本列表进行打分标注，获得标注的排序数据；S4，对标注的排序数据进行数据增强，获得数据增强后的排序数据；S5，利用数据增强后的排序数据并采用低秩适配LORA的方法，对奖励模型进行训练，获得一个多门混合专家模型MMOE，用于学习多个方向的人类偏好；S6，结合步骤S5得到的多门混合专家模型MMOE，采用强化学习方法训练步骤S1中的监督训练模型，得到最终的对话模型；在步骤S5中，多门混合专家模型MMOE中的每个专家模型，均为以监督训练模型为基础的奖励模型；步骤S5中，在训练阶段，损失函数loss的计算过程如下：S51，对于一对指令提示和回复文本组成的输入xh,xl，对于每个输入x，每个专家模型的输出为fix；其中，xh为输入和得分较高的回复，xl为输入和得分较低的回复；S52，每个门Gate的输出gkx为：gkx＝softmaxwgkx；其中，wgk∈Rn×d是可训练的矩阵，n为专家数量，d为特征纬度；gkx为第k个门的输出，输出的维度为专家的数量；S53，线性层的输出fkx为：其中，gkxi为gkx的第i维输出结果；S54，每个方向的偏好的输出分数yk为：yk＝hkfkx；其中，hk∈Rd×1为任务k的分数计算权重矩阵；S55，分别对xh,xl计算分数：ykxh＝hkfkxh；ykxl＝hkfkxl；得到损失函数loss＝-logsigmoidykxh-ykxl；步骤S5还包括如下步骤：S56，通过在训练数据上进行迭代优化，最小化损失函数loss，获得训练后的奖励模型rθ；步骤S5中，对于每个专家模型，使用相同的基于转换器transformer的架构，每个专家模型共用同一个预训练权重W；对于每个专家模型，各自对应有不同的LORA自适应矩阵组；采用低秩适配LORA的方法对奖励模型进行训练时，对于每个专家模型，仅更新各自对应的LORA自适应矩阵组；步骤S6包括如下步骤：S61，设定为待训练的监督训练模型，D为强化学习训练数据，πSFT为第一步中训练的基座模型，β是KL奖励系数，强化学习的目标函数为：其中，Ep,r～D为奖励函数和对数函数的差在训练集D分布上的期望，r为训练数据D中输入p对应的监督训练模型的回复；利用训练数据D进行目标函数最大化训练，得到最终的对话模型。

全文数据：

权利要求：

百度查询：浙江实在智能科技有限公司基于人类反馈强化学习的奖励模型训练方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种换热器结构及冷却系统

下一篇：用于车辆的诊断与刷新设备及方法、系统、车辆以及计算机存储介质

相关技术

一种换热器结构及冷却系统

用于车辆的诊断与刷新设备及方法、系统、车辆以及计算机存储介质

采血盒

一种畜牧兽医牲畜输液的固定器

增透膜、光学透镜及光纤激光设备

有机化合物及包含其的有机发光器件

一种多功能电源变换装置的控制方法

一种油茶粕提取物及其提取方法与在制备抗结肠癌药物中的应用

一种油冷电机

一种模块化的配电终端三遥故障模拟训练系统

一种清洁装置及抽水系统

一种物料运输重型半挂车

奖励相关技术

奖励引导的自动越狱提示生成方法_哈尔滨工业大学_202410564150.9

一种抓取可供性改进Q网络的推动-抓取奖励设计方法_青岛理工大学_202410777022.2

奖励方案的确定方法、装置、电子设备及存储介质_网易(杭州)网络有限公司_202310209463.8

奖励资源的推荐方法、装置、设备和存储介质_北京百度网讯科技有限公司_202110773064.5

产品溯源行为的奖励方法以及区块链服务器_华阳新材料科技集团有限公司_202110762961.6

大型奖励模型的训练数据集的确定方法、装置及电子设备_北京百度网讯科技有限公司_202410680096.4

虚拟奖励资源的分配方法和装置、存储介质及电子设备_腾讯科技(深圳)有限公司_202310155355.7

一种面向稀疏奖励的深度强化学习机械臂抓取方法_中国矿业大学_202410677163.7

基于改进强化学习奖励函数的四足机器人运动控制方法及系统_常州大学_202410291747.0

一种用户设备及奖励权益数据处理方法_聚好看科技股份有限公司_202380015828.1

模型相关技术

车辆驱动系统的模型_上海科梁信息科技股份有限公司_202410735998.3

基于上下文模型的Instant-NGP模型压缩方法_上海交通大学_202410704702.1

一种基于NARX模型的大模型训练慢节点检测方法_天翼云科技有限公司_202410864138.X

增强多模态大语言模型视觉感知能力的方法、模型和装置_华中科技大学_202410716799.8

模型训练方法和基于模型的场景流估计方法_天津港(集团)有限公司_202411061324.6

电机轴承剩余寿命预测方法、系统、模型及模型训练方法_成都赛力斯科技有限公司_202411052755.6

模型训练方法、模型推理方法、电子设备及存储介质_上海壁仞科技股份有限公司_202410912446.5

牙齿模型套具及复层根管治疗术练习模型_北京大学口腔医学院_202410865138.1

用于分割的双级别模型_脸萌有限公司_202380018666.7

用于模型解释的方法及装置_支付宝(杭州)信息技术有限公司_202210369552.4

学习相关技术

基于混合预测和改进的对比学习的噪声标签联邦学习方法_广东工业大学_202410630050.1

基于深度强化学习的自适应异步联邦学习方法及系统_齐鲁工业大学(山东省科学院)_202411052338.1

基于多层分布式学习的协作感知系统及持续学习方法_中国人民解放军国防科技大学_202411086182.9

一种基于联邦学习和深度学习的网络异常检测方法_广东工贸职业技术学院_202410793836.5

儿童学习用计算器_宋宏杰_202321044375.9

用户可定制的机器学习模型_皇家飞利浦有限公司_201911140136.1

一种手绘图学习指引方法及系统_怀化学院_202310229304.4

便携式单词记忆学习机_李凤_202323284617.4

一种学习行为量化评估方法_禾辰纵横信息技术有限公司_202411060035.4

基于深度学习的钢筋端面检测系统_河北工业大学_202410578229.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于人类反馈强化学习的奖励模型训练方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务