训练奖励模型的方法、装置、设备和存储介质

导航：龙图腾网> 最新专利技术> 训练奖励模型的方法、装置、设备和存储介质

申请/专利权人：北京百川智能科技有限公司

申请日：2023-12-29

公开（公告）日：2024-06-07

公开（公告）号：CN118152798A

主分类号：G06F18/214

分类号：G06F18/214;G06F18/2431;G06F18/241;G06N20/00

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.06.25#实质审查的生效;2024.06.07#公开

摘要：本公开的实施例提供了一种训练奖励模型的方法、装置、设备和计算机可读存储介质。该方法通过基于包括分类粒度呈递减关系的多级分类来获取提示指令以平衡大语言模型的类别分布，并针对每个提示指令生成多种提示响应来平衡大语言模型的结果多样性分布，其中所生成的提示响应可以涵盖包括基准提示响应、不同的语言模型生成的提示响应、大语言模型在不同训练阶段生成的提示响应、以及通过不同温度系数控制的提示响应等的各种提示响应，以基于这些提示响应来对奖励模型进行训练，使得奖励模型对较优的提示响应的打分与对较差的提示响应的打分之间的差距最大化，从而生成经训练的奖励模型，提升奖励模型的泛化性。

主权项：1.一种训练奖励模型的方法，所述奖励模型与大语言模型相关联，所述方法包括：基于多级分类系统，获取提示指令集合，其中，所述多级分类系统包括分类粒度呈递减关系的多级分类；针对所述提示指令集合中的每个提示指令，收集多个提示响应，其中，所述多个提示响应包括以下中的至少两项：不同的语言模型基于所述提示指令生成的提示响应；所述大语言模型基于所述提示指令在不同训练阶段生成的提示响应，包括所述大语言模型基于所述提示指令在经过监督微调后生成的提示响应、所述大语言模型基于所述提示指令在强化学习期间生成的提示响应、以及所述大语言模型在经过强化学习后生成的提示响应；以及所述大语言模型在不同的温度系数的控制下基于所述提示指令生成的提示响应，所述温度系数用于控制所述大语言模型生成的提示响应的多样性；针对所述提示指令集合中的每个提示指令，基于与所述提示指令相对应的多个提示响应，构建多个提示响应对；以及基于与所述提示指令集合相关联的所有提示响应对，通过使所述奖励模型对每个提示响应对中的较优提示响应的打分与对所述提示响应对中的较差提示响应的打分之间的差距最大化，对所述奖励模型进行训练，其中，所述提示响应对中的所述较优提示响应和所述较差提示响应是通过对所述提示响应对中的提示响应的优劣排序而确定的。

全文数据：

权利要求：

百度查询：北京百川智能科技有限公司训练奖励模型的方法、装置、设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于治疗小儿肌性斜颈的固定器

下一篇：一种智慧工地人脸识别设备用安装架

相关技术

一种用于治疗小儿肌性斜颈的固定器

一种智慧工地人脸识别设备用安装架

一种电表排母接口测量装置

一种锂电池外壳冲压设备

铠甲式轮胎保护链

一种船舶舷外机通风型保护罩

一种改良聚乙烯颗粒物挤出成型设备

一种装配式铝方通转角拼接结构

一种便于移动的展开式箱房

一种电动汽车用新能源节能充电桩

一种低温拉伸实验箱

一种颈部支撑可调节的枕头

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

训练奖励模型的方法、装置、设备和存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务