首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

训练奖励模型的方法、装置、设备和存储介质 

申请/专利权人:北京百川智能科技有限公司

申请日:2023-12-29

公开(公告)日:2024-06-07

公开(公告)号:CN118152798A

主分类号:G06F18/214

分类号:G06F18/214;G06F18/2431;G06F18/241;G06N20/00

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.25#实质审查的生效;2024.06.07#公开

摘要:本公开的实施例提供了一种训练奖励模型的方法、装置、设备和计算机可读存储介质。该方法通过基于包括分类粒度呈递减关系的多级分类来获取提示指令以平衡大语言模型的类别分布,并针对每个提示指令生成多种提示响应来平衡大语言模型的结果多样性分布,其中所生成的提示响应可以涵盖包括基准提示响应、不同的语言模型生成的提示响应、大语言模型在不同训练阶段生成的提示响应、以及通过不同温度系数控制的提示响应等的各种提示响应,以基于这些提示响应来对奖励模型进行训练,使得奖励模型对较优的提示响应的打分与对较差的提示响应的打分之间的差距最大化,从而生成经训练的奖励模型,提升奖励模型的泛化性。

主权项:1.一种训练奖励模型的方法,所述奖励模型与大语言模型相关联,所述方法包括:基于多级分类系统,获取提示指令集合,其中,所述多级分类系统包括分类粒度呈递减关系的多级分类;针对所述提示指令集合中的每个提示指令,收集多个提示响应,其中,所述多个提示响应包括以下中的至少两项:不同的语言模型基于所述提示指令生成的提示响应;所述大语言模型基于所述提示指令在不同训练阶段生成的提示响应,包括所述大语言模型基于所述提示指令在经过监督微调后生成的提示响应、所述大语言模型基于所述提示指令在强化学习期间生成的提示响应、以及所述大语言模型在经过强化学习后生成的提示响应;以及所述大语言模型在不同的温度系数的控制下基于所述提示指令生成的提示响应,所述温度系数用于控制所述大语言模型生成的提示响应的多样性;针对所述提示指令集合中的每个提示指令,基于与所述提示指令相对应的多个提示响应,构建多个提示响应对;以及基于与所述提示指令集合相关联的所有提示响应对,通过使所述奖励模型对每个提示响应对中的较优提示响应的打分与对所述提示响应对中的较差提示响应的打分之间的差距最大化,对所述奖励模型进行训练,其中,所述提示响应对中的所述较优提示响应和所述较差提示响应是通过对所述提示响应对中的提示响应的优劣排序而确定的。

全文数据:

权利要求:

百度查询: 北京百川智能科技有限公司 训练奖励模型的方法、装置、设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。