恭喜云筑信息科技(成都)有限公司张振羽获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜云筑信息科技(成都)有限公司申请的专利一种基于受限偏好标识排序的偏好对齐模型训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119202915B 。
龙图腾网通过国家知识产权局官网在2025-04-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411713028.X,技术领域涉及:G06F18/2415;该发明授权一种基于受限偏好标识排序的偏好对齐模型训练方法是由张振羽;陶赵文;张自平设计研发完成,并于2024-11-27向国家知识产权局提交的专利申请。
本一种基于受限偏好标识排序的偏好对齐模型训练方法在说明书摘要公布了:本发明公开了一种基于受限偏好标识排序的偏好对齐模型训练方法,包括基于SFT数据集,构建候选偏好数据集;基于候选偏好数据集,构建受限偏好标识排序数据集;采用受限偏好标识排序数据集训练SFT模型,得到偏好对齐模型。本发明能够避免大语言模型在训练中出现不稳定、过拟合等问题,无需人工标注大量偏好数据,并且大幅度减少训练偏好对齐模型所需的算力。
本发明授权一种基于受限偏好标识排序的偏好对齐模型训练方法在权利要求书中公布了:1.一种基于受限偏好标识排序的偏好对齐模型训练方法,其特征在于,包括以下步骤:S1、基于SFT数据集,构建候选偏好数据集;S2、基于候选偏好数据集,构建受限偏好标识排序数据集;S3、采用受限偏好标识排序数据集训练SFT模型,得到偏好对齐模型;所述S1包括:S11、从SFT数据集采样N个数据对,每个数据对包括一个问题Q和一个答案A;S12、基于知识百科语料文本数据集,由SFT模型生成与每个问题Q相似的一个问题集合Q_{S},一个问题集合Q_{S}包含S个相似的子问题q,Q_{S}={q1,q2,..,..qN,..qS};S13、在百科知识库检索与每个问题Q相关联的一个参考文档,对于问题Q的每个相似的子问题q,根据参考文档给出m个标准的第一答案,m个差于第一答案的第二答案和m个优于第一答案的第三答案;S14、将每个相似的子问题q及对应的m个第一答案、m个第二答案和m个第三答案集合为一个列表候选偏好数据D’,每个问题Q对应有S个列表候选偏好数据D’,将S个列表候选偏好数据D’集合为一个候选偏好数据集D_{c},D_{c}={D’1,D’2,..,..D’N,..D’S};所述S2包括:S21、基于参考文档,对每个问题Q的每个列表候选偏好数据D’中所有的第一答案、第二答案和第三答案进行评分;S22、从每个列表候选偏好数据D’采样k个答案,k≤3m,为采样的每个答案赋予一个偏好标识,输出每个列表候选偏好数据D’中评分最高的答案对应的偏好标识;S23、重复S22进行K次,将每次输出的评分最高的答案对应的偏好标识集合为一个受限偏好标识排序数据P’,将每个问题Q的S个受限偏好标识排序数据P’集合为一个受限偏好标识排序数据集P_{c},P_{c}={P’1,P’2,..,..P’N,..P’S}。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人云筑信息科技(成都)有限公司,其通讯地址为:610095 四川省成都市高新区天府二街151号1栋1单元36层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。