恭喜杭州沧海观止科技有限公司陈晓露获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜杭州沧海观止科技有限公司申请的专利一种面向大语言模型的增量模型合并方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119294465B 。
龙图腾网通过国家知识产权局官网在2025-05-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411803376.6,技术领域涉及:G06N3/084;该发明授权一种面向大语言模型的增量模型合并方法和系统是由陈晓露;陈天楚;汪玲洁;范全放;施青松设计研发完成,并于2024-12-10向国家知识产权局提交的专利申请。
本一种面向大语言模型的增量模型合并方法和系统在说明书摘要公布了:本发明公开了一种面向大语言模型的增量模型合并方法和系统,属于机器学习技术领域,方法包括:首次增量模型合并时通过专家模型更新的任务向量以及预训练模型在校准数据集上的梯度计算专家模型的困惑参数并转化为参数掩码矩阵;根据任务向量、梯度和参数掩码矩阵计算专家模型的参数重要性并采样生成采样掩码矩阵,利用采样掩码矩阵对任务向量进行放缩生成增量任务向量;将增量任务向量添加到预训练模型的参数中生成合并模型的参数;后续增量模型合并时采用与首次同样的方法将不同的新的专家模型依次合并到前次合并得到的合并模型上。本发明能依次增量叠加地合并不同特定任务的专家模型,避免了参数冲突和任务冲突,提高了模型合并性能。
本发明授权一种面向大语言模型的增量模型合并方法和系统在权利要求书中公布了:1.一种面向大语言模型的增量模型合并方法,其特征在于,包括以下步骤:首先获取在大规模通用语料上预训练得到的预训练模型,基于预训练模型在针对不同特定任务的不同校准数据集上分别进行微调得到不同的专家模型,包括文本生成任务的专家模型、问答咨询任务的专家模型、文本分类任务的专家模型、情感分析任务的专家模型;在首次增量模型合并时,通过专家模型在增量模型合并过程中更新的任务向量以及预训练模型在校准数据集上的梯度计算专家模型的困惑参数,并将困惑参数转化为参数掩码矩阵,包括:计算第个专家模型的任务向量,表示为: ,其中,表示预训练模型的参数,表示第个专家模型的参数;计算预训练模型在第个专家模型微调所使用的校准数据集上的梯度,表示为: ,其中,表示梯度计算,表示基于损失函数;当梯度的方向与任务向量方向不同时,得到与任务向量相关的参数并作为困惑参数,在第个专家模型的参数掩码矩阵中采用不同元素值分别表示梯度与任务向量方向相同或不同;根据任务向量、梯度和参数掩码矩阵计算专家模型的参数重要性,对参数重要性进行采样生成采样掩码矩阵,利用采样掩码矩阵对任务向量进行放缩生成增量任务向量;将增量任务向量添加到预训练模型的参数中生成合并模型的参数,得到合并模型,完成首次增量模型合并;在后续增量模型合并时,每次合并时将前次合并得到的合并模型和新的专家模型分别替换上述的预训练模型和专家模型,采用与首次增量模型合并同样的方法将新的专家模型合并到前次合并得到的合并模型上,直至依次完成所有专家模型的增量模型合并,从而避免参数冲突和任务冲突,进一步提高模型合并性能,并有效降低显存的占用。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州沧海观止科技有限公司,其通讯地址为:310000 浙江省杭州市西湖区西溪路525号浙大科技园A楼西区621室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。