Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜杭州微宏科技有限公司尹珉获国家专利权

恭喜杭州微宏科技有限公司尹珉获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜杭州微宏科技有限公司申请的专利基于动态稀疏化的大模型增量训练方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119669714B

龙图腾网通过国家知识产权局官网在2025-05-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510186056.9,技术领域涉及:G06F18/21;该发明授权基于动态稀疏化的大模型增量训练方法及系统是由尹珉;韩彤;俞哲峰设计研发完成,并于2025-02-20向国家知识产权局提交的专利申请。

基于动态稀疏化的大模型增量训练方法及系统在说明书摘要公布了:本发明属于模型训练技术领域,具体涉及基于动态稀疏化的大模型增量训练方法及系统。方法包括:S1,采用多维度的评估方法,对大模型的参数重要性进行评估,反映参数对大模型性能的贡献;S2,采用自适应的结构调整方法,对大模型结构进行动态稀疏化控制;S3,通过构建容量可调的经验回放缓冲池以及提出多目标损失函数,对大模型进行增量训练管理;S4,采用混合精度量化策略,对大模型进行模型压缩优化。本发明具有能够通过实时评估模型参数的重要性,动态调整网络结构,从而在保证模型性能的同时实现高效训练的特点。

本发明授权基于动态稀疏化的大模型增量训练方法及系统在权利要求书中公布了:1.基于动态稀疏化的大模型增量训练方法,其特征在于,包括如下步骤;S1,采用多维度的评估方法,对大模型的参数重要性进行评估,反映参数对大模型性能的贡献;S2,采用自适应的结构调整方法,对大模型结构进行动态稀疏化控制;S3,通过构建容量可调的经验回放缓冲池以及提出多目标损失函数,对大模型进行增量训练管理;所述增量训练管理基于经过格式化处理的100万条医疗对话数据;S4,采用混合精度量化策略,对大模型进行模型压缩优化;步骤S1包括如下步骤:S11,通过计算参数对损失函数的影响程度来评估参数敏感度;具体的,对于损失函数Lθ在参数θi处的敏感度计算,采用二阶泰勒展开近似:Lθi+Δθi≈Lθi+giΔθi+12hiΔθi2;其中,Lθi表示在参数θi处的损失函数值,Δθi表示参数θi的微小变化量;为损失函数关于参数θi的一阶导数;为损失函数关于参数θi的二阶导数;定义参数θi的敏感度得分Si为:Si=|gi|+λ|hi|;其中,|gi|表示一阶导数的绝对值,反映参数变化对损失函数的直接影响;|hi|表示二阶导数的绝对值,反映参数变化对模型稳定性的影响;λ为平衡因子,用于调节一阶项和二阶项的相对重要性,取值范围为[0,1];采用小批量数据进一步估计敏感度得分Si:Si=1|B|∑V|git|+λ|hit|;其中,B表示小批量数据集;|B|表示批量大小;git和hit分别表示在批次V上计算的一阶和二阶导数;S12,参数的最终敏感度得分通过指数滑动平均进行平滑:Si_p=αSi_p+1-αSi_p-1;其中,Si_p表示第p步的敏感度得分;α为平滑系数,取值范围为[0,1];Si_p-1表示第p-1步的敏感度得分;S13,参数的最终敏感度得分通过指数滑动平均进行平滑后,结合其他维度的评估指标,进行多维度加权组合计算;具体的,参数θi的综合重要性得分Ii按如下方式计算:Ii=w1Si+w2Ai+w3Ti;其中,Si为参数敏感度得分;Ai为参数的激活值影响得分,计算公式为:Ai=1|D|∑x|aiu|;其中,|D|为数据集大小,aiu为参数θi在样本x上的激活值;Ti为任务特定得分,根据具体任务类型计算:对于分类任务:Ti=MIθi,Y;其中,MIθi,Y表示参数θi与类别标签Y之间的互信息,用于度量参数θi对分类结果的信息贡献程度;互信息越大,表示参数对分类任务的贡献越显著;对于生成任务:Ti=KLP||Q;其中,KLP||Q表示KL散度,用于度量有参数θi时的输出分布P与无参数θi时的输出分布Q之间的差异程度;P和Q分别为有无参数θi时的输出概率分布;KL散度越大,表示参数θi对生成结果的影响越显著;w1、w2、w3为各维度的权重系数,且满足w1+w2+w3=1;S14,获得综合重要性得分Ii后,使用基于分位数的自适应阈值方法进行参数分类,分类情况如下:当IiQ3,则对应参数为重要参数;其中,Q3为得分分布的上四分位数,即75%分位点;当Q1≤Ii≤Q3,则对应参数为次要参数;Q1为得分分布的下四分位数,即25%分位点;当IiQ1,则对应参数为非关键参数;引入动态调整机制:τ_t=βτ_t-1+1-βτ*;其中,τ_t为当前时刻的阈值;τ_t-1为时刻t-1的历史阈值;τ*为根据当前性能和资源约束计算的目标阈值;β为平滑因子,取值范围[0,1]。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州微宏科技有限公司,其通讯地址为:310020 浙江省杭州市上城区城星路69号中天国开大厦9F;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。