首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

通过梯度稀疏从祖先选择学习基因构建后代模型的方法 

申请/专利权人:东南大学

申请日:2023-09-21

公开(公告)日:2024-04-26

公开(公告)号:CN117172283B

主分类号:G06N3/0442

分类号:G06N3/0442;G06N3/0985

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2023.12.22#实质审查的生效;2023.12.05#公开

摘要:本发明提供了通过梯度稀疏从祖先选择学习基因构建后代模型的方法,包括:构建包含稳定模块和弹性模块的祖先模型;稳定模块的参数是通过梯度稀疏选择的祖先模型见过的所有任务的共性知识,能够用来适应各种下游任务,作为祖先模型的学习基因库;弹性模块的参数是用来适应新任务,获取新任务的知识;后代模型通过祖先模型的稳定模块来初始化;使用“门控制”模块对稳定模块的梯度进行稀疏处理,用来保留所有见过任务的共性参数,构建学习基因库,使得由稳定模块初始化的后代模型能够更好地适应新的任务。基于本发明方法,后代模型可以在从未见过的任务包含少样本数据的任务上快速收敛并且有比较好的效果。

主权项:1.通过梯度稀疏从祖先选择学习基因构建后代模型的方法,其特征在于,包括如下步骤:构建包含稳定模块和弹性模块的祖先模型;稳定模块的参数是通过梯度稀疏选择的祖先模型见过的所有任务的共性知识,能够用来适应各种下游任务,作为祖先模型的学习基因库;弹性模块的参数是用来适应新任务,获取新任务的知识;后代模型通过祖先模型的稳定模块来初始化;使用“门控制”模块对稳定模块的梯度进行稀疏处理,用来保留所有见过任务的共性参数,构建学习基因库,使得由稳定模块初始化的后代模型能够更好地适应新的任务;具体包括如下步骤:S1,构建了祖先模型,其中包含稳定模块和弹性模块稳定模块里面的参数在训练不同任务的时候是有选择的保留和更新;弹性模块的所有参数都进行更新,用来适应新任务的知识;S2,在目标数据Ds中的第n个task的中的某一个数据点输入到祖先模型时,分别获得由稳定模块和弹性模块抽取的特征表示:和S3,在步骤S2中获得的两个特征表示以后,加权输入到祖先模型的分类层中进行训练,这两个特征表示的权重和公式如下: 其中,α是超参数,用来权衡稳定模块和弹性模型输出的特征比重;S4,为了实现步骤S1中祖先模型的稳定模块可以不断积累新任务和过去学习的任务中的共性知识,即学习基因,设计了“门控制”模块φ,“门控制”模块作用在祖先模型的稳定模块上,用来保留祖先模型见过的所有任务的共性参数,建立一个学习基因库;“门控制”模块是一个矩阵,作用在稳定模块的梯度上,对稳定模块的梯度有稀疏作用,用于决定稳定模块的参数是否进行更新,其公式如下: 其中,μm,i表示的是在第i次迭代更新的时候稳定模块的参数,是指示函数,表示的是实数空间,是点乘积,γ是学习率,是祖先模型训练过程的损失函数;S5,经过步骤S3获得的特征表示输入到祖先模型的分类层进行训练;祖先模型训练的损失函数包括了两个部分,其中一个是分类损失函数,公式如下: 其中,是数据点的正确标记,δ是指示函数,σh是分类层对于第h个类的预测数值;另一个损失函数是蒸馏损失函数,使得祖先模型在新的任务和之前的任务上保存的知识具有一致性,也就是祖先模型保存了见过的所有任务的共性知识,即学习基因,公式如下: 其中,并且表示的是上一个任务分类层对第h个类的预测数值,τ是一个超参数;所以祖先模型训练的损失函数是: S6,在步骤S5中所提到的祖先模型损失函数中,需要优化的参数有两组,分别是[μm,μc]和φ,其中参数μm的更新是受到参数φ的约束,两组参数不能同时优化;因此,对于第n个任务来说,祖先模型在训练过程中的优化目标函数是: 即祖先模型训练的时候,参数[μm,μc]和φ的优化分为两个阶段;S7,在步骤S6中,祖先模型的优化过程分为两个阶段,针对两个优化阶段的特性,两个优化阶段所使用的数据集有所区别;在训练祖先模型的时候,稳定模块和弹性模块用于抽取数据特征,在优化参数[μm,μc]的时候使用的当前所有的数据“门控制”模块用于保存稳定模块中的共性知识,为了防止每个类别的数据不均衡导致训练的时候出现偏差,在优化“门控制”模块参数时,使用的数据集是其中是从中抽取出来数据,保证每个类别的数据数目一样;步骤S8,在步骤S7中,针对两个优化阶段的特性,对每个步骤优化阶段使用不同的数据集;因此所述步骤S6中的祖先模型的优化目标函数发生变化,如下公式所示: S9,在步骤S6-S8训练结束以后,祖先模型在稳定模块上构建了一个学习基因库;利用祖先模型中的稳定模块构建适应其他不同任务的后代模型ht;后代模型的参数由稳定模块参数和部分随机初始化参数构成;后代模型在它们各自对应的任务上进行训练,训练的损失函数如下: 其中,M表示的是目标数据集的类别数目,是目标数据集Dt上的一个数据点;基于上述步骤构建后代模型,将图像数据集中的类别划分为两部分,一部分类别用于训练祖先模型,另一部分用于测试后代模型;在祖先模型训练的时候,每个任务包含了2个类别,这些任务的类别都不一样;在后代模型测试的时候,是从用于测试后代模型的类别中随机抽取5个类别构成下游分类任务。

全文数据:

权利要求:

百度查询: 东南大学 通过梯度稀疏从祖先选择学习基因构建后代模型的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。