首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于结构搜索和知识蒸馏的卷积神经网络模型压缩方法和装置_之江实验室_202311073117.8 

申请/专利权人:之江实验室

申请日:2023-08-24

公开(公告)日:2024-06-21

公开(公告)号:CN117114053B

主分类号:G06N3/0464

分类号:G06N3/0464;G06V10/82;G06V10/774

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2023.12.12#实质审查的生效;2023.11.24#公开

摘要:本发明公开了一种基于结构搜索和知识蒸馏的卷积神经网络模型压缩的方法和装置,包括以下步骤:获取目标任务数据集;从目标任务数据集划分出训练集,利用训练集对卷积神经网络模型进行训练;卷积神经网络模型完成训练后作为教师网络;利用神经结构搜索技术对卷积神经网络模型搜索出轻量化网络结构;将搜索得到的轻量化网络结构作为学生网络;进行知识蒸馏,计算教师网络和学生网络Softmax层输出的差异,将差异作为学生网络损失的一部分,对学生网络进行迭代训练直至收敛;输出知识蒸馏后的学生网络模型,即压缩完成的模型。本发明方法能有效减少模型冗余参数,实现自动对学生网络模型进行设计,适用于高效和自适应的模型压缩应用场景。

主权项:1.一种基于结构搜索和知识蒸馏的卷积神经网络模型压缩方法,其特征在于,包括以下步骤:步骤S1,获取Cifar-10图像数据集作为目标任务数据集T;步骤S2,从目标任务数据集T划分出训练集Ttrain,利用训练集Ttrain对部署到空基平台装备任务系统中的卷积神经网络模型进行训练,所述步骤S2包括:S21,对目标任务数据集T进行划分得到训练集Ttrain、验证集Tval和测试集Ttest;S22,将训练集Ttrain输入到卷积神经网络模型;S23,设定训练卷积神经网络模型的损失函数L: 其中,x表示训练的输入,y表示结果的标签,W表示目标网络的权重,fx,W表示目标网络logits层的输出,softmax·表示使用softmax函数将logits层的输出转换为类别的概率分布,lcross·表示卷积神经网络将交叉熵作为训练的损失函数;S24,根据设定的损失函数训练目标网络参数;S25,输出训练完成的卷积神经网络模型及其参数;步骤S3,卷积神经网络模型完成训练后作为教师网络;步骤S4,利用神经结构搜索技术对卷积神经网络模型搜索出轻量化网络结构,所述步骤S4包括:S41,定义学生网络搜索空间,将卷积神经网络模型通过搜索空间构造混合模型,混合模型中包含若干独立模型,对搜索空间的节点之间的操作分别赋予不同的结构权重v;S42,将训练集Ttrain划分成第一训练集Ttrain1和第二训练集Ttrain2,分别用于训练混合模型的结构权重v和混合模型的网络模型权重w;S43,固定网络模型权重w,在第一训练集Ttrain1上训练混合模型对结构权重v进行优化;S44,固定结构权重v,在第二训练集Ttrain2上训练混合模型对网络模型权重w进行优化;S45,重复S43-S44若干个轮次,每个轮次结束后根据每个操作的结构权重最大值确定独立模型结构,输入验证集Tval对独立模型评估,精度最高的独立模型即本次结构搜索得到的轻量化网络结构;步骤S5,将搜索得到的轻量化网络结构作为学生网络;步骤S6,进行知识蒸馏,将训练集Ttrain分别输入到教师网络和学生网络当中,计算教师网络和学生网络Softmax层输出的差异,将差异作为学生网络损失的一部分,对学生网络进行迭代训练直至收敛,所述步骤S6包括:S61,将训练集Ttrain输入到教师网络和学生网络,获取教师网络和学生网络在logits层的输出;S62,利用softmax函数将logits层的输出转换成类别的概率分布;S63,使用KL散度计算教师网络和学生网络类别概率分布的差异,并将差异作为学生网络的软目标损失Lsoft-Targetystudent,yteacher,计算公式如下: 其中,ystudent表示学生网络预测的类别概率分布,yteacher表示教师网络预测的类别概率分布;S64,设计知识有效性验证权重Hyteacher,y,避免学生网络模型从教师网络模型中学习到错误的知识: 其中,argmax·表示求参函数,当教师网络模型预测结果yteacher与标签y一致时输出有效性验证权重值为1,当教师网络模型预测结果yteacher与标签y不一致时,输出有效性验证权重值为0;S65,定义学生网络的训练损失函数Lstuedent: 其中,α表示硬目标损失Lhard-Targetystudent,y的权重,β表示软目标损失Lsoft-Targetystudent,yteacher的权重;S66,根据定义的学生网络训练损失函数对学生网络进行迭代训练,直至学生网络模型收敛;步骤S7,输出知识蒸馏后的学生网络模型,即压缩完成的模型,部署至空基平台装备任务系统。

全文数据:

权利要求:

百度查询: 之江实验室 基于结构搜索和知识蒸馏的卷积神经网络模型压缩方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。