【发明授权】基于结构搜索和知识蒸馏的卷积神经网络模型压缩方法和装置_之江实验室_202311073117.8

申请/专利权人：之江实验室

申请日：2023-08-24

公开（公告）日：2024-06-21

公开（公告）号：CN117114053B

主分类号：G06N3/0464

分类号：G06N3/0464;G06V10/82;G06V10/774

优先权：

专利状态码：有效-授权

法律状态：2024.06.21#授权;2023.12.12#实质审查的生效;2023.11.24#公开

摘要：本发明公开了一种基于结构搜索和知识蒸馏的卷积神经网络模型压缩的方法和装置，包括以下步骤：获取目标任务数据集；从目标任务数据集划分出训练集，利用训练集对卷积神经网络模型进行训练；卷积神经网络模型完成训练后作为教师网络；利用神经结构搜索技术对卷积神经网络模型搜索出轻量化网络结构；将搜索得到的轻量化网络结构作为学生网络；进行知识蒸馏，计算教师网络和学生网络Softmax层输出的差异，将差异作为学生网络损失的一部分，对学生网络进行迭代训练直至收敛；输出知识蒸馏后的学生网络模型，即压缩完成的模型。本发明方法能有效减少模型冗余参数，实现自动对学生网络模型进行设计，适用于高效和自适应的模型压缩应用场景。

主权项：1.一种基于结构搜索和知识蒸馏的卷积神经网络模型压缩方法，其特征在于，包括以下步骤：步骤S1，获取Cifar-10图像数据集作为目标任务数据集T；步骤S2，从目标任务数据集T划分出训练集Ttrain，利用训练集Ttrain对部署到空基平台装备任务系统中的卷积神经网络模型进行训练，所述步骤S2包括：S21，对目标任务数据集T进行划分得到训练集Ttrain、验证集Tval和测试集Ttest；S22，将训练集Ttrain输入到卷积神经网络模型；S23，设定训练卷积神经网络模型的损失函数L：其中，x表示训练的输入，y表示结果的标签，W表示目标网络的权重，fx,W表示目标网络logits层的输出，softmax·表示使用softmax函数将logits层的输出转换为类别的概率分布，lcross·表示卷积神经网络将交叉熵作为训练的损失函数；S24，根据设定的损失函数训练目标网络参数；S25，输出训练完成的卷积神经网络模型及其参数；步骤S3，卷积神经网络模型完成训练后作为教师网络；步骤S4，利用神经结构搜索技术对卷积神经网络模型搜索出轻量化网络结构，所述步骤S4包括：S41，定义学生网络搜索空间，将卷积神经网络模型通过搜索空间构造混合模型，混合模型中包含若干独立模型，对搜索空间的节点之间的操作分别赋予不同的结构权重v；S42，将训练集Ttrain划分成第一训练集Ttrain1和第二训练集Ttrain2，分别用于训练混合模型的结构权重v和混合模型的网络模型权重w；S43，固定网络模型权重w，在第一训练集Ttrain1上训练混合模型对结构权重v进行优化；S44，固定结构权重v，在第二训练集Ttrain2上训练混合模型对网络模型权重w进行优化；S45，重复S43-S44若干个轮次，每个轮次结束后根据每个操作的结构权重最大值确定独立模型结构，输入验证集Tval对独立模型评估，精度最高的独立模型即本次结构搜索得到的轻量化网络结构；步骤S5，将搜索得到的轻量化网络结构作为学生网络；步骤S6，进行知识蒸馏，将训练集Ttrain分别输入到教师网络和学生网络当中，计算教师网络和学生网络Softmax层输出的差异，将差异作为学生网络损失的一部分，对学生网络进行迭代训练直至收敛，所述步骤S6包括：S61，将训练集Ttrain输入到教师网络和学生网络，获取教师网络和学生网络在logits层的输出；S62，利用softmax函数将logits层的输出转换成类别的概率分布；S63，使用KL散度计算教师网络和学生网络类别概率分布的差异，并将差异作为学生网络的软目标损失Lsoft-Targetystudent,yteacher，计算公式如下：其中，ystudent表示学生网络预测的类别概率分布，yteacher表示教师网络预测的类别概率分布；S64，设计知识有效性验证权重Hyteacher,y，避免学生网络模型从教师网络模型中学习到错误的知识：其中，argmax·表示求参函数，当教师网络模型预测结果yteacher与标签y一致时输出有效性验证权重值为1，当教师网络模型预测结果yteacher与标签y不一致时，输出有效性验证权重值为0；S65，定义学生网络的训练损失函数Lstuedent：其中，α表示硬目标损失Lhard-Targetystudent,y的权重，β表示软目标损失Lsoft-Targetystudent,yteacher的权重；S66，根据定义的学生网络训练损失函数对学生网络进行迭代训练，直至学生网络模型收敛；步骤S7，输出知识蒸馏后的学生网络模型，即压缩完成的模型，部署至空基平台装备任务系统。

全文数据：

权利要求：

百度查询：之江实验室基于结构搜索和知识蒸馏的卷积神经网络模型压缩方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：显示面板、显示装置及其亮度调整方法、可读存储介质_京东方科技集团股份有限公司_202410382590.2

下一篇：一种辅助头部手术定位设备及其定位系统_山西嗨探科科技有限公司_202410442801.7

相关技术

显示面板、显示装置及其亮度调整方法、可读存储介质_京东方科技集团股份有限公司_202410382590.2

一种辅助头部手术定位设备及其定位系统_山西嗨探科科技有限公司_202410442801.7

一种高介电常数硅橡胶复合材料及其制备方法_无锡海特新材料研究院有限公司_202410363972.0

一种多腔气管导管及气管穿刺器_皖南医学院第一附属医院(皖南医学院弋矶山医院)_202410473717.1

一种可翻土和耕种的自动播种机_湖南人文科技学院_202410635888.X

一种单层彩色全息光波导显示装置_南昌虚拟现实研究院股份有限公司_202410552766.4

一种汽车轮边孔位检测装置_山东祥瑞工贸有限公司_202410676646.5

一种含四重氢键的聚氨酯抗冲击材料及其制备方法和应用_北京理工大学_202410480824.7

白乌鱼抗氧化肽及其制备方法和应用_成都大学_202410402142.4

基于批量打开多项式承诺的可验证秘密分享方法及系统_山东大学_202410493240.3

一种铝基复合材料及其增材制备方法与应用_湘潭大学_202410442969.8

一种自适应外肋骨大型筒体施工作业平台_武昌船舶重工集团有限公司_202410542055.9

网络相关技术

网络网关设备_道莅智远技术(苏州)有限公司_202323013590.5

车载网络系统_马自达汽车株式会社_202080061284.9

基于网络的测量系统_恩德莱斯和豪瑟尔分析仪表两合公司_202311774397.5

车载网络诊断系统_上海仁童电子科技有限公司_202410355140.4

基于深度Q网络的网络性能优化系统和方法_融鼎岳(北京)科技有限公司_202311819897.6

网络方法、网络装置和计算机可读存储介质_瞻博网络公司_202110254754.X

基于改进胶囊神经网络的社交网络信息级联预测方法及装置_西安电子科技大学_202410228989.5

神经网络计算模块、处理单元和神经网络处理器_中国科学院计算技术研究所_202410385647.4

可装设网络设备的路灯及其网络设备管理系统_永滐投资有限公司_202311786998.8

一种网络服务器用网络支撑装置_宿迁信合科技有限公司_202322828922.9

积相关技术

一种防积灰双闸板进料阀_无锡清风环保科技有限公司_202322768478.6

一种高效积层式电池叠片机_合肥前卫科技有限公司_202410504856.6

使用可见光图像预测光伏组件积灰程度的方法及系统_武汉科技大学_202410403111.0

一种防止回转式空气预热器积灰沾污的系统_国网湖南省电力有限公司_201910382001.X

光伏发电单元的积尘损失确定方法、清洁方法和装置_阳光电源股份有限公司_202410382295.7

基于深度学习的混积岩多矿物体积含量预测方法及装置_中国石油天然气集团有限公司_202211660991.7

一种电除尘设备的积灰疏通装置_佛山恒益热电有限公司_202322966070.X

一种小苏打干法脱硫烟道防积灰装置_河南迎元环保设备制造有限公司_202322740788.7

一种斗提机底部积渣清理装置_山西崇光发电有限责任公司_202323163968.X

一种多层木积材造型艺术墙_安徽省敦煌装饰工程有限公司_202322391810.1

神经相关技术

植入式神经刺激器的电极引线及植入式神经刺激器系统_苏州新云医疗设备有限公司_202410667091.8

一种神经导管的制备方法及神经导管_奥精医疗科技股份有限公司_202210620660.4

肉毒神经毒素组合物_玫帝托克斯股份有限公司_202280076194.6

训练动作选择神经网络_渊慧科技有限公司_202410220856.3

一种神经电刺激组件_首都医科大学宣武医院_202410677682.3

将神经网络映射到硬件_想象技术有限公司_202311719821.6

在硬件中实现神经网络_想象技术有限公司_202311725925.8

一种卷积神经网络加速方法及卷积神经网络加速器_电子科技大学_202410482121.8

一种基于时间域计算的脉冲神经网络神经元实现电路_电子科技大学_202410335286.2

一种神经内科用按摩仪_上海市东方医院(同济大学附属东方医院)_202322088636.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】基于结构搜索和知识蒸馏的卷积神经网络模型压缩方法和装置_之江实验室_202311073117.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务