Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种端到端CNN加速器及剪枝模型压缩方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:清华大学;北京宁矩科技有限公司

摘要:本发明提供了一种端到端CNN加速器及剪枝模型压缩方法,基于EEG评估持续注意力水平,方法包括:对CNN模型依次进行组卷积、全局平均池、近零剪枝、偏差驱动剪枝、权重聚类和量化步骤,得到压缩后的CNN模型;其中,所述CNN模型由四个卷积块、一个全局平均池化层和一个线性层组成,每个卷积块包括一维卷积层、一维批量归一化层和校正线性单元层。所述加速器由FPGA实现,具体包括:两两互相连接的控制器、片上块随机存取存储器、处理引擎阵列。本发明达到183.11倍的模型压缩比,在二元注意水平分类任务上达到了84.2%的独立于被试的准确率。本发明在FPGA上达到了0.11W的设计功耗和8.19GOpsW的能效。

主权项:1.一种用于执行基于偏差驱动的剪枝模型压缩方法的端到端的CNN加速器,其特征在于,基于EEG评估持续注意力水平,且所述加速器由FPGA实现,具体包括:两两互相连接的控制器、片上块随机存取存储器、处理引擎阵列;所述CNN的网络的权重和前三个卷积块的输出存储在片上块随机存取存储器中,最后一个卷积块的输出映射直接用于全局平均池化层输出;四个卷积块的推断分别需要5016、5076、5016和5024的处理引擎周期,线性层的推断只需要一个处理引擎周期;所述处理引擎阵列包括16个处理引擎,每个处理引擎占用128个乘法器、64个加法器和128个寄存器;所述加速器执行的剪枝模型压缩方法包括如下步骤:对CNN模型依次进行组卷积、全局平均池、近零剪枝、偏差驱动剪枝、权重聚类和量化步骤,得到压缩后的CNN模型;其中,所述CNN模型由四个卷积块、一个全局平均池化层和一个线性层组成,每个卷积块包括一维卷积层、一维批量归一化层和校正线性单元层;所述CNN模型中的批量归一化层如等式5所示: 其中,γ和β是两个可学习的参数;E[χ]BN和Var[χ]BN表示小批量中每个通道的平均值和方差,它们是在推理阶段前计算和存储的;根据公式6的处理引擎体系结构是为一维卷积块和线性层设计的; 当在卷积块中使用时,w表示卷积层的权重,而b和wBN由公式7和8计算:b=bias-EBN7 其中bias表示卷积层偏差;当处理引擎用于线性层的推断时,等式6中的w和b表示线性层的权重和偏差,而wBN和β分别设置为1和0。

全文数据:

权利要求:

百度查询: 清华大学 北京宁矩科技有限公司 一种端到端CNN加速器及剪枝模型压缩方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。