买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西北工业大学
摘要:本发明公开了一种并行可微分神经网络架构搜索方法,首先构建带有二进制门的双路径超级网络;然后利用sigmoid函数,进行搜索空间连续化;接下来运用梯度下降的方式对所述超级网络进行优化,得到最优基本单元,包括普通单元和归约单元;最后利用得到的基本单元进行堆叠,得到所需的深度神经网络,对深度神经网络进行重训练至网络收敛。通过设计快速并行的可微分神经网络架构搜索方法,显著提高了神经网络架构搜索的速度和性能。
主权项:1.一种并行可微分神经网络架构搜索方法,其特征在于,包括如下步骤:步骤1:构建带有二进制门的双路径超级网络;所述超级网络是由L个基本单元堆叠而成的;所述基本单元包括普通单元和归约单元;所述普通单元和归约单元均是由7个节点组成的有向无环图,其中包括2个输入节点、4个中间节点和1个输出节点,节点之间的连接代表着不同的操作,普通单元和归约单元内部节点的连接关系不同;步骤1-1:设操作池为O,操作池O包含8个基本的操作算子,分别是:sep-conv-3×3,sep-conv-5×5,dil-conv-3×3,dil-conv-5×5,max-pool-3×3,avg-pool-3×3,skip-connection和none;操作池O通过随机抽样分解为两个算子子集O1和O2,其中O1和O2满足|O1|=|O2|,|O1|+|O2|=|O|且O1和O2分别用于构建两个子网络;整个网络的输入通道中采样了两组通道,分别被两个子网络采用,这两个子网络最终再通过加法运算合并为一个;对于超级网络一个基本单元中的两个不同节点xi到xj的信息传播,描述为: 其中,xi和xj表示不同的节点,且0≤ij≤5,和分别表示O1和O2中不同操作的权重;和是两组通道采样掩码,掩码仅由0和1组成;和分别代表选定和未选定的通道;和两组选定的通道同时被两个操作算子子集采用;超级网络以两条并行路径的形式覆盖所有的架构;步骤1-2:在训练超级网络的过程中,利用二进制门控来选择性的激活每条路径参与训练;对于一个基本单元中两个节点xi到xj的信息传播,超级网络的二进制门控描述为: 其中gate1和gate2的取值为0或1,排除gate1和gate2同时为0的情况;二进制门控操作以随机采样的方式进行取值,来选择性的激活相应的路径参与训练;步骤2:利用sigmoid函数,进行搜索空间连续化,重新定义两个子网络; 其中δ·表示sigmoid函数,其计算公式如下: 步骤3:运用梯度下降的方式对超级网络进行优化,得到最优基本单元,包括普通单元和归约单元;通过联合优化网络参数w和结构参数α,寻找最优的α,来确定最优基本单元: s.t.w*α=argminLtrainw,α其中,Ltrain为训练损失,Lval为验证损失,训练损失和验证损失均采用交叉熵损失;在得到结构参数α后,根据独热编码: 选择α值最大的两个操作作为基本单元中间节点的输入;步骤4:利用步骤2得到的基本单元进行堆叠,得到所需的深度神经网络,对深度神经网络进行重训练至网络收敛;所述深度神经网络为用于CIFAR-10的深度神经网络,是采用20个基本单元进行堆叠形成,其中每个基本单元包括2个归约单元和18个普通单元;或为用于ImageNet的深度神经网络,是采用12个基本单元进行堆叠而成,其中每个基本单元包括2个归约单元和12个普通单元,其中2个归约单元分别位于网络总深度的13和23处。
全文数据:
权利要求:
百度查询: 西北工业大学 一种并行可微分神经网络架构搜索方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。