首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于高显著特征逐步失活的弱监督语义分割方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京工业大学

摘要:一种基于高显著特征逐步失活的弱监督语义分割方法,属于计算机视觉领域。首先将图像分为三个不同尺度:包括分类网络和分割网络。其中分类网络输入的是中尺度图像,功能是生成CAM图,训练过程中通过使用改进的PDA方法减小CAM中高显著特征的激活值,从而减少最具鉴别性区域的贡献,使得分类网络更关注其他区域的同时不会忽略最具鉴别性区域的特征,然后通过加权后的特征图进行分类,以此扩大分类网络生成的CAM图的显著区域,从而得到更准确的CAM图,最终分类网络的输出是优化的CAM图。分割网络的输入是三个不同尺度的图像,其基于U‑Net网络,由3个编码器和1个解码器组成。在解码阶段,网络将三个尺度的特征进行融合,获得更好的分割性能。

主权项:1.一种基于高显著特征逐步失活的弱监督语义分割方法,其特征在于:步骤1:图像预处理将原图像裁剪为三个不同分辨率的图像并统一数据集内所有图像的大小;其中大尺度图像plarge为原图;中尺度图像pmid是通过滑动窗口裁剪的512*512大小的图像;小尺度图像plittle是从中尺度图像中裁剪下来的,将所有图像的尺寸设定为512*512;步骤2:获得类激活图该步骤针对输入的待分割图像即中尺度图像训练一个分类网络,然后采用Grad-CAM算法得到中尺度图像的CAM图;步骤2.1训练分类网络:使用经典的卷积神经网络RseNet101作为分类网络,其包含100个卷积层和1个全连接层;基于类别标签对输入的中尺度图像训练一个分类网络,记为Cls;步骤2.2计算CAM图:该步骤使用Grad-CAM算法生成CAM图;对于分类网络Cls,首先提取其最后一个卷积层输出的特征图f,通过对各个预测类别的预测分数进行反向传播,由公式1得出预测分数相对f的梯度信息g; 其中yc代表网络针对类别c预测的分数,这里是没有通过softmax激活的分数;梯度信息g是yc对f的偏导,代表f中每个元素对yc的贡献;接着对梯度信息g在宽度w和高度h上求均值得到对于类别c而言特征f对应通道k的权重由公式2得到; 其中gki,j代表梯度信息在通道k中坐标为i,j处的数值,Z等于宽度w乘以高度h的值;最后将权重和特征层f加权求和再通过ReLU激活,由公式3得到输入图像关于类别c的CAM图Mc; 其中fk代表特征图f第k个通道的数据;ReLU为ReLU激活函数,通过此激活函数可以过滤掉负的激活值;步骤3:优化分类网络该步骤在分类网络的训练阶段进行;首先本步骤对步骤2.2计算出的CAM图使用改进的PDA算法,减小其显著区域激活值,从而得到注意力特征图;然后将注意力特征图作为权重作用于分类网络最后一个卷积层输出的特征图上;最后将加权后的特征图输入到全连接层得到分类结果;使用真实分类标签训练分类网络,从而优化分类网络的参数,使得模型更关注最具辨别特征区域之外的信息,能够生成更全面的特征表示;步骤3.1降低CAM图中显著区域的激活值:该步骤对CAM图Mc使用改进的PDA算法,降低CAM中显著区域的激活值;首先算法通过设定阈值为β,将CAM图上大于阈值区域的激活值缩小为原来的一半,得到类别C对应的新的CAM图M′c,如公式4所示; 其中Mci,j表示类别c对应的CAM图中坐标i,j处的值;β是一个相对的阈值,它随着CAM图Mc的最大值的变化而变化,β可由公式5获得;β=θ*maxMc#5其中θ不是一个固定的值,它会随着迭代次数的增加逐步减小,直到其减小到预先给定的下界l;从而达到阈值β随着迭代次数逐渐减小的效果,θ的值由公式6得到; 其中ω代表θ的衰减率,是一个固定值,取ω=0.985;θt表示第t次迭代时θ的值,其初始值θ1为1;预先给定的下界l取0.65;步骤3.2生成注意力特征图:针对步骤3.1新得到的CAM图M′,本步骤将其不同类别对应的CAM图求和并计算平均值,按照公式7得到注意力特征图A; 其中N代表所有类别的个数;M′ci,j代表类别c的新的CAM图中坐标i,j处的值;步骤3.3优化网络参数:如公式8所示,将步骤3.2生成的注意力特征图A与分类网络Cls最后一个卷积层输出的特征图f相乘,得到加权后的特征图 然后将特征图输入到分类网络的全连接层进行后续的类别预测;最后将预测信息与真实类别标签计算损失并反向传播更新网络参数;步骤4:训练、预测多尺度分割网络该步骤首先使用步骤3训练好的分类网络生成中尺度图像的CAM图,并将其转化为二值图作为伪掩码用于训练分割网络;然后将步骤1生成的三个不同尺度的图像分别输入到分割网络的三个编码器中,并在解码阶段通过跳跃连接和注意力融合模块进行特征融合、拼接,最终输出中尺度图像的分割结果;最后利用训练好的分割网络对测试集进行分割预测;步骤4.1生成伪掩码:该步骤首先将待分割图像即中尺度图像pmid输入到训练好的分类网络Cls中得到中尺度图像对应的CAM图;然后选择各个类别的CAM图中相同像素位置的最大值所对应的类别值作为最终CAM上该位置的值,最终类激活图Mfinal的计算公式如公式9所示;Mfinal=argmaxM1,M2,...,MN#9其中argmax的作用是比较所有CAM中相同坐标处的值,并返回最大值对应的索引即类别值;最后将得到的Mfinal转化为用于分割网络训练分割类别c的二值伪掩码;伪掩码中坐标i,j的取值由公式10确定 其中c为要分割的类别;步骤4.2获得多尺度特征:将步骤1得到的三个不同尺度的图像plarge、pmid、plittle分别输入到分割网络的三个不同的编码器E1、E2、E3中,得到三组不同尺度的特征flarge、fmid、flittle;三个编码器的结构参考U-Net网络中的编码器结构,由卷积层和下采样组成;步骤4.3特征融合:该步骤在分割网络的解码阶段进行,首先将上一卷积层的输出进行上采样,由公式11得到上采样结果然后利用跳跃连接结构,将上采样结果和三个编码器中相应层的特征输入到注意力融合模块中进行融合,融合后的特征图由公式12得到; 其中UP为上采样操作;代表第i-1卷积层的输出;Blockatt为注意力融合模块,其特征融合过程如下所示:首先将三个不同编码器输出的特征进行拼接,由公式13得到拼接结果 其中为特征图拼接操作,即在通道维度上将特征图合并;接着注意力融合模块对拼接好的特征图进行卷积、池化和激活操作,由公式14得到一个注意力图 其中W代表卷积、池化和激活一系列操作;最后使用注意力图对中尺度特征进行加权,其结果与上采样特征进行拼接,由公式15得到注意力融合模块Blockatt最终的输出; 融合后的特征再经过卷积层得到第i层的输出以此循环,逐层向上最终得到分割结果;步骤4.4分割网络训练和预测:该步骤首先使用步骤4.1中获得的伪掩码训练分割网络,然后利用训练好的分割网络对测试集进行分割。

全文数据:

权利要求:

百度查询: 北京工业大学 一种基于高显著特征逐步失活的弱监督语义分割方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。