首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于注意力扰动的图像自动标注方法、系统和介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华南理工大学

摘要:本发明公开了基于注意力扰动的图像自动标注方法、系统和介质,方法包括下述步骤:将待标注数据集划分为有标签数据集和无标签数据集,对有标签数据集进行图像增强以扩充数据集,并使用对应标签进行标注;构建基于注意力扰动机制的生成对抗网络,所述生成对抗网络包括图像自编码器、生成器和判别器;使用待标注数据集迭代训练生成对抗网络,同时使用扩充后的有标签数据集优化判别器的多任务全连接分类网络;使用训练好的判别器对无标签的待标注图像进行分类标注。本方法构建基于注意力扰动机制的生成对抗网络,同时引入多任务全连接分类网络,通过对抗训练,优化了图像特征表示,实现了图像的自动标注,提升了图像生成的多样性和质量。

主权项:1.基于注意力扰动的图像自动标注方法,其特征在于,包括下述步骤:根据待标注数据集是否拥有对应标签,将待标注数据集划分为有标签数据集和无标签数据集;对有标签数据集进行图像增强以扩充数据集,并使用对应标签进行标注;构建基于注意力扰动机制的生成对抗网络,所述生成对抗网络包括图像自编码器、生成器和判别器;所述图像自编码器用于实现真实图像的重构;所述生成器中加入注意力扰动机制,用于产生图像的伪标签;所述判别器引入多任务全连接分类网络,用于预测图像具体类别;使用待标注数据集迭代训练生成对抗网络,同时使用扩充后的有标签数据集优化判别器的多任务全连接分类网络;使用训练好的判别器对无标签的待标注图像进行分类标注;所述图像自编码器包括图像编码模块和图像解码模块,均有4层卷积层,对输出进行批归一化处理,采用ReLU激活函数;所述图像编码模块中的图像编码器用于对输入图像进行PCA来获取特征编码,所述图像解码模块中的图像解码器用于将图像的特征编码解码为生成器的输入;所述生成器依次包括3层连续卷积层、注意力扰动层和最后一层卷积层;输入的图像特征编码通过3层连续卷积层获得特征张量,并在输出前进行批归一化处理,使用ReLU激活函数计算激活值,将特征张量输入注意力扰动层进行注意力扰动,获得输出张量和伪标签;将输出张量输入最后一层卷积层进行卷积操作获得生成图像;所述进行注意力扰动具体为:使用三层独立的卷积层对输入的特征张量进行维度变换,得到输入特征张量的三个不同维度表示,记为Q、K、V;随机选取输入的特征张量,从选中特征张量的三个不同维度表示中选取两个进行交换,得到转换后的表示Qt、Kt、Vt;使用Qt、Kt、Vt计算特征张量的注意力图,乘以权重变量σ后与特征张量相加作为扰动后的输出张量;对未被选中的未扰动输出张量设置值为1的伪标签;对选中的扰动后输出张量,根据Qt、Kt、Vt设置值为2~4的伪标签;所述独立卷积层的卷积核大小为1×1,输出通道数与输入的特征张量保持一致;所述判别器包括4层连续卷积层、多任务全连接分类网络和1层全连接层;所述卷积层采用ReLU激活函数;所述多任务全连接分类网络由扰动分类层与图像分类层组成,所述1层全连接层为图像真假判别层;输入的图像通过4层连续卷积层映射为判别器隐空间中的特征张量,再通过重构操作将特征张量拉伸为向量用作多任务全连接分类网络和全连接层的输入,其中,图像真假判别层输出为1维向量,表示输入图像的真实程度预测;扰动分类层输出为4维向量,表示输入图像的伪标签预测;图像分类层输出为n维向量,表示输入图像的类别预测,n为待标注数据集中包含图像的具体类别数量。

全文数据:

权利要求:

百度查询: 华南理工大学 基于注意力扰动的图像自动标注方法、系统和介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。