首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于CNN和Transformer的素描图像-可见光图像的检索方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学

摘要:本发明公开了一种基于CNN和Transformer的素描图像‑可见光图像的检索方法,该方法包括利用多粒度特征提取网络、跨模态共有特征增强网络、多粒度交互网络构建跨模态检索模型。素描图像和可见光图像输入到基于CNN的多粒度特征提取网络得到两个模态的多粒度特征;跨模态共有特征增强网络利用跨模态注意力对多模态特征在共有特征上进行增强,这样不仅可以减小两个模态之间的差异,同时还能增强共有特征的判别性,有利于最后的检索;增强后的特征通过多粒度交互网络进行特征交互来建立多粒度特征之间的上下文关系,来增强多模态特征的判别性表示。通过本发明的方法,能有效减小模态之间的差异,提高检索的精度和效率。

主权项:1.一种基于CNN和Transformer的素描图像-可见光图像的检索方法,其特征在于,所述方法包括:步骤1:获取素描图像-可见光图像数据集,将其划分为训练集和测试集;步骤2:利用基于CNN的多粒度特征提取网络、基于跨模态注意力的共有特征增强网络、基于Transformer的多粒度交互网络构建跨模态检索模型;步骤3:把步骤1划分好的训练集图像数据进行预处理,预处理好的素描图像-可见光图像训练集输入到跨模态检索模型中,对步骤2所述的跨模态检索模型进行训练;步骤4:对训练过程的训练损失进行反向传播,并通过优化器对构建好的跨模态检索模型进行优化,最终达到训练损失收敛;步骤5:将步骤1划分好的测试集图像数据进行预处理,预处理好的素描图像-可见光图像测试集输入到步骤4训练好的跨模态检索模型中,进行素描图像-可见光图像的跨模态检索;步骤6:利用累计匹配曲线CMC和平均准确度mAP两个客观评价指标对模型性能进行评价;所述步骤2中,所述基于CNN的多粒度特征提取网络由5层双分支并行的残差卷积ResNet50网络组成,前3层是并行的模态不共享层,用来分别提取素描图像,可见光图像的模态特有特征;后面2层是并行的双分支网络,一个支路用来提取两个模态共有的全局特征,另一个支路用来提取两个模态的共有的局部特征,所以后面两层是模态间共享网络参数,全局和局部网络不共享网络参数;所述步骤2中,所述基于跨模态注意力的共有特征增强网络用于实现如下功能:将CNN提取的多粒度特征进行跨模态共有特征的增强;其中跨模态共有特征的增强分为两个支路,第一个支路为素描图像到可见光图像的跨模态注意力增强,通过计算跨模态注意力,让网络在提取素描图像特征过程中不仅注意到素描图像特征的最显著部分,同时在素描图像特征中增强的区域是两个模态的共有特征;第二个支路为可见光图像到素描图像的跨模态注意力增强,通过计算跨模态注意力,让网络在提取可见光图像特征过程中不仅注意到可见光图像特征的最显著部分,同时在可见光图像特征中增强的区域是两个模态的共有特征;所述步骤2中,通过多粒度特征提取网络,得到素描图像,可见光图像的全局特征、局部特征;其中全局特征数量为一,局部特征数量为八;其中局部特征通过基于跨模态注意力的共有特征增强网络,进行共有信息的增强;基于Transformer的多粒度交互网络分为两个支路,素描图像支路,可见光图像支路,两个支路网络结构一样,但是参数不共享;首先让全局特征和第一块增强后的局部特征拼接在一起,再通过一个多层感知机进行特征融合,并通过一个线性映射层降维到Transformer输入特征大小;同样的让全局特征和第一、第二块增强后的局部特征拼接在一起,再通过一个多层感知机进行特征融合,并通过一个线性映射层降维到Transformer输入特征大小;以此类推,进行特征的累计拼接,最后得到8组多粒度累计特征,这样的累计特征不仅包含全局、局部信息,还包含不同部位的细粒度信息;最后让得到的累计特征输入到transformer网络中进行特征交互,让这些累计特征建立全局,局部,不同部位的细粒度特征的上下文关系,进一步加强特征的判别性,提高检索的精度。

全文数据:

权利要求:

百度查询: 昆明理工大学 一种基于CNN和Transformer的素描图像-可见光图像的检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

-相关技术