首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种跨模态图文检索方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国电子科技集团公司第五十四研究所;天津大学

摘要:本发明提供一种跨模态图文检索方法,属于机器学习的技术领域。该方法将样本的视觉和文本两部分特征输入一个统一多模态Transformer推理网络,获取模态内和模态间的交互推理信息。其中,网络的训练过程分成两个阶段,第一个阶段利用一个孪生多模态Transformer编码器对视觉和文本信息进行编码,获得模态内上下文信息;第二阶段将融合后的视觉信息和文本信息输入到同一个多模态Transformer编码器,获得模态间的交互上下文信息。最后,模型采用一种新型自适应相似度融合机制进行跨模态图文相似度匹配计算并输出结果。本发明缓解了现有图文检索领域方法的模态内交互信息和模态间交互信息相互割裂的技术问题,使得不同模态的特征能够相互作用,相互补充。

主权项:1.一种跨模态图文检索方法,其特征在于,包括以下步骤:S1,运用深度神经网络提取图像的视觉特征和语句的文本特征;S2,设计统一多模态Transformer推理网络,将不同模态数据统一建模;所述统一多模态Transformer推理网络分别提取视觉和文本的模态内交互信息和模态间交互信息,并通过自适应相似度融合模块计算视觉特征和文本特征的相似性;S3,训练统一多模态Transformer推理网络,将步骤S1提取的视觉特征和文本特征输入训练好的统一多模态Transformer推理网络,得到视觉特征和文本特征的相似性,输出图文检索结果;其中,步骤S2中,采用自注意力Transformer编码器来提取视觉和文本的模态内交互信息和模态间交互信息;其中,步骤S2中,自适应相似度融合模块计算视觉特征和文本特征的相似性的具体方式为:对于一组视觉上下文表示信息和文本上下文表示信息其中定义跨模态细粒度匹配度矩阵A:A中的元素Aij表示第i个视觉上下文表示信息和第j个文本上下文表示信息的语义相似度,Wv和Wt是网络参数;将跨模态细粒度匹配度矩阵A的加权和定义为全局图文相似度SI,T,每个细粒度相似度由矩阵A的列元素加权和进行softmax激活函数运算得到,公式为:其中λ是softmax激活函数的温度系数;其中,步骤S3中,采用预训练-微调的两阶段训练方法来训练统一多模态Transformer推理网络,其中,第一个训练阶段生成视觉或文本单一模态的模态内上下文表示信息,第二个训练阶段生成视觉和文本模态间的交互信息;其中,所述第一个训练阶段的训练过程为:对于输入的图像或文本,利用孪生模态内编码器模块intra-MMTN分别提取得到一组视觉或文本特征,公式为:和其中{v1,…,vk}和{t1,…,tk}表示输入的细粒度片段特征,即图像的区域特征或文本的单词特征,和表示输出的图像或文本上下文表示信息;孪生模态内编码器模块的编码器共享参数;其中,所述第二个训练阶段的训练过程为:在第一阶段训练的基础上,将片段特征{v1,…,vk}和{t1,…,tk}进行拼接,输入到模态间编码器模块inter-MMTN,模态间编码器模块读取孪生模态内编码器模块预训练的模型后,以微调方式训练,其公式为:其中和表示模态间交互上下文表示信息。

全文数据:

权利要求:

百度查询: 中国电子科技集团公司第五十四研究所 天津大学 一种跨模态图文检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。