首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于预训练模型的文本到行人图像检索方法及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:桂林电子科技大学

摘要:本发明公开了一种基于预训练模型的跨模态文本到行人图像检索方法及存储介质,本发明改进了掩蔽语言建模策略,使用全词掩码策略,能够更好的挖掘图像与文本之间的细粒度关系。并且运用文本的属性这一特征,利用交叉模态编码器进行文本与图像之间的融合交互,以此学习更多的信息,进一步还提供了一个基于软注意力模态融合模块,加入此模块可以促进相同语义类别间的模态信息交互,从而达到更好的检索性能。

主权项:1.基于预训练模型的文本到行人图像检索方法,其特征在于,所述方法包括:获取多组用于文本到行人图像检索的训练样本,利用预训练模型对训练样本进行图像特征A1和文本特征B1提取;将图像特征A1与文本特征B1馈送到软注意力模态融合模块做进一步的融合对齐处理,得到对齐后的图像特征A2与文本特征B2;利用全词掩码建模对初始训练样本的文本进行掩蔽,利用文本编码器提取掩蔽文本特征B3;获取文本的初始训练样本,从初始训练文本中提取文本属性,利用掩蔽语言建模对属性进行掩蔽,再利用文本编码器提取掩蔽文本属性特征B4;将图像特征A1和掩蔽文本属性特征B4馈送到交叉模态编码器中进行融合交互;构建ID损失函数、分布一致性损失函数、掩码推理损失函数和属性学习损失函数对文本到行人图像检索模型进行训练;将行人文本描述输入到所述训练完成的文本到行人图像检索模型中,获得相应的检索结果;所述软注意力模态融合模块的融合对齐处理过程包括以下步骤:1将得到的文本特征B1及图像特征A1输入到软注意力模态融合模块,评估图文对的特征匹配度dkru;2计算单个原始文本特征B1和每个原始图像特征A1的相关性以计算特征相似性duvw;3计算图文对特征匹配度dkru的归一化权重,将与文本查询相关的原始图像特征A1赋予更大的权重比例,然后用这些权重对原始图像特征A1中的特征向量进行加权平均计算,得到对齐的文本、图像特征;4将对齐的文本、图像特征与原始的文本、图像特征进行融合计算,随后通过层归一化处理,获得融合后的图像特征A2和文本特征B2。

全文数据:

权利要求:

百度查询: 桂林电子科技大学 基于预训练模型的文本到行人图像检索方法及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。