买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州电子科技大学
摘要:本发明公开了一种考虑场景文本位置关系的图文检索方法。首先准备数据,进行特征提取;然后进行图片端场景文本的特征融合,得到图片端的场景文本特征;再通过位置关系建模分别得到图片端含位置关系的显著性物体特征和图片端含位置关系的场景文本特征;将两者进行融合,得到图片端的总特征;另一方面提取文本端的总特征最后根据文本总特征和图片总特征之间的相似度,取相似度最高的图片‑文本对作为检索的结果。通过考虑场景文本的位置关系,本发明提供了一种改进的方法,可以提高图文检索的准确性,改善多模态信息融合,并在处理含场景文本的任务中表现出色。这对于多种应用领域都具有重要意义,包括图像检索和图像生成。
主权项:1.一种考虑场景文本位置关系的图文检索方法,其特征在于,包括步骤如下:步骤1,数据准备;收集数据集,采用CTC数据集,此数据集是从COCO数据集中选取包含场景文本的图片组成的数据集;它由含场景文本的图片和对应文本组成;步骤2,特征提取;对图片中的显著性物体和场景文本进行特征提取,得到显著性物体的视觉特征和位置信息以及场景文本的内容信息、位置信息和视觉特征,为后续步骤提供必要的基础特征;步骤3,图片端场景文本的特征融合;首先,基于步骤2中得到的场景文本的内容信息,利用FastText和PHOC对场景文本进行语义嵌入和字符级嵌入;接着,将这些嵌入与场景文本的视觉特征进行融合,以获取更丰富和更全面的场景文本表示,最终得到图片端的场景文本特征;步骤4,位置关系建模;通过对图片端的场景文本的位置信息和图片端的显著性物体的位置信息进行显式的建模,得到场景文本和显著性物体构成的总集合中任意两两元素之间的位置关系;接着分别与步骤2得到的显著性物体的视觉特征以及步骤3得到的图片端的场景文本特征进行更新,利用图卷积网络GCN进行上述更新操作,分别得到图片端含位置关系的显著性物体特征和图片端含位置关系的场景文本特征;步骤5,将图片端含位置关系的显著性物体的特征与图片端含位置关系的场景文本特征进行融合,得到图片端的总特征;步骤6,提取文本端的总特征;先将与图片对应的文本进行tokenize化,然后再经过双向长短期记忆网络,得到文本端的总特征;步骤7,将得到的文本端的总特征与图片端的总特征通过对比学习进行训练,使得正样本对在图片-文本的公共空间中的距离更近,同时,使得负样本对在图片-文本的公共空间中的距离更远;有助于检索到匹配的数据;最后,根据文本总特征和图片总特征之间的相似度,取相似度最高的图片-文本对作为检索的结果。
全文数据:
权利要求:
百度查询: 杭州电子科技大学 一种考虑场景文本位置关系的图文检索方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。