首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

图像与文本匹配方法、装置、电子设备及存储介质 

申请/专利权人:平安科技(深圳)有限公司

申请日:2022-07-14

公开(公告)日:2024-06-28

公开(公告)号:CN115098644B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/58;G06F16/583;G06F18/22;G06F18/25;G06V10/74

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2022.10.14#实质审查的生效;2022.09.23#公开

摘要:本发明涉及智能决策领域,揭露一种图像与文本匹配方法、装置、电子设备以及存储介质,所述方法包括:获取训练图像与训练文本;利用预构建的匹配模型的自注意力机制对训练图像与训练文本进行特征提取;利用预构建的匹配模型的融合注意力机制对图像特征与文本特征进行融合,得到融合注意力值;对融合图像特征与融合文本特征进行匹配,得到初始匹配结果;利用预构建的匹配模型的损失函数计算匹配结果的损失值;若损失值大于预设阈值调整预构建的匹配模的模型参数,返回对训练图像与训练文本进行特征提取;损失值不大于预设阈值得到训练好的模型,利用匹配模型对待匹配数据进行匹配,得到最终匹配结果。本发明可以提高图像与文本匹配的准确度。

主权项:1.一种图像与文本匹配方法,其特征在于,所述方法包括:获取训练图像与训练文本;利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取,得到图像特征与文本特征;利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进行融合,得到融合注意力值;根据所述融合注意力值,对融合图像特征与融合文本特征进行匹配,以用于将单调的图像特征或文本特征加入其他模态数据特征,得到所述训练图像与所述训练文本的初始匹配结果;利用所述预构建的匹配模型中的损失函数计算所述初始匹配结果的损失值;若所述损失值大于预设阈值,调整所述预构建的匹配模型中的模型参数,返回上述利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取的步骤;若所述损失值不大于所述预设阈值,得到训练好的匹配模型,利用所述匹配模型对待匹配数据进行匹配,得到最终匹配结果;其中,所述利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取,得到图像特征与文本特征,包括:利用所述自注意力机制中的直方图法对所述训练图像进行特征提取,得到所述图像特征;对所述训练文本进行词块分割,得到文本词块;利用所述自注意力机制中的TF-IDF算法计算所述文本词块的文本特征值;在所述文本特征值大于预设特征值时,将所述文本特征值对应的文本词块作为所述文本特征;所述利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进行融合,得到融合注意力值,包括:利用下述公式对所述图像特征与所述文本特征进行融合: 其中,表示融合注意力值,表示图像特征,文本特征,表示图像特征的第i个图像特征点,表示所述第i个图像特征点的权重系数,表示图像特征点-文本特征点的总数,表示图像特征与文本特征的相似度;所述根据所述融合注意力值,对融合图像特征与融合文本特征进行匹配,以用于将单调的图像特征或文本特征加入其他模态数据特征,得到所述训练图像与所述训练文本的初始匹配结果,包括:获取训练数据库,计算所述训练数据库中的图像数据与文本数据的图像注意力值与文本注意力值,所述计算所述训练数据库中的图像数据与文本数据的图像注意力值与文本注意力值,与计算所述融合注意力值的原理一致;将所述融合注意力值分别与所述图像注意力值、所述文本注意力值进行相似程度计算,得到图像相似度与文本相似度;在所述图像相似度与所述文本相似度均大于预设相似度时,将所述图像数据与所述文本数据作为所述初始匹配结果;所述调整所述预构建的匹配模型中的模型参数,包括:获取验证数据,将所述验证数据输入至所述预构建的匹配模型中,得到所述验证数据的验证损失值;构建所述验证数据与所述验证损失值的线性损失图,识别所述模型参数对应的调整原则;根据所述线性损失图,利用所述调整原则对所述模型参数进行调整。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 图像与文本匹配方法、装置、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。