首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

引用图像分割模型训练方法及引用图像分割方法 

申请/专利权人:中国科学院自动化研究所

申请日:2023-07-17

公开(公告)日:2024-06-14

公开(公告)号:CN116993976B

主分类号:G06V10/26

分类号:G06V10/26;G06V10/774;G06V10/40;G06V10/80;G06F18/22;G06F18/25

优先权:

专利状态码:有效-授权

法律状态:2024.06.14#授权;2023.11.21#实质审查的生效;2023.11.03#公开

摘要:本发明涉及计算机视觉技术领域,提供一种引用图像分割模型训练方法及引用图像分割方法,首先将图像样本中每个目标实例对应的文本描述输入至初始引用图像分割模型中,由文本编码器对文本描述进行特征提取,得到初始文本特征;然后由图像编码器提取图像样本的图像特征,并采用交叉注意力机制运算进行迭代优化与融合,分别得到优化后的目标文本特征和目标跨模态图像融合特征;最后将目标跨模态图像融合特征通过解码器得到分割结果,并借助于计算得到的训练损失进行模型训练。该方法可以有效提升目标引用图像分割模型对于低质量文本描述的分割能力,减少混淆目标错误匹配的情况发生。

主权项:1.一种引用图像分割模型训练方法,其特征在于,包括:采集图像样本中各目标实例以及每个目标实例对应的文本描述,并将所述文本描述输入至初始引用图像分割模型中的文本编码器,由所述文本编码器对所述文本描述进行特征提取,得到初始文本特征;将所述图像样本以及所述初始文本特征输入至所述初始引用图像分割模型中的图像编码器,由所述图像编码器提取所述图像样本的初始图像特征,基于所述初始图像特征,采用交叉注意力机制对所述初始文本特征进行优化,得到文本优化特征,将所述文本优化特征与所述初始图像特征进行融合,得到融合图像特征,并对所述文本优化特征以及所述融合图像特征进行迭代优化及融合,得到目标文本特征和目标跨模态图像融合特征;将所述目标跨模态图像融合特征输入至所述初始引用图像分割模型中的解码器,得到所述解码器输出的分割结果,并基于所述目标文本特征、所述图像样本中的目标实例标签以及所述分割结果,计算训练损失,基于所述训练损失对所述初始引用图像分割模型的结构参数进行迭代优化,得到目标引用图像分割模型;所述图像编码器包括顺次连接的多层结构,每层结构均包括第一输入、第一输出、第二输入和第二输出,前一层结构的第一输出作为后一层结构的第一输入,前一层结构的第二输出作为后一层结构的第二输入;第一层结构的第一输入为所述初始文本特征,第一层结构的第二输入为所述初始图像特征,最后一层结构的第一输出为所述目标文本特征,最后一层结构的第二输出为所述目标跨模态图像融合特征;每层结构包括编码块、文本感知融合模块、第一残差模块、第二残差模块、第一加法模块和第二加法模块,每层结构的第二输入经编码块得到备选图像特征,每层结构的第一输入和当前层结构得到的备选图像特征经所述文本感知融合模块采用交叉注意力机制对当前层结构的第一输入进行优化,得到所述文本优化特征,并采用交叉注意力机制,将所述文本优化特征与所述备选图像特征进行融合,得到所述融合图像特征;所述文本优化特征经所述第一残差模块后与当前层结构的第一输入经所述第一加法模块得到当前层结构的第一输出;所述融合图像特征经所述第二残差模块后与所述备选图像特征经所述第二加法模块得到当前层结构的第二输出;所述文本感知融合模块的输入为备选图像特征Vi:B,HW,Ci和当前层结构的第一输入Li:B,Cl,T,其中B为图像样本、每个目标实例以及每个目标实例对应的一条文本描述构成的三元组的个数,H为备选图像特征的高度,W为备选图像特征的宽度,Ci为备选图像特征的通道数,Cl为文本优化特征的最大长度,即文本描述中包含的最大词量,T为文本特征的维度;ViB,HW,Ci变换为V1B,Ci,HW,V1B,Ci,HW经1×1的卷积层得到V2B,Cl,HW,V1B,Ci,HW经1×1的卷积层得到V3B,HW,Cl;Li:B,Cl,T经1×1的卷积层得到L1B,T,Cl,Li:B,Cl,T经1×1的卷积层wl得到L2B,Cl,T;V2B,Cl,HW与L1B,T,Cl经矩阵乘法后经归一化指数函数,后与V3B,HW,Cl进行矩阵乘法,得到LCA,LCA经1×1的卷积层wcl得到L3B,Cl,T,L2B,Cl,T与L3B,Cl,T经过逐元素点乘,后经1×1的卷积层wrl得到文本优化特征ViB,HW,Ci经1×1的卷积层得到V4B,HW,Ci,ViB,HW,Ci经1×1的卷积层wi得到V5B,HW,Ci,文本优化特征经1×1的卷积层得到L4B,Ci,T,经1×1的卷积层得到L5B,T,Ci,;V4与L4经矩阵乘法后经归一化指数函数,后与L5B,T,Ci,进行矩阵乘法,得到VCAB,HW,Ci,VCA经1×1的卷积层wci得到L6,L6与V5经过逐元素点乘,后经1×1的卷积层wfi得到融合图像特征

全文数据:

权利要求:

百度查询: 中国科学院自动化研究所 引用图像分割模型训练方法及引用图像分割方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。