首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于文本辅助特征对齐模型的受损行人图像再识别方法及装置_中山大学_202210242707.8 

申请/专利权人:中山大学

申请日:2022-03-11

公开(公告)日:2024-05-31

公开(公告)号:CN114596588B

主分类号:G06V40/10

分类号:G06V40/10;G06F16/583;G06V10/74;G06V10/764;G06V10/82;G06N3/0464;G06N3/047;G06N3/0455;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.05.31#授权;2022.06.24#实质审查的生效;2022.06.07#公开

摘要:本发明公开了基于文本辅助特征对齐模型的受损行人图像再识别方法及装置,包括:构建文本辅助特征对齐模型,对文本辅助特征对齐模型进行训练,训练过程分为两个阶段,第一阶段为语句层面特征提取,第二阶段为名词短语层面特征对齐;将测试集中的受损图像输入到深度卷积神经网络‑Corrupted以及全局平均池化层中提取得到受损图像特征向量;将参考集中的正常图像输入到深度卷积神经网络‑Normal以及全局平均池化层中提取得到未受损图像特征向量;使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算。本发明能高效地检索出受损的行人图像在正常行人数据库中相同身份的正常图像,提高行人再识别方法在实际应用场景中的鲁棒性。

主权项:1.基于文本辅助特征对齐模型的受损行人图像再识别方法,其特征在于,包括下述步骤:构建文本辅助特征对齐模型,所述文本辅助特征对齐模型包括深度卷积神经网络-Normal、深度卷积神经网络-Corrupted、全局平均池化层、双向门控循环单元和损失函数层,所述深度卷积神经网络-Normal和深度卷积神经网络-Corrupted的网络结构相同,由多个不同大小的卷积层模块组成,所述全局平均池化层对输入到特征图的每一个通道进行均值化处理,将高维的特征图展平成一维的特征向量,所述双向门控循环单元由两个结构相同的门控循环单元组成,通过可以学习的重置门和更新门来控制信息流动,改变隐藏状态,损失函数层由多个损失函数组成,包括有分类损失函数、跨模态相似度误差函数和特征对齐损失函数;对文本辅助特征对齐模型进行训练,训练过程分为两个阶段,第一阶段为语句层面特征提取,第二阶段为名词短语层面特征对齐;将测试集中的受损图像输入到深度卷积神经网络-Corrupted以及全局平均池化层中提取得到受损图像特征向量;将参考集中的正常图像输入到深度卷积神经网络-Normal以及全局平均池化层中提取得到未受损图像特征向量;使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算,首先计算测试集受损特征向量与参考集所有未受损特征向量之间的欧式距离,找到欧式距离最小的参考集特征向量,将该参考集特征向量的身份标签标注在测试集受损特征的输入受损行人图像上;所述语句层面特征提取具体为:语句层面文本特征提取,将行人文本描述t映射成词向量,将词向量输入到双向门控循环单元Bi-GRU中提取文本特征;将正常图像xN输入到深度卷积神经网络-Normal中,再经过全局平均池化层处理,得到512维的正常视觉特征向量fiN;将受损图像xC输入到深度卷积神经网络-Corrupted中,再经过全局平均池化层处理,得到512维的受损视觉特征向量fiC;为了能让卷积神经网络和双向门控循环单元生成具有可鉴别性的特征向量,利用数据的身份标签计算这三种特征向量的分类损失Lid;为了能让正常视觉特征向量fiN和受损视觉特征向量fiC在特征空间中与文本特征fiT有相似的关联性,提供一个跨模态相似度误差函数来对其进行约束,正常视觉特征向量fiN,受损视觉特征向量fiC和语句层面的文本特征fiT经过正则化处理后,分别计算视觉特征和文本特征之间的均方误差; 其中MSE·,·为均方误差计算,||·||为2-范数计算;语句层面文本特征提取具体为: 其中,wt为第t个词向量,ht-1为处理完第t-1个词向量的Bi-GRU的隐藏层参数,右箭头表示正向序列,左箭头表示反向序列;将正向与反向的最终输出级联到一起,再经过一个全连接层的处理,得到语句层面的文本特征fiT, 是表示正向输出,表示反向输出,Concat·,·为级联操作,FC·为全连接层;所述名词短语层面特征对齐具体为:利用第一阶段预训练好的深度卷积神经网络进行微调训练,提取特征向量,将正常图像xN输入到深度卷积神经网络-Normal中,再经过全局平均池化层处理,得到正常视觉特征向量fiN,将受损图像xC输入到深度卷积神经网络-Corrupted中,再经过全局平均池化层处理,得到受损视觉特征向量fiC;分别计算正常视觉特征向量fiN和受损视觉特征向量fiC的分类损失Lid;为了进一步对齐正常视觉特征向量fiN和受损视觉特征向量fiC的数据分布,减小两种特征向量之间的差异,采用特征对齐损失对其进行约束,从特征层面和标签预测层面分别进行对齐;根据词语的词性,对行人文字描述语句进行划分,滤除多余的单词获得所有名词短语{n1,n2,…,nM},利用第一阶段预训练好的双向门控循环单元进行微调训练,提取各个名词短语的特征向量将名词短语的特征向量正常视觉特征向量fiN和受损视觉特征向量fiC输入到模态间关联性模块中加强不同模态间特征向量的关联程度;所述加强不同模态间特征向量的关联程度,具体为:首先计算正常视觉特征向量fiN与各个名词短语特征向量的关联因子: 根据关联因子对名词短语特征向量进行加权融合处理,得到正常图像关联名词短语特征向量 同理,可获得受损图像关联名词短语特征向量 利用特征对齐损失Lalign加强与的相似性,保证正常视觉特征向量与受损视觉特征向量拥有相似的与名词短语特征向量的关联度,使得它们与每个名词短语的激活程度相似。

全文数据:

权利要求:

百度查询: 中山大学 基于文本辅助特征对齐模型的受损行人图像再识别方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。