买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨理工大学
摘要:本发明提出一种基于掩码自监督遮挡像素重建的遮挡行人重识别方法,属于多媒体信息处理中的行人重识别领域。方法包括一个基于掩膜指导的掩码自编码器微调图像补全模型与基于动态图与图卷积的遮挡行人重识别网络。首先,所述的图像补全模型通过随机对图像块进行删除通过剩余图像块生成完整图片的方式进行自监督训练,使用均方误差损失减小其生成图片与原图差异。然后,训练所述的遮挡行人重识别网络,并使用三元组损失、ID损失与中心损失共同训练以得到鲁棒且有判别力的特征。测试过程中利用图像补全模型和掩膜指导方法对有遮挡的图像进行补全,重建图像被障碍物遮挡的部分行人身体像素。然后,将补全的行人图像输入到遮挡行人重识别网络得到行人特征,并实施行人重识别。与其他方法相比,本发明显著提高了遮挡行人重识别的准确率。
主权项:1.一种基于掩码自监督遮挡像素重建的遮挡行人重识别方法,其特征在于,所述方法包括步骤:从监控摄像装置采集训练数据D、训练数据E与测试数据,训练数据D包括有遮挡的行人重识别图片与实例分割级的标注与行人编号,训练数据E包括有较为完整人体部分的行人重识别图片,测试数据中只包含原始有遮挡的行人重识别图片与行人编号;构建基于掩码指导的掩码自编码器微调图像补全模型,所述图像补全模型由一个实例分割网络和一个自监督掩码指导的图像建模网络构成,使用所述实例分割网络对输入图像的行人实例进行分割,得到每个行人的掩码,使用随机函数随机生成行人掩码图像中不同图像块的像素留存得分,使用自监督掩码指导的图像建模网络,对行人图像中像素留存得分小于60的图像块进行重建,得到去遮挡的行人图像,使用训练数据D与训练数据E将所述图像补全模型训练至收敛;使用所述的补全模型对测试数据进行预测:将测试数据输入所述的实例分割网络,得到测试数据对应的行人掩码,使用图像分块函数计算行人掩码图像中不同图像块的像素留存得分,使用自监督掩码指导的图像建模网络,对行人图像中像素留存得分小于60的图像块进行重建,得到去遮挡的行人图像;构建基于动态图与图卷积的遮挡行人重识别网络,所述行人重识别网络由ResNet-50网络、动态图结构模块与图卷积特征传播模块构成,使用ResNet-50网络提取行人图像中的特征图,使用所述的动态图结构模块构建与特征图对应的拓扑图结构,使用所述图卷积特征传播模块对拓扑图结构进行特征传播,使用训练数据E将所述遮挡行人重识别网络中训练至收敛;在所述的遮挡行人重识别网络预测过程中,将去遮挡的行人图像输入所述收敛的行人重识别模型,可得到每个行人图片的特征,对每个查询图片,按特征距离从小到大进行排序,取距离最近的10个库图片作为查询图片的查询结果,将具有相同身份标签的库图片作为该查询图匹配到的正确结果,并且计算该查询图片的平均准确率与首位命中率;基于动态图与图卷积的遮挡行人重识别网络训练过程如下:所述的行人重识别网络使用动态图结构模块与图卷积特征传播模块辅助传播特征,所述的动态图结构模块在卷积神经网络中的多个位置建立不同的图结构,即在卷积神经网络中的多个位置将特征图转化为K最近邻图结构,所述动态图结构模块输入高为H,宽为W的特征图,输出该特征图对应的邻接矩阵A,所述动态图结构模块的伪代码如下: 然后,计算特征图中的每个结点的相关性,得到相关矩阵,公式如下:R=θFφFT其中,R是相关矩阵,是卷积层输出的特征图,C是特征图的维度数,W与H分别是特征图的宽与高,XT表示矩阵X的转置,θF和φF表示将特征图F分别输入具有完全相同的结构但不同参数的两个传递函数,所述传递函数由一个1×1卷积层、一个批量归一化层和一个ReLU激活函数构成;将相关矩阵R与邻接矩阵A相乘,并使用softmax函数进行归一化,得到相似度邻接矩阵,公式如下: 其中,是相似度邻接矩阵,G为特征图中的结点数,A为动态图结构模块输出的邻接矩阵,⊙表示矩阵的哈达玛积,在图结构A上进行节点特征传播,公式如下: 其中,是经过特征传播后的特征,是卷积层输出的特征图经矩阵变换得到的特征,通过矩阵转换,传播后的特征可以重新转换为特征图;将上述动态图结构模块与图卷积特征传播模块的所有过程记为OGAF,是卷积层输出的特征图;将残差结构引入特征传播过程,OGA模块进行多次堆叠能使特征进行更充分地传播,有残差结构的OGA模块堆叠方式如下: 其中β代表可学习参数;在训练过程中,所述的遮挡行人重识别网络的损失函数表达式为:L=LID+LTriplet+εLC其中,LTriplet是三元组损失,LID是ID损失,LC是Center损失,ε是Center损失的平衡权重,在本网络中,其设置为0.1;所述的LTriplet表达式如下: 上式中B是一个训练小批量样本数,表示基准样本,表示与基准样本相同类别但不同的正样本,表示与基准样本不同类别的负样本,α表示设定的训练间隔,设置为0.2,fx为图片x的特征;所述的LID表达式如下: 在上式中,所述y表示所述训练样本的真实标签值,Z表示数据集中行人身份数量,fxi表示网络对图片xi预测得到的嵌入,ε值为常量,设置为0.1;所述的LC表达式如下: 上式中fxi为图片xi的特征,B是一个训练小批量样本数,表示类别为yi的所有特征的中心,即小批量中所有类别为yi的图片的特征的平均值。
全文数据:
权利要求:
百度查询: 哈尔滨理工大学 一种基于掩码自监督遮挡像素重建的遮挡行人重识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。