买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京工业大学;湖南航天有限责任公司
摘要:本发明提供一种基于长短时相关注意力机制的孪生网络跟踪方法。本发明基于Transformer架构优化了孪生神经网络的特征融合模块,利用孪生网络的基础架构,对目标区域及模板区域提取相应的特征数据并展开,以ResNet作为骨干网络进行特征提取,在特征融合网络中,该方法发明了一种长短时相关注意力机制作为互相关运算模块中的多头注意力机制,利用孪生网络架构,设计了一种交叉连接实现的多分支特征融合网络,从而使长短时相关注意力机制可以同时利用长时及短时图像帧的特征数据,增强目标跟踪网络的鲁棒性,有效的减少模型漂移的产生,适用于具备强大计算能力的平台。本发明在复杂场景下能够更为出色的完成跟踪任务。
主权项:1.一种基于长短时相关注意力机制的孪生网络跟踪方法,其特征在于包括以下步骤:步骤1,提取感兴趣区域特征;使用矩形框在初始的图像帧中选取待跟踪的感兴趣目标,算法自动将前一帧处理成模板帧,对应的目标区域称为模板区域,下一帧的感兴趣区域称为搜索区域,在特征提取网络中,采用一对图像数据x,z作为骨干网络的输入,其中搜索区域图像块X∈R3*128*128,模板图像块为Z∈R3*256*256,3代表RGB图像维度,其中搜素区域边长是模板区域边长的两倍,边长由获取的视频序列的第一帧中的目标中心为准,搜索区域和模板被归一化为正方形;骨干网络使用ResNet50网络结构进行特征提取,将网络的第四层特征图作为最终输出的特征;与此同时,还将其中下采样单元的卷积步长从2改为1;最终得到图像数据x的特征映射为Fx∈R256*256*256,z的特征映射为Fz∈R256*1024*1024;步骤2,特征自相关编码;将上述两种区域提取的特征,再加上初始帧的模板特征作为特征输入至多分支特征融合网络之中;SA中的多头注意力模块扩展到多头注意力之后的公式如公式1、公式2所示:MultiHeadQ,K,V=ConcatS1,S2,...,SnWO1 Concat表示向量的拼接运算,Softmax是一种激活函数;Wi是Q查询、K键和V值所有向量对应的参数矩阵,其中WO表示扩展到多头注意力机制后的参数矩阵,其中n表示注意力头的数量,取n=8,dm和di表示多头注意力中的矩阵维度,取dm=256,di=32;SA的整体计算过程由公式3所示:XSA=MultiHeadXQ+PX,XK+PX,XV+X3其中,X是输入的特征数据,而XQ、XK、XV指的是Q、K、V三种特征向量分支的特征数据,PX是位置编码,XSA则是SA注意力机制最终的编码结果;步骤3,传统的相关注意力机制的作用原理中,将Q和键值对K,V作为输入,并输出该值的加权和,通过softmax函数来计算分配给各个值的权重,Q、K、V分别表示查询、键和值,表述为公式4: 公式中分别代表Q、K、V向量的线性变换,Wo是线性变换权重的参数矩阵,Wq、Wk和Wv分别表示用于Q、K和V向量的线性变换矩阵;引入LSTA模块,通过关注不同时序下的目标特征,计算这些时序中关键字与当前关键字的相关性;引入一个残差注意力模块,该残差注意力模块即常规注意力模块的扩展;设进入该残差注意力模块的输入为Q′和K′,V′,以输出残差相关图;根据给定输入,首先通过线性变换对Q′和K′进行降维和归一化,之后通过二维正弦编码提供位置提示,随后通过两个线性变换生成和将加入时序信息的数据通过一次Softmax函数之后,与V′归一化生成的进行相关运算,其中LayerNorm表示归一化运算;残差注意力模块通过公式5完成计算: 其中,Wo′表示利用正弦编码调整聚合相关性运算之后的线性变换权重,是调整聚合相关性运算之后所匹配的维度;完成感兴趣时序下的相关向量特征运算后,需要将原始输入的相关向量与感兴趣时序下的相关向量通过残差网络完成互相关运算,经过最终的线性变换,LSTA注意力机制的输出运算如公式6所示: 步骤4,特征互相关解码;解码器中使用的位置编码遵循了LSTA中不同时序的原则,互相关注意力的多头扩展如公式7、公式8所示:MultiHeadQ,K,V=ConcatC1,C2,...,CnWO7Ci=LSTAttnQWi,KWi,VWi8其中的内部参数定义参考公式1、公式2;Concat表示向量的拼接运算,Softmax是一种激活函数,用于计算向量中各个分量的概率分布;Wi是Q查询、K键和V值所有向量对应的参数矩阵,其中WO表示扩展到多头注意力机制后的参数矩阵,其中n表示注意力头的数量,取n=8,dm和di表示多头注意力中的矩阵维度,取dm=256,di=32;解码器还引入了FFN全连接的前馈网络,由两个线性变换以及中间层的ReLU激活函数组成,如公式9所示:FFNX=Max0,XW1+b1W2+b29其中,符号W和b分别代表参数矩阵和基向量,下标则表示该数据处于网络模块的层数;互相关注意力解码器中,LSTA注意力机制通过相关计算得到特征数据,进行归一化处理之后,以残差网络的形式对两个输入的特征向量进行融合;解码器根据K,V键值对的输入特征和Q的输入特征之间的多个尺度积来计算注意力相关图,注意力相关图的计算过程中运用到了LSTA注意力网络;第一分支中,需要进行搜索区域的K,y键值对与邻近帧模板的Q值的相关计算,其解码过程为公式10、公式11: 第二分支中,需要将邻近帧模板的K,V键值对与搜素区域的Q值的相关计算以及长时模板K,V键值对与搜素区域的Q值的相关计算进行融合,其解码过程为公式12、公式13: 其中,FFN表示公式9中的前馈网络计算,XQ自相关特征增强后的Q值输入,同理XK与XV是K,V键值对的输入,PQ是对应于Q值的位置编码,同理PK与PV是键值对K,V对应的位置编码,下标数字代表不同的特征数据源,1代表短时模板特征数据,2代表搜素区域特征数据,3代表长时模块特征数据;和是最终两个分支解码器的输出;自相关与基于LSTA的互相关的融合层数为4次,经过两个不同的解码器输出后,加入互相关模块进行最后一次融合,最终解码后的特征图为步骤4,预测目标位置;特征融合网络输出的特征向量共计Hx×Wx,根据网络处理流程,要将其作为头部预测网络的输入,最终输出Hx×Wx个分类回归值;由头部预测网络可知,其中的损失函数划分为分类以及回归损失,选择真值框中像素对应的特征向量作为正样本,其余为负样本;分类损失函数如下所示: yi是视频中第i个样本的真值,yi=1时表示为正样本,pi表示模型预测的前景概率;回归损失函数则采用了标准的CIOU形式,回归损失用以下公式表示: 其中,表示为中心坐标误差,为真值的矩形框与模型预测矩形框的对角线误差,IOU是预测的边界框与实际的边界框之间的交集面积与并集面积之比,v为保持长宽比一致的归一化参数。
全文数据:
权利要求:
百度查询: 北京工业大学 湖南航天有限责任公司 一种基于长短时相关注意力机制的孪生网络跟踪方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。