买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆大学
摘要:本发明公开了一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,包括以下步骤:S1:从网络上选择视频序列,用于进行目标物体的跟踪;S2:选择视频序列中任一帧的图像作为初始帧图像,并进行处理得到第一数据,第一数据包括目标物体的上下文区域、多尺度模板、分类标签以及回归标签;S3:将得到的第一数据输入构建的模型中进行训练,得到模型的初始参数,初始参数为目标物体的分类值和回归值;S4:通过构建的模型计算目标物体的状态信息,状态信息包括位置、尺度和运动方向。本发明提高了算法的运行速度及计算效率,健壮地识别目标物体的外观变化,从而跟踪计算目标物体的位置、尺度和运动方向。
主权项:1.一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,包括以下步骤:S1:从网络上选择视频序列,用于进行目标物体的跟踪;S2:选择视频序列中任一帧的图像作为初始帧图像,并进行处理得到第一数据,第一数据包括目标物体的上下文区域、多尺度模板、分类标签以及回归标签;所述S2具体包括以下步骤:S2-1:以目标物体为中心构建目标框,再以目标框为边界裁剪一个图像块作为第一图像块,用于代表目标物体;S2-2:在第一图像块的周围,裁剪第一图像块的上下文区域得到第二图像块,并将第二图像块缩放至127×127像素,且第二图像块和第一图像块应满足以下公式m0=m+0.5×m+n,n0=m+0.5×m+n1公式1中,m表示第一图像块的宽度,n表示第一图像块的高度,m0表示第二图像块的宽度,n0表示第二图像块的高度;S2-3:在第二图像块周围以尺度步长为r=1.05来采集67个不同大小的多尺度模板,再对第二图像块进行网格绘制得到网格点,每个网格点依次用67个多尺度模板去匹配,得到第二图像块的分类标签;S2-4:将视频序列中目标物体的预测框和实际目标框的坐标进行参数化以建立三维矩阵,得到第二图像块的回归标签;S3:将得到的第一数据输入构建的模型中进行训练,得到模型的初始参数,初始参数为目标物体的分类值和回归值;S4:通过构建的模型计算目标物体的状态信息,状态信息包括位置、尺度和运动方向。
全文数据:一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法技术领域本发明涉及计算机图像处理技术领域,特别涉及一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法。背景技术物体跟踪是计算机视觉及其相关研究领域中的一个重要而具有挑战性的任务,同时也是各类机器视觉研究领域中一个开放性的研究问题,在自动监控、人机交互、车辆导航、生物医学、虚拟现实、机器人、安全监控、等领域有着广泛的应用。在视频跟踪领域,单一的深度卷积网络模型由于缺乏正确标注的训练样本数据信息,因此无法直接应用于视觉物体跟踪任务中;此外,有学者提出将视觉物体跟踪分成两个过程,即:离线预训练阶段以及在线微调和跟踪阶段。实验结果表明,虽然这种方式训练得到的深度网络模型应用于视觉物体跟踪任务时取得了非常好的跟踪性能,但是,不管是离线预训练,还是在线微调都会花费很长的时间。Kala等人提出的“跟踪-学习-检测”中,选取的是固定大小的目标物体,不能识别物体的尺度变化,在视频图像序列中一旦目标物体出现大尺度的变化,就会导致无法检测到目标物体,从而导致跟踪失败。现有的视觉物体跟踪算法计算量一般较大,且无法很好地适应各种不同目标物体的形变,当物体在视频中放大、缩小,或者发生形变和遮挡等表观变化时,现有算法难以对目标物体进行跟踪和确定边界,且精确度和鲁棒性较低。发明内容针对现有技术不能有效识别目标物体尺度变化的问题,本发明提供一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,通过将目标物体的多尺度时空特征和TLDTracking-Learning-Detection,跟踪-学习-检测框架结合,用于识别目标物体的形变,以对目标物体进行跟踪检测。为了实现上述目的,本发明提供以下技术方案:一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,包括以下步骤:S1:从网络上选择视频序列,用于进行目标物体的跟踪;S2:选择视频序列中任一帧的图像作为初始帧图像,并进行处理得到第一数据,第一数据包括目标物体的上下文区域、多尺度模板、分类标签以及回归标签;S3:将得到的第一数据输入构建的模型中进行训练,得到模型的初始参数,初始参数为目标物体的分类值和回归值;S4:通过构建的模型计算目标物体的状态信息,状态信息包括位置、尺度和运动方向。优选的,所述S2包括以下步骤:S2-1:以目标物体为中心构建目标框,再以目标框为边界裁剪一个图像块作为第一图像块,用于代表目标物体;S2-2:在第一图像块的周围,裁剪第一图像块的上下文区域得到第二图像块,并将第二图像块缩放至127×127像素,且第二图像块和第一图像块应满足以下公式m0=m+0.5×m+n,n0=m+0.5×m+n1公式1中,m表示第一图像块的宽度,n表示第一图像块的高度,m0表示第二图像块的宽度,n0表示第二图像块的高度;S2-3:在第二图像块周围以尺度步长为r=1.05来采集67个不同大小的多尺度模板,再对第二图像块进行网格绘制得到网格点,每个网格点依次用67个多尺度模板去匹配,得到第二图像块的分类标签;S2-4:将视频序列中目标物体的预测框和实际目标框的坐标进行参数化以建立三维矩阵,得到第二图像块的回归标签。优选的,所述S3包括以下步骤:S3-1:构建MSSTResNet网络模型:在经典的深度残差网络基础上,删除了res5,并用分类损失层和回归损失层分别代替全连阶层和平均池化层,从而构建了MSSTResNet网络模型,以提升网络对于物体和背景的区分能力;S3-2:将得到的第一数据输入MSSTResNet网络模型中进行训练,得到模型的初始参数。优选的,模型的初始参数包括分类值回归值,分类值的表达式如下:公式2中,yi表示样本是目标物体的预测概率;若样本为正,则如果样本为负,则回归值的表达式如下:公式3中,i表示样本,x表示预测框的x坐标轴的坐标,y表示预测框的y坐标轴的坐标,w表示预测框的宽,h表示预测框的高,表示平滑损失函数;ti表示预测边框坐标系的参数化;表示实际边框坐标系的参数化优选的,所述第二图像块的大小应满足以下公式:E=maxz,z0,z0=m0×n04公式4中,E表示第二图像块的大小,z表示第二图像块的预期大小,z0表示计算所得的第二图像块的预期大小。优选的,所述S4包括以下步骤:S4-1:计算目标物体在视频序列变化后的帧图像中的状态信息;计算出目标物体的分类值Lcls和回归值Lreg,并取最大分类值以确定目标物体在当前视频帧图像中的最佳状态最佳状态的计算公式如下:公式5中,表示在第t个视频帧的图像中目标物体的尺度是α;S4-2:进行检测器阈值的动态更新;对目标物体进行跟踪过程中,采用动态的检测阈值,在某一个视频帧的图像中,一旦检测到小于当前阈值的情况,就需要重新学习,并设定新的检测阈值。优选的,所述检测器阈值的动态更新包括以下步骤:S4-1:计算第t帧中目标物体最大分类值和回归值,记为第一阈值τ1;S4-2:计算第t+1帧中目标物体最大分类值和回归值,记为第二阈值τ2,并将第二阈值τ2和第一阈值τ1进行对比,从而更新检测器的阈值;若τ2τ1,则将τ2作为检测器的更新阈值;若τ2τ1,则用τ2代替τ1作为检测器的阈值进行后续阈值比较,并根据对应的分类值和回归值计算目标物体的状态信息。若τ2τ1,表示目标物体发生了显著地外观变化或检测到跟踪失败,则将第t+1帧之前的10帧图像及其每张图像所对应的分类标签和回归标签输入MSSTResNet网络模型进行10次迭代训练以对MSSTResNet网络模型参数进行调整,再对第t+1帧图像的最大分类值进行二次计算得到τ3,以更新检测器的阈值,即无论τ3是否大于τ1,都将二次计算得到的τ3作为检测器的阈值。并根据τ3对应的分类值和回归值来确定目标物体在当前视频帧的图像中的最佳位置。在数据集VOT-2016上对各种算法进行了评估,主要从加权平均重叠率Overlap、平均加权健壮度R-Rank、加权平均失败次数failures以及A-排名A-Rank方面进行评估,如表1所述。表1算法评估结果本发明TCNNCCOTMDNet_NMLDFEBTSSATDDCSTAPLEPSiamRNR-Rank8.2812.389.6812.627.88.6711.714.7214.3217.92failures0.720.830.890.910.921.051.051.271.311.36A-Rank9.95.67.85.513.1817.823.685.774.53.6Overlap0.520.550.540.540.490.460.580.540.550.55从表1的数值中可看出,本发明在各方面的评价较高,表明本发明在健壮度方面表现优秀,并保持了很高的跟踪精度。
权利要求:1.一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,包括以下步骤:S1:从网络上选择视频序列,用于进行目标物体的跟踪;S2:选择视频序列中任一帧的图像作为初始帧图像,并进行处理得到第一数据,第一数据包括目标物体的上下文区域、多尺度模板、分类标签以及回归标签;S3:将得到的第一数据输入构建的模型中进行训练,得到模型的初始参数,初始参数为目标物体的分类值和回归值;S4:通过构建的模型计算目标物体的状态信息,状态信息包括位置、尺度和运动方向。2.如权利要求1所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,所述S2包括以下步骤:S2-1:以目标物体为中心构建目标框,再以目标框为边界裁剪一个图像块作为第一图像块,用于代表目标物体;S2-2:在第一图像块的周围,裁剪第一图像块的上下文区域得到第二图像块,并将第二图像块缩放至127×127像素,且第二图像块和第一图像块应满足以下公式m0=m+0.5×m+n,n0=m+0.5×m+n1公式1中,m表示第一图像块的宽度,n表示第一图像块的高度,m0表示第二图像块的宽度,n0表示第二图像块的高度;S2-3:在第二图像块周围以尺度步长为r=1.05来采集67个不同大小的多尺度模板,再对第二图像块进行网格绘制得到网格点,每个网格点依次用67个多尺度模板去匹配,得到第二图像块的分类标签;S2-4:将视频序列中目标物体的预测框和实际目标框的坐标进行参数化以建立三维矩阵,得到第二图像块的回归标签。3.如权利要求1所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,所述S3包括以下步骤:S3-1:构建MSSTResNet网络模型:在经典的深度残差网络基础上,删除了res5,并用分类损失层和回归损失层分别代替全连阶层和平均池化层,从而构建了MSSTResNet网络模型,以提升网络对于物体和背景的区分能力;S3-2:将得到的第一数据输入MSSTResNet网络模型中进行训练,得到模型的初始参数。4.如权利要求1所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,模型的初始参数包括分类值回归值,分类值的表达式如下:公式2中,yi表示样本是目标物体的预测概率;若样本为正,则如果样本为负,则回归值的表达式如下:公式3中,i表示样本,x表示预测框的x坐标轴的坐标,y表示预测框的y坐标轴的坐标,w表示预测框的宽,h表示预测框的高,表示平滑损失函数;ti表示预测边框坐标系的参数化;表示实际边框坐标系的参数化5.如权利要求2所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,所述第二图像块的大小应满足以下公式:E=maxz,z0,z0=m0×n04公式4中,E表示第二图像块的大小,z表示第二图像块的预期大小,z0表示计算所得的第二图像块的预期大小。6.如权利要求1所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,所述S4包括以下步骤:S4-1:计算目标物体在视频序列变化后的帧图像中的状态信息;计算出目标物体的分类值Lcls和回归值Lreg,并取最大分类值以确定目标物体在当前视频帧图像中的最佳状态最佳状态的计算公式如下:公式5中,表示在第t个视频帧的图像中目标物体的尺度是α;S4-2:进行检测器阈值的动态更新;对目标物体进行跟踪过程中,采用动态的检测阈值,在某一个视频帧的图像中,一旦检测到小于当前阈值的情况,就需要重新学习,并设定新的检测阈值。7.如权利要求6所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,所述检测器阈值的动态更新包括以下步骤:S4-1:计算第t帧中目标物体最大分类值和回归值,记为第一阈值τ1;S4-2:计算第t+1帧中目标物体最大分类值和回归值,记为第二阈值τ2,并将第二阈值τ2和第一阈值τ1进行对比,从而更新检测器的阈值;若τ2τ1,则将τ2作为检测器的更新阈值;若τ2τ1,则重新对模型进行10次迭代训练从而计算计算得到τ3,以τ3作为检测器的阈值。
百度查询: 重庆大学 一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。