一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法

导航：龙图腾网> 最新专利技术> 一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：重庆大学

摘要：本发明公开了一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法，包括以下步骤：S1：从网络上选择视频序列，用于进行目标物体的跟踪；S2：选择视频序列中任一帧的图像作为初始帧图像，并进行处理得到第一数据，第一数据包括目标物体的上下文区域、多尺度模板、分类标签以及回归标签；S3：将得到的第一数据输入构建的模型中进行训练，得到模型的初始参数，初始参数为目标物体的分类值和回归值；S4：通过构建的模型计算目标物体的状态信息，状态信息包括位置、尺度和运动方向。本发明提高了算法的运行速度及计算效率，健壮地识别目标物体的外观变化，从而跟踪计算目标物体的位置、尺度和运动方向。

主权项：1.一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法，其特征在于，包括以下步骤：S1：从网络上选择视频序列，用于进行目标物体的跟踪；S2：选择视频序列中任一帧的图像作为初始帧图像，并进行处理得到第一数据，第一数据包括目标物体的上下文区域、多尺度模板、分类标签以及回归标签；所述S2具体包括以下步骤：S2-1:以目标物体为中心构建目标框，再以目标框为边界裁剪一个图像块作为第一图像块，用于代表目标物体；S2-2：在第一图像块的周围，裁剪第一图像块的上下文区域得到第二图像块，并将第二图像块缩放至127×127像素，且第二图像块和第一图像块应满足以下公式m0＝m+0.5×m+n，n0＝m+0.5×m+n1公式1中，m表示第一图像块的宽度，n表示第一图像块的高度，m0表示第二图像块的宽度，n0表示第二图像块的高度；S2-3：在第二图像块周围以尺度步长为r＝1.05来采集67个不同大小的多尺度模板，再对第二图像块进行网格绘制得到网格点，每个网格点依次用67个多尺度模板去匹配，得到第二图像块的分类标签；S2-4：将视频序列中目标物体的预测框和实际目标框的坐标进行参数化以建立三维矩阵，得到第二图像块的回归标签；S3：将得到的第一数据输入构建的模型中进行训练，得到模型的初始参数，初始参数为目标物体的分类值和回归值；S4：通过构建的模型计算目标物体的状态信息，状态信息包括位置、尺度和运动方向。

全文数据：一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法技术领域本发明涉及计算机图像处理技术领域，特别涉及一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法。背景技术物体跟踪是计算机视觉及其相关研究领域中的一个重要而具有挑战性的任务，同时也是各类机器视觉研究领域中一个开放性的研究问题，在自动监控、人机交互、车辆导航、生物医学、虚拟现实、机器人、安全监控、等领域有着广泛的应用。在视频跟踪领域，单一的深度卷积网络模型由于缺乏正确标注的训练样本数据信息，因此无法直接应用于视觉物体跟踪任务中；此外，有学者提出将视觉物体跟踪分成两个过程，即：离线预训练阶段以及在线微调和跟踪阶段。实验结果表明，虽然这种方式训练得到的深度网络模型应用于视觉物体跟踪任务时取得了非常好的跟踪性能，但是，不管是离线预训练，还是在线微调都会花费很长的时间。Kala等人提出的“跟踪-学习-检测”中，选取的是固定大小的目标物体，不能识别物体的尺度变化，在视频图像序列中一旦目标物体出现大尺度的变化，就会导致无法检测到目标物体，从而导致跟踪失败。现有的视觉物体跟踪算法计算量一般较大，且无法很好地适应各种不同目标物体的形变，当物体在视频中放大、缩小，或者发生形变和遮挡等表观变化时，现有算法难以对目标物体进行跟踪和确定边界，且精确度和鲁棒性较低。发明内容针对现有技术不能有效识别目标物体尺度变化的问题，本发明提供一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法，通过将目标物体的多尺度时空特征和TLDTracking-Learning-Detection，跟踪-学习-检测框架结合，用于识别目标物体的形变，以对目标物体进行跟踪检测。为了实现上述目的，本发明提供以下技术方案：一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法，包括以下步骤：S1：从网络上选择视频序列，用于进行目标物体的跟踪；S2：选择视频序列中任一帧的图像作为初始帧图像，并进行处理得到第一数据，第一数据包括目标物体的上下文区域、多尺度模板、分类标签以及回归标签；S3：将得到的第一数据输入构建的模型中进行训练，得到模型的初始参数，初始参数为目标物体的分类值和回归值；S4：通过构建的模型计算目标物体的状态信息，状态信息包括位置、尺度和运动方向。优选的，所述S2包括以下步骤：S2-1:以目标物体为中心构建目标框，再以目标框为边界裁剪一个图像块作为第一图像块，用于代表目标物体；S2-2：在第一图像块的周围，裁剪第一图像块的上下文区域得到第二图像块，并将第二图像块缩放至127×127像素，且第二图像块和第一图像块应满足以下公式m0＝m+0.5×m+n，n0＝m+0.5×m+n1公式1中，m表示第一图像块的宽度，n表示第一图像块的高度，m0表示第二图像块的宽度，n0表示第二图像块的高度；S2-3：在第二图像块周围以尺度步长为r＝1.05来采集67个不同大小的多尺度模板，再对第二图像块进行网格绘制得到网格点，每个网格点依次用67个多尺度模板去匹配，得到第二图像块的分类标签；S2-4：将视频序列中目标物体的预测框和实际目标框的坐标进行参数化以建立三维矩阵，得到第二图像块的回归标签。优选的，所述S3包括以下步骤：S3-1:构建MSSTResNet网络模型：在经典的深度残差网络基础上，删除了res5，并用分类损失层和回归损失层分别代替全连阶层和平均池化层，从而构建了MSSTResNet网络模型，以提升网络对于物体和背景的区分能力；S3-2：将得到的第一数据输入MSSTResNet网络模型中进行训练，得到模型的初始参数。优选的，模型的初始参数包括分类值回归值，分类值的表达式如下：公式2中，yi表示样本是目标物体的预测概率；若样本为正，则如果样本为负，则回归值的表达式如下：公式3中，i表示样本，x表示预测框的x坐标轴的坐标，y表示预测框的y坐标轴的坐标，w表示预测框的宽，h表示预测框的高，表示平滑损失函数；ti表示预测边框坐标系的参数化；表示实际边框坐标系的参数化优选的，所述第二图像块的大小应满足以下公式：E＝maxz,z0，z0＝m0×n04公式4中，E表示第二图像块的大小，z表示第二图像块的预期大小，z0表示计算所得的第二图像块的预期大小。优选的，所述S4包括以下步骤：S4-1：计算目标物体在视频序列变化后的帧图像中的状态信息；计算出目标物体的分类值Lcls和回归值Lreg，并取最大分类值以确定目标物体在当前视频帧图像中的最佳状态最佳状态的计算公式如下：公式5中，表示在第t个视频帧的图像中目标物体的尺度是α；S4-2：进行检测器阈值的动态更新；对目标物体进行跟踪过程中，采用动态的检测阈值，在某一个视频帧的图像中，一旦检测到小于当前阈值的情况，就需要重新学习，并设定新的检测阈值。优选的，所述检测器阈值的动态更新包括以下步骤：S4-1：计算第t帧中目标物体最大分类值和回归值，记为第一阈值τ1；S4-2：计算第t+1帧中目标物体最大分类值和回归值，记为第二阈值τ2，并将第二阈值τ2和第一阈值τ1进行对比，从而更新检测器的阈值；若τ2τ1，则将τ2作为检测器的更新阈值；若τ2τ1，则用τ2代替τ1作为检测器的阈值进行后续阈值比较，并根据对应的分类值和回归值计算目标物体的状态信息。若τ2τ1，表示目标物体发生了显著地外观变化或检测到跟踪失败，则将第t+1帧之前的10帧图像及其每张图像所对应的分类标签和回归标签输入MSSTResNet网络模型进行10次迭代训练以对MSSTResNet网络模型参数进行调整，再对第t+1帧图像的最大分类值进行二次计算得到τ3，以更新检测器的阈值，即无论τ3是否大于τ1，都将二次计算得到的τ3作为检测器的阈值。并根据τ3对应的分类值和回归值来确定目标物体在当前视频帧的图像中的最佳位置。在数据集VOT-2016上对各种算法进行了评估，主要从加权平均重叠率Overlap、平均加权健壮度R-Rank、加权平均失败次数failures以及A-排名A-Rank方面进行评估，如表1所述。表1算法评估结果本发明TCNNCCOTMDNet_NMLDFEBTSSATDDCSTAPLEPSiamRNR-Rank8.2812.389.6812.627.88.6711.714.7214.3217.92failures0.720.830.890.910.921.051.051.271.311.36A-Rank9.95.67.85.513.1817.823.685.774.53.6Overlap0.520.550.540.540.490.460.580.540.550.55从表1的数值中可看出，本发明在各方面的评价较高，表明本发明在健壮度方面表现优秀，并保持了很高的跟踪精度。

权利要求：1.一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法，其特征在于，包括以下步骤：S1：从网络上选择视频序列，用于进行目标物体的跟踪；S2：选择视频序列中任一帧的图像作为初始帧图像，并进行处理得到第一数据，第一数据包括目标物体的上下文区域、多尺度模板、分类标签以及回归标签；S3：将得到的第一数据输入构建的模型中进行训练，得到模型的初始参数，初始参数为目标物体的分类值和回归值；S4：通过构建的模型计算目标物体的状态信息，状态信息包括位置、尺度和运动方向。2.如权利要求1所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法，其特征在于，所述S2包括以下步骤：S2-1:以目标物体为中心构建目标框，再以目标框为边界裁剪一个图像块作为第一图像块，用于代表目标物体；S2-2：在第一图像块的周围，裁剪第一图像块的上下文区域得到第二图像块，并将第二图像块缩放至127×127像素，且第二图像块和第一图像块应满足以下公式m0＝m+0.5×m+n，n0＝m+0.5×m+n1公式1中，m表示第一图像块的宽度，n表示第一图像块的高度，m0表示第二图像块的宽度，n0表示第二图像块的高度；S2-3：在第二图像块周围以尺度步长为r＝1.05来采集67个不同大小的多尺度模板，再对第二图像块进行网格绘制得到网格点，每个网格点依次用67个多尺度模板去匹配，得到第二图像块的分类标签；S2-4：将视频序列中目标物体的预测框和实际目标框的坐标进行参数化以建立三维矩阵，得到第二图像块的回归标签。3.如权利要求1所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法，其特征在于，所述S3包括以下步骤：S3-1:构建MSSTResNet网络模型：在经典的深度残差网络基础上，删除了res5，并用分类损失层和回归损失层分别代替全连阶层和平均池化层，从而构建了MSSTResNet网络模型，以提升网络对于物体和背景的区分能力；S3-2：将得到的第一数据输入MSSTResNet网络模型中进行训练，得到模型的初始参数。4.如权利要求1所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法，其特征在于，模型的初始参数包括分类值回归值，分类值的表达式如下：公式2中，yi表示样本是目标物体的预测概率；若样本为正，则如果样本为负，则回归值的表达式如下：公式3中，i表示样本，x表示预测框的x坐标轴的坐标，y表示预测框的y坐标轴的坐标，w表示预测框的宽，h表示预测框的高，表示平滑损失函数；ti表示预测边框坐标系的参数化；表示实际边框坐标系的参数化5.如权利要求2所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法，其特征在于，所述第二图像块的大小应满足以下公式：E＝maxz,z0，z0＝m0×n04公式4中，E表示第二图像块的大小，z表示第二图像块的预期大小，z0表示计算所得的第二图像块的预期大小。6.如权利要求1所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法，其特征在于，所述S4包括以下步骤：S4-1：计算目标物体在视频序列变化后的帧图像中的状态信息；计算出目标物体的分类值Lcls和回归值Lreg，并取最大分类值以确定目标物体在当前视频帧图像中的最佳状态最佳状态的计算公式如下：公式5中，表示在第t个视频帧的图像中目标物体的尺度是α；S4-2：进行检测器阈值的动态更新；对目标物体进行跟踪过程中，采用动态的检测阈值，在某一个视频帧的图像中，一旦检测到小于当前阈值的情况，就需要重新学习，并设定新的检测阈值。7.如权利要求6所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法，其特征在于，所述检测器阈值的动态更新包括以下步骤：S4-1：计算第t帧中目标物体最大分类值和回归值，记为第一阈值τ1；S4-2：计算第t+1帧中目标物体最大分类值和回归值，记为第二阈值τ2，并将第二阈值τ2和第一阈值τ1进行对比，从而更新检测器的阈值；若τ2τ1，则将τ2作为检测器的更新阈值；若τ2τ1，则重新对模型进行10次迭代训练从而计算计算得到τ3，以τ3作为检测器的阈值。

百度查询：重庆大学一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种电动汽车高压线缆转接装置

下一篇：一种用于辅助视频拍摄的移动架

相关技术

一种电动汽车高压线缆转接装置

一种用于辅助视频拍摄的移动架

一种防结块的色母粒转运工装

一种便于升降的一体机

一种无铅射线组装式防护墙板

一种立式固井供液罐

冷却水泵的叶轮

一种太阳能电池用防水除尘框架

一种建筑施工建筑网

一种干冰块自动理料设备

一种用于固定装裱藏品的可拆卸网钩装置

一种承载埋嵌铜块过水平棕化线治具

特征相关技术

物体特征点检测装置_株式会社爱信_202380021361.1

融合颜色特征和边缘特征的双目视觉绿色植被匹配定位方法_福州大学_202111436002.1

基于注意力特征融合与多列特征增强的人群计数方法_南京信息工程大学_202411125494.6

基于模型的特征化和分类_格瑞尔有限责任公司_202080036172.8

一种遥感影像特征识别方法_南通拓尔普测绘信息有限公司_202410907870.0

具有集成盖、手柄及屏蔽特征的收集瓶_泰尔茂比司特公司_202380026825.8

具有高度可调特征的冰箱门铰接件_伊莱克斯巴西有限公司_201980101050.X

眼底特征获取的方法、装置、介质和设备_依未科技(北京)有限公司_202111463020.9

刀具特征筛选方法、系统、电子设备及介质_中国计量大学_202410963521.0

电动外科缝合器的击发限制特征_西拉格国际有限公司_202380029266.6

时空相关技术

一种半径强度可调的时空光涡旋生成方法及系统_西湖大学光电研究院_202411004681.9

一种基于时空Transformer的门控混合专家网络的参与度评估方法_上海大学_202410988732.X

沥青铺面材料性能损伤时空演变表征模型的建立方法_东南大学_202210827523.8

一种基于时空局部模型的数值模式降水预报产品释用方法_海南省气象科学研究所_202010733993.9

一种基于时空局部模型的数值模式预报产品客观释用方法_海南省气象科学研究所_202010733631.X

一种基于数据链的高动态高精度时空同步方法_北京自动化控制设备研究所_202410885242.7

一种适用于城市复杂环境的时空基准建立方法_中国电子科技集团公司第五十四研究所_202111410831.2

一种基于时空动态关联图的复杂装备性能参数预测方法_浙江大学_202410950021.3

一种基于时空局部模型的数值模式气温预报产品释用方法_海南省气象科学研究所_202010734191.X

基于综合环境影响模型的危险逃逸时空棱镜求解方法及系统_中国人民解放军战略支援部队信息工程大学_202111412094.X

视觉相关技术

油田视觉控制框架_斯伦贝谢技术有限公司_202380029840.8

多模态视觉传感系统及使用方法、视觉传感器的制备方法_电子科技大学_202410951846.7

一种新型快速视觉对位返修设备及其视觉对位方法_深圳市卓茂科技有限公司_202011423798.2

视觉检测用焦距调节机构_苏州创信维自动化设备有限公司_202420125248.X

一种刀片视觉检测装置_上汽大众汽车有限公司_202411019795.0

袜子输送线视觉定位系统_杭州全挚科技有限公司_202411195982.4

一种视觉检测装置_合肥国轩高科动力能源有限公司_202420280225.6

一种屏幕视觉检测设备_成都利视通光电科技有限公司_202420383006.0

一种视觉传达演示器_桂林电子科技大学_202420601848.9

一种机器视觉实验实训平台_南通合寿信息技术有限公司_202411183390.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务