首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于YOLOv5和GME的采样方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:成都云擎科技有限公司

摘要:本发明公开了一种基于YOLOv5和GME的采样方法。该发明是一种全局运动补偿与目标检测算法YOLOv5相结合的采样阶段预处理模块,针对镜头大幅度运动下的视频行为识别任务进行算法改进。该模块算法与基于光流的全局运动补偿算法有以下不同:一是用视频帧压缩域已有的运动矢量替换Brox光流进行,大大降低了获得数据的计算量和耗时;二是添加行人检测算法YOLOv5切割出人体存在区域,使得全局运动的估计不被人体的局部运动所影响,随后计算出背景的全局运动,反馈到整个视频帧中消除全局运动对行为识别的负面影响。本发明在公开数据集上验证并比较新算法和原算法的效果,实验结果表明该采样方法较原方法有效的保证了行为识别的实时性,同时明显改善了行为识别在镜头大幅度运动下的视频中的识别准确率。

主权项:1.一种基于YOLOv5和GME的采样方法,包括以下步骤:步骤1.运动矢量获取模块,为本专利核心内容。YGME算法将使用帧之间的运动矢量数据替代光流值进行接下来的全局运动估计与补偿。由于视频中的运动矢量在视频解压的过程中就可以直接获得,相较于GME,这样做避免了大量的光流运算Brox光流算法在NVIDIAGPU上的处理速度为一帧0.06s,也就是约16FPS。步骤2.参数运动估计模型,全局运动的参数模型分为四种:二参数模型、四参数模型、六参数模型、八参数模型。四种不同的模型具备的全局运动建模特性不同。从实际应用场景上分析,通常来说,参数的减少意味着准确度的下降,但是在实际的视频人体行为识别中,如果直接基于视频的压缩域运动矢量MPEG来代替相邻两帧图像的光流进行全局运动估计,四参数模型就足以描述其各种运动模式。在本发明中将使用四参数模型估计参数。坐标系将二维图像分为四个区域,右下、左下、左上、右上分别为IIIIIIIV象限。在I象限的像素中取一点,其坐标为aI=x,yT,x>0,y>0,该像素在另外三个像素中关于XY轴以及原点对称的三点分别为aII=-x,yT,aIII=-x,-yT,aIV=x,-yT。基于以上建模,就可以用以下方程来表示全局运动: 公式中,aI=x,yT表示图像帧中的某一像素点,tx和ty代表了XY轴两个方向的摄像机平移运动变量,a1和a2代表了伸缩和旋转的运动变量。根据这四个参数,构筑了全局运动估计的四参数模型,可以根据该四个参数估计摄像机全局运动。在XOY坐标系中,可以用下面的公式表示随机一点的运动矢量:MVPai=fai|A,T-ai=A-I×ai+T首先基于视频图像的中心作为原点,构建XOY坐标系,导入其全局运动的矢量数据。步骤3.人体区域分割模块,为本专利的核心思想。为了消除局部运动主要是人体运动对全局运动的错误估计,使用行人检测YOLO算法获取视频帧中的人员存在区域,留下人员存在以外的那部分区域。随后裁去其整张运动矢量图中的对应区域运动矢量,输入剩余区域的运动矢量进行参数估计,估算出整张图的全局运动矢量。最后返还计算出的全局运动矢量,还原出一张没有发生全局运动的运动矢量图。全局运动补偿的公式如下:MVP′ai=MVPpeopleai-MVPglobalaiMVPpeopleai是人员区域运动矢量数据,为已知值,MVPglobalai是全局运动矢量,根据述四参数模型的算法,MVPglobalai的计算公式如下:MVPglobalai=Aai+T所以上式可写为: 步骤4.整体的采样方案在双流SlowFast结构上进行性能测试。在HMDB51数据集上的实验结果中,51类行为数据中,有48个类别的识别率得到了提升,其中dance、ride、hit等几类提升超过了10%,只在lie-0.1AP、throw-0.2AP、phoning-0.4AP三类上有极小的降低,以Top-5的评价标准来看,其识别的准确率从86.2%提升到了88.3%。除此以外,算法的分类损失函数和整体损失函数比其他采样方法的收敛速度更快。压缩域CGME是基于GME算法提出的为了提升全局运动补偿运行速度的算法。其核心思路在于用视频的运动矢量,也就是MPEG光流来代替需要计算得到的Brox光流,在运动信息的描述显然不如Brox光流,其原因是MPEG光流以16*16的图块描述运动信息,而Brox光流则是像素与像素间的运动信息。但其运算速度有了近百倍的提升从6.6fps到912.3fps,但是实际运行过程并不需要这么快的速度,故而使用一部分资源,利用目标检测算法YOLOv5作为辅助改善CGME算法的准确率。从实验的结果来看,压缩域的YGEM算法以降低一部分识别率的代价下降约1.8%,大大提升了算法的运行速度从6.6fps到86.0fps,使得全局运动补偿在实时应用的场景的有了实际意义。

全文数据:

权利要求:

百度查询: 成都云擎科技有限公司 一种基于YOLOv5和GME的采样方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。