首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于动作识别的监控系统及其方法_李刚毅_201811453471.2 

申请/专利权人:李刚毅

申请日:2018-11-30

公开(公告)日:2024-06-21

公开(公告)号:CN109598229B

主分类号:G06V20/52

分类号:G06V20/52;G06V20/40;G06V40/20;G06V10/25;G06V10/764;G06V10/82

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2021.09.24#实质审查的生效;2019.04.09#公开

摘要:本公开涉及一种提供基于动作识别的监控系统和方法。该方法包括:利用姿态估计法识别被监控视频帧中的人员的肢体位置,进行人体骨骼2D建模;利用预先训练好的姿态分类模型对被监视视频帧中的人体骨骼的2D模型进行分类;把连续视频帧中姿态分类结果存入姿态向量,并根据预先训练好的动作识别模型判断动作类型;并且如判断出的动作类型属于被监控类型,则将标记做出特定动作的视频帧和或该动作的视频片段存储到存储器并触发告警。

主权项:1.一种基于动作识别的监控方法,包括以下步骤:a)利用姿态估计法识别被监控视频帧中的人员的肢体位置,进行人体骨骼2D建模;b)利用预先训练好的姿态分类模型对被监视视频帧中的人体骨骼的2D模型进行分类;c)把连续视频帧中姿态分类结果存入当前视频的姿态向量Pc,s,其中c是姿态类别,s是每个姿态类别c被连续检测到的次数,并根据预先训练好的动作识别模型判断动作类型,包括将已知动作的姿态向量集进行标注,过滤连续出现次数小于阈值的向量值,并在过滤去除次数低于阈值的向量值后,合并姿态相同的连续向量值,以及将被标注的将已标注的姿态向量集作为训练集训练动作识别模型;并且d)如判断出的动作类型属于被监控类型,将标记做出特定动作的视频帧和或该动作的视频片段存储到存储器并触发告警。

全文数据:基于动作识别的监控系统及其方法技术领域本公开涉及基于动作识别的监控系统及其方法,尤其是涉及利用姿态预测技术、姿态识别技术和动作识别技术,判断被监控视频中的人员是否做出特定动作,如果检测到特定的动作则自动报警,并保存相关视频帧和视频文件片段存档备查的系统及其方法。背景技术对象的动作在判断对象行为方面具有决定性作用。不管对象是人还是动物亦或是机械,其要实现既定目标,都需要通过相应动作来实现。中国发明专利申请公开CN107992858A提出了一种基于单一RGB帧的实时三维手势估计系统及其方法,其利用手部检测器检测并框定手部区域,利用OpenPose识别手部关节2D位置,利用非线性平方最小化将手部3D模型拟合到2D关节位置,恢复手部姿态。此方法利用OpenPose方法实现对手部的建模并对手势进行识别。然而,该方法不适合对人的其他肢体例如腕、肘、肩、颈、胯、膝、踝、指等关节进行检测,也没有配置适合对其他肢体进行分类的有效分类算法。此外,CN107992858A所公开的方法主要是对单一帧内的手势进行识别,不适合对连续多帧的视频中的动作进行识别。中国发明专利申请公开CN108427331A提出了一种人机协作安全防护方法及系统,其利用RGB-D传感器识别机器人坐标,利用RGB-D传感器和OpenPose检测人员坐标,通过计算人与机器人之间的距离控制机器人的速度。该方法也使用OpenPose方法来实现肢体位置的建模,并是通过对人体建模后做位置及距离的判断,来实现对机器人的动态速度控制。因此,该现有技术没有通过对人体建模后的动作识别,来判断动作的类型。中国发明专利申请公开CN108416795A提出了一种基于排序池化融合空间特征的视频动作识别方法,其计算视频帧的视觉特征向量集,对视频帧构建二维空间金字塔模型,并对子空间中的视觉特征向量集处理及分类后判断动作类别。此方法采用对视频帧的二维空间进行多尺度分割的方式实现对动作的检测,因此是基于原始视频帧的视觉特征进行分类的。该技术不适合区分出独立的人体骨骼模型,并对骨骼模型而非原始视频特征进行分类判断姿态,因而不适合根据姿态顺序判断动作。因此,需要一种能够利用姿态预测技术、姿态识别技术和动作识别技术,判断被监控视频中的人员是否做出特定动作,如果检测到特定的动作则自动报警,并保存相关视频帧和视频文件片段存档备查的系统及其方法。发明内容为此,本公开的目的是利用姿态预测技术、姿态识别技术和动作识别技术,判断被监控视频中的人员是否做出特定动作,如果检测到特定的动作则自动报警,并保存相关视频帧和视频文件片段存档备查。为了实现上述目的,根据本公开的一个方面,提供一种基于动作识别的监控方法,包括以下步骤:a利用姿态估计法识别被监控视频帧中的人员的肢体位置,进行人体骨骼2D建模;b利用预先训练好的姿态分类模型对被监视视频帧中的人体骨骼的2D模型进行分类;c把连续视频帧中姿态分类结果存入姿态向量,并根据预先训练好的动作识别模型判断动作类型;并且d如判断出的动作类型属于被监控类型,则将绘制了标记做出特定动作的视频帧和或该动作的视频片段存储到存储器并触发告警。优选地,所述步骤a包括:a1判断视频帧中一个或多个人员的主要关节位置坐标;并且a2利用主要关节位置坐标和关节之间的关系对每个人员进行人体骨骼2D建模。优选地,所述步骤a2还包括对视频中的每个人的手部和或脸部的五官进行人体骨骼2D建模。优选地,所述步骤b包括:将需要识别的连续肢体动作分解成离散的关键姿态;对人体骨骼2D建模结果进行关键姿态标注;并且利用卷积神经网络算法和被标注的人体骨骼2D建模结果训练姿态分类模型。优选地,所述步骤c包括:将已知动作的姿态向量集进行标注;并且将已标注的姿态向量集作为训练集训练动作识别模型。优选地,所述步骤d包括下列步骤中至少之一:在原始视频中标记做出特定动作的对象,并触发告警;将标记了特定动作的视频帧存档留证;以及将标记了特定动作的视频片段存档留证。优选地,所述步骤c还包括步骤:采用热区ROI,RegionofInterest比较法判断多人场景下的被追踪对象的动作。优选地,所述热区是指监控视频的指定区域,如果没有指定区域,则热区就是整个监控画面区域。优选地,所述步骤c还包括:对视频中的每个人添加追踪器来监控其动作,并且判断被追踪对象是否需要继续被追踪,如果不需要继续追踪,则删除该追踪器。优选地,其中通过判断被检测对象是否处于下列状态中至少之一来判断是否需要继续追踪:被检测对象到达指定区域;被检测对象到达离开区域;被检测对象处于静止状态超过一定时间;以及是否接收到停止对被监控区域内的对象进行继续追踪的指令。根据本公开的另一个方面,提供一种基于动作识别的监控系统,包括:姿态预测部分,其利用姿态估计法识别被监控视频帧中的人员的肢体位置,并根据所获得的位置进行人体骨骼2D建模;姿态分类部分,其利用预先训练好的姿态分类模型对被监视视频帧中的人体骨骼的2D模型进行分类;姿态管理部分,其将连续视频帧中姿态分类结果存入姿态向量;动作识别部分,其根据预先训练好的动作识别模型判断动作类型;以及输出部分,其在判断出的动作类型属于被监控类型时,将标记做出特定动作的视频帧和或该动作的视频片段存储到存储器并触发告警。优选地,所述监控系统还包括:姿态分类训练部分,其对所得到的人体骨骼2D模型进行关键姿态标注,并将标注过的人体骨骼2D模型将作为训练集输入卷积神经网络训练分类模型进行训练,以得到姿态分类模型;以及动作识别训练部分,其将已知动作视频经姿态管理部分生成的姿态向量作为训练集,采用多元分类算法对姿态向量进行训练,以得到动作识别模型,用于姿态向量进行动作分类。由于本公开使用人体姿态预测法进行检测视频中人员的人体骨骼2D建模,并利用姿态分类法对姿态进行分类,用姿态向量记录姿态顺序,并利用动作分类法对人体动作进行识别,因此实现了在自动化生产中实时进行人体动作识别,从而可以实现无人值守的作业监控。此外,本公开使用热区比较法实现对固定区域内的多人场景下关键人物的人体动作识别,使用对象追踪法对多人场景下对多个运动人员实现多人动作识别,从而可以用于生产指挥和环境监控等不同的应用场景。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1是图示根据本公开的一个实施例的基于动作识别的监控系统的示意性框图;图2是图示根据本公开的一个实施例的姿态识别部分的示意框图;图3是图示姿态管理部分更新姿态向量的流程图;图4是根据本公开的一个实施例的动作识别部分的详细示意性框图;图5是根据本公开的一个实施例的基于动作识别的监控系统的操作流程图;图6是示出人体的主要关节的视图;图7是示出各个关节之间的关联关系的视图;图8示出了几种姿态的例子;图9a和9b分别示出了几种姿态的例子;图10示出了视频区域中的一个指定热区;以及图11示出了在被检测对象是运动的情况下进行对象追踪的示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本开。除非另有定义,本文使用的所有其他科学和技术术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一也可以被称为第二,反之亦然。取决于语境,如在此所使用的词语“如果”可以被解释成为“在…时”或“当…时”或“响应于确定”。为了使本领域技术人员更好地理解本公开,下面结合附图和具体实施方式对本公开作进一步详细说明。图1是图示根据本公开的一个实施例的基于动作识别的监控系统的示意性框图。如图1所示,该监控系统包括视频采集部分110、姿态识别部分120、动作识别部分130以及输出部分140。视频采集部分110通过视频采集设备,例如手机、摄像头、网络等收集视频数据,然后将所采集到的视频数据视频流转换成视频帧,提供给姿态识别部分120使用。姿态识别部分120检测视频帧中的人员是否处于预定义的姿态,并且在检测到预定义的姿态的情况下,根据检测结果来建立每个人员的人体骨骼2D模型。如果在姿态检测过程中发现任意预定义的多个动作的分解姿态,则将姿态检测结果添加到姿态向量中,并把姿态向量传送给动作识别部分130。动作识别部分130判断姿态向量是否为被监控的动作。如果是被监控的动作,动作识别部分120就输出该动作关键姿态的视频帧和或该动作的视频片段到输出部分140。输出部分140将该动作识别部分识别出的动作所对应的关键姿态帧和或视频片段输出到数据存储设备、视频显示设备和或声音播放设备未示出中。图2是图示根据本公开的一个实施例的姿态识别部分130的示意框图。姿态识别部分130包括姿态预测部分210、姿态分类部分220、姿态分类训练部分230、姿态管理部分240。姿态预测部分210对视频帧中的人体姿态进行预测。根据本公开的一个实施例,姿态预测部分210采用OpenPose技术判断视频帧中所有人员的肢体关键关节的2D坐标位置,然后根据自定义的关节关联关系,为每个检测到的人员建立人体骨骼2D模型。对于预定义的人体动作,需要将连续的肢体动作分解成离散的关键姿态类似于广播体操图谱。优选地,姿态预测部分210还可以对视频中的每个人的手部进行人体骨骼2D建模和或对视频中的每个人的脸部进行人体五官2D建模。虽然根据本公开的一个实施例,采用了OpenPose技术进行人体姿态预测,但应当理解,也可以采用任何其他类似的技术进行人体姿态预测。姿态识别部分130具有两种操作模式:姿态训练模式和姿态识别模式。在姿态训练模式下,姿态分类训练部分230对姿态预测部分210所得到的人体骨骼2D模型进行关键姿态标注。标注过的人体骨骼2D模型将作为训练集输入卷积神经网络进行训练分类模型。将训练好的姿态分类模型作为识别模式下的姿态分类模型对人体骨骼2D模型进行自动分类。在姿态识别模式下,姿态预测部分210将人体骨骼2D模型传送给姿态分类部分220,并利用训练模式下训练好的姿态分类模型对姿态进行分类。对于任意应用场景,应当为每一个动作的姿态分解图定义一个初始姿态。姿态管理部分240维护当前视频的姿态向量Pc,s,其中c是姿态类别,例如一些常见的人体姿态:标准坐姿、接打电话、伏案休息,或一些特定的业务手势,如手臂前伸、手臂弯曲握拳等,s是每个姿态类别c被连续检测到的次数。图3是图示姿态管理部分240更新姿态向量的流程图。如图3所示,一旦姿态分类部分220在视频帧中检测到预定义的姿态310,就将这个姿态类别传送给姿态管理部分240。姿态管理部分240首先检测姿态向量Pc,s是否为空,姿态向量为“空”即姿态向量中没有保存任何姿态记录320。如果姿态向量为空320,那么姿态管理部分240判断当前姿态是否为初始姿态330。所谓初始姿态,即某个姿势分解图谱中的第一个图谱姿态。例如,当被监测人员处于标准坐姿的情况下,当他做出一个屈臂握拳的动作的时候,第一个分解姿态是将手臂平伸,这时姿态中手臂的位置与标准坐姿下的手臂自然扶握椅子把手的姿态有明显的区别,从而可以认为是一个动作的开始。如果不是初始姿态,那么就结束判断,并丢弃该姿态370。例如,如果监测到的姿态是手臂上举,那么这个分解姿态不是任何已知动作分解姿态的第一个姿态,因此可以判断其后续动作也不是需要被监测的动作,因此可以忽略该姿态。或者说,该姿态以及可能发展的后续姿态不是需要监控的各种姿态集合的一部分,因此不用继续进行监控。当然,如果将来对于该类姿态需要进行监控,在其被纳入监控范围之后,其也可能被认为是初始姿态而不被忽略。如果是初始姿态,那么姿态管理部分240就把该姿态作为当前姿态存入姿态向量340,并对当前姿态的计数器+1360。所谓当前姿态,是指姿势向量中记录的最新姿态。因为视频通常为30帧秒,因此如果对连续视频进行逐帧监测,很多帧中的姿态因为差异较小,会被识别为同一姿态,所以用计数器累计当前姿态的出现次数。如果不是初始姿态,那么姿态管理部分240就判断该姿态是否为当前姿态即上一个检测到的关键姿态350。换句话说,初始姿态是判断和记录一个动作的开始。当前姿态是指在记录一个动作的多个分解姿态即关键姿态时,最新记录的关键姿态。当刚开始记录一个动作时,初始姿态与当前姿态应该是相同的,当动作记录过程中有不同于初始姿态的姿态被检测到时,新的动作姿态就会成为当前姿态,这时,初始姿态与当前姿态时不同的。如果不是,那么姿态管理部分240就把该姿态作为当前姿态存入姿态向量340,开始对新的当前姿态,也就是新的初始姿态进行计数,即对当前姿态的计数器+1360。如果是,也就是所检测到的姿态与紧前一个关键姿态差别细小,则被判断为与前一关键姿态相同,那么姿态管理部分240就对当前姿态的计数器+1360。在下列条件下,姿态管理部分240将结束一组姿态的向量更新:·当前姿态为结束姿态,结束姿态与初始姿态相对应,是一个动作的多个分解姿态即关键姿态中的最后一个姿态。并且其连续出现次数超过预定义的阈值。·当前姿态的计数器在N帧没有更新。这意味着被监控人的动作已经在预定时间段内检测到。·当前姿态的状态在N帧没有变更。这意味着尽管检测到姿态,但是姿态持续处于相同姿态状态。·系统命令结束姿态更新·视频结束或视频流中断当姿态向量结束更新后,该姿态向量将被发送给后续模块处理,同时姿态管理部分240内的姿态向量被初始化,为下一组姿态向量的记录做准备。在姿态向量结束更新后,要对姿态向量做规范化处理,包括过滤连续被监控到次数低于预定义阈值的姿态,以防止偶发误检带来的错误判断。由于基于计算机视觉的人工智能姿态识别技术可能受到光线、角度、遮挡等因素的影响,存在一定程度的误判的可能性。由于这种误判通常是偶发的,因此为了减少误判对整体分类的影响,需要设定一个阈值,以保证只有在连续多帧高于阈值中检测到相同姿态的情况下才保留该姿态记录,否则认为该姿态是偶发误检,不予记录,从而提高整体姿态检测的准确性。在过滤之后,还需要对连续多次出现的姿态进行合并。图4是根据本公开的一个实施例的图1所示的动作识别部分130的详细示意性框图。如图3所示,该动作识别部分130包括动作识别器410、动作识别训练部分420。动作识别部分也有两种工作模式:动作训练模式和动作识别模式。在动作训练模式下,样本训练动作视频经姿态管理部分240生成的姿态向量作为训练集被输入动作识别训练部分420。动作识别训练部分420采用多元分类算法对姿态向量进行训练以获得样本动作识别模型。训练出的样本动作识别模型作为动作识别器410进行动作识别的对比样本,用于对姿态管理部分240生成的姿态向量进行动作分类。在识别模式下,将姿态管理部分240生成的姿态向量直接输入到动作识别器410中。动作识别器410利用动作识别训练器420训练好的样本识别模型判断动作类型。通常,系统会预先指定一些动作类别为被监控动作类别也被称为特定动作类别,如果判断该动作的类别为被监控的动作的类别,则输出部分140将将标记做出特定动作的视频帧和或该动作的视频片段存储到存储器未示出中。优选地,输出部分140可同时触发告警。优选地,当某个动作的初始姿态和结束姿态相同时即该动作只有一个关键姿态,则可以根据该关键姿态计数器的值是否大于预定义的姿态判断阈值,而不需要预先训练的动作分类模型来判断是否为对应的动作。例如,要判断一个人是否在打电话,假设姿态计数器的动作判断阈值为看,那么如果在连续NN=k帧中出现打电话的姿态,则可以判定该人员在接打电话。图5是根据本公开的一个实施例的基于动作识别的监控系统的操作流程图。如图5所示,在步骤S51中,该基于动作识别的监控系统利用姿态估计法识别被监控视频帧中的人员的肢体位置。可采用的估计方法可以是现有的任何一种方法,例如OpenPose法,进行人体骨骼2D建模。建模对象包括人手、脸部的五官、腕、肘、肩、颈、胯、膝、踝、指等。这里,可以利用视频帧中的一个或多个人员的主要关节位置坐标之间的关系对每个人员进行人体骨骼2D建模。接下来,如果预先已经训练好姿态分类模型,就在步骤S52中,利用预先训练好的姿态分类模型对被监视视频帧中的人体骨骼的2D模型进行分类。如果没有预先训练好姿态分类模型,则还要在步骤S52中首先训练这样的姿态分类模型,然后再利用预先训练好的姿态分类模型对被监视视频帧中的人体骨骼的2D模型进行分类。训练姿态分类模型的过程是:将需要识别的连续肢体动作分解成离散的关键姿态,然后对人体骨骼2D建模结果进行关键姿态标注,最后利用卷积神经网络算法和被标注的人体骨骼2D建模结果训练姿态分类模型。然后,在步骤S53中,建立姿态向量并将已知动作的姿态向量集标注作为训练集训练动作识别模型,以便判断动作类型是否属于被监控类型。具体来说,在该步骤中,一旦姿态分类部分220在视频帧中检测到经过训练的的样本姿态,就将这个姿态类别传送给姿态管理部分240。姿态管理部分240首先检测姿态向量是否为空。如果姿态向量为空,那么姿态管理部分240判断当前姿态是否为初始姿态。如果不是初始姿态,那么就结束判断,并丢弃该姿态。如果是初始姿态,那么姿态管理部分240就把该姿态作为当前姿态存入姿态向量,并对当前姿态的计数器+1。如果不是初始姿态,那么姿态管理部分240就判断该姿态是否为当前姿态即上一个检测到的关键姿态。如果不是,那么姿态管理部分240就把该姿态作为当前姿态存入姿态向量,并对当前姿态的计数器+1。如果是,那么姿态管理部分240就对当前姿态的计数器+1。在下列条件下,姿态管理部分240将结束一组姿态的向量更新:·当前姿态为结束姿态,并且其连续出现次数超过预定义的阈值·当前姿态的状态在N帧没有更新·当前姿态的状态在N帧没有变更·系统命令结束姿态更新·视频结束或视频流中断接下来,如判断出的动作类型属于被监控类型,则在步骤S54中将标记做出特定动作的视频帧和或该动作的视频片段存储到存储器并触发告警。应当理解,在本公开的其他实施例中,如果视频中存在多人,则可以采用热区ROI,RegionofInterest比较法或对象追踪法来对对象进行区别和追踪。如果被监控对象位于固定区域,则使用热区比较法比较合适。首先在视频区域中指定热区,然后对每个建立的人体骨骼2D模型画出其轮廓多边形缺省为矩形,然后比较该轮廓区域与热区的重合比率。比率最大的视为被检测对象。如果被检测对象是运动的,则使用对象追踪法对对象进行追踪,并分别记录每个对象的姿态向量。根据本公开的一个实施例,可采用KCFKernelizedCorrelationFilters,BOOSTING,MILMultipleInstanceLearning,TLDTracking,learninganddetection,GOTURN或其他对象追踪算法来对视屏中的对象进行追踪。在本公开的其他实施例中,可以对视频中的每个人添加追踪器。可以判断被追踪对象是否需要继续被追踪。例如,可以通过判断被检测对象是否处于下列状态中至少之一来判断是否需要继续追踪:被检测对象到达指定区域;被检测对象到达离开区域;被检测对象处于静止状态超过一定时间;以及是否接收到停止对被监控区域内的对象进行继续追踪的指令。如果不需要继续追踪,则删除该追踪器。示例该示例的目的是对利用摄像机拍摄生成的视频中的人物进行动作检测。检测过程如下。1在视频区域中进行人体骨骼2D建模。图6是示出人体的主要关节的视图。如图6所示,利用现有的人体关键节点检测的深度学习模型例如OpenPose检测出人体的主要关节例如腕、肘、肩、颈、胯、膝、踝、指等,如图中人体上的白点所示。图7是示出各个关节之间的关联关系的视图。如图7所示,根据预先定义的关节之间的关联关系例如右手肘和右手腕之间相关联,绘制人体骨骼,并对模型做规范化,使其输出尺寸均一。2然后对每一帧建立出的人体骨骼2D模型进行姿态预测。图8示出了几种姿态的例子。如图8所示,利用预先训练好的姿态分类模型对人体骨骼2D模型进行姿态预测,并将预测可信度大于预定义阈值例如50%的预测结果写入姿态向量Pc,s,其中c是姿态类别,s是每个姿态类别被连续检测到的次数。换句话说,就是将获取的姿态与姿态分类模型进行比较,并获得与姿态分类模型的相似度。其中预测可信度是姿态识别算法计算出来的,用于量化预测的姿态与训练姿态分类模型的样本姿态的近似程度。预测可信度阈值是根据实际应用场景的测试环境中总结出的经验值,其值可以根据实际场景进行配置。如图8所示的例子中,其中一个姿态的预测可信度为12%,小于预定义的阈值,则该姿态不被记录在姿态向量中。因此,这组姿态的姿态向量为:P1=[1,2,2,2]3最后,在结束对姿态向量Pc,s的更新后,利用预先训练的动作识别模型对姿态向量进行分类,判断其动作类别。在下列条件下,将结束一组姿态的向量更新:·当前姿态为结束姿态,并且其连续出现次数超过预定义的阈值·当前姿态的状态在N帧没有更新·当前姿态的状态在N帧没有变更·系统命令结束姿态更新·视频结束或视频流中断例如,如果姿态向量P1中姿态1连续出现2帧,姿态2连续出现2帧后结束,同时动作识别模型可能判断其为动作1的可信度为85%,则可以判定该动作为动作1。这些所检测到姿态1和姿态2都是动作1的构成姿态。P1=[1,2,2,2]=动作10.85。图9a和9b分别示出了几种姿态的例子。值得注意的是,如图9所示,在实际测量中,姿态1和姿态2之间还可能出现某些错误检测的姿态例如姿态3。为了防止这些信息对动作判定的影响,则需要在进行动作检测前对姿态向量进行规范化处理。规范化处理包括:·设定姿态连续出现次数的阈值例如2,并过滤掉连续出现次数低于阈值的向量值。如图9a所示,P1=[1,2,3,1,2,2]由于姿态3只连续出现1次,因此被从姿态向量中去除,则修正后的向量P1'=[1,2,2,2]。·在去除次数低于阈值的向量值后,合并姿态相同的连续向量值。如图9b所示,P1=[1,2,3,1,1,2,2,2],则在过滤掉只出现1次的向量值后,其向量变为:P1'=[1,2,1,2,2,2],可以看到P1'中存姿态1连续出现两次,因此将其合并为:P1”=[1,4,2,2]。如果在动作检测后,发现该动作为预定义的动作,则将触发报警,并将该动作视频片段输出,或者将该动作的分解视频帧逐一输出。优选地,如果视频中存在多人,则可以采用热区ROI,RegionofInterest比较法或对象追踪法来对对象进行区别和追踪。如果被监控对象位于固定区域,则使用热区比较法比较合适。图10示出了视频区域中的一个指定热区。如图10所示,首先在视频区域中指定热区,然后对每个建立的人体骨骼2D模型画出其轮廓多边形缺省为矩形,然后比较该轮廓区域与热区的重合比率。比率最大的视为被检测对象。如果被检测对象是运动的,则使用对象追踪法对对象进行追踪,并分别记录每个对象的姿态向量。图11示出了在被检测对象是运动的情况下进行对象追踪的示意图。如图11所示,根据本公开的一个实施例,可采用KCFKernelizedCorrelationFilters,BOOSTING,MILMultipleInstanceLearning,TLDTracking,learninganddetection,GOTURN或其他对象追踪算法来对视屏中的对象进行追踪。由于本公开使用人体姿态预测法进行检测视频中人员的人体骨骼2D建模,并利用姿态分类法对姿态进行分类,用姿态向量记录姿态顺序,并利用动作分类法对人体动作进行识别,因此实现了在自动化生产中实时进行人体动作识别,从而可以实现无人值守的作业监控。此外,本公开使用热区比较法实现对固定区域内的多人场景下关键人物的人体动作识别,使用对象追踪法对多人场景下对多个运动人员实现多人动作识别,从而可以用于生产指挥和环境监控等不同的应用场景。本发明不限于本文所描述的具体实施例的范围,这些实施例旨在作为示例性实施例。功能上相同的产品和方法显然包含在本文描述的本发明的范围内。以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本公开的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置包括处理器、存储介质等或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本公开的说明的情况下运用他们的基本编程技能就能实现的。因此,本公开的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本公开的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本公开,并且存储有这样的程序产品的存储介质也构成本公开。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本公开的装置和方法中,显然,各部件或各步骤是可以分解和或重新组合的。这些分解和或重新组合应视为本公开的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

权利要求:1.一种基于动作识别的监控方法,包括以下步骤:a利用姿态估计法识别被监控视频帧中的人员的肢体位置,进行人体骨骼2D建模;b利用预先训练好的姿态分类模型对被监视视频帧中的人体骨骼的2D模型进行分类;c把连续视频帧中姿态分类结果存入姿态向量,并根据预先训练好的动作识别模型判断动作类型;并且d如判断出的动作类型属于被监控类型,将标记做出特定动作的视频帧和或该动作的视频片段存储到存储器并触发告警。2.根据权利要求1所述的监控方法,其中步骤a包括:a1判断视频帧中一个或多个人员的主要关节位置坐标;以及a2利用主要关节位置坐标和关节之间的关系对每个人员进行人体骨骼2D建模。3.根据权利要求2所述的监控方法,其中步骤a2还包括对视频中的每个人的手部和或脸部的五官进行人体骨骼2D建模。4.根据权利要求1所述的监控方法,其中步骤b包括:将需要识别的连续肢体动作分解成离散的关键姿态;对人体骨骼2D建模结果进行关键姿态标注;以及利用卷积神经网络算法和被标注的人体骨骼2D建模结果训练姿态分类模型。5.根据权利要求1所述的监控方法,其中步骤c包括:将已知动作的姿态向量集进行标注;并且将已标注的姿态向量集作为训练集训练动作识别模型。6.根据权利要求1所述的监控方法,其中步骤d包括下列步骤中至少之一:在原始视频中标记做出特定动作的对象,并触发告警;将标记了特定动作的视频帧存档留证;以及将标记了特定动作的视频片段存档留证。7.根据权利要求1所述的监控方法,其中步骤c还包括步骤:采用热区比较法判断多人场景下的被追踪对象的动作。8.根据权利要求7所述的监控方法,其中所述热区是监控视频的指定区域或整个监控画面区域。9.根据权利要求1所述的监控方法,其中步骤c还包括:对视频中的每个人添加追踪器来监控其动作,并且判断被追踪对象是否需要继续被追踪,如果不需要继续追踪,则删除该追踪器。10.根据权利要求9所述的监控方法,其中通过判断被检测对象是否处于下列状态中至少之一来判断是否需要继续追踪:被检测对象到达指定区域;被检测对象到达离开区域;被检测对象处于静止状态超过一定时间;以及是否接收到停止对被监控区域内的对象进行继续追踪的指令。11.一种基于动作识别的监控系统,包括:姿态预测部分,其利用姿态估计法识别被监控视频帧中的人员的肢体位置,并根据所获得的位置进行人体骨骼2D建模;姿态分类部分,其利用预先训练好的姿态分类模型对被监视视频帧中的人体骨骼的2D模型进行分类;姿态管理部分,其将连续视频帧中姿态分类结果存入姿态向量;动作识别部分,其根据预先训练好的动作识别模型判断动作类型;以及输出部分,其在判断出的动作类型属于被监控类型时,将标记做出特定动作的视频帧和或该动作的视频片段存储到存储器并触发告警。12.根据权利要求11所述的监控系统,还包括:姿态分类训练部分,其对所得到的人体骨骼2D模型进行关键姿态标注,并将标注过的人体骨骼2D模型将作为训练集输入卷积神经网络训练分类模型进行训练,以得到姿态分类模型;以及动作识别训练部分,其将已知动作视频经姿态管理部分生成的姿态向量作为训练集,采用多元分类算法对姿态向量进行训练,以得到动作识别模型,用于姿态向量进行动作分类。

百度查询: 李刚毅 基于动作识别的监控系统及其方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。