首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

手术室场景下基于改进HRNet网络的人体姿态估计方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华南理工大学

摘要:本发明公开了一种手术室场景下基于改进HRNet网络的人体姿态估计方法,包括:1数据准备,包括手术室场景下的样本数据和一个人体姿态相关的数据集;2对HRNet网络进行改进,加入了设计的混合注意力机制模块;3对改进HRNet网络进行训练,采用迁移学习的方式,在准备的人体姿态相关的那个数据集上进行训练,采用在两个数据集并行训练方式,同时在网络的中间层加入MMDLoss,计算中间特征图的损失,来拉近不同数据集的数据分布距离;4将测试集传入到训练后的改进HRNet网络中,得到最终预测的人体关键点。本发明能够克服原有数据集样本量少,遮挡、人体肢干难以识别的问题,改进后的HRNet网络提高了人体姿态估计检测的精度,有助于3D人体姿态估计以及行为识别等其它视觉任务。

主权项:1.手术室场景下基于改进HRNet网络的人体姿态估计方法,其特征在于,包括以下步骤:1数据准备,包括手术室场景下的样本数据和一个人体姿态相关的数据集,其中,手术室场景下的样本数据划分出一部分样本作为测试集,所有数据中的图像都包含人工标记的人体框和关键点位置信息,每幅图像中人体框标注有N个,每个人体框信息对应两个坐标位置,分别为人体框的左上角和右下角的坐标,每个人体框都包含m个人体关键点的标记信息,每个标记信息对应具体类别和坐标值;2对HRNet网络进行改进,加入了设计的混合注意力机制模块,使用空间注意力机制和通道注意力机制顺序结合的方式代替了原有HRNet网络中多分辨率特征图融合的方式,将特征直接相加的方式转化为学习对应权重的方式进行加权求和,得到更聚焦检测关键点的特征图;改进后的HRNet网络根据特征图生成最终结果图,结果图包含多张概率图,其中用于监督的概率图是由步骤1中每个人体框包含的m个人体关键点生成的;所设计的混合注意力机制模块包含空间注意力机制和通道注意力机制,具体情况如下:a、空间注意力机制假设一个输入特征图F,通过全局最大池化或全局平均池化对输入特征图的通道域特征进行压缩,接着通过卷积将多通道特征压缩为单通道,消除通道间信息分布对空间注意力机制的影响,然后通过激活函数归一化空间权重信息,最终将空间权重信息和输入特征图对应元素相乘,生成不同权重的特征图,空间注意力机制的运算过程具体式子如下:MsF=δf3×3[AvgPoolF;MaxPoolF]式中,F为输入特征图,δ表示sigmoid激活函数,f表示卷积层,卷积核大小为3×3,[AvgPoolF;MaxPoolF]表示池化后的特征图,Ms是一个空间注意力参数矩阵;b、通道注意力机制通道注意力机制包含3个部分:压缩模块、激励模块和融合模块;压缩模块通过使用一个池化层,把通道内的全局特征信息进行求和压缩,形成各自的通道特征,该特征能够体现全局的通道特征信息,扩大了网络的感受野;激励模块是为了降低参数数量同时增强通道注意力机制的迁移能力,该激励模块采用两个连接层得到各自的权重参数;融合模块在每个通道域上对得到的特征权重与原卷积相应的通道特征值进行加权融合,使得卷积通道特征表现出不同的权重,从而提取出特征目标中的关键信息,具体式子如下: 式中,MLP表示多层感知机,表示平均池化特征,W0∈Rcr×c和W1∈Rc×cr表示多层感知机的权重,其中R表示维度,r表示减少率,c是特征通道数,McF是一个通道注意力参数矩阵;由于HRNet网络中存在多分辨率特征图进行上采样或者下采样后进行融合的过程,其中采样后的特征图和原有分辨率的特征图直接对应位置相加的方式,原有的HRNet网络主观地认为不同分辨率的特征具有同样的重要性,该方式是有缺陷的,改进措施是将该方式改为自学习的方式,在改进HRNet网络中,设计的混合注意力机制模块采用了空间注意力机制和通道注意力机制顺序结合的方式,在融合过程中加入了空间注意力机制和通道注意力机制,能够提升最终人体姿态估计检测的精度,具体方式如下:假设有两个特征图F0∈RH×W×3C和F1∈RH2×W2×2C进行融合,其中H表示特征图的长,W表示特征图的宽,C表示特征图的通道数量,原有的融合方式是直接将F1进行上采样后经过1×1的卷积变为通道数为C后再与F0进行相加,加入空间注意力机制和通道注意力机制后的流程为:先对F0和F1分别进行一次空间注意力机制,分别获取到对应的特征图F′0∈RH×W×C和F′1∈RH2×W2×2C,然后将F′1使用双线性插值的方式进行上采样到特征图F”1∈RH×W×2C,此时将F′0和F”1进行一个拼接得到一个新的融合特征图Fs∈RH×W×3C,在融合特征图Fs后续采用通道注意力的方式得到新的特征图Fc∈RH×W×3C,然后再通过一个1×1×C的卷积核,将通道数降为C,得到最终的特征图Fo∈RH×W×C;以上,就是在混合注意力机制模块中针对上采样过程加入的方式,由于网络中同时存在下采样过程,只需要将F′0∈RH×W×C经过步长为2的卷积核下采样到特征图F”0∈RH2×W2×C,然后将F”0和F′1进行一个拼接得到一个新的融合特征图F′s∈RH2*W2*3C,然后再经过通道注意力机制,同时采用1×1×2C的卷积核进行卷积来改变通道数,获取到最终的特征图F′o∈RH2×W2×2C;最终,改进HRNet网络根据提取的特征图输出预测结果图,其输出的结果是多张预测的概率图,其中每一张概率图代表一种人体关键点的预测结果;所以需要使用步骤1准备的样本数据,根据每个人体框中m个人体关键点真实标注信息生成对应的概率图,其中生成真实概率图的方式是采用高斯函数预测出真实人体关键点坐标位置和周围坐标的概率值,使得网络的训练更容易收敛;3对改进HRNet网络进行训练,由于手术室场景下的样本的量少,需先用步骤1中准备的人体姿态相关的数据集进行训练,然后再把手术室场景下的样本数据加入到训练过程中,选取合适的位置,加入一个中间监督即最大均值差异损失MMDLoss用于计算人体姿态相关的那个数据集的数据空间与手术室场景的数据空间的分布差异,拉近两者的数据空间;通过MMDLoss来优化改进HRNet网络在人体姿态相关的那个数据集上训练得到的参数,来达到更高准确率的目的;在网络的训练过程中,采用了迁移学习的方式,首先在准备的人体姿态相关的数据集上进行训练,然后采用在两个数据集并行训练方式,同时在网络的中间层加入MMDLoss,计算中间特征图的损失,来拉近不同数据集的数据分布距离;最大均值差异损失MMDLoss是迁移学习,是领域自适应中的一种损失函数,用来度量两个不同但相关分布的距离,该两个分布的距离MMDX,Y定义为: 式中,xi和yi表示在数据集X和数据集Y中的第i个样本,n和m表示两个数据集中对应的样本总数,φ表示映射函数,深度学习中直接使用一些卷积层或者全连接层进行代替,H表示这个距离是由将数据映射到再生希尔伯特空间中进行度量的;再生希尔伯特空间是一个带有内积的完备向量空间,它是欧几里德空间的一个推广,并将向量代数和微积分的方法从二维欧氏平面和三维空间扩展到任何有限或无限维数的空间,使其不局限于实数的情形和有限的维数,但又不失完备性;由于MMDLoss是将数据映射到再生希尔伯特空间中来计算距离的,最终的张量大小不要超过1024或者2048,所以需要先对网络提取的特征进行降维,降到符合要求的固定大小向量进行计算,是对特征进一步的高纬提取;加入MMDLoss的作用是能够解决手术室场景下样本量小的情况下,不使用给定的标签数据先拉近两者数据空间的距离,在对改进HRNet网络进行训练中,分别获取多个样本的特征集合为SList代表源数据集的样本集合和TList代表目标数据集的样本集合,每一个样本对应多种不同分辨率的特征图,所以SList和TList都是一个二维的样本集合;然后,将对应的特征图经过1×1卷积核,将通道数量降为1,同时再经过一个全连接层,将不同分支的特征向量变成预先设置大小的向量;接着,将同一分辨率不同的样本使用线性的MMDLoss计算公式,计算出损失值,最终使用以下式子来最小化损失: 式中,B表示不同分辨率分支的个数,MMDiX,Y表示第i个分支上的MMDLoss损失,Lossmmd表示所有分支加入MMDLoss后的总损失;4将步骤1中的测试集传入到训练后的改进HRNet网络中,得到最终预测的人体关键点,预测出的人体关键点包含类别和坐标信息。

全文数据:

权利要求:

百度查询: 华南理工大学 手术室场景下基于改进HRNet网络的人体姿态估计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。