首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

改进的多尺度注意残差关系感知的表情识别方法及装置 

申请/专利权人:齐鲁工业大学(山东省科学院);山东省人工智能研究院

申请日:2024-04-10

公开(公告)日:2024-06-25

公开(公告)号:CN118015687B

主分类号:G06V40/16

分类号:G06V40/16;G06V10/44;G06V10/764;G06V10/774;G06V10/776;G06V10/82;G06N3/0464;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2024.05.28#实质审查的生效;2024.05.10#公开

摘要:本发明涉及表情识别技术领域,尤其涉及一种改进的多尺度注意残差关系感知的表情识别方法及装置。步骤如下:将人脸图像划分为训练集和验证集,并进行数据预处理,得到输出的特征T;构建卷积神经网络;将卷积神经网络得到的特征通过卷积层和Reshape操作,将特征图转换成为一个的特征向量序列;将得到的特征向量序列加上classtoken和位置编码输入到多个堆叠的TransformerEncoder模块中,得到融合了其他向量特征的classtoken,将classtoken输入到MLPhead分类器,得出最后的表情识别结果。本发明可以使模型从通道、空间两个维度上关注对表情识别重要的面部特征,抑制无关的特征,更有效的提取面部表情的判别性信息特征,能够完成更加准确的表情识别效果。

主权项:1.一种改进的多尺度注意残差关系感知的表情识别方法,其特征是,包括如下步骤:a:将人脸图像划分为训练集和验证集,并进行数据预处理,将处理好的图像输入到3×3的卷积层,得到输出的特征;b:构建卷积神经网络,卷积神经网络结构包括InAResBlock0模块、InAResBlock1模块、InAResBlock2模块:InAResBlock0模块包括两个改进的残差块,每个残差块都包含一个Inceptionblock0模块、ICBAM模块以及卷积层,其中卷积核大小为3×3,步长为2,填充为1,卷积层之后是正则化层和ReLU激活函数层;每个Inceptionblock0模块包括五个分支,即、、、;第一个分支由最大池化层、卷积层、正则化层和ReLU激活函数组成,其中最大池化层的卷积核大小为3×3,步长为1,填充为1,卷积层的卷积核大小为1×1,步长为1,填充为0,初始特征图T经过的最大池化层得到特征,特征输入到的卷积层,得到特征;第二个分支由卷积层、正则化层和ReLU激活函数层组成,其中卷积层的卷积核大小为1×1,步长为1,填充为0,初始特征图T输入到的卷积层,得到特征;第三个分支包括两个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层的卷积核大小为3×3,步长为1,填充为1,初始特征图T经过的第一个卷积层得到特征,特征输入到的第二个卷积层得到特征;第四个分支包括三个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层和第三个卷积层的卷积核大小为3×3,步长为1,填充为1,初始特征图T经过的第一个卷积层得到特征,特征输入到的第二个卷积层得到特征,特征输入得到的第三个卷积层得到特征;第五个分支包括四个卷积层,每个卷积层之后都有一个正则化层及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层、第三个卷积层和第四个卷积层的卷积核大小都为3×3,步长为1,填充为1;初始特征图T输入到的第一个卷积层得到特征,特征输入到的第二个卷积层得到特征,特征输入到的第三个卷积层得到特征,特征输入到的第四个卷积层得到特征;将特征、、、、在通道维度上拼接得到特征,特征输入到ReLU激活函数层,得到特征;具体来说,Inceptionblock0模块可以表示为: ,其中,代表relu激活函数,代表卷积核为1×1的卷积操作,代表卷积核为3×3的卷积操作;ICAM模块包括并联的最大池化层和平均池化层、两个并联的一维卷积层、ReLU激活函数层、Sigmoid激活函数层;最大池化层的卷积核大小为输入特征图的长×宽,步长为1,填充为0,平均池化层的卷积核大小为输入特征图的长×宽,步长为1,填充为0,一维卷积层的卷积核大小自适应,即,其中C为输入特征图的通道数,为可调系数,设置为2,b为常数,设置为1,填充为k-12;ISAM模块包括最大池化层、平均池化层、二维卷积层、正则化层、ReLU激活函数层以及Sigmoid激活函数层,其中最大池化层和平均池化层的卷积核大小都为1,步长为1,填充为1,二维卷积层的卷积核大小自适应,即,其中C为输入特征图的通道数,为可调系数,设置为2,b为常数,设置为1,步长为1,填充为k-12;特征输入到最大池化层,得到特征,特征输入到一维卷积层得到特征;特征输入到平均池化层得到特征,特征输入到一维卷积层得到特征,将特征和特征做一个逐元素相加的操作得到特征,特征输入到Sigmoid激活函数层得到具有通道注意力的特征图,将特征与特征进行一个逐元素相乘的操作,得到特征;特征分别输入的ISAM的最大池化层和平均池化层,分别得到特征和特征,将特征和特征在通道维度上进行拼接得到特征,特征输入到二维卷积层得到特征,特征输入到激活函数层得到具有空间注意力的特征图,将特征和特征做一个逐元素相乘操作得到ICBAM模块最后的输出特征图;具体来说,整个ICBAM模块可以表示为:=,其中代表ICAM模块,代表ISAM模块;将特征输入到第一个残差模块的最后一个卷积层,得到特征,将初始特征图T与特征进行一个逐元素相加的操作,然后再输入到ReLU激活函数层,得到第一个残差模块最终的输出特征;将特征输入到InAResBlock0模块的第二个残差块,第二个残差块的结构和第一个残差块的结构相同,得到最终的输出特征,整个InAResBlock0模块的计算过程可以表示为: , ;其中,T表示初始特征图,表示卷积核为3×3的卷积操作,表示ICBAM模块,表示Inceptionblock0模块;b1:将特征T输入到InAResBlock0模块,得到特征;b2:将特征输入到InAResBlock1模块,得到特征;b21:InAResblock1包括两个残差块,每个残差块都包含一个Inceptionblock1模块、ICBAM模块以及卷积层,其中卷积核大小为3×3,步长为2,填充为1,卷积层之后是正则化层和ReLU激活函数层;b22:每个Inceptionblock1模块包括四个分支、、;第一个分支由最大池化层、卷积层、正则化层和ReLU激活函数组成,其中最大池化层的卷积核大小为3×3,步长为1,填充为1,卷积层的卷积核大小为1×1,步长为1,填充为0;第二个分支由卷积层、正则化层和ReLU激活函数层组成,其中卷积层的卷积核大小为1×1,步长为1,填充为0;第三个分支包括两个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层的卷积核大小为3×3,步长为1,填充为1;第四个分支包括三个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层和第三个卷积层的卷积核大小为3×3,步长为1,填充为1;初始特征图经过,初始特征图经过得到特征,初始特征图经过得到特征,初始特征图经过得到特征,将特征、、、在通道维度上拼接得到特征,特征输入到ReLU激活函数层,得到特征;具体来说,Inceptionblock1模块可以表示为: ,其中,代表relu激活函数,代表卷积核为1×1的卷积操作,代表卷积核为3×3的卷积操作,代表最大池化操作;b23:InAResblock1模块中ICBAM模块和InAResblock0中的ICBAM模块结构相同;特征输入到ICAM模块,得到的输出再输入到ISAM模块;具体的过程为:特征输入到最大池化层,得到特征,特征输入到一维卷积层得到特征;特征输入到平均池化层得到特征,特征输入到一维卷积层得到特征,将特征和特征做一个逐元素相加的操作得到特征,特征输入到Sigmoid激活函数层得到具有通道注意力的特征图,将特征与特征进行一个逐元素相乘的操作,得到特征;特征分别输入的ISAM的最大池化层和平均池化层,分别得到特征和特征,将特征和特征在通道维度上进行拼接得到特征,特征输入到二维卷积层得到特征,特征输入到激活函数层得到具有空间注意力的特征图,将特征和特征做一个逐元素相乘操作得到ICBAM模块最后的输出特征图;具体来说,整个ICBAM模块可以表示为: =,其中代表ICAM模块,代表ISAM模块;b24:将特征输入到第一个残差模块的最后一个卷积层,得到特征,将初始特征图与特征进行一个逐元素相加的操作,输入到ReLU激活函数层,得到第一个残差模块最终的输出特征;b25:将特征输入到InAResBlock1模块的第二个残差块,第二个残差块的结构和第一个残差块的结构相同,得到最终的输出特征;整个InAResBlock1模块的计算过程可以表示为: , ,其中,代表卷积核为3×3的卷积操作,表示ICBAM模块,表示Inceptionblock1模块;b3:将特征输入到InAResBlock2模块,得到特征;b31:InAResblock2包括两个残差块,每个残差块都包含一个Inceptionblock2模块、ICBAM模块以及卷积层,其中卷积核大小为3×3,步长为2,填充为1,卷积层之后是正则化层和ReLU激活函数层;b32:每个Inceptionblock2模块包括三个分支、;第一个分支由最大池化层、卷积层、正则化层和ReLU激活函数组成,其中最大池化层的卷积核大小为3×3,步长为1,填充为1,卷积层的卷积核大小为1×1,步长为1,填充为0;第二个分支由卷积层、正则化层和ReLU激活函数层组成,其中卷积层的卷积核大小为1×1,步长为1,填充为0;第三个分支包括两个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层的卷积核大小为3×3,步长为1,填充为1;初始特征图经过;初始特征图经过得到特征;初始特征图经过得到特征,将特征、、在通道维度上拼接得到特征,特征输入到ReLU激活函数层,得到特征;具体来说,Inceptionblock2模块可以表示为: ,其中,代表relu激活函数,代表卷积核为1×1的卷积操作,代表卷积核为3×3的卷积操作,代表最大池化操作;b33:特征输入到最大池化层,得到特征,特征输入到一维卷积层得到特征;特征输入到平均池化层得到特征,特征输入到一维卷积层得到特征,将特征和特征做一个逐元素相加的操作得到特征,特征输入到Sigmoid激活函数层得到具有通道注意力的特征图,将特征与特征进行一个逐元素相乘的操作,得到特征;特征分别输入的ISAM的最大池化层和平均池化层,分别得到特征和特征,将特征和特征在通道维度上进行拼接得到特征,特征输入到二维卷积层得到特征,特征输入到激活函数层,得到具有空间注意力的特征图,将特征和特征做一个逐元素相乘操作,得到ICBAM模块最后的输出特征图;具体来说,整个ICBAM模块可以表示为:,其中代表ICAM模块,代表ISAM模块;b34:将特征输入到第一个残差模块的最后一个卷积层,得到特征,将初始特征图与特征进行一个逐元素相加的操作,然后再输入到ReLU激活函数层,得到第一个残差模块最终的输出特征;b35:将特征输入到InAResBlock2模块的第二个残差块,第二个残差块的结构和第一个残差块的结构相同,得到最终的输出特征;整个InAResBlock2模块的计算过程可以表示为: , ,其中,代表卷积核为3×3的卷积操作,表示ICBAM模块,表示Inceptionblock2模块;c:将得到的特征通过一个1×1的卷积层和Reshape操作,将特征转换成为一个的特征向量序列;d:将得到的特征向量序列加上classtoken和位置编码再输入到多个堆叠的TransformerEncoder模块中,得到融合了其他向量特征的classtoken,再将classtoken输入到MLPhead分类器,得出最后的表情识别结果。

全文数据:

权利要求:

百度查询: 齐鲁工业大学(山东省科学院);山东省人工智能研究院 改进的多尺度注意残差关系感知的表情识别方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。