首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于红外微光望远镜的多源融合唇语识别方法和系统 

申请/专利权人:中国人民解放军军事科学院国防科技创新研究院

申请日:2022-04-25

公开(公告)日:2024-06-07

公开(公告)号:CN114821781B

主分类号:G06V40/20

分类号:G06V40/20;G06V20/40;G06V10/143;G06V10/80;G06V10/82;G06N3/0442;G06N3/0464;G10L15/25

优先权:

专利状态码:有效-授权

法律状态:2024.06.07#授权;2022.08.16#实质审查的生效;2022.07.29#公开

摘要:本发明公开了一种基于红外微光望远镜的多源融合唇语识别方法和系统,方法包括获取红外热成像视频和微光视频,提取唇部区域的红外热成像图像数据和微光图像数据;使用多源融合唇语识别模型对唇部区域的红外热成像图像数据和微光图像数据进行识别,得到识别出的文本;将识别出的文本显示或发送至其他接收设备。本发明所提供的方法,为在复杂光照环境、远距离和特殊应用场合提供了更加安全可靠的信息获取与交互方式,弥补了单一视频数据来源特征提取和唇部图像识别的局限性,通过多源数据特征融合建模极大地提高了唇语识别的准确性,拓展了唇语识别技术的应用范围和场景,为唇语识别技术的发展提供了新的方向。

主权项:1.一种基于红外微光望远镜的多源融合唇语识别方法,其特征在于,所述多源融合唇语识别方法包括:获取红外热成像视频和微光视频,提取唇部区域的红外热成像图像数据和微光图像数据;使用多源融合唇语识别模型对唇部区域的红外热成像图像数据和微光图像数据进行识别,得到识别出的文本;将识别出的文本显示或发送至其他接收设备;所述多源融合唇语识别模型使用如下方式建立:获取若干红外热成像视频和微光视频及对应的文本,提取其唇部区域的红外热成像图像数据和微光图像数据;将提取的红外热成像图像数据和微光图像数据及对应的文本送入到双CNN-ResNet-LSTM-Bi-LSTM-RNN-LM网络中进行学习,其中,提取的红外热成像图像数据和微光图像数据为输入数据,对应的文本为输出数据;所述双CNN-ResNet-LSTM-Bi-LSTM-RNN-LM网络,包括两个CNN-ResNet-LSTM网络,一个Bi-LSTM网络,一个RNN-LM网络;两个CNN-ResNet-LSTM网络输出部分分别与Bi-LSTM输入层连接;Bi-LSTM输出层与RNN-LM输入层连接;LM指语言模型LanguageModel;其中,两个CNN-ResNet-LSTM网络分别用于对红外热成像图像数据和微光图像数据分别进行特征提取,得到基于红外热成像图像的特征和基于微光图像的特征;Bi-LSTM用于对基于红外热成像图像的特征和基于微光图像的特征进行融合,得到多源融合唇部图像特征;RNN-LM对融合后的多源融合唇部图像特征进行文本学习和匹配,通过集束搜索得到最大概率的输出文本;所述两个CNN-ResNet-LSTM分别对红外热成像图像数据和微光图像数据分别进行特征提取包括:使用CNN对红外热成像图像数据进行空间特征提取;所述CNN由1个3D卷积层、1个最大池化层堆叠组成;所述CNN卷积层对输入特征做矩阵元素乘法求和并叠加偏差量,如式5所示: 其中,i,j∈{0,1,…,Ll+1},b为偏差量,Zl表示i,j位置处第l层卷积输入像素值,Zl+1表示第l+1层相应位置的卷积运算输出像素值,Zl和Zl+1也被称为特征图,Ll+1为Zl+1的尺寸,i,j表示具体像素点的坐标位置;K表示总数,为特征图的通道数;k表示第k个特征通道;f、s0和p是卷积层参数,分别对应卷积核大小、卷积步长和填充步长,wl+1是第l+1层每个神经元的权值矩阵,Kl表示第l层的第k个特征通道,x,y表示每帧图像的像素大小;池化层如式6所示: 其中,表示第k个特征图层第l层的池化输出像素值;s0表示卷积步长、i,j表示具体像素点的坐标位置,p是预指定参数;使用ResNet对目标红外热成像图像空间特征进行数据降维;所述ResNet网络共有三个残差单元后加自适应平均池化层,第一个残差单元采用三对64卷积核的卷积神经网络;第二个残差单元采用四对128卷积核的卷积神经网络;第三个残差单元采用六对256卷积核的卷积神经网络;残差单元如式7所示:xl+1=hxl+Fxl,Wl7其中,xl表示残差模块中第l层的输入,Wl是第l层的神经网络权重系数,F是第l层的输出函数,hxl=xl表示恒等映射,xl+1表示残差模块中第l+1层的输入;使用LSTM增加红外热成像图像数据降维后空间特征的时序特征,得到基于红外热成像图像的特征;所述LSTM的遗忘门输入为逻辑单元输出层的输出值ht-1和本层输入的序列数据xt,如式8所示:ft=σWf·[ht-1,xt]+bf8其中,σ表示激活函数sigmoid,bf是遗忘门偏置量,Wf是遗忘门的权值;ht-1为上一逻辑单元输出层的输出值,xt为本层输入的序列数据,前序特征图经过输出门层的输出值和当前序列特征图共同作为输入,ft即为当前遗忘门层的输出;LSTM的输入门包含两个部分,第一部分使用sigmoid作为激活函数,输出为it,第二部分使用tanh作为激活函数,输出如式9所示:it=σWi·[ht-1,xt]+bi9其中,σ表示激活函数sigmoid,bi是输入门偏置量,Wi是输入门的权值;ht-1为上一逻辑单元输出层的输出值,xt为本层输入的序列数据,it即为当前输入门层的输出;LSTM输入门的第二部分作为本层状态更新,如式10所示: 其中,tanh是激活函数,bc是状态更新计算的偏置量,Wc是状态更新的权值,ht-1为上一逻辑单元输出层的输出值,xt为本层输入的序列数据,为输入门的状态输出,Ct-1为前序逻辑单元的状态值,Ct为当前逻辑单元的状态值;长短期记忆网络当前逻辑单元的输出如式11所示:ht={σWo[ht-1,xt]+bo}*tanhCt11其中,σ表示激活函数sigmoid,bo是输出门偏置量,Wo是输出门的权值,ht-1为上一逻辑单元输出层的输出值,xt为本层输入的序列数据,tanhCt是当前逻辑单元的状态值Ct经激活函数tanh计算后的结果,ht为当前逻辑单元输出门层的输出;使用CNN-ResNet-LSTM对红外热成像图像数据进行特征提取后,得到基于红外热成像图像的特征;使用CNN对微光图像数据进行空间特征提取;使用ResNet对微光图像空间特征进行数据降维;使用LSTM增加微光图像数据特征的时序特征,得到基于微光图像的特征。

全文数据:

权利要求:

百度查询: 中国人民解放军军事科学院国防科技创新研究院 一种基于红外微光望远镜的多源融合唇语识别方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。