一种基于红外微光望远镜的多源融合唇语识别方法和系统

导航：龙图腾网> 最新专利技术> 一种基于红外微光望远镜的多源融合唇语识别方法和系统

申请/专利权人：中国人民解放军军事科学院国防科技创新研究院

申请日：2022-04-25

公开（公告）日：2024-06-07

公开（公告）号：CN114821781B

主分类号：G06V40/20

分类号：G06V40/20;G06V20/40;G06V10/143;G06V10/80;G06V10/82;G06N3/0442;G06N3/0464;G10L15/25

优先权：

专利状态码：有效-授权

法律状态：2024.06.07#授权;2022.08.16#实质审查的生效;2022.07.29#公开

摘要：本发明公开了一种基于红外微光望远镜的多源融合唇语识别方法和系统，方法包括获取红外热成像视频和微光视频，提取唇部区域的红外热成像图像数据和微光图像数据；使用多源融合唇语识别模型对唇部区域的红外热成像图像数据和微光图像数据进行识别，得到识别出的文本；将识别出的文本显示或发送至其他接收设备。本发明所提供的方法，为在复杂光照环境、远距离和特殊应用场合提供了更加安全可靠的信息获取与交互方式，弥补了单一视频数据来源特征提取和唇部图像识别的局限性，通过多源数据特征融合建模极大地提高了唇语识别的准确性，拓展了唇语识别技术的应用范围和场景，为唇语识别技术的发展提供了新的方向。

主权项：1.一种基于红外微光望远镜的多源融合唇语识别方法，其特征在于，所述多源融合唇语识别方法包括：获取红外热成像视频和微光视频，提取唇部区域的红外热成像图像数据和微光图像数据；使用多源融合唇语识别模型对唇部区域的红外热成像图像数据和微光图像数据进行识别，得到识别出的文本；将识别出的文本显示或发送至其他接收设备；所述多源融合唇语识别模型使用如下方式建立：获取若干红外热成像视频和微光视频及对应的文本，提取其唇部区域的红外热成像图像数据和微光图像数据；将提取的红外热成像图像数据和微光图像数据及对应的文本送入到双CNN-ResNet-LSTM-Bi-LSTM-RNN-LM网络中进行学习，其中，提取的红外热成像图像数据和微光图像数据为输入数据，对应的文本为输出数据；所述双CNN-ResNet-LSTM-Bi-LSTM-RNN-LM网络，包括两个CNN-ResNet-LSTM网络，一个Bi-LSTM网络，一个RNN-LM网络；两个CNN-ResNet-LSTM网络输出部分分别与Bi-LSTM输入层连接；Bi-LSTM输出层与RNN-LM输入层连接；LM指语言模型LanguageModel；其中，两个CNN-ResNet-LSTM网络分别用于对红外热成像图像数据和微光图像数据分别进行特征提取，得到基于红外热成像图像的特征和基于微光图像的特征；Bi-LSTM用于对基于红外热成像图像的特征和基于微光图像的特征进行融合，得到多源融合唇部图像特征；RNN-LM对融合后的多源融合唇部图像特征进行文本学习和匹配，通过集束搜索得到最大概率的输出文本；所述两个CNN-ResNet-LSTM分别对红外热成像图像数据和微光图像数据分别进行特征提取包括：使用CNN对红外热成像图像数据进行空间特征提取；所述CNN由1个3D卷积层、1个最大池化层堆叠组成；所述CNN卷积层对输入特征做矩阵元素乘法求和并叠加偏差量，如式5所示：其中，i,j∈{0,1,…,Ll+1}，b为偏差量，Zl表示i，j位置处第l层卷积输入像素值，Zl+1表示第l+1层相应位置的卷积运算输出像素值，Zl和Zl+1也被称为特征图，Ll+1为Zl+1的尺寸，i,j表示具体像素点的坐标位置；K表示总数，为特征图的通道数；k表示第k个特征通道；f、s0和p是卷积层参数，分别对应卷积核大小、卷积步长和填充步长，wl+1是第l+1层每个神经元的权值矩阵，Kl表示第l层的第k个特征通道，x,y表示每帧图像的像素大小；池化层如式6所示：其中，表示第k个特征图层第l层的池化输出像素值；s0表示卷积步长、i,j表示具体像素点的坐标位置，p是预指定参数；使用ResNet对目标红外热成像图像空间特征进行数据降维；所述ResNet网络共有三个残差单元后加自适应平均池化层，第一个残差单元采用三对64卷积核的卷积神经网络；第二个残差单元采用四对128卷积核的卷积神经网络；第三个残差单元采用六对256卷积核的卷积神经网络；残差单元如式7所示：xl+1＝hxl+Fxl,Wl7其中，xl表示残差模块中第l层的输入，Wl是第l层的神经网络权重系数，F是第l层的输出函数，hxl＝xl表示恒等映射，xl+1表示残差模块中第l+1层的输入；使用LSTM增加红外热成像图像数据降维后空间特征的时序特征，得到基于红外热成像图像的特征；所述LSTM的遗忘门输入为逻辑单元输出层的输出值ht-1和本层输入的序列数据xt，如式8所示：ft＝σWf·[ht-1,xt]+bf8其中，σ表示激活函数sigmoid，bf是遗忘门偏置量，Wf是遗忘门的权值；ht-1为上一逻辑单元输出层的输出值，xt为本层输入的序列数据，前序特征图经过输出门层的输出值和当前序列特征图共同作为输入，ft即为当前遗忘门层的输出；LSTM的输入门包含两个部分，第一部分使用sigmoid作为激活函数，输出为it，第二部分使用tanh作为激活函数，输出如式9所示：it＝σWi·[ht-1,xt]+bi9其中，σ表示激活函数sigmoid，bi是输入门偏置量，Wi是输入门的权值；ht-1为上一逻辑单元输出层的输出值，xt为本层输入的序列数据，it即为当前输入门层的输出；LSTM输入门的第二部分作为本层状态更新，如式10所示：其中，tanh是激活函数，bc是状态更新计算的偏置量，Wc是状态更新的权值，ht-1为上一逻辑单元输出层的输出值，xt为本层输入的序列数据，为输入门的状态输出，Ct-1为前序逻辑单元的状态值，Ct为当前逻辑单元的状态值；长短期记忆网络当前逻辑单元的输出如式11所示：ht＝{σWo[ht-1,xt]+bo}*tanhCt11其中，σ表示激活函数sigmoid，bo是输出门偏置量，Wo是输出门的权值，ht-1为上一逻辑单元输出层的输出值，xt为本层输入的序列数据，tanhCt是当前逻辑单元的状态值Ct经激活函数tanh计算后的结果，ht为当前逻辑单元输出门层的输出；使用CNN-ResNet-LSTM对红外热成像图像数据进行特征提取后，得到基于红外热成像图像的特征；使用CNN对微光图像数据进行空间特征提取；使用ResNet对微光图像空间特征进行数据降维；使用LSTM增加微光图像数据特征的时序特征，得到基于微光图像的特征。

全文数据：

权利要求：

百度查询：中国人民解放军军事科学院国防科技创新研究院一种基于红外微光望远镜的多源融合唇语识别方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种改良聚乙烯颗粒物挤出成型设备

下一篇：一种奶牛饲料生产用研磨装置

相关技术

一种改良聚乙烯颗粒物挤出成型设备

一种奶牛饲料生产用研磨装置

一种电表排母接口测量装置

一种刀片可调节的修边机

一种船舶舷外机通风型保护罩

一种移动式自填充胶枪

一种口腔扩张支撑装置

一种高弹性一体编织鞋面

一种散热机箱

一种装配式铝方通转角拼接结构

一种监测作物生长状况的农业装置

一种护理液调和储存罐

唇相关技术

一种密封圈唇口涂油装置_富林贝克密封件(昆山)有限公司_202322963837.3

一种孟氏隐唇瓢虫的规模化饲养方法_三亚中国农业科学院国家南繁研究院_202410685823.6

一种持色自然光泽感唇釉及其制备方法_上海霞飞日化有限公司_202410397711.0

一种人脸身份感知的数字人唇动生成方法和模型训练方法_浙江大学_202410358554.2

一种汽车密封件玻璃唇边的冲切机构_方华智能装备(秦皇岛)股份有限公司_202110923418.X

基于唇动语言识别的降噪处理方法及装置_深圳市万屏时代科技有限公司_202410496598.1

喷唇精密调节装置_绍兴柯德新材料有限公司_202322665005.3

一种唇釉包装瓶_浙江瑞昶实业有限公司_202323215078.9

一种光唇鱼收卵池_黄山市鼎新生态农业发展有限公司_202322938771.2

一种黄唇鱼的人工驯养方法_中国水产科学研究院南海水产研究所_202410441871.0

语相关技术

一种唇语识别方法及装置_中国人民解放军国防科技大学_202111408286.3

一种配电柜表面警示语喷涂设备_安徽阿尔派电力科技有限公司_202322610041.X

自动化交互式越狱提示语生成方法_北京邮电大学_202311644640.1

面向多源文本的越南语语法纠错方法及装置_昆明理工大学_202410326397.7

唇部图像采集装置、唇语识别系统及在线唇语交互系统_天津大学_202111079589.5

一种基于红外微光望远镜的多源融合唇语识别方法和系统_中国人民解放军军事科学院国防科技创新研究院_202210442789.0

唇语处理方法、设备、存储介质及程序产品_北京字跳网络技术有限公司_202211436863.4

多特征融合的越南语关键词生成方法_昆明理工大学_202110743043.9

一种中文唇语识别建模单元集的构建方法_南京航空航天大学_202110017780.0

一种服务器、显示设备及推荐语生成方法_VIDAA国际控股(荷兰)公司_202410091946.7

融合相关技术

新型融合蛋白和用于预防或治疗癌症的包含该融合蛋白的药物组合物_古德T细胞有限公司_201980028463.X

基于“算测融合”的导弹数字孪生建模方法_大连理工大学_202410451810.2

基于模糊粗糙集的数据分级融合方法_大连理工大学_202410448720.8

多视频流融合方法、电子设备、存储介质_北京大视景科技有限公司_202010922428.7

用于车辆导航的雷达-摄像头融合_移动眼视觉科技有限公司_202280076986.3

基于微光+彩色可见光融合图像的方法_北京晶品特装科技股份有限公司_202410258993.6

用于融合语义要素的方法和装置_滴图(北京)科技有限公司_202211700968.6

TGF-β受体胞外域融合分子及其用途_加拿大国家研究委员会_202410363517.0

运行程序的融合方法及设备_青岛海尔洗衣机有限公司_202211693392.5

一种椎板间支撑、固定、融合装置_北京大学第三医院(北京大学第三临床医学院)_201910768087.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于红外微光望远镜的多源融合唇语识别方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务