基于自监督学习的视听语音识别方法、设备和存储介质

导航：龙图腾网> 最新专利技术> 基于自监督学习的视听语音识别方法、设备和存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：长春大学

摘要：基于自监督学习的视听语音识别方法、设备和存储介质，属于数据处理技术领域，解决语音识别技术识别精度低和过度依赖标注数据成本高问题。本发明的方法包括：将视觉信息与音频信息结合起来进行语音识别，降低识别的错误率，并加入自监督预训练，通过对基于自监督模型的视听语音识别技术研究；在对视频数据特征提取中，在原来的卷积神经网络的基础上，加入了空间注意力机制和时间注意力机制，并且为防止模型在特定区域过度集中注意力，导致过拟合，还在模型参数中加入了正则化技术；利用随机掩蔽的策略，让模型进行自监督训练，进而提高模型的泛化能力；增强模型在复杂环境下的鲁棒性。本发明适用于需要高精度语音识别的各种应用场景。

主权项：1.一种基于自监督学习的视听语音识别方法，其特征在于，所述方法包括：步骤1：将获取到的音视频数据集分离为音频文件和视频文件，对所述视频文件进行预处理，获取图像数据；步骤2：对于所述音频文件，提取出MFCC特征；根据所述图像数据，得到图像特征；步骤3：使用自监督学习方法和随机掩蔽策略分别训练音频和视觉编码器；步骤4：将音频特征X′a和图像特征X′v送入到训练后的音频和视觉编码器，得到音频特征编码，标记为EA，图像特征编码，标记为EV，采用基于注意力机制的融合策略将二者融合，得到融合特征X；步骤5：将融合特征X送入到基于Conformer的解码器，解码器解析融合特征X，输出最终的语音识别结果；步骤3，包括：对于音频特征序列和图像特征，将掩蔽比例和时间步长的乘积作为被掩蔽特征的个数，进行掩码操作，具体为：其中，MA和Mv分别是随机选定的需要被掩码的音频和图像索引合集；最小化预测值和真实值的差异，具体为：其中，X′A-i和X′v-j分别表示除了被掩码的部分外的音频和图像特征序列，LA和Lv分别是音频和图像的损失函数，用于评估模型在预测掩码部分的性能；步骤2包括：采用基于二维卷积核构成的卷积神经网络进行卷积处理，得到图像特征，具体包括：进行卷积操作：其中，Xv为图像序列，Xv＝{X1，X2，...，XT}，T为序列的长度，每帧图像Xv的维度为Cin×H×W，Cin是通道数，Cin＝1，H和W分别是帧的高度和宽度，的维度为Cout×H′×W′，W为卷积核的权重，f为激活函数RELU，b是一个偏置项；采用最大化池化处理函数： Zt为池化层处理后的特征图；获取空间注意力权重，调整特征图，具体为：St＝sigmoidfattConcat[AvgPoolZt，MaxPoolZt]，Z′t＝St·Zt，其中，St为空间注意力权重，Z′t为调整后的特征图，Zt为输入特征；加入时间注意力机制，具体为：查询向量键向量Kt＝Z′t，时间注意力权重的计算公式为：At＝softmaxQT·Kt，其中，At为时间步t的时间注意力权重；使用时间注意力权重加权每一帧的特征，具体为：Z″t＝At·Z′t，Z′t为考虑时间注意力后的特征；通过对所有时间步的加权特征Z″t进行汇总，得到图像的综合特征表示为：其中，X′v为融合了空间和时间注意力机制的图像特征；所述卷积处理的损失函数为：其中，Yo，c表示观察样本o的真实标签在类别c上的指示，如果o属于类别c，则值为1，否则，值为0；是模型基于图像特征X′v的预测输出；公式中，第一项是针对所有类别的交叉熵损失，第二项是所有模型权重的L2正则化项，λ是正则化系数。

全文数据：

权利要求：

百度查询：长春大学基于自监督学习的视听语音识别方法、设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种具有表面清理功能的不锈钢带拉矫装置

下一篇：一种种子栽培种植开沟装置

相关技术

一种具有表面清理功能的不锈钢带拉矫装置

一种种子栽培种植开沟装置

用于治疗三尖瓣功能不全的系统、方法和装置

一种高浓度含氟废水治理设备

一种提高战场综合态势信息处理效率的方法

一种用于搅拌摩擦焊冷板的CNC定位夹紧工装

一种具有抹平结构的高分子胶涂胶设备

一种玉米栽培供水装置

信息处理系统以及信息处理方法

一种切菜器

一种带有封堵机构的注液套杯组件

一种电驱机械振动辅助负压可弯导引鞘

识别相关技术

车辆乘客空间识别_沃尔沃汽车公司_202410259046.9

外置摄像识别式水表_重庆图源物联网技术有限公司_202420232500.7

车辆及其载荷分布的识别方法和识别装置_比亚迪股份有限公司_202111421199.1

基于同人识别模型的同人识别方法及相关设备_康键信息技术(深圳)有限公司_202110433355.X

一种基于人脸识别和车牌识别的监测方法及系统_合肥讯图信息科技有限公司_202411104776.8

口音识别声学模型训练、口音识别方法、装置和存储介质_腾讯科技(深圳)有限公司_202110104567.3

识别方法、识别装置、半导体处理设备及可读存储介质_深圳中科飞测科技股份有限公司_202110697412.5

基于喷涂字符和图像识别的群猪个体识别系统和方法_华南农业大学_202110816063.4

一种茶叶检测分类识别方法及识别装置_陕西岚风科技股份有限公司_202411098553.5

基于情境识别的用户类型识别与交互系统及方法_山东亚微软件股份有限公司_202410919345.0

语音相关技术

语音识别方法、装置、语音交互设备及存储介质_思必驰科技股份有限公司_202210420727.X

用于语音合成的语音数据扩增方法及系统_思必驰科技股份有限公司_202210369510.0

语音合成方法、语音合成装置、电子设备及存储介质_平安科技(深圳)有限公司_202410841463.4

一种语音控制传感装置_辽宁亿联精工科技有限公司_202323082461.1

用于文字转语音装置的底座_东莞明信电子有限公司_202323225867.0

智能语音机器人系统_青岛海尔乐信云科技有限公司_202410887989.6

一种多功能语音翻译设备_常熟它思清源科技有限公司_202323494170.3

语音增强方法、装置、电子设备及介质_北京大学_202410570722.4

一种显示设备及语音唤醒方法_海信视像科技股份有限公司_202410658728.7

语音处理方法、电子设备和存储介质_思必驰科技股份有限公司_202210475913.3

方法相关技术

拼接处理方法、显示方法及装置_北京嗨动视觉科技有限公司_202410789924.8

焊接方法_华为技术有限公司_202310265226.3

刻蚀方法_中微半导体设备(上海)股份有限公司_201911358929.0

防滑刹车系统、控制方法、余压故障告警方法及处置方法_成都飞机工业(集团)有限责任公司_202410495891.6

应用风险指数生成方法、模型构建方法、检测方法及设备_武汉安天信息技术有限责任公司_202310222148.9

模具模拟方法、模具补偿设计方法以及模具加工制作方法_中信戴卡股份有限公司_202411020603.8

封装方法_立锜科技股份有限公司_202310232492.6

主动降噪系统及其失稳检测方法、控制方法、设备_宁波方太厨具有限公司_202411080503.4

视频解码方法、视频编码方法和装置_三星电子株式会社_202410898515.1

参考信号的发送方法,接收方法和装置_华为技术有限公司_202310260761.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于自监督学习的视听语音识别方法、设备和存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务