基于自监督学习的视听语音识别方法、设备和存储介质

导航：龙图腾网> 最新专利技术> 基于自监督学习的视听语音识别方法、设备和存储介质

申请/专利权人：长春大学

申请日：2024-05-21

公开（公告）日：2024-06-25

公开（公告）号：CN118248147A

主分类号：G10L15/25

分类号：G10L15/25;G10L15/26;G10L19/20;G10L25/24;G06F16/16;G06N3/0464;G06N3/0895;G06F18/25

优先权：

专利状态码：在审-公开

法律状态：2024.06.25#公开

摘要：基于自监督学习的视听语音识别方法、设备和存储介质，属于数据处理技术领域，解决语音识别技术识别精度低和过度依赖标注数据成本高问题。本发明的方法包括：将视觉信息与音频信息结合起来进行语音识别，降低识别的错误率，并加入自监督预训练，通过对基于自监督模型的视听语音识别技术研究；在对视频数据特征提取中，在原来的卷积神经网络的基础上，加入了空间注意力机制和时间注意力机制，并且为防止模型在特定区域过度集中注意力，导致过拟合，还在模型参数中加入了正则化技术；利用随机掩蔽的策略，让模型进行自监督训练，进而提高模型的泛化能力；增强模型在复杂环境下的鲁棒性。本发明适用于需要高精度语音识别的各种应用场景。

主权项：1.一种基于自监督学习的视听语音识别方法，其特征在于，所述方法包括：步骤1：将获取到的音视频数据集分离为音频文件和视频文件，对所述视频文件进行预处理，获取图像数据；步骤2：对于所述音频文件，提取出MFCC特征；根据所述图像数据，得到图像特征；步骤3：使用自监督学习方法和随机掩蔽策略分别训练音频和视觉编码器；步骤4：将音频特征和图像特征送入到训练后的音频和视觉编码器，得到音频特征编码，标记为，图像特征编码，标记为，采用基于注意力机制的融合策略将二者融合，得到融合特征X；步骤5：将融合特征X送入到基于Conformer的解码器，解码器解析融合特征X，输出最终的语音识别结果。

全文数据：

权利要求：

百度查询：长春大学基于自监督学习的视听语音识别方法、设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于3C零件组装的点胶设备

下一篇：一种连续制备五氯化磷的装置

相关技术

一种用于3C零件组装的点胶设备

一种连续制备五氯化磷的装置

一种实时监测并控制化锡线硫化氢气体的装置

一种泡菜水检测用的取样装置

一种用于光伏发电装置的R型回转减速机

一种汽车质量块加工用刀具

一种自动开盖的压力烹饪器具

一种隐框式岩板蜂窝复合板

一种宽度紧凑型半导体封装结构

用于储能元件的转换器及电源系统

混料搅拌装置

一种仓库物资搬运装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于自监督学习的视听语音识别方法、设备和存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务