一种基于多头专家的多语言语音识别模型及其训练方法

导航：龙图腾网> 最新专利技术> 一种基于多头专家的多语言语音识别模型及其训练方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：广东省连听科技有限公司

摘要：本发明涉及深度学习的语音识别技术领域，尤其涉及一种基于多头专家的多语言语音识别模型及其训练方法。本发明通过以深度学习主流的卷积神经网络以及注意力机制为基础，搭建了通过单一的可进行端到端训练的多语言语音识别模型并进行训练，再对初步训练的语音识别模型在新的语言上进行微调和测试。本发明的有益效果在于：可有效提高多语言语音识别模型的训练效率，同时可提高多语言语音识别的准确度，并有效解决训练过程中对之前训练的内容存在过度遗忘的问题。

主权项：1.一种基于多头专家的多语言语音识别模型的训练方法，其特征在于，包括如下步骤：S01、获取训练和测试的音频数据集，并对音频数据集进行校验并修改音频采样率得到预处理后的音频数据集，构建音频-文本对标准化处理文件，构建语音识别模型的字典文件，构建训练的音频数据集的全局均值方差归一化文件；构建包括LMoEConformer音频特征编码器和MHR-LMoEAttention解码器的语音识别模型；S02、使用音频特征提取工具从训练的音频数据集中提取包含频率和时间信息的80维Fbank音频特征作为初步的音频特征；S03、将初步的音频特征进行两层步长为2的二维卷积得到四倍下采样的音频特征，再将四倍下采样的音频特征进行线性映射和添加位置编码后输入LMoEConformer音频特征编码器中得到高维音频特征，添加位置编码后的四倍下采样的音频特征在LMoEConformer音频特征编码器中依次经过FFN层、多头自注意力层和因果卷积层，最后进入LMoE层中对多个专家进行权重评分，从中选出两个权重评分最高的专家，经过这两个权重评分最高的专家进行处理后组合得到高维音频特征；S04、使用训练的音频数据集对应的目标文本序列的开始标记作为第一个输入，然后进行字符嵌入处理后并添加位置编码后输入到MHR-LMoEAttention解码器内进行归一化处理后输入到MHR-LMoEAttention解码器的具有掩码的多头自注意力层，接着再进行残差和归一化操作后输入多头交叉注意力层，同时将步骤S03得到的高维音频特征一同输入到多头交叉注意力层中进行注意力计算，以此得到的特征向量进行组合、残差和归一化后的特征向量输入到MHR-LMoEAttention解码器的MHR-LMoE层，进行分块处理，每块特征分别对多个专家进行权重评分，然后将所有分块的权重评分进行组合得到两个权重评分最高的专家，最后将分块处理前的特征向量经过两个权重评分最高的专家进行组合后进行残差计算得到MHR-LMoEAttention解码器输出的特征向量；S05、MHR-LMoEAttention解码器输出的特征向量再经过归一化和线性映射后进行Softmax操作得到每个字符的概率分布，使用束搜索方法得到最终识别预测结果；S06、将最终识别预测结果与步骤S04的目标文本序列进行比较并计算损失值，根据损失值反向传播更新LMoEConformer音频特征编码器和MHR-LMoEAttention解码器的参数，并重复步骤S03~S05，直至步骤S05得到的最终识别预测结果与目标文本序列的损失值收敛，以此完成对语音识别模型的初步训练；S07、对步骤S06中初步训练得到的语音识别模型在新的语言上进行多次微调直至微调后的语音识别模型在经过测试的音频数据集的测试下准确率满足要求，以此完成对语音识别模型的最终训练；微调时冻结除了LMoEConformer音频特征编码器的LMoE层和MHR-LMoEAttention解码器的MHR-LMoE层外的参数，并利用LMoE层的LoRA模块对LMoE层的多个专家的权重矩阵进行微调，利用MHR-LMoE层的LoRA模块对MHR-LMoE层的多个专家在多个路由头的权重矩阵进行微调。

全文数据：

权利要求：

百度查询：广东省连听科技有限公司一种基于多头专家的多语言语音识别模型及其训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种组装单元体用稳态调节控制系统

下一篇：一种带有短路检测的连接器插针机

相关技术

一种组装单元体用稳态调节控制系统

一种带有短路检测的连接器插针机

一种适用于现货市场的电网结构仿真方法

一种基于非周期非均匀缝隙电容加载的环型宽带水平极化全向天线

机载光电设备反射镜均热化控温装置

独立站数据定向同步方法及其装置、设备、介质

超临界晶圆清洗/干燥介质回收方法以及系统

一种可溯源可监控的监狱针车分发装置及系统

一种组合式固定件依附锁定器

牙冠的宽度数值确定方法、装置、设备及存储介质

一种基于子载波间隔压缩的非正交chirp多载波传输方法

挖掘装置极限工况的结构优化方法、装置、设备及介质

识别相关技术

生物识别方法、设备_安克创新科技股份有限公司_202310268307.9

提升AI识别学习能力_华为技术有限公司_201980068228.5

一种物体识别方法、物体识别装置及电子设备_深圳市锐明技术股份有限公司_202080002303.0

手语识别模型训练方法、识别方法、装置、设备及介质_乐山师范学院_202410905261.1

高识别准确率的黑色烟雾识别及展示方法_杭州普鹤科技有限公司_202410978719.6

意图识别模型的训练方法、意图识别方法、装置和介质_京东科技信息技术有限公司_202410760843.5

图像识别模型的训练方法、图像识别方法及设备_北京达佳互联信息技术有限公司_202110791423.X

车外环境识别装置及车外环境识别方法_株式会社斯巴鲁_201910439393.9

意图识别方法、意图识别模型训练方法、装置及设备_京东科技控股股份有限公司_202110465878.2

一种遮挡物识别系统及识别方法_陕西兴际通通信有限公司_202310246086.5

语音相关技术

语音质量检测模型的训练方法及语音质量的检测方法_北京达佳互联信息技术有限公司_202110202612.9

一种语音处理方法、语音处理装置和可读存储介质_深圳比特微电子科技有限公司_202310313105.1

显示设备及语音播放方法_聚好看科技股份有限公司_202311286289.3

基于情绪的文本到语音_斯纳普公司_202380021010.0

语音理解方法、装置、设备和介质_深圳比特微电子科技有限公司_202310288358.8

一种自然语音翻译系统_广州趣丸网络科技有限公司_202410883467.9

一种机器人用语音交互装置_北京易和顺智能科技有限公司_202323414764.9

一种多功能语音播报器_北京美科丰业科技有限公司_202420296677.3

语音交互方法、装置、设备及存储介质_岚图汽车科技有限公司_202410860845.1

支架、语音支架组件及烹饪器具_珠海格力电器股份有限公司_201910380565.X

模型相关技术

一种积分模型_晋中职业技术学院_202420672550.7

建筑信息模型管理系统_南通职业大学_202410946875.4

模型推理方法及装置_上海壁仞科技股份有限公司_202410980431.2

一种模型测试方法、装置和用于模型测试的装置_北京搜狗科技发展有限公司_202110688290.3

三维人脸几何模型、人脸彩色模型的构建方法、装置_西安科技大学_202210927602.6

基于BERT模型的医学应用模型训练方法及装置_北京诺道认知医学科技有限公司_202011159163.6

一种判别式语言模型的模型调整方法及装置_清华大学_202210567681.4

一种基于生成模型与判别分类模型的图像半监督分类方法_南通大学_202210855415.1

图像生成模型、图像生成模型的训练方法及装置_维沃移动通信有限公司_202410812014.7

模型设定支援装置、模型设定支援方法及存储介质_本田技研工业株式会社_202410204794.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多头专家的多语言语音识别模型及其训练方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务