首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多头专家的多语言语音识别模型及其训练方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东省连听科技有限公司

摘要:本发明涉及深度学习的语音识别技术领域,尤其涉及一种基于多头专家的多语言语音识别模型及其训练方法。本发明通过以深度学习主流的卷积神经网络以及注意力机制为基础,搭建了通过单一的可进行端到端训练的多语言语音识别模型并进行训练,再对初步训练的语音识别模型在新的语言上进行微调和测试。本发明的有益效果在于:可有效提高多语言语音识别模型的训练效率,同时可提高多语言语音识别的准确度,并有效解决训练过程中对之前训练的内容存在过度遗忘的问题。

主权项:1.一种基于多头专家的多语言语音识别模型的训练方法,其特征在于,包括如下步骤:S01、获取训练和测试的音频数据集,并对音频数据集进行校验并修改音频采样率得到预处理后的音频数据集,构建音频-文本对标准化处理文件,构建语音识别模型的字典文件,构建训练的音频数据集的全局均值方差归一化文件;构建包括LMoEConformer音频特征编码器和MHR-LMoEAttention解码器的语音识别模型;S02、使用音频特征提取工具从训练的音频数据集中提取包含频率和时间信息的80维Fbank音频特征作为初步的音频特征;S03、将初步的音频特征进行两层步长为2的二维卷积得到四倍下采样的音频特征,再将四倍下采样的音频特征进行线性映射和添加位置编码后输入LMoEConformer音频特征编码器中得到高维音频特征,添加位置编码后的四倍下采样的音频特征在LMoEConformer音频特征编码器中依次经过FFN层、多头自注意力层和因果卷积层,最后进入LMoE层中对多个专家进行权重评分,从中选出两个权重评分最高的专家,经过这两个权重评分最高的专家进行处理后组合得到高维音频特征;S04、使用训练的音频数据集对应的目标文本序列的开始标记作为第一个输入,然后进行字符嵌入处理后并添加位置编码后输入到MHR-LMoEAttention解码器内进行归一化处理后输入到MHR-LMoEAttention解码器的具有掩码的多头自注意力层,接着再进行残差和归一化操作后输入多头交叉注意力层,同时将步骤S03得到的高维音频特征一同输入到多头交叉注意力层中进行注意力计算,以此得到的特征向量进行组合、残差和归一化后的特征向量输入到MHR-LMoEAttention解码器的MHR-LMoE层,进行分块处理,每块特征分别对多个专家进行权重评分,然后将所有分块的权重评分进行组合得到两个权重评分最高的专家,最后将分块处理前的特征向量经过两个权重评分最高的专家进行组合后进行残差计算得到MHR-LMoEAttention解码器输出的特征向量;S05、MHR-LMoEAttention解码器输出的特征向量再经过归一化和线性映射后进行Softmax操作得到每个字符的概率分布,使用束搜索方法得到最终识别预测结果;S06、将最终识别预测结果与步骤S04的目标文本序列进行比较并计算损失值,根据损失值反向传播更新LMoEConformer音频特征编码器和MHR-LMoEAttention解码器的参数,并重复步骤S03~S05,直至步骤S05得到的最终识别预测结果与目标文本序列的损失值收敛,以此完成对语音识别模型的初步训练;S07、对步骤S06中初步训练得到的语音识别模型在新的语言上进行多次微调直至微调后的语音识别模型在经过测试的音频数据集的测试下准确率满足要求,以此完成对语音识别模型的最终训练;微调时冻结除了LMoEConformer音频特征编码器的LMoE层和MHR-LMoEAttention解码器的MHR-LMoE层外的参数,并利用LMoE层的LoRA模块对LMoE层的多个专家的权重矩阵进行微调,利用MHR-LMoE层的LoRA模块对MHR-LMoE层的多个专家在多个路由头的权重矩阵进行微调。

全文数据:

权利要求:

百度查询: 广东省连听科技有限公司 一种基于多头专家的多语言语音识别模型及其训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。