买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:安徽大学
摘要:本申请涉及一种语音分离模型的训练方法和装置、语音分离方法,语音分离模型包括教师模型和学生模型。其中,该语音分离模型的训练方法包括:获取相对应的样本音频数据和样本视频数据;通过样本音频数据和样本视频数据对教师模型进行监督训练;通过样本音频数据对学生模型进行监督训练,并在训练过程中通过训练后的教师模型对学生模型进行训练指导。通过上述语音分离模型的训练方法,最终得到高性能的学生模型。训练后的学生模型应用在实际语音分离场景中,可以准确地对单独的音频数据进行分离,而不需要相对应的视频数据进行辅助。因此,解决了现有的语音分离技术难以准确地对无同步视频数据的音频数据进行语音分离的问题。
主权项:1.一种语音分离模型的训练方法,其特征在于,所述语音分离模型包括教师模型和学生模型,所述训练方法包括:获取相对应的样本音频数据和样本视频数据;通过所述样本音频数据和所述样本视频数据对所述教师模型进行监督训练;通过所述样本音频数据对所述学生模型进行监督训练,并在训练过程中通过训练后的所述教师模型对所述学生模型进行训练指导;其中,所述教师模型包括第一音频编码器、唇读提取器、视频编码器、深度注意力融合模块、第一分离器和第一音频解码器;通过所述样本音频数据和所述样本视频数据对所述教师模型进行监督训练,包括:通过所述第一音频编码器对所述样本音频数据进行编码得到第一音频特征;通过所述唇读提取器对所述样本视频数据进行特征提取得到唇部特征,通过所述视频编码器对所述唇部特征进行编码得到视觉特征;通过所述深度注意力融合模块对所述第一音频特征和所述视觉特征进行融合得到多模态特征;通过所述第一分离器对所述多模态特征进行分离预测得到第一预测结果;通过所述第一音频解码器对所述第一预测结果和所述样本音频数据进行解码得到第一音频分离结果;以最小化所述第一音频分离结果与音频分离标签之间的损失为目标,迭代训练所述教师模型;所述学生模型包括第二音频编码器、第二分离器和第二音频解码器;通过所述样本音频数据对所述学生模型进行监督训练,并在训练过程中通过训练后的所述教师模型对所述学生模型进行训练指导,包括:通过所述第二音频编码器对所述样本音频数据进行编码得到第二音频数据;通过所述第二分离器对所述第二音频数据进行分离预测得到第二预测结果;通过所述第二音频解码器对所述第二预测结果和所述样本音频数据进行解码得到第二音频分离结果;以最小化所述第二音频分离结果的损失为目标,迭代训练所述学生模型;其中,所述第二音频分离结果的损失包括所述第二音频分离结果与音频分离标签之间的损失以及所述第二音频分离结果与所述第一音频分离结果之间的损失。
全文数据:
权利要求:
百度查询: 安徽大学 语音分离模型的训练方法和装置、语音分离方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。