首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

跨语言语音转换方法、装置、设备及介质 

申请/专利权人:平安科技(深圳)有限公司

申请日:2021-05-31

公开(公告)日:2024-06-07

公开(公告)号:CN113345431B

主分类号:G10L15/16

分类号:G10L15/16;G10L15/06;G10L15/00;G10L13/027;G10L25/24

优先权:

专利状态码:有效-授权

法律状态:2024.06.07#授权;2021.11.19#实质审查的生效;2021.09.03#公开

摘要:本发明涉及人工智能领域,提供一种跨语言语音转换方法、装置、设备及介质,能够训练每个目标语言的ASR模型,及训练转换模型,当接收到待处理语音时,利用每个目标语言的ASR模型生成所述待处理语音的PPGs,进一步将所述待处理语音的PPGs输入至所述转换模型,并获取所述转换模型的输出作为所述待处理语音的声学语音参数,启动声码器根据所述待处理语音的声学语音参数合成语音,进而实现跨语言语音转换,并解决使用单个用户录制多语言语料库所带来的困难。此外,本发明还涉及区块链技术,训练得到的模型可存储于区块链节点中。

主权项:1.一种跨语言语音转换方法,其特征在于,所述跨语言语音转换方法包括:获取预先配置的多个目标语言,并调用与所述多个目标语言相对应的多个通用语料库;提取每个通用语料库中语料的梅尔频率倒谱系数MFCC作为训练数据,并分别训练对应于每个目标语言的自动语音识别ASR模型;调用文本转换TTS语料库,并从所述TTS语料库中获取所述TTS语料库所存储的每个语料的声学语音参数;提取每个语料的MFCC,将每个语料的MFCC分别输入至每个目标语言的ASR模型,并获取每个目标语言的ASR模型的输出作为每个语料对应于每个目标语言的语音后验概率PPG;对每个语料对应于每个目标语言的PPG进行融合处理,得到每个语料的目标语音后验概率PPGs;将每个语料的PPGs确定为输入,将每个语料的声学语音参数确定为输出,并训练指定神经网络模型,得到转换模型;当接收到待处理语音时,利用每个目标语言的ASR模型生成所述待处理语音的PPGs;将所述待处理语音的PPGs输入至所述转换模型,并获取所述转换模型的输出作为所述待处理语音的声学语音参数;启动声码器根据所述待处理语音的声学语音参数合成语音;其中,所述分别训练对应于每个目标语言的自动语音识别ASR模型包括:语料划分:将每个目标语言对应的通用语料库中的语料按照预设比例随机划分为第一语料集和第二语料集;模型训练:将所述第一语料集确定为训练集训练模型,并将所述第二语料集确定为验证集验证训练得到的模型;重复执行所述语料划分及所述模型训练,直至每个目标语言对应的通用语料库中的语料都作为所述训练集中的数据训练过模型,且每个目标语言对应的通用语料库中的语料都作为所述验证集中的数据验证过训练得到的模型,停止训练,得到所述对应于每个目标语言的ASR模型;所述TTS语料库所存储的每个语料的声学语音参数包括:梅尔倒谱系数MCEP、基频LF0及波段非周期性BAP;所述利用每个目标语言的ASR模型生成所述待处理语音的PPGs包括:提取所述待处理语音的MFCC;将所述待处理语音的MFCC分别输入每个目标语言的ASR模型;获取每个目标语言的ASR模型的输出作为所述待处理语音对应于每个目标语言的PPG;融合所述待处理语音对应于每个目标语言的PPG,得到所述待处理语音的PPGs。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 跨语言语音转换方法、装置、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。