首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于慕课语音数据集的语音合成方法_东南大学_202110781210.9 

申请/专利权人:东南大学

申请日:2021-07-10

公开(公告)日:2024-05-14

公开(公告)号:CN113539232B

主分类号:G10L13/047

分类号:G10L13/047;G10L13/033;G10L13/08;G10L25/24;G10L25/30;G10L19/16;G06N3/0464;G06N3/0442;G06N3/047;G06N3/0455;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.05.14#授权;2021.11.09#实质审查的生效;2021.10.22#公开

摘要:本发明公开了一种基于慕课语音数据集的语音合成方法,该方法的主要特征在于通过真实场景下的语音构建的数据集进行语音合成,并进行说话人转换和多语种语音合成;该方法运用端到端的语音合成模型生成梅尔频谱,并用基于生成对抗网络的声码器将梅尔频谱转换成最终音频。本发明在真实场景下的语音数据集上有良好的效果,降低了语音合成所需数据的要求,提高了合成音频的质量,使合成音频更贴近真实说话场景。

主权项:1.一种基于慕课语音数据集的语音合成方法,其特征在于:所述方法包括以下步骤:步骤1对数据集的音频,文本对进行预处理;步骤2构建端到端的语音合成模型,利用注意力机制提取音频和文本的对齐关系,通过对齐关系生成上下文向量,从而生成梅尔频谱;步骤3利用梅尔频谱,通过基于生成对抗网络的声码器,合成最终音频;步骤4利用步骤2的语音合成系统以及步骤3的声码器进行说话人转换;步骤5利用步骤2的语音合成模型以及步骤3的声码器进行多语种语音合成;所述步骤1的音频,文本预处理是将音频处理为梅尔频谱,将文本进行转拼音并进行标注,使文本和音频一一对应,所述步骤2中所选择的语音合成模型是Tacotron2,注意力机制是改进后的GMM注意力;所述改进后的GMM注意力是一种基于位置的注意力机制,引入了K个高斯分量来计算注意力权重,通过它生成一个解码器隐状态Si,作为注意力制的查询向量去生成解码i时刻的注意力权重αi,根据注意力权重αi计算上下文向量ci,对齐αi具体方法如下: μi=μi-1+Δi2;αi,j=softmaxα′i,j3; 其中,是待训练的中间向量,通过softplus函数得到Δi和δi,计算得到每个高斯分量的均值μi,从而计算αi,j'这个中间变量,对αi,j'做归一化操作,得到注意力对齐αi,j。

全文数据:

权利要求:

百度查询: 东南大学 一种基于慕课语音数据集的语音合成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。