【发明授权】一种基于慕课语音数据集的语音合成方法_东南大学_202110781210.9

导航：龙图腾网> 最新专利技术> 一种基于慕课语音数据集的语音合成方法_东南大学_202110781210.9

申请/专利权人：东南大学

申请日：2021-07-10

公开（公告）日：2024-05-14

公开（公告）号：CN113539232B

主分类号：G10L13/047

分类号：G10L13/047;G10L13/033;G10L13/08;G10L25/24;G10L25/30;G10L19/16;G06N3/0464;G06N3/0442;G06N3/047;G06N3/0455;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.05.14#授权;2021.11.09#实质审查的生效;2021.10.22#公开

摘要：本发明公开了一种基于慕课语音数据集的语音合成方法，该方法的主要特征在于通过真实场景下的语音构建的数据集进行语音合成，并进行说话人转换和多语种语音合成；该方法运用端到端的语音合成模型生成梅尔频谱，并用基于生成对抗网络的声码器将梅尔频谱转换成最终音频。本发明在真实场景下的语音数据集上有良好的效果，降低了语音合成所需数据的要求，提高了合成音频的质量，使合成音频更贴近真实说话场景。

主权项：1.一种基于慕课语音数据集的语音合成方法，其特征在于：所述方法包括以下步骤：步骤1对数据集的音频，文本对进行预处理；步骤2构建端到端的语音合成模型，利用注意力机制提取音频和文本的对齐关系，通过对齐关系生成上下文向量，从而生成梅尔频谱；步骤3利用梅尔频谱，通过基于生成对抗网络的声码器，合成最终音频；步骤4利用步骤2的语音合成系统以及步骤3的声码器进行说话人转换；步骤5利用步骤2的语音合成模型以及步骤3的声码器进行多语种语音合成；所述步骤1的音频，文本预处理是将音频处理为梅尔频谱，将文本进行转拼音并进行标注，使文本和音频一一对应，所述步骤2中所选择的语音合成模型是Tacotron2，注意力机制是改进后的GMM注意力；所述改进后的GMM注意力是一种基于位置的注意力机制，引入了K个高斯分量来计算注意力权重，通过它生成一个解码器隐状态Si，作为注意力制的查询向量去生成解码i时刻的注意力权重αi，根据注意力权重αi计算上下文向量ci，对齐αi具体方法如下： μi＝μi-1+Δi2；αi,j＝softmaxα′i,j3；其中，是待训练的中间向量，通过softplus函数得到Δi和δi，计算得到每个高斯分量的均值μi，从而计算αi,j'这个中间变量，对αi,j'做归一化操作，得到注意力对齐αi,j。

全文数据：

权利要求：

百度查询：东南大学一种基于慕课语音数据集的语音合成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：厌氧水解联合短程硝化与短程反硝化厌氧氨氧化处理高氨氮养殖废水的装置与方法_北京工业大学_202310008181.1

下一篇：一种露头岩层非均质性的模型构建方法_岭南师范学院_202310948270.4

相关技术

厌氧水解联合短程硝化与短程反硝化厌氧氨氧化处理高氨氮养殖废水的装置与方法_北京工业大学_202310008181.1

一种露头岩层非均质性的模型构建方法_岭南师范学院_202310948270.4

一种智能机械抓手_陇芯微(西安)电子科技有限公司_202111591327.7

一种轻量非晶合金及其制备方法_东莞市逸昊金属材料科技有限公司_202211701845.4

印制绕组式轻量化电磁能量采集装置_中国农业大学_202211249050.4

一种便于安装的制粒切刀系统_创志科技(江苏)股份有限公司_202211619873.1

一种配电网低压无功补偿电容状态检测方法及装置_广东电网有限责任公司_202210780379.7

点云处理的方法、系统、电子设备及计算机可读存储介质_合众新能源汽车股份有限公司_202210573918.X

一种车钩安装座高效焊接装置_南京海高德新技术有限公司_202311587530.6

促进多面板用户设备的不连续接收_诺基亚技术有限公司_201880095028.4

一种防治猪繁殖与呼吸道综合征的复方中药可溶性粉的制备方法和应用_广东海大集团股份有限公司_202211577992.5

模型轻量化方法、装置、计算机设备、存储介质及程序产品_苏州元脑智能科技有限公司_202410372700.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种基于慕课语音数据集的语音合成方法_东南大学_202110781210.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务