买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:厦门大学
摘要:本发明提出了一种基于概率生成和非自回归模型的多说话人语音合成方法,包括:S1、说话人个性化编码器和概率生成编码器接收目标梅尔频谱并分别提取说话人个性化向量和概率生成向量;S2、基于深度网络的编码器对拼接融合的输入向量进行编码得到音素级深层特征;S3、音素时长预测器接收拼接融合的融合特征并预测音素时长序列;S4、长度规整网络接收音素时长序列并对融合特征进行扩展,得到帧级特征;S5、基于深度网络的解码器接收帧级特征并映射为预测梅尔频谱,后处理网络补充预测梅尔频谱的残差信息;S6、声码器将补充了残差信息的预测梅尔频谱映射为声音波形,得到合成语音。本发明能够提高多说话人语音合成系统的泛化性和合成语音的相似性。
主权项:1.一种基于概率生成和非自回归模型的多说话人语音合成方法,其特征在于,包括以下步骤:S1、多说话人语音合成系统接收文本向量和目标说话人语音转换成的目标梅尔频谱作为输入,说话人个性化编码器和概率生成器接收所述目标梅尔频谱,并分别提取出说话人个性化向量和概率生成向量;S2、基于深度网络的编码器接收由所述说话人个性化向量和所述文本向量拼接融合后的输入向量,对所述输入向量进行编码并提取深层次的特征得到音素级深层特征;S3、利用音素时长预测器接收由所述音素级深层特征和所述概率生成向量拼接融合后的融合特征,并预测出音素时长序列;S4、利用长度规整网络接收所述音素时长序列并对所述融合特征进行扩展,使得所述融合特征的长度与所述目标梅尔频谱的时间长度相等,从而得到帧级特征:S5、基于深度网络的解码器接收所述帧级特征并映射为与所述目标梅尔频谱相同维度的预测梅尔频谱,利用后处理网络补充所述预测梅尔频谱的残差信息:S6、利用声码器将补充了残差信息的所述预测梅尔频谱映射为声音波形,得到合成语音;其中,步骤S1中,所述说话人个性化编码器采用的是x-vector模型,所述x-vector模型是通过对文本无关的说话人识别任务进行预训练,再固定相关参数得到的,所述x-vector模型包括帧级别学习层、统计池化层和段级别学习层,所述说话人个性化向量的获取步骤具体包括:所述帧级别学习层接收所述目标梅尔频谱,获取深层次的说话人特征并输入至所述统计池化层;所述统计池化层计算所述目标说话人语音中每句话的均值和标准差并输入至所述段级别学习层;所述段级别学习层包含两层第二全连接层,选取第一层所述第二全连接层提取出所述说话人个性化向量;其中,所述概率生成向量提取步骤具体包括:所述概率生成器和所述多说话人语音合成系统通过优化损失函数进行联合优化,从而从所述目标梅尔频谱中提取出所述概率生成向量,所述优化损失函数具体为: 其中,L为多说话人语音合成系统的优化损失函数,MAE为绝对误差,MSE为均方误差,x为目标梅尔频谱,为未经过后处理网络的预测梅尔频谱,为经过后处理网络的预测梅尔频谱,d为通过预训练的语音识别模型提取的真实音素时长序列,为音素时长预测器预测的音素时长序列,z表示概率生成变量,KL表示概率生成器估计出的z的分布qφz|x和预先假设的z的先验分布pθz之间的距离,pθz为标准正态分布。
全文数据:
权利要求:
百度查询: 厦门大学 基于概率生成和非自回归模型的多说话人语音合成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。