买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:天云融创数据科技(北京)有限公司
申请日:2024-04-01
公开(公告)日:2025-01-17
公开(公告)号:CN118298803B
专利技术分类:.文本分析或文本以外的语音合成参数的产生,例如语义图翻译为音素、韵律产生、重音或声调测定[2013.01]
专利摘要:本申请提供一种语音克隆方法,涉及人工智能技术领域,该方法包括:获取待处理文本对应的音素标识、目标对象的音色标识、以及目标对象的语音对应的梅尔频谱;将音素标识、音色标识、以及梅尔频谱输入声学模型,利用多头注意力机制对提取待处理文本的音素特征和目标对象的音色特征进行计算,得到待处理文本中每个音素的第一语音特征;根据每个音素的第一语音特征和待处理文本的音素特征,对每个音素的发音时长进行预测,得到每个音素的第二语音特征;将每个音素的第二语音特征输入声学模型的解码模块进行解码处理,得到每个音素的连续语音特征;将每个音素的连续语音特征输入声码器模型进行语音合成,输出目标对象针对待处理文本的克隆语音。
专利权项:1.一种语音克隆方法,其特征在于,包括:获取待处理文本对应的音素标识、目标对象的音色标识、以及所述目标对象的语音对应的梅尔频谱;将所述音素标识、所述音色标识、以及所述梅尔频谱输入声学模型,利用所述声学模型中的编码模块提取所述待处理文本的音素特征和所述目标对象的音色特征;利用多头注意力机制对所述音素特征和所述音色特征进行计算,得到所述待处理文本中每个音素的第一语音特征;根据所述每个音素的第一语音特征和所述待处理文本的音素特征,对所述每个音素的发音时长进行预测,得到所述每个音素的第二语音特征,所述第二语音特征包含了每个音素的发音时长;将所述每个音素的第二语音特征输入所述声学模型的解码模块进行解码处理,得到所述每个音素的连续语音特征;将所述每个音素的连续语音特征输入声码器模型进行语音合成,输出所述目标对象针对所述待处理文本的克隆语音;其中,所述声学模型的编码模块包括音素编码器和频谱编码器;所述将所述音素标识、所述音色标识、以及所述梅尔频谱输入声学模型,利用所述声学模型的编码模块提取所述待处理文本的音素特征和所述目标对象的音色特征,包括:将所述待处理文本对应的音素标识和所述目标对象的音色标识输入所述音素编码器进行特征提取,得到所述待处理文本的音素特征;将所述目标对象的语音对应的梅尔频谱输入所述频谱编码器进行特征提取,得到所述目标对象的音色特征;所述声学模型包括:时长预测器;所述根据所述每个音素的第一语音特征和所述待处理文本的音素特征,对所述每个音素的发音时长进行预测,得到所述每个音素的第二语音特征,包括:提取所述梅尔频谱的全局音色特征;将所述待处理文本中每个音素的第一语音特征和所述全局音色特征相加后得到的特征、以及所述待处理文本的音素特征输入所述时长预测器,预测所述每个音素的发音时长,并对所述每个音素的发音时长进行归一化处理,得到并输出所述每个音素的第二语音特征。
百度查询: 天云融创数据科技(北京)有限公司 语音克隆方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。