恭喜平安科技(深圳)有限公司郭洋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜平安科技(深圳)有限公司申请的专利一种端到端语音转换方法、系统、终端及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114974274B 。
龙图腾网通过国家知识产权局官网在2025-04-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210374176.8,技术领域涉及:G10L21/013;该发明授权一种端到端语音转换方法、系统、终端及存储介质是由郭洋;王健宗;程宁设计研发完成,并于2022-04-11向国家知识产权局提交的专利申请。
本一种端到端语音转换方法、系统、终端及存储介质在说明书摘要公布了:本发明公开了一种端到端语音转换方法、系统、终端及存储介质。所述方法包括:获取源说话人的源语音数据以及所述源语音数据的梅尔谱;将所述源语音数据和梅尔谱输入预训练好的语音转换模型,通过所述语音转换模型计算出源语音数据的第一隐变量,所述第一隐变量包含所述源语音数据中的语音内容信息以及所述源说话人的音色信息;基于所述第一隐变量从所述源语音数据中分离出仅包含语音内容信息的第二隐变量;根据所述第二隐变量和目标说话人进行语音转换,得到转换后的目标说话人的语音数据。本发明无需依赖平行数据集,节省了大量数据集制作成本。同时,无需依赖声码器,避免了语音转换模型与声码器直接特征不匹配的问题,提高了语音转换质量。
本发明授权一种端到端语音转换方法、系统、终端及存储介质在权利要求书中公布了:1.一种端到端语音转换方法,其特征在于,包括:获取源说话人的源语音数据以及所述源语音数据的梅尔谱;将所述源语音数据和梅尔谱输入预训练好的语音转换模型,通过所述语音转换模型计算出源语音数据的第一隐变量,所述第一隐变量包含所述源语音数据中的语音内容信息以及所述源说话人的音色信息;所述语音转换模型基于条件式变换自编码机结构,所述语音转换模型包括encoder、decoder和鉴别器,所述encoder和decoder分别包括残差层、降采样层和升采样层,残差层用于从输入中计算提取隐状态,以说话人嵌入作为条件输入,用于建模不同说话人;所述降采样层和升采样分别用于对输入进行降采样和升采样处理;所述鉴别器用于辨别decoder产生的输出与真实数据样本,对所述语音转换模型进行对抗性训练;所述通过所述语音转换模型计算出源语音数据的第一隐变量包括,通过encoder根据输入的源语音数据和梅尔谱x计算出包含源语音数据中的语音内容信息以及源说话人s的音色信息的第一隐变量z;所述第一隐变量z服从以源说话人s和梅尔谱x为前提的条件概率分布,所述第一隐变量z的计算公式为:z~qφz|x,s;基于所述第一隐变量从所述源语音数据中分离出仅包含语音内容信息的第二隐变量;所述基于所述第一隐变量从所述源语音数据中分离出仅包含语音内容信息的第二隐变量包括,基于第一隐变量z,decoder通过normalizingflow函数fθ对所述源语音数据中的语音内容信息以及源说话人s的音色信息进行分离,分别得到仅包含语音内容信息的第二隐变量c以及用于表征源说话人s音色信息的第三隐变量e,所述第二隐变量c的计算公式为:c=fθz|s;根据所述第二隐变量和目标说话人进行语音转换,得到转换后的目标说话人的语音数据;所述根据所述第二隐变量和目标说话人进行语音转换,得到转换后的目标说话人的语音数据包括基于第二隐变量c和目标说话人利用normalizingflow函数fθ的逆变换计算得到音色转换后的第四隐变量所述第四隐变量与所述第一隐变量z包含同样的语音内容信息,且包含目标说话人的音色信息;将所述音色转换后的第四隐变量通过decoder网络,生成音色转换后的目标说话人的语音数据G表示解码器decoder。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人平安科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。