Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

多模块协同的语音生成方法、装置、设备及介质专利

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:平安科技(深圳)有限公司

申请日:2024-10-23

公开(公告)日:2025-01-14

公开(公告)号:CN119314462A

专利技术分类:.文本分析或文本以外的语音合成参数的产生,例如语义图翻译为音素、韵律产生、重音或声调测定[2013.01]

专利摘要:本发明涉及人工智能技术领域和金融科技领域,公开了一种多模块协同的语音生成方法,通过获取参考文本和参考语音,将参考文本转换为音素序列并生成潜在特征,将参考语音转换为Mel谱图并提取风格特征,提取基频信息,将音素序列与Mel谱图输入文本对齐模块生成对齐信息,基于对齐信息和潜在特征预测语音时长,通过基频信息预测语音的基频,将预测的时长、基频和风格特征输入解码器生成重构的Mel谱图,最后通过声码器将重构的Mel谱图转换为语音音频数据。本发明通过结合对语音时长、基频和风格特征的精确控制,使生成的语音能够更好地反映文本内容的自然节奏和音调变化,并增强了语音的韵律和表现力,从而提高了语音合成的自然度和逼真度。

专利权项:1.一种多模块协同的语音生成方法,其特征在于,包括以下步骤:获取参考文本和参考语音;将所述参考文本转换为音素序列,并将所述音素序列输入文本编码模块,生成潜在特征;将所述参考语音转换为Mel谱图,并将所述Mel谱图输入风格编码模块,并由所述风格编码模块提取风格特征;通过基频提取模块从所述Mel谱图中提取基频信息;将所述音素序列与所述Mel谱图输入文本对齐模块,并由所述文本对齐模块生成对齐信息;基于所述对齐信息和潜在特征,通过时长预测模块预测生成语音的时长;通过基频预测模块基于所述基频信息,预测生成语音的基频;将预测生成语音的时长、预测生成语音的基频和所述风格特征输入解码器,生成重构的Mel谱图;使用声码器将重构的Mel谱图转换为语音音频数据。

百度查询: 平安科技(深圳)有限公司 多模块协同的语音生成方法、装置、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。