多模块协同的语音生成方法、装置、设备及介质专利

发布时间：2025-01-17 09:19:04 来源：龙图腾网导航：龙图腾网> 最新专利技术> 多模块协同的语音生成方法、装置、设备及介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：平安科技(深圳)有限公司

申请日：2024-10-23

公开（公告）日：2025-01-14

公开（公告）号：CN119314462A

专利技术分类：.文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定[2013.01]

专利摘要：本发明涉及人工智能技术领域和金融科技领域，公开了一种多模块协同的语音生成方法，通过获取参考文本和参考语音，将参考文本转换为音素序列并生成潜在特征，将参考语音转换为Mel谱图并提取风格特征，提取基频信息，将音素序列与Mel谱图输入文本对齐模块生成对齐信息，基于对齐信息和潜在特征预测语音时长，通过基频信息预测语音的基频，将预测的时长、基频和风格特征输入解码器生成重构的Mel谱图，最后通过声码器将重构的Mel谱图转换为语音音频数据。本发明通过结合对语音时长、基频和风格特征的精确控制，使生成的语音能够更好地反映文本内容的自然节奏和音调变化，并增强了语音的韵律和表现力，从而提高了语音合成的自然度和逼真度。

专利权项：1.一种多模块协同的语音生成方法，其特征在于，包括以下步骤：获取参考文本和参考语音；将所述参考文本转换为音素序列，并将所述音素序列输入文本编码模块，生成潜在特征；将所述参考语音转换为Mel谱图，并将所述Mel谱图输入风格编码模块，并由所述风格编码模块提取风格特征；通过基频提取模块从所述Mel谱图中提取基频信息；将所述音素序列与所述Mel谱图输入文本对齐模块，并由所述文本对齐模块生成对齐信息；基于所述对齐信息和潜在特征，通过时长预测模块预测生成语音的时长；通过基频预测模块基于所述基频信息，预测生成语音的基频；将预测生成语音的时长、预测生成语音的基频和所述风格特征输入解码器，生成重构的Mel谱图；使用声码器将重构的Mel谱图转换为语音音频数据。

百度查询：平安科技(深圳)有限公司多模块协同的语音生成方法、装置、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关链接：龙图腾网专利信息网专利交易龙图腾专利交易网 IPTOP知识产权网

相关技术

一种兼容近视和非近视人群的通用型3D眼镜

一种针对废弃铅锌矿山的生态修复结构

一种电动车充电桩的安全插座

沉积旋回自动划分方法、装置、电子设备及介质

滑模干扰观测补偿磁流变阻尼器的悬架系统和控制方法

一种基于深度学习简单循环单元的测井曲线延拓方法

一种热模钢低变形量表面强化的固体渗氮工艺

一种新型的气凝胶毡生产方法及设备

一种高效智能化的自动贴片机

新型带式输送机用小误差煤量扫描测量装置

一种具有抗污防水功能的家装用岩板

一种百叶窗双边冲孔装置

方法相关技术

光刻方法、刻蚀方法_中芯国际集成电路制造（上海）有限公司_201110357991.5

设备、方法、制造方法_利萨·德雷克塞迈尔有限责任公司_201810625293.0

加密方法,解密方法和确认方法_佳能株式会社_97110913.3

加密方法,解密方法和确认方法_佳能株式会社_97110913.3

复用方法、分离方法_三菱电机株式会社_01822765.1

发光装置、照明方法、设计方法、驱动方法、制造方法_西铁城电子株式会社_201710228291.3

发光装置、照明方法、设计方法、驱动方法、制造方法_西铁城电子株式会社_201710228291.3

清洗方法、喷砂方法_玛太克司马特股份有限公司_202011292640.6

设备、方法、制造方法_利萨·德雷克塞迈尔有限责任公司_201810625293.0

清洗方法、喷砂方法_玛太克司马特股份有限公司_202011292640.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

多模块协同的语音生成方法、装置、设备及介质专利

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务