【发明公布】基于风格克隆的语音合成方法、装置及存储介质_平安科技(深圳)有限公司_202410397958.2

导航：龙图腾网> 最新专利技术> 基于风格克隆的语音合成方法、装置及存储介质_平安科技(深圳)有限公司_202410397958.2

申请/专利权人：平安科技(深圳)有限公司

申请日：2024-04-03

公开（公告）日：2024-06-14

公开（公告）号：CN118197349A

主分类号：G10L25/24

分类号：G10L25/24;G10L13/02;G10L13/08;G10L25/30

优先权：

专利状态码：在审-公开

法律状态：2024.06.14#公开

摘要：本发明涉及人工智能及医疗领域，揭露一种基于风格克隆的语音合成方法，包括：利用提取器组合提取训练样本音素序列的单词表示向量，及利用第一编码器将单词表示向量转换成音素编码特征向量；对参考音频进行随机扰动，得到扰动后音频，对所述音频进行转换，得到梅尔频谱；对梅尔频谱进行特征提取，得到预设数量的等长特征向量，将上述等长特征向量融合，得到参考风格特征向量；利用注意力模块对参考风格特征向量和预设数量的风格标记特征向量进行注意力学习，得到风格嵌入特征向量；将风格嵌入特征向量和文本音素编码特征向量融合，得到融合特征向量，TTS系统将融合特征向量生成目标音频。本发明还提供一种装置及介质。本发明可用于医疗问诊领域。

主权项：1.一种基于风格克隆的语音合成方法，其特征在于，所述方法包括：利用预设的提取器组合提取训练样本的音素序列的单词表示向量，及利用预设的第一编码器将所述单词表示向量转换成音素编码特征向量；利用预设的扰动模块对参考音频进行随机扰动处理，得到扰动后的音频，利用预设的转换模块对扰动后的音频进行转换，得到梅尔频谱；利用预设的第二编码器对所述梅尔频谱进行局部特征提取，得到预设数量的风格语音的等长特征向量，将所述预设数量的等长特征向量进行融合，得到参考风格特征向量；利用预设的注意力模块对所述参考风格特征向量和预设数量的风格标记特征向量进行注意力学习，得到风格嵌入特征向量；将所述风格嵌入特征向量和所述文本音素编码特征向量进行相加，得到融合特征向量，利用预设的TTS系统将所述融合特征向量生成目标音频。

全文数据：

权利要求：

百度查询：平安科技(深圳)有限公司基于风格克隆的语音合成方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种智能机械抓手_陇芯微(西安)电子科技有限公司_202111591327.7

下一篇：一种用于化纤在线取丝饼自动暂存的中转机器人_安歌科技(集团)股份有限公司_202210543752.7

相关技术

一种智能机械抓手_陇芯微(西安)电子科技有限公司_202111591327.7

一种用于化纤在线取丝饼自动暂存的中转机器人_安歌科技(集团)股份有限公司_202210543752.7

基于学生T过程的微带天线优化方法和优化系统_江苏科技大学_202111415452.2

AGV磁寻迹偏移量计算方法、存储介质及AGV_广东嘉腾机器人自动化有限公司_202111406161.7

一种磁性吸附材料及其制备方法和应用_国家粮食和物资储备局科学研究院_202310376075.9

一种羽毛片自动翻正装置_汪锐_202111663818.8

一种柔性低密度烧蚀防热涂料及其制备方法_上海箬宇新材料有限公司_202310043235.8

一种物联网设备自动化测试系统、方法、存储介质及设备_成都秦川物联网科技股份有限公司_202210603550.7

一种大型铜套离心铸造方法及铸造设备_扬州市雪龙铜制品有限公司_202210381652.9

点云处理的方法、系统、电子设备及计算机可读存储介质_合众新能源汽车股份有限公司_202210573918.X

一种低漏电流层积电容器的化成铝箔的处理工艺和层积电容器_肇庆绿宝石电子科技股份有限公司_202210484604.2

基于零代词补齐的汉越数据增强方法_昆明理工大学_202210374347.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】基于风格克隆的语音合成方法、装置及存储介质_平安科技(深圳)有限公司_202410397958.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务