Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜华南理工大学刘江枫获国家专利权

恭喜华南理工大学刘江枫获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜华南理工大学申请的专利一种基于端到端的音色及情感迁移的跨语言语音合成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115359774B

龙图腾网通过国家知识产权局官网在2025-04-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210782542.3,技术领域涉及:G10L13/02;该发明授权一种基于端到端的音色及情感迁移的跨语言语音合成方法是由刘江枫;毛爱华;郭勇彬;张柳坚设计研发完成,并于2022-07-05向国家知识产权局提交的专利申请。

一种基于端到端的音色及情感迁移的跨语言语音合成方法在说明书摘要公布了:本发明公开了一种基于端到端的音色及情感迁移的跨语言语音合成方法,步骤如下:S1、采集并处理中英文的语音训练数据,提取出所需的语音特征;S2、训练中文和英文的语音合成的学习网络架构,包括说话人编码器、合成器和声码器三部分;S3、利用训练完成的学习网络架构,对说话人输入的实时语音进行跨语言的语音合成,合成语音能够有效保留说话人的音色和情感。本方法提供了跨语言的语音合成方法,在给定说话人少量语音的条件下,能够合成跨语言的语音,且可以在合成语音中保留说话人的音色和情感。

本发明授权一种基于端到端的音色及情感迁移的跨语言语音合成方法在权利要求书中公布了:1.一种基于端到端的音色及情感迁移的跨语言语音合成方法,其特征在于,所述语音合成方法包括以下步骤:S1、采集训练数据:采集多个说话人的多句短录音文件,对每个多句短录音文件建立一一对应的文本标记,其中多句短录音文件不超过15秒,总时长不小于30小时,录音环境应为安静的室内环境;S2、预处理:对多句短录音文件进行语音处理,转换为所需的音频文件,以及生成一个或多个JSON格式的文件;过程如下:S2.1、对多句短录音文件使用进行语音处理,多句短录音文件将被转换为音频采样率16000Hz、音频格式wav格式、位深16bits、单声道的音频文件;S2.2、将文本标记、说话人、说话人ID、语音处理得到的音频文件标记拼接成一个或多个JSON格式的文件,其中文本标记是指说话人和说话内容对应的音频文件的语音内容,说话人ID是指对说话人进行的编号标记,音频文件标记是指说话人和说话内容对应的音频文件名称;S3、构建用于中文和英文进行语音合成的学习网络架构,该学习网络架构包括说话人编码器、合成器和声码器;S4、训练说话人编码器:说话人编码器以步骤S2中音频文件的梅尔频谱为输入,输出一个固定维度的嵌入向量,该嵌入向量可保留说话人的音色和情感;S5、训练合成器:合成器由依次连接的编码器和解码器组成,其中,编码器由1个预处理网络、3个一维卷积层和1个双向LSTM层组成,输入为步骤S2中生成的JSON文件,输出为编码器隐状态,解码器由1个预处理网络、依次顺序连接的两层LSTM网络、投影层和后处理网络组成,对编码器输出的隐状态解码,生成合成语音的梅尔频谱,首先编码器解析预处理生成的JSON文件来生成编码器隐状态,接着将编码器隐状态输入解码器中,解码器输出合成语音的梅尔频谱;S6、训练声码器:声码器由并行的WaveRNN声码器和HiFi-GAN声码器组成,以解码器生成的梅尔频谱为输入,输出预测语音合成的波形;S7、将实时语音进行预处理操作后,输入训练完成的学习网络架构中,获得跨语言的合成语音。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510640 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。