一种跨说话人语音风格建模方法及计算机可读存储介质

导航：龙图腾网> 最新专利技术> 一种跨说话人语音风格建模方法及计算机可读存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：清华大学深圳国际研究生院

摘要：本发明提供一种跨说话人语音风格建模方法及计算机可读存储介质，方法包括：构建跨说话人语音风格模型，包括：音频特征提取模块、目标标签分类模块、目标域标签筛选模块、对抗标签分类模块依序连接，用于提取输入音频块的音色特征和风格特征；构建多说话人多风格类别的数据集并采用数据集训练跨说话人语音风格模型直至提取的音色特征和风格特征的误差不再下降；将任意一个说话人标签和一个风格类别标签输入到训练好的跨说话人语音风格模型中与语音合成系统一起得到音色与说话人标签一致、风格与风格标签一致的语音。得到具备跨说话人迁移能力的语音风格模型；通过基于块式组合的音频特征提取机制提高模型对于音色和风格建模结果的鲁棒性。

主权项：1.一种跨说话人语音风格建模方法，其特征在于，包括如下步骤：S1：构建跨说话人语音风格模型，包括：音频特征提取模块、目标标签分类模块、目标域标签筛选模块、对抗标签分类模块依序连接，用于提取输入音频块的音色特征和风格特征；S2：构建多说话人多风格类别的数据集并采用所述数据集训练所述跨说话人语音风格模型直至提取的所述音色特征和所述风格特征的误差不再下降；S3：将任意一个说话人标签和一个风格类别标签输入到训练好的所述跨说话人语音风格模型中与语音合成系统一起得到音色与说话人标签一致、风格与风格标签一致的语音；所述音频特征提取模块包括两个音频特征提取子模块，分别用于获取块级音频特征向量作为输入音频块的音色特征、输入音频块的风格特征，所述音色特征和所述风格特征两者构成了音频特征提取模块的全部输出；所述音频特征提取子模块分别包括：3层卷积神经网络和2层门控循环网络；所述3层卷积神经网络接收音色、风格标签均相同的k条音频组成的音频块，k为音频数量，提取得到k个原始音频特征序列；每个所述原始音频特征序列分别被送入到第1层门控循环网络中，并分别取门控循环网络的最后一个时间步输出，得到k个句级音频特征向量；所述句级音频特征向量以随机顺序拼接在一起，得到长度为k的特征序列；所述特征序列被送入第2层门控循环网络中并取门控循环网络最后一个时间步输出，得到一个块级音频特征向量作为所述音频特征提取子模块的最终输出特征；所述目标标签分类模块包括两个分类器，所述分类器均由2层全连接神经网络组成，分别用于接收所述音色特征、所述风格特征并分别得到输出一个dspker维的说话人身份预测概率向量Pspker、一个dstyle维的语音风格预测概率向量Pstyle；其中，dspker为训练数据集中说话人总人数，dstyle为训练数据集中风格标签类别数目；所述目标域标签筛选模块，包括一个说话人身份筛选机制和一个风格标签筛选机制。

全文数据：

权利要求：

百度查询：清华大学深圳国际研究生院一种跨说话人语音风格建模方法及计算机可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种Z型气动吸附的执行器结构

下一篇：一种行星齿轮减速机

相关技术

一种Z型气动吸附的执行器结构

一种行星齿轮减速机

写请求的处理方法、装置、设备和介质

一种采空区储、净矿井水的方法

一种神经内科用可缓解神经痛的助眠装置

一种高速机械磨削主轴加工装置

一种鞘管弹簧丝绕制装置

声纳图像的可视化处理方法、系统和计算装置

一种各向异性复合纤维水凝胶及其制备方法

一种用于温控器的远程控制方法及系统

一种多自由度解耦的波浪能发电装置及其工作方法

一种电池端板

方法相关技术

拼接处理方法、显示方法及装置_北京嗨动视觉科技有限公司_202410789924.8

焊接方法_华为技术有限公司_202310265226.3

刻蚀方法_中微半导体设备(上海)股份有限公司_201911358929.0

防滑刹车系统、控制方法、余压故障告警方法及处置方法_成都飞机工业(集团)有限责任公司_202410495891.6

应用风险指数生成方法、模型构建方法、检测方法及设备_武汉安天信息技术有限责任公司_202310222148.9

模具模拟方法、模具补偿设计方法以及模具加工制作方法_中信戴卡股份有限公司_202411020603.8

封装方法_立锜科技股份有限公司_202310232492.6

主动降噪系统及其失稳检测方法、控制方法、设备_宁波方太厨具有限公司_202411080503.4

参考信号的发送方法,接收方法和装置_华为技术有限公司_202310260761.X

视频解码方法、视频编码方法和装置_三星电子株式会社_202410898515.1

建模相关技术

一种RAW域图像噪声建模方法_合肥君正科技有限公司_202310239009.7

一种供热管网的仿真建模方法_华能苏州热电有限责任公司_202410654771.6

用于行车数据合成的路面建模方法及系统_零束科技有限公司_202410735938.1

一种数学建模模拟演示装置_杭州师范大学_202420148552.6

一种仿真建模方法及系统_比亚迪股份有限公司_202411084429.3

干燥设备、干燥方法及建模系统_株式会社理光_202410202123.7

一种BIM建模用操作台_新疆金来数字传媒有限责任公司_202323408188.7

一种网络对抗兵棋棋子建模方法_中国人民解放军61660部队_202410461348.4

一种电力电子变换器开关暂态多重分段线性建模求解方法_西北工业大学_202411109488.1

一种个性化HRTF快速建模获取方法_上海航空电器有限公司_201911253436.0

风格相关技术

基于切画的图像风格迁移方法及其迁移系统_四川新视创伟超高清科技有限公司_202410806239.1

一种基于风格向量的语音驱动数字人面部视频生成方法_湖北大学_202410775608.5

一种基于人工智能的荆楚风格数字绘画生成方法及系统_武汉软件工程职业学院(武汉开放大学)_202410926542.5

一种跨说话人语音风格建模方法及计算机可读存储介质_清华大学深圳国际研究生院_202111535836.8

进风格栅、面板和空气处理设备_大金工业株式会社_202323003323.X

驾驶风格分类方法、装置、设备、介质及产品_采埃孚股份公司_202410865089.1

字体风格迁移网络的训练方法、装置、设备及存储介质_京东方科技集团股份有限公司_202380000008.5

一种基于全局信息引导网络实现真实图像风格迁移的方法_光华临港工程应用技术研发(上海)有限公司_202110891687.2

一种过风格栅、罩壳及热泵热水器_广东美的制冷设备有限公司_202323167820.3

一种基于驾驶员风格诊断的智能交通推荐方法_淮阴工学院_202410776714.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种跨说话人语音风格建模方法及计算机可读存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务