基于声纹特征的目标说话人实时语音信息提取方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西安电子科技大学

摘要：本发明提出了一种基于声纹特征的目标说话人实时语音提取的方法，实现步骤为：获取纯净语音训练样本集和混合语音训练样本集；构建声纹提取模型V；对声纹提取模型V进行迭代训练；构建基于声纹特征的目标说话人实时语音信息提取模型M；对目标说话人实时语音信息提取模型M进行迭代训练；提取目标说话人的实时语音信息。本发明目标说话人实时语音信息提取模型中的特征拼接模块通过简单的拼接操作，实现对目标说话人的声纹特征与换和语音特征的融合，并采用了轻量且实时处理的LSTM网络，有效的降低了提取目标说话人语音信息的延迟和对计算资源的需求，提高了语音提取操作的实时性。

主权项：1.一种基于声纹特征的目标说话人实时语音信息提取方法，其特征在于，包括如下步骤：1获取纯净语音训练样本集和混合语音训练样本集：从纯净语音数据集中获取N位说话人P＝{p1,p2,...,pn,...,pN}且包含每位说话人pn的M条纯净语音数据并将所获取的N×M条纯净语音数据组成纯净语音训练样本集，然后对每位说话人pn的每条纯净语音数据与其他N-1位说话人中的任意一位的任意一条纯净语音数据进行混合，获得pn的M条混合语音数据最后将N×M条混合语音数据组成混合语音训练样本集，其中，N≥400，pn表示第n位说话人，M≥300，表示pn的第m条纯净语音数据，表示对应的混合语音数据，对应的目标说话人为pn；2构建声纹提取模型V：构建包括顺次连接的语音特征提取模块、声纹特征提取模块和注意力池化模块的声纹提取模型V；其中：声纹特征提取模块包含顺次的多层长短期记忆网络LSTM和激活函数为双曲正切tanh函数的全连接层；注意力池化模块包含激活函数为Softmax函数的全连接层；3对声纹提取模型V进行迭代训练：3a初始化迭代次数为i，最大迭代次数为I，I≥250，当前的声纹识别模型为Vi，并令i＝1，V＝Vi；3b将纯净语音训练样本集作为声纹提取模型V的输入进行前向传播：3b1语音特征提取模块对每个纯净语音训练样本进行预加重，并将预加重后的训练样本划分为多个帧，并提取每个帧的梅尔滤波器组特征；3b2声纹特征提取模块根据每个帧的梅尔滤波器组特征提取声纹特征；注意力池化模块依据每个帧的声纹特征计算该帧的注意力权重，将所有帧的声纹特征与该帧的注意力权重相乘并求和，得到语音的声纹特征3c采用广义端到端损失函数LG，并根据所有声纹特征计算V的损失值然后采用反向传播方法，并通过计算声纹特征提取模块和注意力池化模块的参数梯度，最后采用梯度下降法，通过声纹特征提取模块的参数梯度对声纹特征提取模块的权重参数进行更新，通过注意力池化模块的参数梯度对注意力池化模块的权重参数进行更新，得到第i次迭代后的声纹提取模型；3d判断i≥I是否成立，若是，得到训练好的声纹提取模型V*，否则，令i＝i+1，并执行步骤3b；4构建基于声纹特征的目标说话人实时语音信息提取模型M：构建包括并行排布的声纹提取模块和语音特征提取模块，以及与该两个模块的输出端顺次连接的特征拼接模块、掩码计算模块和语音提取模块的目标说话人实时语音信息提取模型M；其中：声纹提取模块采用训练好的声纹提取模型V*，掩码计算模块顺次连接多层LSTM网络和激活函数为Softmax函数的全连接层；5对目标说话人实时语音信息提取模型M进行迭代训练：5a固定声纹提取模块的参数不变，初始化迭代次数为j，最大迭代次数为J，J≥100，当前的目标说话人实时语音信息提取模型为Mj，并令j＝1，M＝Mj；5b将混合语音训练样本集作为基目标说话人实时语音信息提取模型M的输入进行前向传播：5b1声纹提取模块从pn的任意一条纯净语音中提取pn的声纹特征；同时语音特征提取模块对每个混合语音训练样本进行预加重，并将预加重后的训练样本划分为多个帧，并提取每个帧的梅尔滤波器组特征；对对应的纯净语音进行相同操作，并将所有帧的梅尔滤波器组特征按照分帧的时间顺序排列，组合得到对应的纯净语音的语音特征xclean；5b2特征拼接模块对声纹特征与混合语音每一帧的梅尔滤波器组特征进行拼接，得到混合语音的拼接特征；掩码计算模块中LSTM网络根据拼接特征计算语音掩码，后使用激活函数为Softmax的全连接层将掩码映射到与混合语音每个帧的梅尔滤波器组特征相同的维度；语音提取模块将语音掩码掩码逐帧与混合语音样本的语音特征点乘，点乘的结果按照分帧的时间顺序排列，组合得到语音特征xextraction；5c采用均方误差损失函数LMSE，并通过xextraction和xclean计算第j次迭代中目标说话人实时语音信息提取模型的损失值，并采用Adam优化方法，通过最小化LMSE对掩码计算模块的权重参数进行更新，得到第j次迭代后的目标说话人实时语音信息提取模型Mj；5d判断j≥J是否成立，若是，得到训练好的目标说话人实时语音信息提取模型M*，否则，令j＝j+1，并执行步骤5b；6提取目标说话人的实时语音信息：6a预先获取目标说话人的纯净语音，使用目标说话人实时语音信息提取模型M*中的声纹提取模块提取并储存其声纹；6b持续获取目标说话人语音流，每达到一个固定长度即截取为一个语音段；6c将目标说话人的语音段和声纹输入基于声纹特征的目标说话人实时语音信息提取模型M*的，并使用预先存储的声纹特征，实时提取出该语音段中目标说话人的语音信息。

全文数据：

权利要求：

百度查询：西安电子科技大学基于声纹特征的目标说话人实时语音信息提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种生物质燃料防结焦气化燃烧炉

下一篇：一种葡萄糖传感器及其制备方法

相关技术

一种生物质燃料防结焦气化燃烧炉

一种葡萄糖传感器及其制备方法

一种电池端板

一种1,2,3-三氮唑-4-甲酸乙酯的合成方法

单电池气密流阻测试工装结构

一种不等厚火山口玻璃后盖周抛方法

一种高直流叠加特性低损耗复合磁粉心的制备方法

一种高效的柔性钙钛矿太阳能电池封装方法

写请求的处理方法、装置、设备和介质

一种用于温控器的远程控制方法及系统

一种用于塑胶原料生产加工的除味装置

制氢装置以及氢发电系统

实时相关技术

一种再生砂颗粒形貌实时监测装置及实时监测方法_合肥工业大学_202211480345.2

一种实时定位工牌_四川省机场集团有限公司成都天府国际机场分公司_202323553797.1

实时远程互动教学系统_北京竞业达数码科技股份有限公司_201810832527.9

一种电池实时显示监控装置_华章数据技术有限公司_202322727750.6

一种实时显示船舶姿态仪_交通运输部天津水运工程科学研究所_202322549542.1

一种弹载平台实时目标跟踪方法_西北工业大学_202210099550.8

GTS多格式探空报文实时转换方法和装置_国家气象信息中心(中国气象局气象数据中心)_202311515244.9

实时避障路径规划方法、系统、设备及介质_西安建筑科技大学_202210454092.5

一种土壤安全利用实时监测装置_苏州苏锦复地环境科技有限公司_202323344967.5

一种大数据实时监控系统_广州城建职业学院_202111290049.1

说话相关技术

一种基于时域残差层的说话人识别方法及系统_中科南京智能技术研究院_202411103547.4

一种在转换语音中添加源说话人水印的方法_中国人民解放军陆军工程大学_202410897118.2

基于概率生成和非自回归模型的多说话人语音合成方法_厦门大学_202111601179.2

一种跨说话人语音风格建模方法及计算机可读存储介质_清华大学深圳国际研究生院_202111535836.8

说话人验证方法及系统_思必驰科技股份有限公司_202111615548.3

文本无关的说话者识别_谷歌有限责任公司_202410858728.1

说话人音高预测方法、装置、电子设备、存储介质_上海稀宇极智科技有限公司_202410683587.4

基于声纹特征的目标说话人实时语音信息提取方法_西安电子科技大学_202210837364.X

多说话人语音识别方法、系统、存储介质及电子设备_上海蜜度数字科技有限公司_202410747287.8

一种车机系统说话人身份识别方法、装置、设备及介质_浙江极氪智能科技有限公司_202310198761.1

语音相关技术

语音识别方法、装置、语音交互设备及存储介质_思必驰科技股份有限公司_202210420727.X

用于语音合成的语音数据扩增方法及系统_思必驰科技股份有限公司_202210369510.0

语音合成方法、语音合成装置、电子设备及存储介质_平安科技(深圳)有限公司_202410841463.4

一种语音控制传感装置_辽宁亿联精工科技有限公司_202323082461.1

用于文字转语音装置的底座_东莞明信电子有限公司_202323225867.0

智能语音机器人系统_青岛海尔乐信云科技有限公司_202410887989.6

一种多功能语音翻译设备_常熟它思清源科技有限公司_202323494170.3

语音增强方法、装置、电子设备及介质_北京大学_202410570722.4

一种显示设备及语音唤醒方法_海信视像科技股份有限公司_202410658728.7

语音处理方法、电子设备和存储介质_思必驰科技股份有限公司_202210475913.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于声纹特征的目标说话人实时语音信息提取方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务