电子科技大学邢建川获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于深度神经网络的定向语音分离方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116030824B 。
龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211622172.3,技术领域涉及:G10L21/028;该发明授权一种基于深度神经网络的定向语音分离方法是由邢建川;曾凤;付鱼;陈洋;周春文;刘梓然设计研发完成,并于2022-12-16向国家知识产权局提交的专利申请。
本一种基于深度神经网络的定向语音分离方法在说明书摘要公布了:本发明公开了一种基于深度神经网络的定向语音分离方法,属于语音处理技术领域。本发明方法包括:提取语音的时频谱特征:提取混合人声以及纯净人声的时频谱特征,其中,纯净人声的时频谱特征用于人声分离网络的训练;使用声纹编码器提取语音的声纹向量,以提取与纯净人声不同的参考人声的声纹向量;构建并训练人声分离网络,其中,所述人声分离网络的激活函数采用Mish函数;将时频谱和声纹向量共同输入人声分离网络,输出从混合人声中提取到的目标人声。本发明有效的提升了定向人声分离的处理性能。
本发明授权一种基于深度神经网络的定向语音分离方法在权利要求书中公布了:1.一种基于深度神经网络的定向语音分离方法,其特征在于,包括下列步骤: 步骤1,提取语音的时频谱特征:提取混合人声以及纯净人声的时频谱特征,将混合人声的时频谱特征作为输入时频谱,将纯净人声的时频谱特征作为目标时频谱,且目标时频谱用于人声分离网络的训练; 步骤2,使用声纹编码器提取语音的声纹向量,以提取与纯净人声不同的参考人声的声纹向量;其中,声纹编码器为EcapaTDNN网络; 步骤3,构建并训练人声分离网络,其中,所述人声分离网络的激活函数采用Mish函数; 步骤4,将时频谱和声纹向量共同输入人声分离网络,输出从混合人声中提取到的目标人声; 所述步骤3中,人声分离网络依次包括:卷积神经网络、长短期记忆网络LSTM和全连接层;将声纹编码器提取的与纯净人声不同的参考人声的声纹向量输入人声分离网络的LSTM网络;以及将提取的输入时频谱输入人声分离网络的卷积神经网络;该卷积神经网络再将提取的特征图输入LSTM网络,全连接层用于输出频谱图的掩码矩阵; 将人声分离网络输出的掩码矩阵与输入时频谱相乘,得到输出时频谱,经时频谱特征提取的逆过程得到从混合人声中提取到的目标人声; 对人声分离网络训练时,采用均方损失对网络参数进行更新,即基于目标时频谱和输出时频谱计算人声分离网络的均方损失,再通过反向传播和梯度下降法对人声分离网络的网络参数进行更新,直到训练次数达到上限或者均方损失满足指定条件时停止。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。