买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:成都理工大学
摘要:本发明公开了一种噪声环境下说话人识别模型构建方法,在说话人识别网络前端增加一个去噪模块,使用改进的谱减法对带噪语音进行去噪。针对谱减法的两个参数过减因子α和谱下限参数β,使用梯度下降的方法由神经网络动态调整两个参数的值,保留更符合说话人识别任务的语音信息,从而提高了噪声环境下说话人识别的准确率。带噪语音信号选择变窗长的窗函数进行短时傅里叶变换,可以防止频谱泄露说话人识别任务需要的说话人信息。
主权项:1.一种噪声环境下说话人识别模型构建方法,其特征在于,所述说话人识别模型包括去噪模块、语音特征提取模块和神经网络;所述去噪模块为:1.1将输入语音分帧进行短时傅里叶变换,抽取语音在窗函数长度T下的线性频谱Pyω;1.2噪声估计,得到噪声的线性频谱Peω;1.3将语音的线性频谱Pyω和噪声的线性频谱Peω分别转换为语音的能量谱PYω和噪声的能量谱PEω,再进行谱减,得到干净语音的能量谱PXω,即:PYω=|Pyω|2,PEω=|Peω|2, 其中,α为过减因子,β为谱下限参数,γ为谱系数,γ=1;1.4平滑处理干净语音的能量谱PXω;1.5使用傅里叶反变换恢复干净语音;训练所述说话人识别模型:将语音训练集输入去噪模块得到干净语音,使用语音特征提取模块提取语音特征后,放入神经网络进行训练,得到说话人特征向量;所述语音特征提取模块提取的语音特征为梅尔谱图;所述神经网络为ECAPA-TDNN;训练过程中,去噪模块的过减因子α和谱下限参数β通过梯度下降的方法更新梯度,反向传播与神经网络的其它参数一起更新;使用已训练的说话人识别模型得到说话人的特征向量,将说话人特征向量与数据库中已有的特征向量进行余弦相似度计算余弦距离,根据余弦距离与阈值的大小来判定出说话人。
全文数据:
权利要求:
百度查询: 成都理工大学 一种噪声环境下说话人识别模型构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。