首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深层时序特征表示的语种识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨理工大学

摘要:基于深层时序特征表示的语种识别方法,本发明涉及一种基于深层时序特征表示的语种识别方法,属于语种识别技术领域。本发明的目的是为了解决现有方法对语种识别的精度低的问题。过程为:步骤1、获取不同语种的音频数据集;分别对不同语种的音频数据集进行数据增强;将数据增强后的不同语种的音频数据集裁剪成同等长度音频数据,作为训练集;步骤2、构建深度学习模型,将步骤1的训练集输入深度学习模型进行训练,直至达到了设置的最大迭代次数,获得训练好的深度学习模型;所述深度学习模型依次包括预训练模型、时间池和全连接层;步骤3、将待测音频数据输入训练好的深度学习模型,获得待测音频数据的语种类别。

主权项:1.基于深层时序特征表示的语种识别方法,其特征在于:所述方法具体过程为:步骤1、获取不同语种的音频数据集;分别对不同语种的音频数据集进行数据增强;将数据增强后的不同语种的音频数据集裁剪成同等长度音频数据,作为训练集;步骤2、构建深度学习模型,将步骤1的训练集输入深度学习模型进行训练,直至达到了设置的最大迭代次数,获得训练好的深度学习模型;所述深度学习模型依次包括预训练模型、时间池和全连接层;步骤3、将待测音频数据输入训练好的深度学习模型,获得待测音频数据的语种类别;所述步骤1中数据增强为对不同语种的音频数据集中每一段音频数据进行数据增强,获得数据增强后的不同语种的音频数据集;数据增强包括添加噪声、速度增强、音量增强、音调增强、移动增强;所述步骤2中构建深度学习模型,将步骤1的训练集输入深度学习模型进行训练,直至达到了设置的最大迭代次数,获得训练好的深度学习模型;所述深度学习模型依次包括预训练模型、时间池和全连接层;具体过程为:步骤21、将步骤1的训练集输入到预训练模型,得到语音特征序列Tn;Tn=[t1,t2,…,ti,…,tn]其中,ti∈RF是语音特征序列Tn中的第i个向量;F是潜在语音特征Tn的维度;步骤22、将步骤21得到的语音特征序列Tn输入到时间池中,得到语音特征向量μ;步骤23、将步骤22得到的语音特征向量μ输入到全连接层进行预测,得到预测结果即音频数据的语种类别;步骤24、重复执行步骤21至步骤24,直至达到了设置的最大迭代次数,获得训练好的深度学习模型;所述步骤21中预训练模型为wav2vec2-base;所述步骤22中时间池为CNNLT或FCLT;CNNLT依次包括特征表示层、池化层和网络层;特征表示层为一层卷积层;池化层为均值池化层;网络层为前馈神经网络;FCLT依次包括特征表示层、池化层和网络层;特征表示层为全连接层;池化层为均值方差池化层;网络层为前馈神经网络;所述CNNLT或FCLT的损失函数表达式为: 其中,M为音频数据样本类别数量;为符号函数,取0或1,如果音频数据样本的真实类别等于c,则取1,否则取0;为时间池输出预测音频数据样本属于类别c的概率,N表示时间池输入音频数据样本总数,LT表示正则项,λ表示超参数;正则项LT表达式为: 其中,ti、ti+1分别表示语音特征序列Tn中的第i、i+1个向量;n是语音特征序列Tn中包含的向量数量,μ表示语音特征向量,α表示容忍程度参数。

全文数据:

权利要求:

百度查询: 哈尔滨理工大学 基于深层时序特征表示的语种识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。