买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨理工大学
摘要:本发明公开了一种基于调整余弦互信息估计的语种识别方法,解决了在复杂的声音环境下以分类损失为目标函数提取到的embedding嵌入特征区分能力不强的问题。在训练阶段,先将训练集的声学特征做预处理,输入TDNN‑F网络;然后将网络中输出的embeddings根据半困难负样本挖掘策略,选择出正负样本对进行基于调整余弦相似度的互信息估计,并以此作为目标函数进行网络训练。在识别阶段,先将注册集和测试集的声学特征输入训练好的TDNN‑F网络得到对应的embeddings;然后将注册集与测试集的embeddings进行线性判别分析、减平均、零相位成分分析白化以及向量长度归一化;最后使用逻辑回归LR分类器进行评分。该方法能够有效利用正负样本对语言嵌入特征之间的互信息,以此优化网络训练并降低系统的错误率。本发明可以应用于语种识别领域。
主权项:1.一种基于调整余弦互信息估计的语种识别方法,其特征在于,所述方法包括如下步骤:步骤1、首先对训练集进行数据增强,然后对增强的训练集、注册集以及测试集语音提取声学特征,包括梅尔频率倒谱系数特征MFCC和音调特征Pitch;步骤2、将步骤1中训练集提取的特征进行倒谱均值方差归一化CepstralMeanandVarianceNormalization,CMVN以及使用语音活性检测VoiceActivityDetection,VAD删除沉默帧frame,然后将每一个语音的特征平均分成若干个数据块chunk;步骤3、首先将步骤2中得到的训练集的所有chunks,批量输入网络模型;然后将网络中输出的embeddings根据半困难负样本挖掘策略选择正负样本对,其中挖掘策略选用调整余弦相似度来度量样本对之间的差异性;最后将正负样本对进行基于调整余弦相似度的互信息估计,并以此作为目标函数进行网络训练,更新网络参数;步骤4、将步骤1中提取的注册集和测试集的声学特征输入训练好的网络模型,得到对应的embeddings;步骤5、由步骤4中得到的注册集与测试集的embeddings进行线性判别分析LinearDiscriminantAnalysis,LDA、减平均Submean、零相位成分分析白化ZCAWhiten以及向量长度归一化VectorLengthNormalization之后,使用逻辑回归LR分类器进行评分;所述步骤1的具体说明如下:步骤1中所述的对训练集进行数据增强,是指对训练集中的原始语音进行速度和体积扰动,从而将原始语音的两个增强副本加入到原始语音中,得到一个3倍组合的训练集;步骤1中所述的提取MFCC特征的流程为预加重、分帧、加窗、快速傅里叶变化FFT、Mel滤波器组、对数运算、离散余弦变换DCT;步骤1中所述的提取Pitch特征的流程为重采样信号、归一化重采样信号的动态范围、确定计算归一化互相关函数NormalizedCrossCorrelationFunction,NCCF的滞后范围、计算NCCF、以非线性的方式对NCCF进行上采样、NCCF后处理;步骤2中所述将每一个语音的特征平均分成若干个chunk,其由多个连续帧组成;当一个语音的特征所含的帧数低于所设置的chunk的大小时,该语音特征会被丢弃;所述步骤3的具体说明如下:步骤3中所述的将网络中输出的embeddings根据半困难负样本挖掘策略选择出正负样本对,具体过程为在网络输出的embeddings中随机选择一个embedding,记为然后选择与为同一类语种的embedding,记为与构成正样本对最后根据挖掘策略要求,选择出符合公式4的与不属于同一类语种且调整余弦相似度最大的一个embedding,记为公式4表示为: 其中,α设为0.03,与构成负样本对其中,f表示网络模型,i表示embedding的维度,Zp表示正样本集,Zn表示负样本集;步骤3中所述的调整余弦相似度计算如下: 其中x和y分别代表两个不同的embedding,代表批量embeddings中维度i的均值;步骤3中所述的将正负样本对进行基于调整余弦相似度的互信息估计,并以此作为目标函数进行网络训练,更新网络参数,具体是指通过最大化正样本对和负样本对之间的调整余弦相似度的互信息作为网络的目标函数,然后通过网络的反向传播优化网络参数,使得正样本对之间的相似度更大,负样本对之间的相似度更小。
全文数据:
权利要求:
百度查询: 哈尔滨理工大学 基于调整余弦互信息估计的语种识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。