买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨理工大学
摘要:基于通道加权的说话人确认方法、系统及设备,属于生物特征识别技术领域。为了解决基于语音信号直接识别方式存在语音信号特征利用不充分影响识别准确率的问题。本发明首先提取MFCC特征矩阵,再利用通道分段学习网络CSLN进行处理得到说话人低维特征向量,CSLN中的通道分段学习块学习特征权重;然后利用包括减性角边距损失和加性角边距损失的总损失函数进行训练模型。使用时利用CSLN得到两条语音的说话人低维特征向量,根据二者相似度判断第一语音与第二语音是否为同一说话人,进而最终用确定语音的说话人。
主权项:1.一种基于通道加权的说话人确认方法,其特征在于,包括:将两条语音记为第一语音与第二语音;针对第一语音、第二语音分别提取MFCC特征,基于MFCC特征,分别采用CSLN网络得到一个zi,采用CSLN网络得到一个zi的过程包括:将某一语音得到的MFCC特征记为X,X的第t列即MFCC的第t帧,记为xt=[xt,1;…;xt,i;...;xt,l],其中xt中的第j个元素记为xt,j,l表示xt的元素总数;对xt进行通道分段,把xt中元素分为m个通道分段数,每个通道分段有h个元素,xt通道分段后的矩阵为st=[st,1;...;st,k;...;st,m];将通道分段学习网络CSLN记为f·,其中f·中的通道分段学习块CSLB记为g·,g·依次进行CNN卷积降维、Softplus非线性学习、BN批归一化、tanh非线性、CNN卷积升维处理;先把st,k作为CSLB的输入,经过CSLB输出st,k对应的通道分段权重向量wt,k=gst,k,再对st,k和wt,k通过相乘、累加通道分段和得到s′t,k;在s′t,k基础上,针对s′t,k再通过通道分段加权向量累加得到s″t,k,通过对s″t,k的列拼接,得到感知向量s″t,即通道分段学习网络CSLN处理结果,将向量s″t记为fxt;对X中的任意帧特征xt,将全部fxt进行行拼接,输出感知矩阵fX=[fx1,...,fxt,...,fxT];将X+fX再次作为f·输入,经过f·处理得到fX+fX;对X、fX、fX+fX进行列拼接得到特征矩阵Y;针对Y进行统计池化,得到一个说话人特征向量ypool=[μY;σY],其中μ是对Y的行求均值,σ是对Y的行求标准差;基于ypool,经过归一化、全连接、归一化,得到说话人低维特征向量zi;针对第一语音、第二语音提取的MFCC特征,将二者分别采用CSLN网络得到的zi记为z1、z2,根据z1、z2的相似度判断第一语音与第二语音是否为同一说话人,进而最终用确定语音的说话人。
全文数据:
权利要求:
百度查询: 哈尔滨理工大学 基于通道加权的说话人确认方法、系统及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。