首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种非自回归语音识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳市宇思半导体有限公司

摘要:本发明公开了一种非自回归语音识别方法,涉及语言识别技术领域,包括非自回归模型、语音纠错模型两个模块,所述非自回归模型负责对音频进行非自回归解码,其包含以下步骤;步骤一、在非自回归模型中分为模型编码器和位置依赖解码器两部分,模型编码器包含有2个二维卷积层和注意力模块,其中注意力模块是由基础的多头注意力机制组成,本发明基于非自回归识别并结合纠错模型实现了一种可以同时达到高识别准确率和低延迟的语音识别算法,该算法的主要优点如下,算法结合了简化版的非自回归语音识别模型,提高了运行效率,算法结合了针对ASR错误的预训练的纠错模型,算法能够以低延迟实现高准确率的语音识别。

主权项:1.一种非自回归语音识别方法,其特征在于,包括非自回归模型、语音纠错模型两个模块,所述非自回归模型负责对音频进行非自回归解码,其包含以下步骤;步骤一、在非自回归模型中分为模型编码器和位置依赖解码器两部分,模型编码器包含有2个二维卷积层和注意力模块,其中注意力模块是由基础的多头注意力机制组成,每个卷积层的步长设置为2,将序列长度压缩到原来的14,其包含有多头注意力机制,LayerNorm层,Position-wiseFFN层和残差结构;步骤二、在解码器部分输入为固定长度的位置编码向量,输出为预测的文字,将预测文本视为预测固定位置对应文字,预测每一个位置上的文字。位置编码为正弦编码,以此来捕获每一位置所对应的特征序列,其公式如下所示: 位置向量为正余弦编码,其将会在后续的非自回归中和经过编码器的语音信息进行交互。由于语音与文字之间存在很强的一一对应关系即每个文字所对应的语音范围应该有限,因此,可以以帧独立的形式对语音进行非自回归解码。且最终的实验表明该方法能够实现准确的语音识别。其中i=1,2,3,…,L,j=1,2,3…,Dm2,表示在第i个位置中偶数项2j的向量编码,表示在第i个位置中奇数项2j+1的向量编码,Dm表示位置向量维度,L表示最长序列长度。将位置编码作为查询向量,同时以模型编码器输出作为键和值,用来计算两者之间的交叉注意力,再通过一层全连接网络得到最终每个位置的预测,整个非自回归模型计算公式如下:H=Conv2dXH′=AttentionBlockH,H,H1Hout=LayerNormH 式中的变量维度为其中的AttentionBlock的三个位置代表着Q,K,V三个变量,并非是输入三次,其意味着输入的H分别作为Q,K,V参与到计算中。AttentionBlok的计算如下 MHAQ,K,V=Concath1,...,hHWo Output=W2ActivationW1x+b1+b2最后的Output为AttentionBlok的输出,其中的MHAQ,K,V为多头注意力,每一个注意力块都单独执行AttentionQ,K,V的步骤,最后将多头拼接到一起输出。因此最后的步骤中经过矩阵转置,可以实现Vposition和Hout这两个维度不一样的矩阵相乘,从而得到最终的输出。其中,Conv2d·为二维卷积层,Attentionblock·为注意力块,LayerNorm·为归一化层,Linear·为全连接层,X={x1,x2,x3,...,xT}为输入的特征,xi表示输入特征中的第i帧,T表示输入特征的总帧数,H={h1,h2,h3,...,hT4}为经过卷积层后的序列,hi表示卷积层输出序列中的第i项,T4则是指经过卷积层将采样后序列长度变为原来的14,在卷积层中通过设置两层步长为2的卷积层,Vposition={v1,v2,...,vL}长度为L位置编码,其中vi表示位置编码的第i项,整个位置编码共有L项,为预测的标签序列,其中表示预测文本的第i项。

全文数据:

权利要求:

百度查询: 深圳市宇思半导体有限公司 一种非自回归语音识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。