一种非自回归语音识别方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：深圳市宇思半导体有限公司

摘要：本发明公开了一种非自回归语音识别方法，涉及语言识别技术领域，包括非自回归模型、语音纠错模型两个模块，所述非自回归模型负责对音频进行非自回归解码，其包含以下步骤；步骤一、在非自回归模型中分为模型编码器和位置依赖解码器两部分，模型编码器包含有2个二维卷积层和注意力模块，其中注意力模块是由基础的多头注意力机制组成，本发明基于非自回归识别并结合纠错模型实现了一种可以同时达到高识别准确率和低延迟的语音识别算法，该算法的主要优点如下，算法结合了简化版的非自回归语音识别模型，提高了运行效率，算法结合了针对ASR错误的预训练的纠错模型，算法能够以低延迟实现高准确率的语音识别。

主权项：1.一种非自回归语音识别方法，其特征在于，包括非自回归模型、语音纠错模型两个模块，所述非自回归模型负责对音频进行非自回归解码，其包含以下步骤；步骤一、在非自回归模型中分为模型编码器和位置依赖解码器两部分，模型编码器包含有2个二维卷积层和注意力模块，其中注意力模块是由基础的多头注意力机制组成，每个卷积层的步长设置为2，将序列长度压缩到原来的14，其包含有多头注意力机制，LayerNorm层，Position-wiseFFN层和残差结构；步骤二、在解码器部分输入为固定长度的位置编码向量，输出为预测的文字，将预测文本视为预测固定位置对应文字，预测每一个位置上的文字。位置编码为正弦编码，以此来捕获每一位置所对应的特征序列，其公式如下所示：位置向量为正余弦编码，其将会在后续的非自回归中和经过编码器的语音信息进行交互。由于语音与文字之间存在很强的一一对应关系即每个文字所对应的语音范围应该有限，因此，可以以帧独立的形式对语音进行非自回归解码。且最终的实验表明该方法能够实现准确的语音识别。其中i＝1，2，3，…，L，j＝1，2，3…，Dm2，表示在第i个位置中偶数项2j的向量编码，表示在第i个位置中奇数项2j+1的向量编码，Dm表示位置向量维度，L表示最长序列长度。将位置编码作为查询向量，同时以模型编码器输出作为键和值，用来计算两者之间的交叉注意力，再通过一层全连接网络得到最终每个位置的预测，整个非自回归模型计算公式如下：H＝Conv2dXH′＝AttentionBlockH，H，H1Hout＝LayerNormH 式中的变量维度为其中的AttentionBlock的三个位置代表着Q，K，V三个变量，并非是输入三次，其意味着输入的H分别作为Q，K，V参与到计算中。AttentionBlok的计算如下 MHAQ，K，V＝Concath1，...，hHWo Output＝W2ActivationW1x+b1+b2最后的Output为AttentionBlok的输出，其中的MHAQ，K，V为多头注意力，每一个注意力块都单独执行AttentionQ，K，V的步骤，最后将多头拼接到一起输出。因此最后的步骤中经过矩阵转置，可以实现Vposition和Hout这两个维度不一样的矩阵相乘，从而得到最终的输出。其中，Conv2d·为二维卷积层，Attentionblock·为注意力块，LayerNorm·为归一化层，Linear·为全连接层，X＝{x1，x2，x3，...，xT}为输入的特征，xi表示输入特征中的第i帧，T表示输入特征的总帧数，H＝{h1，h2，h3，...，hT4}为经过卷积层后的序列，hi表示卷积层输出序列中的第i项，T4则是指经过卷积层将采样后序列长度变为原来的14，在卷积层中通过设置两层步长为2的卷积层，Vposition＝{v1，v2，...，vL}长度为L位置编码，其中vi表示位置编码的第i项，整个位置编码共有L项，为预测的标签序列，其中表示预测文本的第i项。

全文数据：

权利要求：

百度查询：深圳市宇思半导体有限公司一种非自回归语音识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种宽禁带半导体器件电学特性测试与预测方法

下一篇：一种(R)-3-氨基哌啶双盐酸盐的制备方法及转氨酶

相关技术

一种宽禁带半导体器件电学特性测试与预测方法

一种(R)-3-氨基哌啶双盐酸盐的制备方法及转氨酶

一种金属结构管内部应力检测装置

一种电子元件贴片机械臂及其贴片方法

一种塑料周转盘吸塑成型设备及其使用方法

一种空气处理设备及控制方法

半导体装置与其制造方法

一种乙肝相关肝癌诊断、预后标志物和治疗靶点的应用

紧密世界空间包围区域的生成

β-微管蛋白作为筛选防治Didymella segeticola的杀菌剂作用靶标、作用机制及其应用

防渗材料、其制备方法及应用

一种数据处理方法和数据处理装置

识别相关技术

材料识别装置和方法_陶朗分选有限责任公司_202280090805.2

异常流量识别系统_北京明略软件系统有限公司_202110793756.6

行为识别装置及方法和基于显示屏的行为识别系统_西安诺瓦星云科技股份有限公司_201911166598.0

文本识别模型的训练方法、文本识别方法、装置和设备_腾讯科技(深圳)有限公司_202210126459.0

射频识别读写器、射频识别读写器的控制方法及控制装置_珠海格力电器股份有限公司_202410804416.2

错误码信息识别模型的训练方法、识别方法、系统_支付宝(中国)网络技术有限公司_202410775544.9

钢架桥螺栓识别模型训练方法、识别处理方法及系统_北京交通大学_202410562248.0

一种非侵入式负荷识别电路系统及负荷识别方法_昇辉控股有限公司_202410801691.9

一种识别方法、识别装置、电子设备和存储介质_宁波方太厨具有限公司_202410785235.X

一种加速碱基识别的测序和分析系统及碱基识别装置_中科计算技术西部研究院_202410180906.X

语音相关技术

基于语音预训练模型的语音质检方法、装置、系统及介质_浙江菜鸟供应链管理有限公司_202310266556.4

一种具有语音识别和语音播报功能的智能空调系统_四川虹美智能科技有限公司_202410934965.1

一种语音控制超声设备_苏州卡斯立德医疗科技有限公司_202420387117.9

一种语音器端盖涂覆装置_安徽工商职业学院_202410905339.X

一种智能语音客服实现方法和装置_国网湖北省电力有限公司信息通信公司_202410888705.5

带语音提示和屏幕显示的老年智慧药盒_北京市顺义区医院_202323525178.1

一种实现语音通信的组网系统_贵州航天电器股份有限公司_202410793671.1

一种语音控制的美妆镜_宁波杭甬电子有限公司_202323355186.6

一种语音控制的厨具收纳柜_博洛尼智能科技(青岛)有限公司_202323198011.9

用于多维AI平台的语音识别方法_罗普特科技集团股份有限公司_202411124543.4

方法相关技术

编码方法和解码方法_松下电器(美国)知识产权公司_202410905093.6

图像处理方法、图像处理模型的训练方法及图像生成方法_阿里巴巴达摩院(杭州)科技有限公司_202410797391.8

指纹特征处理方法、指纹注册方法和指纹识别方法_合肥维信诺科技有限公司_202411050379.7

图像特征处理方法、图像对比方法、模型训练方法及装置_浙江深象智能科技有限公司_202410418358.X

模型训练方法、内容推荐方法及相关产品_腾讯科技(北京)有限公司_202410780717.6

膜形成方法和物品制造方法_佳能株式会社_202380020432.6

图像处理模型的训练方法、图像处理方法_阿里巴巴达摩院(杭州)科技有限公司_202410676834.8

硅片、处理方法和硅片的制备方法_中环领先半导体科技股份有限公司_202311347155.8

载板及其制备方法、转移基板及其制备方法_京东方科技集团股份有限公司_202110655526.3

一种身份确认方法的方法和系统_云丁网络技术(北京)有限公司_201911331126.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种非自回归语音识别方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务