基于Conformer的实时中文语音识别及识别结果文本处理方法

导航：龙图腾网> 最新专利技术> 基于Conformer的实时中文语音识别及识别结果文本处理方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江工业大学;中国电子科技集团公司第三十六研究所

摘要：一种基于Conformer的实时中文语音识别及识别结果文本处理方法，麦克风录制语音数据作为语音输入，时间每经过一个固定时长T，提取语音的Fbank特征，使用基于Conformer的声学模型进行推理，再使用基于CTC的解码器网络进行流式解码，然后判断当前识别结果末尾是否为句子的句末，进行标点恢复后，最终得到完整句子的识别结果。根据实时语音识别的特性，通过识别结果的更新判断句末提取完整的句子。本发明可以增强识别结果的可读性，更适合于实时语音识别结果传输的场合。

主权项：1.一种基于Conformer的实时中文语音识别及识别结果文本处理方法，其特征在于，所述方法包括以下步骤：S1：语音输入，过程如下：麦克风录制语音数据作为语音输入，时间每经过一个固定时长T，对麦克风缓冲区的语音数据进行处理；S2：提取特征，过程如下：获取S1中需要进行处理的数据，采用前端处理方法Fbank，以类似人耳的方式对音频进行处理，对于语音数据进行预加重提高语音信号在高频部分的信噪比，然后分帧、加窗，进行快速傅里叶变换，计算谱线能量，进行Mel滤波，取对数得到Fbank特征；S3：声学模型推理，过程如下：将S2中得到的Fbank特征作为Conformer编码器的输入，Conformer编码器由降采样模块以及N个编码器模块组成，降采样模块由2层降采样的CNN构成，编码器模块的构成为前馈模块、多头自注意力模块MHSA、卷积模块和前馈模块，每个模块前都设置了一个层归一化，编码器模块中的每个模块后均设置一个残差单元；所述的多头自注意力模块包括层归一化、集成相对正弦位置编码的多头自注意力和随机丢弃层；所述的卷积模块包含一个扩展因子为2的逐点卷积，通过GLU激活层投影通道数，然后是一维深度卷积，一维深度卷积后接批归一化和Relu激活层，最后接一个逐点卷积；Conformer编码器将输入的帧级别声学特征x＝x1,x2,...,xT映射到序列高级表示h＝h1,h2,...,hU；S4：流式解码，过程如下：将S3中映射得到的Conformer编码器输出特征h作为CTC解码器的输入进行解码，在说话中，使用CTCprefixbeamsearch进行解码。说话结束后，使用CTCprefixbeamsearch+atten-tion_rescoring进行解码，经过Softmax层之后，CTC解码器的输出为pqt|h，qt为t时刻的输出，则标签序列l所有路径概率总和为：其中，Pl|x表示标签序列l所有路径概率总和，Γqt表示为标签序列l的多对一的映射，表示路径集合上的概率分布，T表示网络输出的分布个数，qt|h表示在给定输入下t时刻的输出，h表示给定输入序列；输出序列中最大的标注序列为l*＝arg1maxPl|h2对于解码的候选结果的打分，除了有声学模型的分数外，还会有额外的语言模型分以及长度惩罚分，最终得分score为score＝PamW|X·PlmWα·|W|β3其中，W为解码结果，X为输入语音，PamW|X为声学模型的分数，PlmW为语言模型分，|W|为长度惩罚分，α和β为设定的超参数；S5：获取识别结果：根据S4中的打分结果，选出最高分数最高的候选结果，作为识别结果输出；S6：判断是否为句子的句末，过程如下：在每个固定时间T内，步骤S1-S5都将执行，若有可识别的语音输入，都有识别结果输出更新，当某个固定时间T内没有识别结果更新且前一个固定时间T内有识别结果更新时，视为该固定时间T处于当前句子的句末，将当前句子作为目标句子；S7：标点恢复，过程如下：将S6中的目标句子作为标点恢复模型的输入，标点恢复模型将获取所述目标文本中每个词的局部上下文信息，并基于所述目标文本中每个词的局部上下文信息，预测所述目标文本中的标点，得到标点恢复后的目标句子；S8：获得最终结果：将S7中得到的标点恢复后的目标句子按一定格式保存，作为该句子所对应的语音的最终识别结果。

全文数据：

权利要求：

百度查询：浙江工业大学中国电子科技集团公司第三十六研究所基于Conformer的实时中文语音识别及识别结果文本处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：基于3D TOF传感技术的家居服务一体机

下一篇：血透导管接头保护装置

相关技术

基于3D TOF传感技术的家居服务一体机

血透导管接头保护装置

一种鼓风机用高补偿伸缩节

一种大板式正压医疗舱

一种搪玻璃反应釜过滤结构

一种减速机齿轮的表处理装置

远程水位监测仪

一种用于固定装裱藏品的可拆卸网钩装置

一种硫化定型装置

一种小导管余料自动对焊设备

一种干冰块自动理料设备

一种装配式轻型高强度复合预制墙板

识别相关技术

一种识别平台及护照识别装置_深圳市徕亿科技有限公司_202420509565.1

识别装置、识别方法和程序产品_索尼公司_201880088309.7

人体行为识别方法_西北工业大学_202110699419.0

耗材识别装置和设备_厦门汉印股份有限公司_202410997268.0

基于生成式开集识别技术的新发传染病智能识别方法_合肥工业大学_202410927130.3

号码识别模型训练方法、号码识别方法及装置_中国移动通信集团广东有限公司_201910760686.7

识别模型的构建方法、识别方法、装置、设备、存储介质和程序产品_曙光云计算集团股份有限公司_202410840816.9

断丝自识别拉索系统及拉索断丝识别方法_中铁二十局集团南方工程有限公司_202411058081.0

一种车辆识别模型创建方法、车辆识别方法及相关组件_深圳市捷顺科技实业股份有限公司_202110467847.0

基于声学事件识别和情绪识别的霸凌事件检测方法及系统_北京远鉴信息技术有限公司_202411406231.2

语音相关技术

语音转换方法、语音转换模型训练方法及电子设备_思必驰科技股份有限公司_202410977468.X

语音转换模型训练方法、语音转换方法、电子设备及存储介质_腾讯音乐娱乐科技(深圳)有限公司_202410976926.8

语音发送方法和装置以及语音接收方法和装置、电子设备_北京三星通信技术研究有限公司_202010988943.5

一种语音模块安装结构_安徽美博智能科技有限公司_202420655561.4

一种显示设备及语音检索方法_海信电子科技(武汉)有限公司_202410948952.X

基于场景的语音识别方法及装置_世优(北京)科技股份有限公司_202411405847.8

一种智能家居语音求救系统_厦门狄耐克智能科技股份有限公司_202411169155.8

语音智能响应的方法、装置和系统_中移动金融科技有限公司_202411162194.5

语音交互方法、装置、电子设备和存储介质_科大讯飞股份有限公司_202411169085.6

语音增强方法、装置、设备及存储介质_腾讯科技(深圳)有限公司_202110181389.4

文本相关技术

文本分类方法、文本查找方法、装置、设备及介质_北京拓普丰联信息科技股份有限公司_202411045386.8

文本处理方法及装置_恒生电子股份有限公司_202411000017.7

一种文本事件关系提取方法、装置_支付宝(杭州)信息技术有限公司_202410917317.5

文本到人体动作合成方法及装置_世优宇宙(成都)科技有限公司_202411044244.X

基于实体描述的文本生成方法_清华大学_202210520980.2

文本翻译方法、装置、电子设备和存储介质_中国科学技术大学_202111577763.9

标准文本处理方法、装置、设备及介质_中国电子技术标准化研究院_202410785324.4

文本摘要模型的训练方法及装置_阿里巴巴(中国)有限公司_202210374234.7

文本生成方法、装置、设备和存储介质_深圳依时货拉拉科技有限公司_202410970513.9

召回文本推荐方法、装置、设备及存储介质_平安科技(深圳)有限公司_202210241295.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于Conformer的实时中文语音识别及识别结果文本处理方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务