首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种融合词N-gram语言模型的英文端到端语音识别系统在线解码方法_江苏苏云信息科技有限公司_202210547895.5 

申请/专利权人:江苏苏云信息科技有限公司

申请日:2022-05-18

公开(公告)日:2024-06-14

公开(公告)号:CN115273824B

主分类号:G10L15/06

分类号:G10L15/06;G10L15/04;G10L15/18

优先权:

专利状态码:有效-授权

法律状态:2024.06.14#授权;2022.11.18#实质审查的生效;2022.11.01#公开

摘要:本发明涉及语音识别技术领域,且公开了一种融合词N‑gram语言模型的英文端到端语音识别系统在线解码方法,包括以下步骤:S1:N‑gram语言模型的训练,对每一条语料首先进行切分,将所切分的序列和原序列共同作为语料用于构建语言模型,然后进行训练得到一个特殊的词级别语言模型;S2:更改半词序列,将半词序列改为词序列,最后未成词的部分除外;S3:构建WFSA,构建一个WFSA来枚举所有的拆词可能。本发明通过构建一个WFSA来枚举所有的拆词可能,在评估时,一般认为整词的评估效果优于半词,因此可以认为主要以整词在对假设进行评估,与配套的N‑gram语言模型进行配合,能够提升语音识别系统的识别精度,降低词的错误率。

主权项:1.一种融合词N-gram语言模型的英文端到端语音识别系统在线解码方法,其特征在于,包括以下步骤:S1:N-gram语言模型的训练,对每一条语料首先进行切分,将所切分的序列和原序列共同作为语料用于构建语言模型,然后进行训练得到一个特殊的词级别语言模型;S2:更改半词序列,将半词序列改为词序列,最后未成词的部分除外;S3:构建WFSA,构建一个WFSA来枚举所有的拆词可能;S4:构建新的WFSA,S3中得到用于枚举所有拆词可能的WFSA和表示N-gram语言模型的WFSA,基于这两个WFSA,执行一个Intersection操作,得到一个新的WFSA;S5:计算前馈分数,利用S4中构造新的WFSA,在其上基于log-semiring规则计算前馈分数,得到的前馈分数视作半词序列的语言模型预测概率;S6:给出评估结果,利用S5中得到的,基于差分公式计算出评估结果,W1u、表示不同时刻的已知半词序列,表示待评估半词。

全文数据:

权利要求:

百度查询: 江苏苏云信息科技有限公司 一种融合词N-gram语言模型的英文端到端语音识别系统在线解码方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。