买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京达佳互联信息技术有限公司
摘要:本公开关于一种语言模型的训练方法、语音识别方法、装置、电子设备及存储介质,首先,通过利用通用语料集对规则语料集进行扩充,提升语料的数量和质量;接着,利用获取的规则语料集和通用语料集对初始语言模型进行训练,得到第一语言模型,提升第一语言模型的构建成功率,利用通用语料集对初始语言模型进行训练,得到第二语言模型;最后,通过插值算法,将利用第一语言模型和第二语言模型合并起来,得到插值混合模型,即目标语言模型,通过对第一语言模型和第二语言模型进行插值处理扩展模型的应用场景,并提升模型的训练效率。
主权项:1.一种语言模型的训练方法,其特征在于,包括:获取规则语料集和通用语料集;其中,所述通用语料集包括预设专业领域内使用的语料,所述规则语料集按照预设的规则语句以及预设的语法,对原始语料集中各词语进行组合得到;根据所述规则语料集和所述通用语料集对初始语言模型进行训练,得到第一语言模型;所述根据所述规则语料集和所述通用语料集对初始语言模型进行训练,得到第一语言模型,包括:对所述规则语料集中的语句和所述通用语料集中的语句分别进行分词,得到混合分词结果;对所述混合分词结果中各词语出现的频次进行统计;根据各所述词语出现的频次,计算平滑系数,根据所述平滑系数以及平滑算法,对所述初始语言模型进行训练,得到所述第一语言模型;所述通用语料集包括第一通用语料集;根据所述通用语料集对所述初始语言模型进行训练,得到第二语言模型;根据所述第一语言模型的插值系数以及所述第二语言模型的插值系数,对所述第一语言模型以及所述第二语言模型进行插值,得到目标语言模型,所述第一语言模型的插值系数大于第二语言模型的插值系数。
全文数据:
权利要求:
百度查询: 北京达佳互联信息技术有限公司 语言模型的训练方法、语音识别方法、装置及电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。