买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:人民网股份有限公司;人民网信息技术有限公司
摘要:本申请公开了一种拼写检查模型生成方法、装置、计算设备及存储介质,该方法包括:根据公开的第一字混淆集及第一语料数据集构建第二字混淆集;根据输入法构建的第二语料数据集及第一语料数据集构建词混淆集;从训练文本集中的原训练文本中随机采样确定多个待掩码字符及至少一个待掩码词语;基于预设混合掩码策略,利用第二字混淆集对多个待掩码字符进行掩码处理以及利用词混淆集对至少一个待掩码词语进行掩码处理,得到增强训练文本;基于原训练文本及增强训练文本进行模型训练,生成拼写检查模型。本申请实现了自动生成训练所需的增强训练样本,克服了中文拼写检查数据不足的问题,减少了人力标注成本,同时也大大提升了拼写检查模型的准确度。
主权项:1.一种拼写检查模型生成方法,包括:根据公开的第一字混淆集及第一语料数据集构建第二字混淆集;根据输入法构建的第二语料数据集及所述第一语料数据集构建词混淆集;从训练文本集中的原训练文本中随机采样确定多个待掩码字符及至少一个待掩码词语;基于预设混合掩码策略,利用所述第二字混淆集对多个待掩码字符进行掩码处理以及利用所述词混淆集对所述至少一个待掩码词语进行掩码处理,得到增强训练文本;基于原训练文本及增强训练文本进行模型训练,生成拼写检查模型。
全文数据:
权利要求:
百度查询: 人民网股份有限公司 人民网信息技术有限公司 拼写检查模型生成方法、装置、计算设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。