首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本处理方法及装置 

申请/专利权人:华为技术有限公司

申请日:2019-12-23

公开(公告)日:2024-06-28

公开(公告)号:CN113095072B

主分类号:G06F40/284

分类号:G06F40/284;G06F16/35;G06N3/06;G06N3/048;G06N3/0464;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2021.07.30#实质审查的生效;2021.07.09#公开

摘要:本申请公开了人工智能领域中自然语言处理领域的文本处理方法以及装置,该方法包括:获取待处理文本;对待处理文本进行检错处理,得到待处理文本中的非词;若待处理文本中的非词属于第一类非词,则不对待处理文本中的非词进行校正;若待处理文本中的非词属于第二类非词、第三类非词或第四类非词,选择与待处理文本中的非词的类别匹配的校正方式对待处理文本中的非词进行校正,得到所述待处理文本中的非词的校正结果。本申请的技术方案能够对多种类型的字符串进行检测和过滤,提高了文本纠错的准确率。

主权项:1.一种文本处理方法,其特征在于,包括:获取待处理文本;对所述待处理文本进行检错处理,得到所述待处理文本中的非词;若所述待处理文本中的非词属于第一类非词,将所述待处理文本中的非词作为所述待处理文本中的非词的校正结果;若所述待处理文本中的非词属于第二类非词、第三类非词或第四类非词,选择与所述待处理文本中的非词的类别匹配的校正方式对所述待处理文本中的非词进行校正,得到所述待处理文本中的非词的校正结果;若所述待处理文本中的非词属于所述第三类非词,将所述待处理文本中的非词中的非字母的字符修改为字母,将修改后的词作为所述待处理文本中的非词的校正结果;若所述待处理文本中的非词属于所述第四类非词,基于编辑距离和或公共字符串生成所述待处理文本中的非词对应的候选词;根据所述待处理文本中的非词与所述待处理文本中的非词对应的候选词之间的相似性以及所述待处理文本中的非词对应的候选词的困惑度对所述待处理文本中的非词对应的候选词进行评分,其中,所述待处理文本中的非词与所述待处理文本中的非词对应的候选词之间的相似性包括所述待处理文本中的非词与所述待处理文本中的非词对应的候选词之间的编辑距离和或公共字符串,所述待处理文本中的非词对应的候选词的困惑度用于指示所述待处理文本中的非词对应的候选词在所述待处理文本中出现的可能性;将所述待处理文本中的非词对应的候选词中评分最高的候选词确定为所述待处理文本中的非词对应的目标候选词;在所述待处理文本中的非词对应的目标候选词的困惑度低于或等于第一困惑度阈值的情况下,利用所述待处理文本中的非词对应的目标候选词替换所述待处理文本中的非词,作为所述待处理文本中的非词的校正结果;其中,所述第一类非词包括全大写字母非词、字长在预设字长范围内的非词和属于第一预设词库的非词,所述第二类非词包括合并错误非词,所述第三类非词包括包含非字母的字符的非词,所述第四类非词包括除所述第一类非词、所述第二类非词、所述第三类非词之外的其他非词。

全文数据:

权利要求:

百度查询: 华为技术有限公司 文本处理方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。