买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国民用航空飞行学院
摘要:本发明公开了一种中文航行通告文本纠错方法、计算机程序产品及终端,属于航行通告处理领域,包括:计算航行通告中汉字的读音字形相似度;根据读音字形相似度确定每个汉字的近义词,建立近义词词库;使用近义词词库中近义词替代原航行通告中原始字符或词汇进而生成新序列,使MacBERT模型根据新序列预测生成纠正后序列。针对航行通道的文本处理,本发明通过读音字形相似度确定各汉字的近义词并构建近义词词库,采用近义词词库优化模型中的替换源,得到新的掩码词汇,在MacBERT模型的掩码语言模型阶段,针对本发明的研究问题,选择与原文本相似度高的近义词作为掩码词,以此提升对特定问题的预测精准度以及处理效率。
主权项:1.一种中文航行通告文本纠错方法,其特征在于,包括以下步骤:计算航行通告中汉字的读音相似度以及字形相似度;根据读音相似度、字形相似度确定每个汉字的近义词,进而建立近义词词库;采用近义词词库替换MacBERT模型的遮盖源,使用近义词词库中近义词替代原航行通告中原始字符或词汇进而生成新序列,使MacBERT模型根据新序列预测生成纠正后序列;所述读音相似度的计算包括:对航行通告中汉字进行读音标注;采用字嵌入模型计算汉字的读音向量;以航行通告中汉字读音为节点、读音间关系为边建立字音知识图谱,作为图神经网络的输入;将读音向量作为补充向量加入图神经网络中,使图神经网络将计算的节点向量与读音向量进行加权处理,并计算加权处理后向量间的相似度,得到读音相似度;所述字形相似度的计算包括:通过卷积神经网络tianzege-CNN提取字形特征向量;使用BERT模型处理汉字字符或词汇,得到字符或词级的嵌入向量;将嵌入向量与字形特征向量进行结合,形成增强型嵌入向量;计算增强型嵌入向量间相似度,得到字形相似度。
全文数据:
权利要求:
百度查询: 中国民用航空飞行学院 一种中文航行通告文本纠错方法、计算机程序产品及终端
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。