首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种电力领域中文文本纠错方法、装置、存储介质及计算设备 

申请/专利权人:国网江苏省电力有限公司电力科学研究院;国家电网有限公司;国网江苏省电力有限公司;江苏省电力试验研究院有限公司

申请日:2021-10-28

公开(公告)日:2024-06-25

公开(公告)号:CN114118065B

主分类号:G06F40/232

分类号:G06F40/232;G06F40/30;G06Q50/06

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2022.03.18#实质审查的生效;2022.03.01#公开

摘要:本发明公开了一种电力领域中文文本纠错方法、装置、存储介质及计算设备,该方法包括:将需要纠错的电力领域中文文本中的句子输入到训练好的电力领域预训练语言模型中,得到句子中每个字的预测字符序列;对每个字的预测字符序列进行筛选得到句子中每个字的语义候选集;将同一句子分别输入到拼音混淆词典、字形混淆词典和电力领域自定义混淆词典中,得到句子中每个字的拼音混淆集、字形混淆集和自定义混淆集;基于语义候选集、拼音混淆集、字形混淆集和自定义混淆集对句子中的字进行纠错。本发明采用预训练语言模型来代替统计语言模型,构建针对电力行业的文本纠错方案,可以有效提升文本纠错的效果。

主权项:1.一种电力领域中文文本纠错方法,其特征在于,包括:将需要纠错的电力领域中文文本中的句子输入到训练好的电力领域PLOME预训练语言模型中,对句子中每个字都预测得到预定义的词表中每个词的出现概率,将出现概率最高的前N个词作为该字的语义候选集;将同一句子分别输入到预先构建的拼音混淆词典、字形混淆词典和电力领域自定义混淆词典中,得到句子中每个字的拼音混淆集、字形混淆集和自定义混淆集;基于语义候选集、拼音混淆集、字形混淆集和自定义混淆集对句子中的字进行纠错;所述电力领域PLOME预训练语言模型的训练过程如下:收集电力领域文本;基于字符替换规则对收集的电力领域文本进行替换,得到错误文本和正确文本;将错误文本作为PLOME预训练语言模型的输入,将正确文本作为标签,对PLOME预训练语言模型进行训练,得到电力领域PLOME预训练语言模型;其中将错误文本输入PLOME预训练语言模型后,对输入的错误文本的每个字分别进行字符嵌入、位置嵌入、语音嵌入和形状嵌入,得到字符嵌入向量、位置嵌入向量、语音嵌入向量和形状嵌入向量;所述进行字符嵌入包括:将输入的错误文本进行标准化、子词切割和长度截断填充;通过预定义的大小为21178的词表将处理后文本中的词编码为独热向量;通过大小为[21178,768]的词嵌入矩阵,得到错误文本中每个字的字符嵌入向量;所述位置嵌入包括:设定一个固定长度的位置向量,基于错误文本对填充位置填充“0”,其余填充“1”,得到位置嵌入向量;所述语音嵌入包括:基于统汉字数据库得到字符-拼音的映射表;通过映射表寻找错误文本中的每个字的拼音;将每一个字的拼音字母序列编码为独热向量输入到GRU网络中,得到该字的拼音嵌入向量;所述形状嵌入包括:基于汉语拆字字典数据库得到字形的笔画顺序;将字形的笔画顺序编码为独热向量输入到GRU网络中,得到该字的字形嵌入向量;将得到的字符嵌入向量、语音嵌入向量和形状嵌入向量进行拼接;采用位置嵌入向量对拼接后的向量进行点乘,得到最终的词嵌入向量;将输入的错误文本得到的词嵌入向量输入到Transformer编码器得到文本序列向量;以文本序列向量作为预测分类器的输入,对错误文本中每个字都进行预测,预测得到预定义的词表中每个词的出现概率。

全文数据:

权利要求:

百度查询: 国网江苏省电力有限公司电力科学研究院;国家电网有限公司;国网江苏省电力有限公司;江苏省电力试验研究院有限公司 一种电力领域中文文本纠错方法、装置、存储介质及计算设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。