一种电力领域中文文本纠错方法、装置、存储介质及计算设备

导航：龙图腾网> 最新专利技术> 一种电力领域中文文本纠错方法、装置、存储介质及计算设备

申请/专利权人：国网江苏省电力有限公司电力科学研究院;国家电网有限公司;国网江苏省电力有限公司;江苏省电力试验研究院有限公司

申请日：2021-10-28

公开（公告）日：2024-06-25

公开（公告）号：CN114118065B

主分类号：G06F40/232

分类号：G06F40/232;G06F40/30;G06Q50/06

优先权：

专利状态码：有效-授权

法律状态：2024.06.25#授权;2022.03.18#实质审查的生效;2022.03.01#公开

摘要：本发明公开了一种电力领域中文文本纠错方法、装置、存储介质及计算设备，该方法包括：将需要纠错的电力领域中文文本中的句子输入到训练好的电力领域预训练语言模型中，得到句子中每个字的预测字符序列；对每个字的预测字符序列进行筛选得到句子中每个字的语义候选集；将同一句子分别输入到拼音混淆词典、字形混淆词典和电力领域自定义混淆词典中，得到句子中每个字的拼音混淆集、字形混淆集和自定义混淆集；基于语义候选集、拼音混淆集、字形混淆集和自定义混淆集对句子中的字进行纠错。本发明采用预训练语言模型来代替统计语言模型，构建针对电力行业的文本纠错方案，可以有效提升文本纠错的效果。

主权项：1.一种电力领域中文文本纠错方法，其特征在于，包括：将需要纠错的电力领域中文文本中的句子输入到训练好的电力领域PLOME预训练语言模型中，对句子中每个字都预测得到预定义的词表中每个词的出现概率，将出现概率最高的前N个词作为该字的语义候选集；将同一句子分别输入到预先构建的拼音混淆词典、字形混淆词典和电力领域自定义混淆词典中，得到句子中每个字的拼音混淆集、字形混淆集和自定义混淆集；基于语义候选集、拼音混淆集、字形混淆集和自定义混淆集对句子中的字进行纠错；所述电力领域PLOME预训练语言模型的训练过程如下：收集电力领域文本；基于字符替换规则对收集的电力领域文本进行替换，得到错误文本和正确文本；将错误文本作为PLOME预训练语言模型的输入，将正确文本作为标签，对PLOME预训练语言模型进行训练，得到电力领域PLOME预训练语言模型；其中将错误文本输入PLOME预训练语言模型后，对输入的错误文本的每个字分别进行字符嵌入、位置嵌入、语音嵌入和形状嵌入，得到字符嵌入向量、位置嵌入向量、语音嵌入向量和形状嵌入向量；所述进行字符嵌入包括：将输入的错误文本进行标准化、子词切割和长度截断填充；通过预定义的大小为21178的词表将处理后文本中的词编码为独热向量；通过大小为[21178,768]的词嵌入矩阵，得到错误文本中每个字的字符嵌入向量；所述位置嵌入包括：设定一个固定长度的位置向量，基于错误文本对填充位置填充“0”，其余填充“1”，得到位置嵌入向量；所述语音嵌入包括：基于统汉字数据库得到字符-拼音的映射表；通过映射表寻找错误文本中的每个字的拼音；将每一个字的拼音字母序列编码为独热向量输入到GRU网络中，得到该字的拼音嵌入向量；所述形状嵌入包括：基于汉语拆字字典数据库得到字形的笔画顺序；将字形的笔画顺序编码为独热向量输入到GRU网络中，得到该字的字形嵌入向量；将得到的字符嵌入向量、语音嵌入向量和形状嵌入向量进行拼接；采用位置嵌入向量对拼接后的向量进行点乘，得到最终的词嵌入向量；将输入的错误文本得到的词嵌入向量输入到Transformer编码器得到文本序列向量；以文本序列向量作为预测分类器的输入，对错误文本中每个字都进行预测，预测得到预定义的词表中每个词的出现概率。

全文数据：

权利要求：

百度查询：国网江苏省电力有限公司电力科学研究院;国家电网有限公司;国网江苏省电力有限公司;江苏省电力试验研究院有限公司一种电力领域中文文本纠错方法、装置、存储介质及计算设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种机罩

下一篇：一种带固定结构的冲压装置

相关技术

一种机罩

一种带固定结构的冲压装置

一种新型预制电力排管

一种细分子印刷喷粉加工用研磨装置

一种连续制备五氯化磷的装置

一种家用温湿度传感器

一种房建施工用安全防坠装置

一种生态护坡绿化模块

一种实时监测并控制化锡线硫化氢气体的装置

一种泡菜水检测用的取样装置

一种NB模组驱动的摄像采集装置

一种用于无级变速器的传动带金属环结构

纠错相关技术

文本纠错方法、装置、电子设备及计算机可读存储介质_平安科技(深圳)有限公司_202010326324.X

一种信息纠错方法、装置、设备及存储介质_浪潮电子信息产业股份有限公司_202110732043.9

存储模块以及存储控制器的纠错方法_三星电子株式会社_202010796384.8

一种语音操作的纠错方法及系统_清华大学_202111214958.7

关系纠错方法、电子设备及计算机可读存储介质_浙江大华技术股份有限公司_202410269006.2

一种基于双特征融合的自监督OCR识别文本纠错方法_北京君正集成电路股份有限公司_202211668399.1

笔记本键盘结构复检纠错用夹持装置_重庆灵龙实业发展有限公司_202323124370.X

一种基于RS编码技术实现的星间激光链路纠错方法_中国电子科技集团公司第三十四研究所_202410312065.3

一种电力领域中文文本纠错方法、装置、存储介质及计算设备_国网江苏省电力有限公司电力科学研究院_202111259401.5

内存数据纠错方法、内存储器及存储装置_太初(无锡)电子科技有限公司_202410434915.7

装置相关技术

发光装置和开关装置_法雷奥日本株式会社_202311810509.8

检漏装置及电源装置_华霆(合肥)动力技术有限公司_201810609560.5

振动装置和包括该振动装置的电子装置_乐金显示有限公司_202310325948.3

发送装置、接收装置以及基站_三菱电机株式会社_202080103380.5

分散装置以及堆积装置_精工爱普生株式会社_202311810325.1

手柄、输送装置及消融装置_深圳市先健呼吸科技有限公司_202211685727.9

节流装置和冷藏冷冻装置_青岛海尔电冰箱有限公司_202211677886.4

上下料装置和运输装置_拉普拉斯新能源科技股份有限公司_202410248213.X

SCR脱硝装置的导流装置_哈尔滨锅炉厂有限责任公司_201811073270.X

经由胆道进入装置的装置输送_波士顿科学国际有限公司_202280072490.9

方法相关技术

编译方法、运行方法及相关产品_中科寒武纪科技股份有限公司_202211700640.4

参数控制方法以及曝光方法_上海交通大学_202410383008.4

测试单元及形成方法、测试结构及形成方法、测试方法_中芯国际集成电路制造(上海)有限公司_202211698757.3

预测模型生成方法、预测方法、设备和介质_博泰车联网科技(上海)股份有限公司_202211724925.1

获取方法、训练方法、任务处理方法及相关装置_浙江大华技术股份有限公司_202410693597.6

掩模图像生成方法、检查方法以及检查装置_日立安斯泰莫株式会社_202280076511.4

水文模型结构诊断方法、径流预报方法及装置_武汉大学_202111312143.2

分类模型训练方法以及分类方法_腾讯科技(深圳)有限公司_202210102315.1

建模方法及利用该建模方法的多类目标签的目标检测方法_小红书科技有限公司_202211695489.X

坏点检测模型训练方法、坏点检测方法以及坏点修复方法_京东方科技集团股份有限公司_202280003858.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种电力领域中文文本纠错方法、装置、存储介质及计算设备

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务