一种基于预训练语言模型构建的双模块中文拼写纠错方法

导航：龙图腾网> 最新专利技术> 一种基于预训练语言模型构建的双模块中文拼写纠错方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：重庆邮电大学

摘要：本发明公开了一种基于预训练语言模型构建的双模块中文拼写纠错方法，通过分离和重构预训练语言模型的内部结构，分别构建了拼写错误检测模块和拼写错误纠错模块。前者通过编码文本的向量表示，计算文本中每一字符的置信度，进而确定错别字的位置。后者结合检测结果进行有针对性的修改，通过提取纠错嵌入向量中的文本特征计算纠错策略的合理性分数，并按照得分最高的策略进行修改，以得到纠错后的文本。本申请具备更快的响应速度和更高的纠错准确率，可应用于中文文本编辑，中文语音识别和光学中文字符识别场景中。

主权项：1.一种基于预训练语言模型构建的双模块中文拼写纠错方法，其特征在于，包括如下步骤：构建模型：使用由多层Transformer编码器堆叠而成的预训练语言模型的内部结构构建包括检测模块和纠错模块在内的双模块中文拼写纠错模型；其中，所述检测模块由前部若干层Transformer编码器构建的检测编码器辅以检测分类器构成；所述纠错模块由剩余的Transformer编码器构建的纠错编码器辅以纠错分类器构成；将待纠错文本输入模型进行词嵌入，获得文本的向量表示；使用检测编码器将所述文本的向量表示进行编码，获取检测任务相关的检测隐藏状态；使用检测分类器基于所述检测隐藏状态计算检测结果；基于所述检测结果计算检测模块的损失值Lossd；将所述文本的向量表示和检测隐藏状态进行融合和归一化处理，获得纠错嵌入向量；使用纠错编码器对所述纠错嵌入向量进行编码，获取纠错任务相关的纠错隐藏状态；将所述纠错隐藏状态和所述检测隐藏状态进行融合和归一化处理，获取最终隐藏状态；使用纠错分类器基于所述最终隐藏状态计算纠错策略的分数；选取得分最高的纠错策略对所述待纠错文本进行修改；基于所述纠错策略的分数计算纠错模块的损失值Lossc；将检测模块的损失值Lossd和纠错模块的损失值Lossc按比例加和后作为全局损失Loss，并通过最小化全局损失来优化所述双模块中文拼写纠错模型，以实现模型训练；加载训练后的模型，将待纠错文本输入模型中，以获得纠错后的文本。

全文数据：

权利要求：

百度查询：重庆邮电大学一种基于预训练语言模型构建的双模块中文拼写纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于非周期非均匀缝隙电容加载的环型宽带水平极化全向天线

下一篇：镭雕装置

相关技术

一种基于非周期非均匀缝隙电容加载的环型宽带水平极化全向天线

镭雕装置

一种用于光伏板边框的铝合金型材

一种基于梯度语义属性嵌入的无监督用户对齐方法

一种带有短路检测的连接器插针机

一种可溯源可监控的监狱针车分发装置及系统

一种应用于水利水电地下洞室高薄岩墙开挖方法

一种线控转向系统动态负载模拟装置及控制方法

一种靶向铜绿假单胞菌凝集素的仿生多功能纳米制剂及其制备方法和应用

一种高压线路电气控制机构

一种冰孔约束下水下航行体出水试验装置及试验方法

一种导热系数低的复合墙体保温砌块及其制备方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于预训练语言模型构建的双模块中文拼写纠错方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务