恭喜浙江大学刘兴高获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜浙江大学申请的专利一种针对中文语料拼写错误的智能纠错系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114154486B 。
龙图腾网通过国家知识产权局官网在2025-04-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111320100.9,技术领域涉及:G06F40/232;该发明授权一种针对中文语料拼写错误的智能纠错系统是由刘兴高;王浩;陈圆圆;王文海;张志猛;张泽银设计研发完成,并于2021-11-09向国家知识产权局提交的专利申请。
本一种针对中文语料拼写错误的智能纠错系统在说明书摘要公布了:本发明公开一种针对中文语料拼写错误的智能纠错系统。该智能检测仪由文本特征提取模块、文本错误识别模块、文本错误校正模块三个模块构成。本发明不需要对含错文本进行人工标注,具有实现方法简单、识别精度高、鲁棒性好等特点。
本发明授权一种针对中文语料拼写错误的智能纠错系统在权利要求书中公布了:1.一种针对中文语料拼写错误的智能纠错系统,由文本特征提取模块、文本错误识别模块、文本错误校正模块三个模块构成;其中,所述文本特征提取模块基于预训练语言模型,获取语料的动态编码;所述文本错误识别模块:基于序列语言模型,预测文本中每个字符出现错误的概率;所述文本错误校正模块基于文本错误识别模块输出的错误概率进行掩码,并使用语言模型预测正确字符;所述文本特征提取模块通过以下步骤,将文本数据转为语料动态编码:1尾部补零或截断,以固定每段语料的长度,将处理后的语料记为x,语料长度记作seq;2构建字符级字典D,将所述字典大小记作n,将文本数据中的每个字符按其在D中的顺序做独热编码,将编码结果记作o∈Rseq,n;3将独热编码结果送入预训练好的语言模型中,得到包含语义信息的高层字符表示,记作e∈Rseq,d;所述文本错误识别模块通过以下步骤,基于文本特征输出每个字符的出错概率:1构建网络静态计算图;2模型训练:将提取出的文本特征输入所述网络静态计算图中,根据网络输出结果和标签信息计算损失函数及其对各层可学习参数的导数,并根据计算得到的导数更新各层参数;3实时评价和线上部署:每次参数更新后在验证集上解算模型的性能度量参数,得到最终的分类器并部署上线;针对所述构建的网络静态计算图,上标右箭头的变量代表网络从先到后遍历文本特征,左箭头的变量代表网络从后到先遍历文本特征在所述序列模型中的每个时间步t,先结合输入信息et和前一时间步的隐含层状态ht-1,用tanh函数得到当前步记忆细胞状态更新值的候选值; 其中,ht-1是前一时间步的隐含层状态,et是当前步的输入信息,WC是线性变换系数,bC是偏置项,上标箭头代表网络遍历方向接着,定义门单元:更新门Γu、遗忘门Γf、输出门Γo这些门单元具有类似的定义方式,且都使用sigmoid函数做输出映射 其中Wu,Wf,Wo分别是更新门、遗忘门、输出门的线性变换系数,bu,bf,bo分别是更新门、遗忘门、输出门的偏置项,上标箭头代表网络遍历方向σ·表示sigmoid函数,它将门单元的输出值控制0到1,在大多数情况下总是非常接近0或1对于上一时间步的记忆细胞状态c<t-1>,遗忘门Γf决定是不是要遗忘它;对于当前步记忆细胞状态的更新值更新门Γu决定是否要真的更新它;接着,将更新后的细胞状态c<t>通过输出门Γo,可得到当前步隐含层状态a<t> 将各字符双向特征拼接起来,得到最终的特征表示ht: 最后,通过稠密连接层实现给定字符的含错概率预估:pt=σWeht+be其中,pt是第t个字符含错的概率,We,be是线性判别系数,σ是sigmoid函数;针对所述模型训练,给出一种使用基于二元交叉熵损失的训练方法: 其中,是模型预测出的给定字符的含错概率,是给定字符的实际是否含错标签,m是输入语料数量,seq是输入语料长度;所述文本错误校正模块通过以下步骤,基于文本特征和出错概率,输出每个字符的校正表示:1构建软掩模输入序列;2构建网络静态计算图;3模型训练:将软掩模输入序列输入所述网络静态计算图中,根据网络输出结果和标签信息计算损失函数对各层可学习参数的导数,并根据计算得到的导数更新各层参数;4实时评价和线上部署:每次参数更新后在验证集上解算模型的性能度量参数,得到最终的分类器并部署上线;针对其中所述软掩模输入序列,构造软掩模输入序列为:emask,i=pi*ei′+1-pi*ei其中,是预先给定任意掩模序列,是字符含错概率预估序列,emask,i是生成的第i个字符的软掩膜,ei是所述文本特征提取模块输出的第i个字符的特征嵌入基于文本错误识别模块输出的错误概率进行掩码如果模型推断该字符出错概率很高,软掩模emask,i接近掩模的嵌入ei′,否则它接近于输入嵌入ei;针对其中所述网络静态计算图,本发明给出一种基于Bert的实现方法所述BERT由12个相同的块组成,以整个emask序列作为输入每个block包含一个多头部的self-attention操作:MultiHeadX=Concathead1;…,headhWc其中,Wc是待学习参数,每一个head由如下自注意力方式实现: 其中,是第j个注意力头的待学习参数随后是一个前馈网络,将各头聚合信息进行再次变换;将所述BERT最后一层的隐状态序列表示为则对于第t个字符,误差修正的概率定义为: 其中为候选列表中第k个字符作为输入序列中第t个字符进行修正的条件概率;针对其中所述模型训练,训练数据由原始含错文本序列和对应的无错文本序列组成创建这种数据的方法是对无错文本随机扰动,使其生成不同的含错序列,然后将其输入模型中进行有监督校准学习目标为: 其中,m是输入语料数量,seq是输入语料长度,K是候选词典大小,是在输入的第i段文本中,第t个字符可以被候选词典中的第k项校正的概率,是模型预测的概率。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。