首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于双特征融合的自监督OCR识别文本纠错方法 

申请/专利权人:北京君正集成电路股份有限公司

申请日:2022-12-23

公开(公告)日:2024-06-25

公开(公告)号:CN118246437A

主分类号:G06F40/232

分类号:G06F40/232;G06V30/26;G06F18/25;G06N3/0442;G06N3/0895

优先权:

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:本发明提供一种基于双特征融合的自监督OCR识别文本纠错方法,包括:S1.构建训练数据:下载语料库的语料,并做数据处理:随机选择一条句子预料C1中的某个词替换为错误的词组成一条新的句子语料C2,同时正确的语料C1保留,C1既是训练输入数据也是标签;S2.训练语言模型:搭建神经网络并利用S1生成的数据C1、C2分别输入网络的Embedding层,并把得到的两个向量进行拼接融合输入到LSTM层网络学习字词相互之间的语义关系,接着用一个全连接层;S3.处理OCR识别的结果进行纠错:根据OCR识别结果的置信度判断是否进行纠错处理及如何进行纠错处理。本申请使用结构简单的神经语言模型,保证精度的前提下速度有了很大的提升,且训练周期短易于迭代、在嵌入式开发板上耗时少。

主权项:1.一种基于双特征融合的自监督OCR识别文本纠错方法,其特征在于,所述方法包括:S1.构建训练数据:下载语料库的语料,并做如下数据处理:随机选择一条句子预料C1中的某个词替换为错误的词组成一条新的句子语料C2,同时原有正确的句子语料C1保留,C1既是训练输入数据也是标签;S2.训练语言模型:搭建NLP深度神经网络,并利用步骤S1生成的数据C1、C2分别输入网络的Embedding层,并把得到的两个向量进行拼接融合:设C1=[[x1,x2,x3]],C2=[[y1,y2,y3]],拼接融合后的Ccated=[[x1,x2,x3,y1,y2,y3]],输入到双向LSTM层网络学习字词相互之间的语义关系,由于LSTM当前时刻的输出是由当前时刻的输入与前一时刻的输出共同决定,并且利用门控单元σ,tanh选择对当前时刻重要的信息,所以它能够建模与前面某时刻的关系,采用双向LSTM能够同时建模当前时刻与前后时刻的关系,学习公式如下:it=σWiixt+bii+Whiht-1+bhift=σWifxt+bif+Whfht-1+bhfgt=tanhWigxt+big+Whght-1+bhgot=σWioxt+bio+Whoht-1+bhoct=ft⊙ct-1+it⊙gtht=ot⊙tanhct接着用一个全连接层分出N类,其输出的每一类都有相应的输出分值,选取分值最大的前两类作为后面纠错步骤的输入字符,其中N为文本中字符个数,全连接公式:y=xAT;S3.处理OCR识别的结果进行纠错:根据OCR识别结果的置信度判断是否进行纠错处理以及如何进行纠错处理,步骤如下:如果第一置信度低于阈值0.75,则判断当前这个字符识别有误,因为是根据前两个分值最高置信度的字符中选择正确的一个,所以这里假设第二置信度为正确的字符,则把第一第二置信度的两个字符包括其整个句子都送入NLP深度神经语言模型,根据模型结果选出符合语义的字符。

全文数据:

权利要求:

百度查询: 北京君正集成电路股份有限公司 一种基于双特征融合的自监督OCR识别文本纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。