首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种手写文档文本的检测识别方法_浪潮云信息技术股份公司_202010896671.6 

申请/专利权人:浪潮云信息技术股份公司

申请日:2020-08-31

公开(公告)日:2024-06-18

公开(公告)号:CN112036405B

主分类号:G06V20/62

分类号:G06V20/62;G06V10/82;G06N3/0464;G06N3/044

优先权:

专利状态码:有效-授权

法律状态:2024.06.18#授权;2020.12.22#实质审查的生效;2020.12.04#公开

摘要:本发明特别涉及一种手写文档文本的检测识别方法。该手写文档文本的检测识别方法,包括文本行定位和文本行检测两部分;文本行定位网络使用变形的VGG‑11,对一张图片经过网络训练,从而在图片上找到文本行可能的开始位置;文本行检测网络增量地沿着文本行前向传播,得到的文本行开始位置和旋转角度,重新采样获得一个查看窗口,输入到CNN网络回归得到下一个位置的旋转角度,直到达到图片边缘,最终产生归一化的文本行图片,输入到文本行识别网络识别文本行图片并输出识别结果。该手写文档文本的检测识别方法,不仅能够克服自然场景下的干扰因素,准确的检测识别文本,还能够正确地沿着文本行的延展方向递归前进,最终检测出弯曲文本行。

主权项:1.一种手写文档文本的检测识别方法,其特征在于:包括文本行定位和文本行检测两部分;文本行定位网络使用变形的VGG-11,对一张图片经过网络训练,回归得到x0,y0坐标、尺度s0、旋转度θ0以及文本行出现的可能性p0,从而在图片上找到文本行可能的开始位置;所述文本行定位网络的处理方法,包括以下几个步骤:S1.1.读取图像标签json文件,遍历json文件,剔除标注错误的部分;S1.2.将输入图像resize到512像素宽,并且在整张图片上采样256*256个图像patch,允许每个patch使用该图像patch边缘的平均颜色填充扩展到图像外部;S1.3.将每一个16*16的输入图像块输入到变形的VGG-11网络进行训练,经过网络训练回归得到x0,y0坐标、尺度s0、旋转度θ0以及文本行出现的可能性p0;S1.4.经过训练后,使得p0=1,x0,y0坐标、尺度s0和旋转度θ0等于0;所述步骤S4中,训练过程使用针对多框目标检测问题提出的损失函数,在最大概率预测的文本行开始位置和目标位置之间对齐,其损失函数如下所示: 其中,tm是目标位置,pn是SOL出现的可能性,Xnm是N个预测位置和M个目标位置之间的一个双向对齐矩阵,α是衡量位置loss和置信度loss之间相对重要性的参数,默认取0.01,ln是对卷积神经网络的初始预测结果xn,yn,sn,θn的代数变换,给定l,p,t计算使得L最小的Xnm,ln的计算公式如下:ln=-sinθnsn+xn,-cosθnsn+yn,sinθnsn+xn,cosθnsn+yn;S1.5.使用文本行定位模块确定图片中文本行开始位置之后,文本行检测网络沿着文本行的路径增量逐步前进,确定出完成的文本行区域;文本行检测网络增量地沿着文本行前向传播,通过文本行定位网络得到的文本行开始位置和旋转角度xi,yi,θi,重新采样获得一个查看窗口,输入到CNN网络回归得到下一个位置的xi+1,yi+1,θi+1,一直重复此过程直到达到图片边缘,最终产生归一化的文本行图片,输入到文本行识别网络,文本行识别网络识别文本行图片并输出识别结果;所述文本行检测网络的处理方法,包括以下几个步骤:S2.1.读取图像标签json文件,遍历json文件,剔除标注错误的部分;S2.2.文本行检测网络递归增量运行,通过文本行定位网络得到的文本行开始位置和旋转角度xi,yi,θi,重新采样获得一个查看窗口;S2.3.输入到CNN网络回归得到下一个位置的xi+1,yi+1,θi+1;S2.4.重复上述步骤直到达到图片边缘,查看窗口的尺寸由文本行定位模块预测的尺度s0确定,且保持不变。

全文数据:

权利要求:

百度查询: 浪潮云信息技术股份公司 一种手写文档文本的检测识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。