首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于CRNN的文字单字检测方法_天翼电子商务有限公司_202211340198.9 

申请/专利权人:天翼电子商务有限公司

申请日:2022-10-27

公开(公告)日:2024-04-30

公开(公告)号:CN117953527A

主分类号:G06V30/414

分类号:G06V30/414;G06V10/82;G06N3/0464;G06N3/045;G06N3/0442

优先权:

专利状态码:在审-公开

法律状态:2024.04.30#公开

摘要:本发明公开了一种基于CRNN的文字单字检测方法,包括以下:1、改进的带检测CRNN模型结构设计;2改进的带检测CRNN模型Loss设计。本发明在CRNN的基础上提出了单字检测模块和CRNN的特征耦合能够在做文本行识别的基础上定位出单字;和CRNN共用大部份基础架构,极大提升了模型的效率,使用1D卷积模拟LSTM的作用,提升了模型并行化,进一步提高了模型的效率;在一定程度上缓解了CRNN使用CTC训练时的对齐问题。

主权项:1.一种基于CRNN的文字单字检测方法,其特征在于,包括以下:1、改进的带检测CRNN模型结构设计使用VGG16来提取图片的特征,使得图片在宽度方向变成原来的14,高度方向变为1,于是我们可以得到B*C*1*W的特征,将特征进行维度合并和转换后我们可以得到W*B*C维度大小的特征;这里的W就是图片宽度方向的特征长度,在RNN里面我们称为timestep;这里就是BLSTM需要进行前后文联系的位置;为了使得模型可以并行预测,我们提出了两个1D卷积分别对特征做正反两个方向的卷积计算,然后将特征通过Concat合并来模拟BLSTM的效果;通过这样模拟可以极大提升模型的并行度,提升模型的预测效率,同时也能保持应有的准确率;对于单字检测的部分,需要time_step*2维度的向量,两个维度用来预测该time_step位置是否为文本和非文本;同时需要time_step*4维度的向量,四个维度用来预测该time_step的anchor小文本框的中心点的x偏移,y偏移,高度的缩放比,宽度的缩放比;按照CRNN的pooling,我们得到的小文本框的宽度为4,得到小文本框的类别后,我们去掉非文本的小文本框;于是我们需要从左往右来合并小文本框;这里有个很简单也很巧妙的方法,我们根据识别结果可以知道该文字大致的宽高比,例如汉字,大致的宽高比为1:1,数字为1:2,于是可以依据宽高比来合并小文本框得到最终单个字的文本框;2改进的带检测CRNN模型Loss设计该带单字检测的CRNN模型,共有三个loss监督,在文本和非文本的分类我们使用CrossEntryloss: 对于小文本框的回归我们使用smoothL1loss: 对于文字的识别我们依旧是使用CTCLoss,我们的整体的loss如下所示:Ltotal=γ1*CEx1,label1+γ2*smoothL1x2,label2+γ3*CTClossx3,label3其中γ1+γ2+γ3=1。

全文数据:

权利要求:

百度查询: 天翼电子商务有限公司 一种基于CRNN的文字单字检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。