首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于DBNet的表格紧密文本检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:天翼电子商务有限公司

摘要:本发明公开了一种基于DBNet的表格紧密文本检测方法,本发明在表格的文本检测问题上,引入了分类图来判断当前像素是否为顶点;通过顶点的判断,来对DBNet的检测出的文本框进行分割,有助于提升DBNet在表格紧密文本检测上的性能;改进了原本的CAB模块,提出了Probability‑CAB模块,结合概率图,得到空间上的注意力。并综合考虑通道上的平均值和最大值,得到通道的注意力,有助于更进一步丰富的提取上下文信息,提升模型准确率;引入分类图的损失函数,与原本的DBNet模型一起进行优化,尽可能的减少了模型训练时间。

主权项:1.一种基于DBNet的表格紧密文本检测方法,其特征在于,包括以下所示:一、添加分类图分支,目前的DBNet模型,主要通过概率图,在阈值操作后,得到对应的二值化图,在二值化图中得到对应的文本框;当文本紧密的时候,DBNet容易将紧密的文本框检测为一个文本框进行输出,为将紧密的文本框分割开,添加了分类图的检测,来判断当前像素是否为文本框的顶点,文本框的顶点位置的像素点将被分类为顶点,其他位置则被分类为非顶点;当两个紧密文本框被识别为一个文本框时,由于顶点像素的判断,可在顶点处进行再次切断,分割出两个文本框;在DBNet通过二值化图将手机号和身份证号检测为同一个文本框时,由于分类图中顶点像素的预测,可得到黄色的分割线对文本框进行分割,划分出两个文本框;二、在原有的DBNet基础上,添加分割模块对分类图进行预测;分割模块的结构中,对于原本DBNet得到的特征图是原图大小的14,对其进行两次反卷积操作,得到与原图同样大小的特征图;随后通过Probability-CAB,来获取丰富的上下文信息,预测出最后的分类图;三、为进一步提高分类图的预测性能,在分割模块中加入了改进的CAB模块,命名为Probability-CAB,来获取丰富的上下文信息;Probability-CAB相比于原本的CAB模块,进行了两点改进:1采用概率图替换原本的CAB模块中的空间注意力模块;DBNet中的概率图预测了当前像素点是否含有文本的概率,当概率值越高时,代表当前像素含有文本的可能性较高,当概率值越低时,代表当前像素含有文本的可能性较低,因此采用概率图来代表空间注意力模块,不仅没有引入额外的计算开支,也更能代表单个像素的重要性;2增加了通道注意力分支来综合考虑通道的重要性,在通过AVGPooling和MaxPooling分别得到了每个通道的平均值和最大值,随后通过1X1的卷积来充分考虑平均值和最大值在通道注意力中的重要性,最后concat,输入到SharedMLP中,得到最后的通道注意力;其中SharedMLP是一个MLP全连接的操作,由于特征图的通道数为128,因此MLP的输入神经元和输出神经元个数都设置为128,其中中间层的神经元设置为256;四、由于引入了分类图,因此本专利在原有的DBNet损失函数基础上添加了分类的损失函数;其中i表示预测分类图中第i个像素,yi=1,表示标注label第i个像素是文本框的顶点,yi=0,表示标注label第i个像素不是文本框的顶点,pi表示预测分类图第i个像素是文本框的概率;

全文数据:

权利要求:

百度查询: 天翼电子商务有限公司 一种基于DBNet的表格紧密文本检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。