首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】发行公告版面分析方法_北京合众鼎成科技有限公司_202110403839.X 

申请/专利权人:北京合众鼎成科技有限公司

申请日:2021-04-15

公开(公告)日:2024-04-30

公开(公告)号:CN113033541B

主分类号:G06V30/14

分类号:G06V30/14;G06V30/146;G06V30/19;G06N3/0464;G06V10/82;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2021.07.13#实质审查的生效;2021.06.25#公开

摘要:本发明提供发行公告版面分析方法,涉及数据处理技术领域。该发行公告版面分析方法,包括以下步骤:S1.将待分析图像输入训练好的目标检测模型中;S2.判断待分析图像中是否包含表格元素和图元素,如果包含则调整表格和图元素位置并进行下一步,不包含则进行步骤S4;S3.调整所有与图、表格元素有重叠的元素位置;S4.利用投影法计算文本行位置;S5.标记文本行所属版面元素,同时调整对应的版面元素位置;S6.判断是否需要分栏,并计算分栏位置。本发明利用一系列空间布局特征对包括所有表格、图和文本等版面元素建立基于阅读逻辑的版面元素排序,采用深度学习和图像处理混合算法标记版面元素并精确勾勒其边界,达到版面元素精确标记的目标。

主权项:1.发行公告版面分析方法,其特征在于:包括以下步骤:S1.将待分析图像输入训练好的目标检测模型中;S2.判断待分析图像中是否包含表格元素和图元素,如果包含则调整表格和图元素位置并进行下一步,不包含则进行步骤S4,调整表格元素位置的具体步骤包括:以深度学习模型输出的表格位置为基准进行扩大和缩小,扩大1.3倍得到位置A,缩小0.7倍得到位置B,在原始输入图像上裁切位置A和位置B之间的部分,二值化后,用直线段检测算法检测并合并直线,根据检测到的直线坐标调整表格元素的位置,如果没有检测到直线,通过纵向和横向投影定位文本行,根据文本位置调整表格元素的位置;调整图元素位置的具体步骤包括:以模型输出的图元素位置为基准扩大1.3倍得到位置C,由于图片与文档图像的背景之间通常有明显梯度,在上下左右四个方向上以滑动窗口的方式寻找灰度值第一次发生突变的位置作为当前方向的图元素边界,最终得到调整后的图元素的位置;S3.调整所有与图、表格元素有重叠的元素位置;S4.利用投影法计算文本行位置;S5.标记文本行所属版面元素,同时调整对应的版面元素位置;S6.判断是否需要分栏,并计算分栏位置,具体步骤如下:1.若w为样本图片宽度,如果版面中含有宽度小于12*w的表格或者图元素,那么该版面需要分栏,并且这两种元素的水平方向边界就可以作为分栏位置,记录边界位置进集合split_pos1并进行下一步;2.对样本图片在水平方向上进行切片处理,切片以h4,h2,3*h4为竖直方向中心,h4为高度,w为宽度,对三个切片样本做如下处理:二值化后向竖直方向投影得到数组F,以6*1的核在数组F做滑动窗口操作,滑动步长为5,记录所有窗口中最大值最小值之间的差值最大的窗口中心位置mid_pos,如果mid_pos大于输入样本图像宽度的22%,并小于样本图像宽度的78%,则记录一个分栏位置进集合split_pos;3.如果没有找到分栏位置,遍历步骤S5中获取的所有文本元素,统计宽度大于输入样本图片宽度25%并小于输入样本图片宽度32%的所有文本元素,如果符合统计条件的文本元素个数大于所有文本元素个数的25%,按文本元素的起点坐标对符合条件的元素分组,再在水平方向上计算各组元素的间隔,记录间隔的中点进集合split_pos;4.合并集合split_pos1中和split_pos中间隔小于20个像素的分割位置为新的split_pos;经过以上步骤如果split_pos元素个数为0,则说明当前输入的文档样本不需要分栏,直接按左上点纵坐标排序所有的版面元素即可得到最终版面分析的结果,否则执行步骤S7;S7.对版面元素进行排序,具体实施步骤包括:1.向split_pos中插入元素0和样本图片宽度w,统计split_pos中元素个数为n,并做升序排列,在竖直方向上页面被分割成n-1个栅格,从左向右编号为1~n-1;2.对版面内所有元素按右上点的纵坐标做升序排列,遍历每一个版面元素,记其左右边界为cur_x_l、cur_x_r,计算split_pos中处于区间[cur_x_l,cur_x_r]的元素个数cur_sum,如果cur_sum大于1,当前元素记为类别0,否则根据cur_x_l和cur_x_r判断当前元素处于第几号栅格内,并记录其类别为栅格序号,这一步骤中如果cur_x_l或者cur_x_r与某一个栅格的边界相交,分别计算栅格边界距离cur_x_l和cur_x_r的距离,取距离较大侧的栅格编号为元素类别,在分类过程中每一次遇到类别为0的元素,就对所有已经分类过的元素按编号升序排列,所有元素分类完成后对最后一个0类元素之后的元素按编号排序,获得最终版面分析结果;S8.输出结果。

全文数据:

权利要求:

百度查询: 北京合众鼎成科技有限公司 发行公告版面分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。