首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向文献的表格信息抽取方法_南京信息工程大学_202110736883.2 

申请/专利权人:南京信息工程大学

申请日:2021-06-30

公开(公告)日:2024-06-21

公开(公告)号:CN113609906B

主分类号:G06V30/413

分类号:G06V30/413;G06V30/19;G06V10/82

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2021.11.23#实质审查的生效;2021.11.05#公开

摘要:本发明涉及一种面向文献的表格信息抽取方法,属于数据处理以及计算机视觉领域。该方法包括以下步骤:1:利用规则获取所有可能含表格的候选页面;2:将获取的页面转化为图片文件;3:采用深度学习方法,获取图片文件的特征;4:根据获取的图片文件的特征,对图片进行特征融合;获取融合后的特征;5:根据获取的特征融合后的特征,对表格的位置进行初步定位;6:针对获得的表格定位信息,根据表格元素的长宽关系,将横板表格旋转为竖版表格;7:根据获得的竖版表格,读取单元格字符流。本发明能自动对表格位置进行准确的定位,能够精确的从表格中读取表格的字符流。

主权项:1.一种面向文献的表格信息抽取方法,其特征在于:包括以下步骤:步骤1:利用规则获取所有可能含表格的候选页面;步骤2:将步骤1中获取的页面转化为图片文件;步骤2的具体过程如下:对PDF文件进行截屏,生成多元属性组picpdfi=pngi,picagei,pichighti,picwidthi;其中,pngi为PDF候选页面文件的图片文件,picpagej为候选页面图片文件的页数,pichighti为PDF候选页面文件的图片文件高度,picwidthi为候选页面文件的图片文件宽度;对候选页面图片文件多元属性组集合Picpdf={picpdf1,picpdf2,......,picpdfN}以及候选页面集合Pdf={pdf1,pdf2,......,pdfN}设置缩放比例为k,截距为b,对高度计算公式如下:∑i<NK*highti+∑i<Nb=∑i<Npichighti其中,i表示当前的页面值,N为页面的个数;步骤3:采用深度学习方法,获取步骤2中图片文件的特征;步骤3的具体过程如下:首先用凯明正态分布初始化神经网络中的权重,然后将图片矢量化,最终将矢量化后的图片作为输入参数传入残差神经网络,获取特征图;步骤4:根据步骤3中获取的图片文件的特征,对图片进行特征融合;获取融合后的特征;具体过程如下:对步骤3中获取的图片文件的特征利用不同步长的卷积核提取图片在不同尺寸的特征C={C1,C2,......,CN},对不同尺寸的特征图进行自上而下的特征融合,公式如下:Pi=hCi+hPi+1iN-1PN=hCiF=Σi<NPi其中hCi表示进行1x1卷积核升维之后的向量,hPi+1表示升维后的特征,Pi表示第i层的特征,PN表示最顶层的特征,N为参与特征融合的特征图层数,最后将这些特征累加,成为图片总体的特征F;步骤5:根据步骤4中获取的特征融合后的特征,对表格的位置进行初步定位;具体过程如下:对于步骤4中获取的特征融合后的特征图集合P,对于每个P,利用框回归网络jx生成回归框集合A={A1,A2,......,AN},对于第i个框Ai,xi,yi为框左上顶点的坐标,wi,hi为框的长宽,对于该特征图Pi实际的左上角坐标实际的长宽利用focaloss来计算损失;步骤6:针对步骤5获得的表格定位信息,根据表格元素的长宽关系,将横板表格旋转为竖版表格;具体过程如下:对步骤5中所定位到的表格xi,yi,wi,hi进行坐标转化,得到pxlti,pylti,pxrfi,pyrfi其中pxlti,pylti为PDF中左上角点的坐标,pxrfi,pyrfi为PDF中右下角点的坐标,转化公式如下:pxlti=kxi+bphi=khi+bpwi=kwi+bpvlti=kyi+bpxrfi=pxlti+phipyrfi=pylti+pwi其中k,b为步骤2中计算得到的缩放比例和截距,pwi,phi为PDF中表格的宽高;读取从坐标大于pxlti,pylti到pxrfi,pyrfi的元素,判断每个元素字符流的长度和每个元素长宽,当字符流长度大于3的时候,判断元素的长和宽的关系,如果长小于宽,则判断为利用pdfminer工具包将PDF页面旋转;步骤7:根据步骤6中获得的竖版表格,读取单元格字符流;步骤7的具体过程如下:对于已经旋转为竖版表格,计算每个元素的中线和边线的坐标,如果中线和边线的横竖坐标相同,则定位成单元格,并读取该位置的元素,将其转化为CSV文件。

全文数据:

权利要求:

百度查询: 南京信息工程大学 一种面向文献的表格信息抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。