首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】PDF文件中无线表格的还原方法、设备及存储介质_合肥大智慧财汇数据科技有限公司_202311738870.4 

申请/专利权人:合肥大智慧财汇数据科技有限公司

申请日:2023-12-18

公开(公告)日:2024-06-14

公开(公告)号:CN117710997B

主分类号:G06V30/412

分类号:G06V30/412;G06F40/30;G06V30/146;G06V30/19;G06V30/18;G06V10/82

优先权:

专利状态码:有效-授权

法律状态:2024.06.14#授权;2024.04.02#实质审查的生效;2024.03.15#公开

摘要:本发明涉及文件预处理技术领域,公开了PDF文件中无线表格的还原方法、设备及存储介质。该方法先获取PDF文件的文本单元集合。基于目标检测算法定位PDF文件图像中的无线表格及少线表格位置,获取页面表格信息集合。根据页面表格信息生成表格文本单元集合。确定表格文本单元集合中的最大列数行,获得表格列边界集合。基于表格列边界补全表格内部的空白单元格,生成表格单元格集合。提取列文本片段的语义特征以获取跨行特征表示。基于跨列单元格坐标位置与表格列边界的比较结果,生成行单元格文本的跨列特征表示,以得到表格单元格的跨行跨列合并特征表示,据此对无线表格进行还原。本发明实现对PDF表格的准确还原。

主权项:1.PDF文件中无线表格的还原方法,其特征在于,包括以下步骤:S1.获取PDF文件的文本单元集合;S2.基于目标检测算法定位PDF文件图像中的无线表格及少线表格位置,从而获取页面表格信息集合;S3.根据页面表格信息划定表格区域内对应的文本单元,从而生成表格文本单元集合;S4.确定表格文本单元集合中的最大列数行,据此获得表格列边界集合;S5.基于表格列边界补全表格内部的空白单元格,生成调整后的表格单元格集合;S6.提取列文本片段的语义特征以获取列文本片段的跨行特征表示;S7.基于跨列单元格坐标位置与表格列边界的比较结果,生成行单元格文本的跨列特征表示,从而结合列文本片段的跨行特征表示以得到表格单元格的跨行跨列合并特征表示;S8.基于表格单元格集合中的文本单元信息以及所述跨行跨列合并特征表示,对无线表格进行还原;步骤S1包括以下具体步骤:S11.获取PDF文件的底层文本字符集合P={p1,p2,…,pk,…,pK};其中K为PDF文件的总页数,pk为第k页的字符信息集合,M为第k页的字符总个数,为第k页的第m个字符信息;字符信息是包含字符内容信息char和字符位置信息的列表,记为c=[xmin,ymin,xmax,ymax,char],其中xmin和xmax分别为字符横坐标的最小值和最大值,ymin和ymax分别为字符纵坐标的最小值和最大值;S12.设置相邻文本块阈值δ及行阈值β,对第k页所有字符信息中的ymin进行倒序排列,低于行阈值β的为一行数据,从而生成第k页的行字符集合D为行字符集合的总行数,为第k页第d行的字符集合,即其中表示第d行的第s个字符信息,S表示第d行包含的字符个数;S13.对单行的字符集合中的所有字符信息按照xmin的大小进行升序排列,若相邻字符的间隔大于文本块阈值δ,即则将视为下一个文本单元中的字符信息,从而得到第k页第d行的文本单元集合I为第d行包含的文本单元总个数,为第d行的第i个文本单元且表示为其中,Xmin为文本单元横坐标最小值,对应文本单元中第一个字符信息的xmin;Xmax为文本单元横坐标最大值,对应文本单元中最后一个字符信息的xmax;Ymin和Ymax取文本单元第一个字符信息的ymin和ymax,text由文本单元内的所有字符信息拼接而成;S14.参照步骤S12~S13的方式获取行字符集合Rk中所有行的文本单元集合,得到第k页的页面文本单元集合从而获取所有页的页面文本单元集合;步骤S2包括以下具体步骤:S21.将PDF文件按页渲染成图像,生成图像流集合;S22.基于目标检测算法定位无线表格及少线表格位置,获得页面表格信息集合,记为F={F1,F2,…,Fk,…,FK};其中,Fk为第k页图像页面的表格检测集合,记为表示检测到的第n个表格信息,N为检测出无线表格及少线表格的总数;表格信息包含表格的坐标位置及该位置对应目标检测到的对象是表格的置信度conf,记为f=[fXmin,fYmin,fXmax,fYmax,conf],其中fXmin和fXmax分别为表格区块横坐标的最小值和最大值;fYmin和fYmax分别为表格区块纵坐标的最小值和最大值;步骤S3中,所述表格文本单元集合的表示如下: 其中,为第k页的第n个表格的文本单元集合,Dn表示该表格总行数,Id’表示第d’行的文本单元个数;每个表格内的任一文本单元均满足以下条件:fYmin≤Ymin<Ymax≤fYmax;d’∈[1,…,Dn];步骤S4包括以下具体步骤:S41.确定页面的最大列数行集合,表示为: 其中,为第k页的最大列数行集合,Dn’表示该集合的总行数,maxcol为I1,I2,…,IDn中的最大值,该集合是由所有文本单元个数为maxcol的行组成;d”∈[1,…,Dn’];根据最大列数行集合生成最小最大坐标集合Λ={Λ1,Λ2,…,Λj,…,Λmaxcol},其中Λj=[Λj,min,Λj,max],Λj,min为最大列数行集合中第j列文本单元Xmin的最小值,Λj,max为最大列数行集合中第j列文本单元Xmax的最大值;S42.根据最小最大坐标集合Λ生成空白像素边界集合O,记为Ο={Ο1,…,Οj,…,Οmaxcol-1},其中,Οj=[Λj,max,Λj+1,min];S43.确定非跨列单元格集合,表示为: 其中,表示第k页的非跨列单元格集合,Dn”表示该集合的总行数,该集合中的任一文本单元均不横跨所述空白像素边界集合O,即不存在Xmin≤Λj-1,max≤Λj,min≤Xmax;S44.基于非跨列单元格集合对最小最大坐标集合Λ进行调整,调整方式为:遍历非跨列单元格集合中所有单元格,如果单元格横坐标集合与集合Λ元素横坐标组成的集合有交叉,取两个单元格Xmin中的较小值作为调整后的最小值取两个单元格Xmax中的较大值作为调整后的最大值调整后的最小最大坐标集合为其中S45.根据调整后的最小最大坐标集合生成调整后的空白像素边界集合其中S46.根据调整后的空白像素边界集合获得表格列边界集合Ψ={Ψ1,Ψ2,…,Ψj,…,Ψmaxcol-1};其中步骤S5中,基于表格边界集合Ψ补全每一行的空白单元格,生成表格文本集合,表示为: 其中,表示第k页的表格文本集合,该集合初始值设置为空白集合;其中第d’行的文本集合按照如下方式生成:将表格文本单元集合中的第d’行文本单元集合与表格边界集合Ψ进行比较,并作出以下判断:当Id’=maxcol时,则为中的文本信息;其中h∈[1,…,Id’];当Id’<maxcol且时,若横坐标的最小值Xmin以及横坐标的最大值Xmax均处于边界列表[Ψj,Ψj+1]内,则为中的文本信息;当Id’<maxcol且时,若横坐标的最小值Xmin大于边界Ψj,且距离边界Ψj最近时,则为中的文本信息;步骤S6中,按列对表格单元格的文本进行拼接,得到列文本片段;其中,对相邻单元格添加开始字符CLS、间隔字符SEP及结束字符EOS,得到表格单元格文本序列,然后采用NSP-Bert预训练语言模型进行语义特征提取,结合softmax分类器,获得表格单元格文本序列是否连续的二分类结果,作为该文本序列的跨行特征表示,进而获得列文本片段的跨行特征表示;步骤S7中,基于跨列单元格坐标位置与列边界的比较结果,获得单元格跨列特征表示;其中,当表格中任意一行的一文本单元属于非跨列单元格集合时,遍历表格列边界集合Ψ中的所有边界,若边界值在该文本单元的横坐标最小值Xmin及横坐标最大值Xmax集合内,则跨列属性值加1,基于跨列属性值或者跨列个数,从而生成行单元格文本的跨列特征表示;步骤S8中,采用html格式对表格信息进行还原,使用的标签信息包括table\table、tr\tr、td\td;其中,基于列文本片段的跨行特征表示,确定td标签的colspan属性值;基于行单元格文本的跨列特征表示,确定td标签的rowspan属性值。

全文数据:

权利要求:

百度查询: 合肥大智慧财汇数据科技有限公司 PDF文件中无线表格的还原方法、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。