买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海交通大学
摘要:本发明提供了一种基于计算机视觉的表格结构重建与文字提取方法和系统,包括:步骤1:通过神经网络在PDF文档中识别并定位表格,得到表格所在的外框区域;步骤2:对PDF文档中的文字层进行解析,获取PDF文档中的文本间距;步骤3:根据框定的表格区域和本文间距,通过计算机视觉在表格区域内重建表格内框线结构;步骤4:根据表格内框线结构,从PDF文档中同位置处抽取文本信息;步骤5:根据表格内框线结构和对应文本信息,生成可编辑表格文件。本发明通过神经网络进行表格外框的识别,可以不通过人为给定表格外框区域,从而可以自动提取PDF文档中的所有表格,能够在无人监督的情况下批量提取大量PDF数据中的表格。
主权项:1.一种基于计算机视觉的表格结构重建与文字提取方法,其特征在于,包括:步骤1:通过神经网络在PDF文档中识别并定位表格,得到表格所在的外框区域;步骤2:对PDF文档中的文字层进行解析,获取PDF文档中的文本间距;步骤3:根据框定的表格区域和本文间距,通过计算机视觉在表格区域内重建表格内框线结构;步骤4:根据表格内框线结构,从PDF文档中同位置处抽取文本信息;步骤5:根据表格内框线结构和对应文本信息,生成可编辑表格文件;所述步骤2包括:步骤2.1:判断表格所在的PDF页是否含有文字层;步骤2.2:若没有文字层,则通过光学字符识别技术将该页嵌入文字层,嵌入文字的位置在图片中文字的相应位置上;步骤2.3:统计PDF文档中所有文字的大小,将文字的宽度平均值作为文本间距的估计值;所述步骤3包括:步骤3.1:根据表格外框区域和表格所在PDF页,将表格以图片形式截取出来;步骤3.2:对截取出的图片进行预处理,所述预处理包括阈值处理和形态学处理,去除表格中除文字和框线以外的噪点;步骤3.3:对表格进行竖线检测,若竖线像素超出预设值,则表明表格中含有框线并执行步骤3.4,否则执行步骤3.5;步骤3.4:对有框线的表格重建表格结构,提取表格的所有竖线和横线,获取竖线和横线的交集点集合,在去除冗余的点后,形成表格的内框交点集合;根据得到的交点集合,判断相邻点之间是否形成表格内框线,若是则将两点相连形成边;根据点和边形成有框线表格的表格结构;步骤3.5:对图片进行预处理,去除图片中长度超出预设阈值的横线和竖线,并将图片进行阈值处理,使得空白位置的像素值为0,含有文字的像素值为255;对图片进行行扫描,若扫描到某一行的像素值之和为0,则该行为横向的表格内框线,表格内框线位置为所有连续像素值和为0的行的中间位置,两个相邻横向内框线内部为表格中的一行;在相邻两个横内向框线间进行纵向扫描,将每列的像素值求和,若有连续超过文本间距数量的纵向像素和为0,则标记纵线扫描过的区域为空白区域,否则标记为有文字区域,从而获得每行有或没有文字区域的坐标集合;从上至下,从左到右合并各行间相互联通且能被一条纵线全部贯穿的空白区域,形成空白块,记录每个空白块的高度,去除所有高度为1行的空白块;遍历所有贯穿空白块的纵线,记录这条纵线穿过的所有空白块的总高度;最终将穿过空白块的高度总和最大的纵线作为一条表格纵向内框线,并将该线穿过的空白块设为已穿过;选择能穿过其他未穿过空白块的高度总和最大的纵线作为另一条表格纵向框线,并记录其穿过的空白块为已穿过,最终不断得到纵线,直到所有空白块都被穿过;根据得到的横向内框线和纵向内框线建立表格的最小单元格,扫描每个单元格的纵线是否经过有文字的区域,如有则删除该纵线,并进行表格左右单元格合并,最终形成合并单元格后的表格内框线结构。
全文数据:
权利要求:
百度查询: 上海交通大学 基于计算机视觉的表格结构重建与文字提取方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。