基于计算机视觉的表格结构重建与文字提取方法和系统

导航：龙图腾网> 最新专利技术> 基于计算机视觉的表格结构重建与文字提取方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：上海交通大学

摘要：本发明提供了一种基于计算机视觉的表格结构重建与文字提取方法和系统，包括：步骤1：通过神经网络在PDF文档中识别并定位表格，得到表格所在的外框区域；步骤2：对PDF文档中的文字层进行解析，获取PDF文档中的文本间距；步骤3：根据框定的表格区域和本文间距，通过计算机视觉在表格区域内重建表格内框线结构；步骤4：根据表格内框线结构，从PDF文档中同位置处抽取文本信息；步骤5：根据表格内框线结构和对应文本信息，生成可编辑表格文件。本发明通过神经网络进行表格外框的识别，可以不通过人为给定表格外框区域，从而可以自动提取PDF文档中的所有表格，能够在无人监督的情况下批量提取大量PDF数据中的表格。

主权项：1.一种基于计算机视觉的表格结构重建与文字提取方法，其特征在于，包括：步骤1：通过神经网络在PDF文档中识别并定位表格，得到表格所在的外框区域；步骤2：对PDF文档中的文字层进行解析，获取PDF文档中的文本间距；步骤3：根据框定的表格区域和本文间距，通过计算机视觉在表格区域内重建表格内框线结构；步骤4：根据表格内框线结构，从PDF文档中同位置处抽取文本信息；步骤5：根据表格内框线结构和对应文本信息，生成可编辑表格文件；所述步骤2包括：步骤2.1：判断表格所在的PDF页是否含有文字层；步骤2.2：若没有文字层，则通过光学字符识别技术将该页嵌入文字层，嵌入文字的位置在图片中文字的相应位置上；步骤2.3：统计PDF文档中所有文字的大小，将文字的宽度平均值作为文本间距的估计值；所述步骤3包括：步骤3.1：根据表格外框区域和表格所在PDF页，将表格以图片形式截取出来；步骤3.2：对截取出的图片进行预处理，所述预处理包括阈值处理和形态学处理，去除表格中除文字和框线以外的噪点；步骤3.3：对表格进行竖线检测，若竖线像素超出预设值，则表明表格中含有框线并执行步骤3.4，否则执行步骤3.5；步骤3.4：对有框线的表格重建表格结构，提取表格的所有竖线和横线，获取竖线和横线的交集点集合，在去除冗余的点后，形成表格的内框交点集合；根据得到的交点集合，判断相邻点之间是否形成表格内框线，若是则将两点相连形成边；根据点和边形成有框线表格的表格结构；步骤3.5：对图片进行预处理，去除图片中长度超出预设阈值的横线和竖线，并将图片进行阈值处理，使得空白位置的像素值为0，含有文字的像素值为255；对图片进行行扫描，若扫描到某一行的像素值之和为0，则该行为横向的表格内框线，表格内框线位置为所有连续像素值和为0的行的中间位置，两个相邻横向内框线内部为表格中的一行；在相邻两个横内向框线间进行纵向扫描，将每列的像素值求和，若有连续超过文本间距数量的纵向像素和为0，则标记纵线扫描过的区域为空白区域，否则标记为有文字区域，从而获得每行有或没有文字区域的坐标集合；从上至下，从左到右合并各行间相互联通且能被一条纵线全部贯穿的空白区域，形成空白块，记录每个空白块的高度，去除所有高度为1行的空白块；遍历所有贯穿空白块的纵线，记录这条纵线穿过的所有空白块的总高度；最终将穿过空白块的高度总和最大的纵线作为一条表格纵向内框线，并将该线穿过的空白块设为已穿过；选择能穿过其他未穿过空白块的高度总和最大的纵线作为另一条表格纵向框线，并记录其穿过的空白块为已穿过，最终不断得到纵线，直到所有空白块都被穿过；根据得到的横向内框线和纵向内框线建立表格的最小单元格，扫描每个单元格的纵线是否经过有文字的区域，如有则删除该纵线，并进行表格左右单元格合并，最终形成合并单元格后的表格内框线结构。

全文数据：

权利要求：

百度查询：上海交通大学基于计算机视觉的表格结构重建与文字提取方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种转鼓过滤机用卸料机构

下一篇：一种管道支撑平台

相关技术

一种转鼓过滤机用卸料机构

一种管道支撑平台

一种撕膜机构及炒菜机

一种设有脚踏板组件的坐便椅

一种肉类风味制品加工装置

伸缩式具有限位结构的修剪装置

一种建筑施工支架

一种磁传感器分电器

3D打印内支撑条去除工具

一种回转升降式机械手

一种染色废水用化学需氧量检测装置

一种返料器放灰管防撕裂装置

重建相关技术

一种轨道线形重建方法_江西日月明测控科技股份有限公司_202411389708.0

颌骨牙齿复合重建器_苏艳国_202411217597.5

利用包围曝光和事件重建HDR_华为技术有限公司_202280089456.2

一种基于多径分量重建残差的目标检测方法_西安电子科技大学_202411001617.5

一种交叉韧带重建集合移植肌腱编织器_浙江科惠医疗器械股份有限公司_202411057735.8

一种基于领域自适应的扩散模型逆转图像重建方法和装置_中国科学院信息工程研究所_202410846620.0

一种高精度地下冬笋探测3D形态重建方法_中国计量大学_202410989366.X

基于对抗扩散机制的低剂量CT图像重建方法、系统、设备及介质_西安交通大学_202411043494.1

一种原位重建矮塔斜拉桥的拆建同步施工方法_中交路桥建设有限公司_202411131877.4

用于构建模块及图像重建的方法、系统、设备、介质、产品_中国联合网络通信集团有限公司_202410911114.5

文字相关技术

一种基于轮廓结构分析的印刷文字缺陷检测方法及装置_湖北微模式科技发展有限公司_202411368826.3

一种基于深度切割识别巨幅碑帖拓印文字的方法_宁波市天一阁博物院_202210465392.3

一种页面文字的语音朗读方法、装置及电子设备_陕西致远互联软件有限公司_202411105583.4

一种有模板图像的卡证印刷文字缺失检测方法及装置_湖北微模式科技发展有限公司_202411368830.X

文字显示方法、装置、电器、介质及计算机程序产品_广东美创希科技有限公司_202411367957.X

一种基于图像处理的彩色文字打印重影质检方法及装置_湖北微模式科技发展有限公司_202411368829.7

一种无模板图像的卡证印刷文字缺失检测方法及装置_湖北微模式科技发展有限公司_202411368827.8

实时识别图片类PDF文字信息入库的方法、装置及电子设备_一网互通(北京)科技有限公司_202411353623.7

一种低延迟实时语音转文字及文字转语音传输方法_中国长江电力股份有限公司_202410950383.2

文字编辑方法和装置_维沃移动通信有限公司_202111120003.5

结构相关技术

天线结构_广州吉欧电子科技有限公司_202411188257.4

封装结构_日月光半导体制造股份有限公司_202420464917.6

封装结构_日月光半导体制造股份有限公司_202420464843.6

升降结构_北京行远博见网络科技有限公司_202420712047.X

防水结构及含有该结构的步进电机外壳_中山市胜洋电机有限公司_202411050674.2

半导体结构及半导体结构制作方法_长鑫存储技术有限公司_202011219025.2

一种带有新型密封结构的转向结构_潍坊斯瑞德机械有限公司_202420422116.3

一种便于拆卸的钢结构支撑结构_青岛福晓电力设备有限公司_202420168500.5

桌脚固定加强结构及桌腿连接结构_永艺家具股份有限公司_202323401222.8

夹层结构样品制备方法及夹层结构样品_中复连众(连云港)风电叶片有限公司_202411298237.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于计算机视觉的表格结构重建与文字提取方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务