买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:税友软件集团股份有限公司
摘要:本申请公开了一种基于位置的PDF表格文档的解析方法,由于PDF官方规范支持告诉表格文档中具体字符串的位置,该方法首先通过文本提取确定PDF表格文档中每个字符串的位置信息,然后根据位置信息确定字符串与表格中单元格的对应关系,最终进行字符串填充,实现了将PDF表格文档解析为便于进行数据分析处理的表格形式。此外,本申请还提供了一种基于位置的PDF表格文档的解析装置、设备及可读存储介质,其技术效果与上述方法相对应。
主权项:1.一种基于位置的PDF表格文档的解析方法,其特征在于,包括:根据PDF表格文档中结构化数据的属性,构建表格模型;对所述PDF表格文档进行文本提取,得到字符串对象的集合,其中所述字符串对象包括字符串和字符串在所述PDF表格文档的位置信息;根据所述位置信息,对所述字符串对象进行排列;逐行处理排列后的字符串对象,确定字符串与所述表格模型中单元格的对应关系;根据所述对应关系,将字符串填充至所述表格模型中相应的单元格;所述逐行处理排列后的字符串对象,确定字符串与所述表格模型中单元格的对应关系,包括:预先指定目标属性,在进行表格模型填充时,通过文本识别确定所述目标属性下的数据,然后根据所述目标属性下的数据,确定每行的中位线,再计算相邻中位线之间的距离,以得到每行的行距;根据每行的所述中位线和所述行距,确定该行的全部数据,以便于进行逐行处理;在逐行处理的过程中,通过文本识别所述字符串,以确定一行数据中各个数据与属性的对应关系,得到所述字符串与单元格的对应的关系;根据非目标属性的字符串的位置信息确定一行数据中各个数据与属性的对应关系,得到所述字符串与单元格的对应的关系。
全文数据:
权利要求:
百度查询: 税友软件集团股份有限公司 一种基于位置的PDF表格文档的解析方法、装置及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。