首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】PDF文档可导航目录提取方法、装置、电子设备及存储介质_浙江华东工程数字技术有限公司;中国电建集团华东勘测设计研究院有限公司_202311852456.6 

申请/专利权人:浙江华东工程数字技术有限公司;中国电建集团华东勘测设计研究院有限公司

申请日:2023-12-29

公开(公告)日:2024-06-21

公开(公告)号:CN117493712B

主分类号:G06F16/954

分类号:G06F16/954;G06F16/953;G06F40/151;G06F40/258

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.02.23#实质审查的生效;2024.02.02#公开

摘要:为实现可导航的PDF文档的目录提取,保证目录的准确性,并提供快速跳转功能,本发明提出一种PDF文档可导航目录提取方法、装置、电子设备及存储介质,所述可导航目录提取方法采用如下步骤:查找PDF文档的目录页面;对目录所在页面进行目录标题和目录页码提取;将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;对所有页面图片的页码进行识别;基于页码差对图片页码进行的二次校验和修正;将目录项与导航页码进行匹配与关联,获得所有目录标题、目录页码、导航页码;输出可导航的PDF文档目录。采用本发明技术方案可提升PDF文档目录识别准确率,帮助用户快速定位PDF文档目录内容。

主权项:1.一种PDF文档可导航目录提取方法,其特征在于包括如下步骤:S101、查找PDF文档的目录页面;所述查找PDF文档目录页面包括如下方法之任一种:1)如果PDF文档是文字版:对PDF文档的每一页或者从头开始逐页进行,提取该页所有文本,然后查找文字版PDF文档目录所在页面;2)如果PDF文档是扫描版:使用目录识别模型,对PDF文档的每页或者从头开始逐页进行识别,判定是否为目录页面,查找出PDF文档的所有目录页面;S102、对目录所在页面所有目录项的目录标题和目录页码进行提取;S103、将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;S104、对所有页面图片的页码进行识别,获得图片页码;S105、基于导航页码和图片页码相减得到的页码差,将得到的所有图片的页码差进行统计,按照频率由高到低排序,最后,取出现频率最高的页码差作为PDF文档的页码差;对图片页码进行二次校验,并使用PDF文档页码差修正识别错误的图片页码,补全图片页码;S106、查找与目录项中的目录页码相同的图片页码,将所述图片页码对应的导航页码与所述目录项相匹配,获得目录项对应的导航页码,所述目录项包括目录标题、目录页码;S107、输出目录标题、目录页码、导航页码组成的可导航的PDF文档目录,通过检索导航页码,将目录与页面链接,实现跳转。

全文数据:

权利要求:

百度查询: 浙江华东工程数字技术有限公司;中国电建集团华东勘测设计研究院有限公司 PDF文档可导航目录提取方法、装置、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。