一种期刊PDF文档目录识别的方法

导航：龙图腾网> 最新专利技术> 一种期刊PDF文档目录识别的方法

申请/专利权人：同方知网数字出版技术股份有限公司;同方知网(北京)技术有限公司

申请日：2024-02-27

公开（公告）日：2024-06-25

公开（公告）号：CN118247802A

主分类号：G06V30/413

分类号：G06V30/413;G06V30/416;G06V30/42

优先权：

专利状态码：在审-公开

法律状态：2024.06.25#公开

摘要：本发明公开了一种期刊PDF文档目录识别的方法，包括：导入一本期刊PDF文档，按页抽图生成图像页集合；对图像页进行分类处理，分成中文目录页、英文目录页、文章首页、文章中间页和其他页5个类别；在中文目录页中定位目录块，提取块内字符集；对块内字符集进行行提取，生成目录行集合；提取目录行特征，并对目录行分类，分成栏目行、单行目录条、复杂目录条起始行、复杂目录条中间行和其他行5个类别；整合目录行，生成目录条集合；对目录条进行目录项抽取，目录项包括篇名、作者和印刷页码；生成树状目录结构，输出目录识别结果。本发明有效提高了期刊PDF文档目录识别的准确率，为期刊PDF文档后续数据挖掘奠定了坚实基础。

主权项：1.一种期刊PDF文档目录识别的方法，其特征在于，所述方法包括：A、导入一本期刊PDF文档，按页抽图生成图像页集合；B、对图像页进行分类处理，分成5类分别是中文目录页、英文目录页、文章首页、文章中间页和其他页；C、在中文目录页中定位目录块位置，提取目录块内字符集；D、判断提取目录块内字符集是否成功，若成功，则执行步骤F，若失败，则执行步骤E；E、OCR识别目录块，获取块内字符集；F、对目录块内字符集进行文本行提取，生成目录行集合；G、提取目录行特征，并对目录行分类，分成5类分别是栏目行、单行目录条、复杂目录条起始行、复杂目录条中间行和其他行；H、对单行目录条、复杂目录条起始行和复杂目录条中间行这三类目录行进行整合，生成目录条集合；I、对目录条进行目录项抽取，目录项有3类分别是篇名、作者和印刷页码；J、生成树状目录结构，输出目录识别结果。

全文数据：

权利要求：

百度查询：同方知网数字出版技术股份有限公司;同方知网(北京)技术有限公司一种期刊PDF文档目录识别的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种升降式饺子加工压面机

下一篇：一种无纺布绑袋

相关技术

一种升降式饺子加工压面机

一种无纺布绑袋

一种智慧工地人脸识别设备用安装架

一种电表排母接口测量装置

一种低温拉伸实验箱

用于车辆顶板的显示装置和车辆

一种可快速拼接的安装架

一种墙面保护用裁边边压片

一种锂电池外壳冲压设备

一种用于消毒的泵芯组装机

一种散热机箱

一种厌氧罐进水分布机构

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种期刊PDF文档目录识别的方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务