首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种期刊PDF文档目录识别的方法 

申请/专利权人:同方知网数字出版技术股份有限公司;同方知网(北京)技术有限公司

申请日:2024-02-27

公开(公告)日:2024-06-25

公开(公告)号:CN118247802A

主分类号:G06V30/413

分类号:G06V30/413;G06V30/416;G06V30/42

优先权:

专利状态码:在审-公开

法律状态:2024.06.25#公开

摘要:本发明公开了一种期刊PDF文档目录识别的方法,包括:导入一本期刊PDF文档,按页抽图生成图像页集合;对图像页进行分类处理,分成中文目录页、英文目录页、文章首页、文章中间页和其他页5个类别;在中文目录页中定位目录块,提取块内字符集;对块内字符集进行行提取,生成目录行集合;提取目录行特征,并对目录行分类,分成栏目行、单行目录条、复杂目录条起始行、复杂目录条中间行和其他行5个类别;整合目录行,生成目录条集合;对目录条进行目录项抽取,目录项包括篇名、作者和印刷页码;生成树状目录结构,输出目录识别结果。本发明有效提高了期刊PDF文档目录识别的准确率,为期刊PDF文档后续数据挖掘奠定了坚实基础。

主权项:1.一种期刊PDF文档目录识别的方法,其特征在于,所述方法包括:A、导入一本期刊PDF文档,按页抽图生成图像页集合;B、对图像页进行分类处理,分成5类分别是中文目录页、英文目录页、文章首页、文章中间页和其他页;C、在中文目录页中定位目录块位置,提取目录块内字符集;D、判断提取目录块内字符集是否成功,若成功,则执行步骤F,若失败,则执行步骤E;E、OCR识别目录块,获取块内字符集;F、对目录块内字符集进行文本行提取,生成目录行集合;G、提取目录行特征,并对目录行分类,分成5类分别是栏目行、单行目录条、复杂目录条起始行、复杂目录条中间行和其他行;H、对单行目录条、复杂目录条起始行和复杂目录条中间行这三类目录行进行整合,生成目录条集合;I、对目录条进行目录项抽取,目录项有3类分别是篇名、作者和印刷页码;J、生成树状目录结构,输出目录识别结果。

全文数据:

权利要求:

百度查询: 同方知网数字出版技术股份有限公司;同方知网(北京)技术有限公司 一种期刊PDF文档目录识别的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。