申请/专利权人:同方知网数字出版技术股份有限公司;同方知网(北京)技术有限公司
申请日:2024-02-27
公开(公告)日:2024-06-25
公开(公告)号:CN118247802A
主分类号:G06V30/413
分类号:G06V30/413;G06V30/416;G06V30/42
优先权:
专利状态码:在审-公开
法律状态:2024.06.25#公开
摘要:本发明公开了一种期刊PDF文档目录识别的方法,包括:导入一本期刊PDF文档,按页抽图生成图像页集合;对图像页进行分类处理,分成中文目录页、英文目录页、文章首页、文章中间页和其他页5个类别;在中文目录页中定位目录块,提取块内字符集;对块内字符集进行行提取,生成目录行集合;提取目录行特征,并对目录行分类,分成栏目行、单行目录条、复杂目录条起始行、复杂目录条中间行和其他行5个类别;整合目录行,生成目录条集合;对目录条进行目录项抽取,目录项包括篇名、作者和印刷页码;生成树状目录结构,输出目录识别结果。本发明有效提高了期刊PDF文档目录识别的准确率,为期刊PDF文档后续数据挖掘奠定了坚实基础。
主权项:1.一种期刊PDF文档目录识别的方法,其特征在于,所述方法包括:A、导入一本期刊PDF文档,按页抽图生成图像页集合;B、对图像页进行分类处理,分成5类分别是中文目录页、英文目录页、文章首页、文章中间页和其他页;C、在中文目录页中定位目录块位置,提取目录块内字符集;D、判断提取目录块内字符集是否成功,若成功,则执行步骤F,若失败,则执行步骤E;E、OCR识别目录块,获取块内字符集;F、对目录块内字符集进行文本行提取,生成目录行集合;G、提取目录行特征,并对目录行分类,分成5类分别是栏目行、单行目录条、复杂目录条起始行、复杂目录条中间行和其他行;H、对单行目录条、复杂目录条起始行和复杂目录条中间行这三类目录行进行整合,生成目录条集合;I、对目录条进行目录项抽取,目录项有3类分别是篇名、作者和印刷页码;J、生成树状目录结构,输出目录识别结果。
全文数据:
权利要求:
百度查询: 同方知网数字出版技术股份有限公司;同方知网(北京)技术有限公司 一种期刊PDF文档目录识别的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。