首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种自动版面文档标注生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州度康科技有限公司

摘要:本发明公开了一种自动版面文档标注生成方法,其针对文档图像的分析与识别类任务,能够快速生成大量复杂的文档图像,并且带有详细且准确的标注信息,为相关的算法开发提供支持。本发明提供了自动版面文档标注生成的一种解决方案,避免了人工标注的繁琐性和易错性,同时提供了详细且准确的标注信息;另外本发明可以合成多种语言的文档图像,极大地丰富了文档识别与分析相关的数据集,为多语言的相关算法开发提供统一的数据支持。

主权项:1.一种自动版面文档标注生成方法,包括如下步骤:1根据默认的配置文件以及用户输入信息,随机生成文档的页面布局模板;2根据页面布局模板对页面内不同的区域进行渲染并记录相关的标注信息,其中区域渲染的种类包括背景渲染、文本渲染、图像和图形渲染、表格渲染、公式渲染;所述标注信息包括页面中所有逻辑区域的包围框及其中的字符串信息,逻辑区域的包围框包括文本包围框、公式包围框、表格包围框、图像包围框、图形包围框,字符串信息包括文本字符串和LaTex公式代码;所述图像和图形渲染的具体实现方式为:首先将填充区域分为标题区域和图片区域,并在标题区域进行文本渲染;然后从图像或图形库里随机选取一张图片,且保证图片的大小符合以下标准,以防止图片出现严重失真;最后利用泊松融合将所选图像融合到页面中的图片区域;thesh1<wpwr<thesh2thesh1<hphr<thesh2其中:wp和hp分别为选取图片的宽和高,wr和hr分别为图片区域的宽和高,thresh1为大于0.5小于1的阈值,thresh2为大于1且小于1.5的阈值;若当前选取的图片不符合上述标准,则从图像或图形库中删除该图片,并重新随机选取直到找到符合标准的图片或达到最大选取次数;当达到最大选取次数依然没有找到符合标准的图片,则从所有已遍历过的图片中选择一张最合适的图片,该图片通过以下公式确定;dis=|wpwr-1|+λ|hphr-1|其中:dis为图片大小与区域大小的距离,该距离最小则表示对应的图片是最合适填充至图片区域的,λ为权重参数;3在文档图像上添加噪声与形变并保存,相应地对标注信息进行更改,生成两份:一份为原文档图像及其标注信息,另一份为添加噪声与形变后的文档图像及其标注信息;4循环执行上述步骤,直到生成的文档图像数量达到设定值,组成文档图像训练数据集;5根据标注类型对数据集中的标注信息进行合并,并统一保存为特定格式的标注文件。

全文数据:

权利要求:

百度查询: 杭州度康科技有限公司 一种自动版面文档标注生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。