首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于版式信息与约束规划的表单内容提取方法及设备_北京鲸鹳科技有限公司_202410358945.4 

申请/专利权人:北京鲸鹳科技有限公司

申请日:2024-03-27

公开(公告)日:2024-06-14

公开(公告)号:CN118196816A

主分类号:G06V30/412

分类号:G06V30/412;G06V30/414;G06F40/166;G06F40/186

优先权:

专利状态码:在审-公开

法律状态:2024.06.14#公开

摘要:本发明公开了一种基于版式信息与约束规划的表单内容提取方法及设备,属于表单图片处理技术领域,用于解决现有图片表单内容的提取,容易受到采集的图片质量所影响,对多行文字易误判识别,难以准确且连贯的提取出表单内容的技术问题。方法包括:对待处理表单图片进行OCR识别,确定出若干文本块;根据待处理表单图片的锚点词,对待处理表单图片进行区域圈定识别,确定出目标区域;对目标区域进行有关文本块的列划分,确定出每个文本块的列位置信息;对每个文本块进行有关行位置下的矩阵约束,得到约束规划结果;通过预设的目标函数,对约束规划结果进行分值评价,确定出行号信息;基于列位置信息以及行号信息,提取文本块的表单内容信息。

主权项:1.一种基于版式信息与约束规划的表单内容提取方法,其特征在于,所述方法包括:对待处理表单图片进行OCR识别,确定出若干文本块;根据所述待处理表单图片的锚点词,并基于所述文本块,对所述待处理表单图片进行区域圈定识别,确定出包含文本块的目标区域;对所述目标区域进行有关所述文本块的列划分,确定出每个所述文本块的列位置信息;根据所述待处理图片的版式信息,并基于所述文本块的列位置信息,对每个所述文本块进行有关行位置下的矩阵约束,得到约束规划结果;其中,所述约束规划结果为所述行位置的约束规划计算结果;通过预设的目标函数,对所述约束规划结果进行分值评价,确定出所述文本块所属的行号信息;基于所述列位置信息以及所述行号信息,提取所述文本块的表单内容信息。

全文数据:

权利要求:

百度查询: 北京鲸鹳科技有限公司 一种基于版式信息与约束规划的表单内容提取方法及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。