恭喜上海汇航捷讯网络科技有限公司张雷震获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜上海汇航捷讯网络科技有限公司申请的专利一种基于模式识别的半结构文档识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114038001B 。
龙图腾网通过国家知识产权局官网在2025-03-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111324189.6,技术领域涉及:G06V30/414;该发明授权一种基于模式识别的半结构文档识别方法是由张雷震设计研发完成,并于2021-11-10向国家知识产权局提交的专利申请。
本一种基于模式识别的半结构文档识别方法在说明书摘要公布了:本发明提供一种基于模式识别的半结构文档识别方法,包括:将半结构文档转换为图片,获取文字信息及文字的坐标;以半结构文档的关键信息的位置作为锚点,构建锚点图;建立上下树、左右树的树数据结构,建立文档模板;进行模式匹配,对新的半结构文档用上下树、左右树中的锚点信息进行匹配;进行信息抽取,将半结构化信息转化为结构化信息。本发明结合树数据结构与模式识别方法提取文档信息,提升了文档信息提取的准确率,也提升了识别的泛化能力;具有语义泛化能力,能够提升锚点本身的语义泛化能力;能够自定义模板,提升应对不同格式文档的能力,对文档的支持速度得到了大幅度的提升。
本发明授权一种基于模式识别的半结构文档识别方法在权利要求书中公布了:1.一种基于模式识别的半结构文档识别方法,其特征在于,包括以下步骤:S1、将半结构文档转化为图片,从图片中提取半结构文档中的文字,获取文字在图片中的空间坐标特征;S2、构建锚点图,以半结构文档的关键信息的位置作为锚点,获取锚点的四个边界形成的矩形框四个点的坐标,在所述图片上框选出关键信息的位置,形成锚点图;所述关键信息包括语义信息;S3、对每种类型的半结构文档的所述锚点图建立树数据结构,都由上到下读取和存储锚点,按照上下顺序建立层次,形成上下树,由左向右读取和存储锚点,按照左右顺序建立层次,形成左右树,通过所述上下树和所述左右树的结构描述半结构文档的锚点信息,建立文档模板;S4、进行目标信息的提取,在锚点图上检索、查找决定目标信息的四个边界的锚点,用所述四个边界的锚点的位置来描述目标信息的位置,将半结构化信息转化为结构化信息;S5、对新的半结构文档查找锚点,用所述文档模板匹配新的半结构文档的锚点;S6、如匹配文档模板成功,用所述文档模板下的锚点描述目标信息的方式来反推目标信息的位置,获取目标信息;如匹配文档模板不成功,则对新的半结构文档进行S1-S4步骤,建立新的文档模板。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海汇航捷讯网络科技有限公司,其通讯地址为:200120 上海市浦东新区中国(上海)自由贸易试验区张杨路828-838号26楼E、F室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。