恭喜平安科技(深圳)有限公司李文斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜平安科技(深圳)有限公司申请的专利表格解析方法、装置、计算机设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114581931B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210280490.X,技术领域涉及:G06V30/413;该发明授权表格解析方法、装置、计算机设备及存储介质是由李文斌;潘新强设计研发完成,并于2022-03-21向国家知识产权局提交的专利申请。
本表格解析方法、装置、计算机设备及存储介质在说明书摘要公布了:本申请为人工智能技术的自然语言处理技术领域,提供了一种表格解析方法、装置、计算机设备及存储介质,其中,该方法包括:获取含有表格的图片,确定表格在图片的位置,得到表格的表格位置;确定表格中文本信息的位置,得到文本信息的文本信息位置,根据表格位置及文本信息位置,调用预先训练好的序列标注模型预测表格中所有相邻的两个单元格的文本信息是否都不属于同一句话或同一段落;当判定表格中所有相邻的两个单元格的文本信息都不属于同一句话或同一段落时,将表格作为目标表格,解析目标表格中各个单元格的文本信息,得到结构化数据,从而利用序列标注模型对表格的全面解析和结构化数据的生成,实现了图片格式的表格的解析。
本发明授权表格解析方法、装置、计算机设备及存储介质在权利要求书中公布了:1.一种表格解析方法,其特征在于,包括:获取含有表格的图片;确定所述表格在所述图片的位置,得到所述表格的表格位置;确定所述表格中文本信息的位置,得到所述文本信息的文本信息位置;根据所述表格位置及文本信息位置,调用预先训练好的序列标注模型预测所述表格中所有相邻的两个单元格的文本信息是否都不属于同一句话或同一段落;当判定所述表格中所有相邻的两个单元格的文本信息都不属于同一句话或同一段落时,将所述表格作为目标表格;解析所述目标表格中各个单元格的文本信息,得到结构化数据;所述确定所述表格在所述图片的位置,得到所述表格的表格位置,包括:通过预先训练得到的表格检测模型确定表格在图片的位置,所述表格检测模型的训练方法为:获取训练数据,所述训练数据包括标准图片和标注了标准图片中表格的标注框;将所述训练数据输入待训练表格检测模型,通过待训练表格检测模型的分割网络对标准图片中的表格进行预测,输出表格预测分割图,通过待训练表格检测模型的检测网络对与标准图片的面积之比大于阈值的表格预测框进行预测,输出表格预测框的位置信息;根据表格预测分割图与标注框之间的差异、表格预测框的位置信息与目标标注框之间的差异,更新待训练表格检测模型的网络参数,直至待训练表格检测模型的损失函数值不大于预设值,以得到表格检测模型;所述调用预先训练好的序列标注模型预测所述表格中所有相邻的两个单元格的文本信息是否都不属于同一句话或同一段落之前,还包括:获取训练样本集;其中,所述训练样本集包括样本图片、所述样本图片中参考表格的参考表格位置、所述参考表格中文本信息的参考文本信息位置、标注了所述参考表格中每两个相邻的单元格的文本信息是否不属于同一句话或同一段落的标注信息,当训练样本集的数据量低于预设阈值时,则采用数据增强处理方法对训练样本集中的样本图片进行数据增强处理,具体为对样本图片进行翻转、旋转或颜色调整等数据增强处理方式,以使训练样本集的数据量大于预设阈值,或者,通过多种数据增强处理方式的结合使用,先对样本图片按照水平线进行翻转,然后将翻转后的样本图片顺时针旋转15度,得到数据增强处理后的样本图片,并将其添加至训练样本集中,以使训练样本集的数据量大于预设阈值;将所述训练样本集输入预设的神经网络模型进行训练,得到训练结果;判断所述训练结果是否满足要求;当判定所述训练结果满足要求时,则将训练后的所述神经网络模型作为序列标注模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人平安科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。