首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

智能问答场景下的表格知识存储方法、装置、介质及设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:金现代信息产业股份有限公司

摘要:本发明属于深度学习技术领域,提供了智能问答场景下的表格知识存储方法、装置、介质及设备,本发明基于表格表头位置规律确定表格区域,并根据语义信息确定表格的表头,对于多行或多列的表头区域均可获取正确的表头,无需依赖表格的颜色、填充等属性,只根据表格结构和单元格文本内容即可,可以通过表头将表格转换为大语言模型易于理解的格式进行存储,可以将复杂合并单元格表格统一为标准表格,可用于提取特定单元格内容等,能够提升模型对表格知识的理解能力,显著增加对复杂表格的问答效果。

主权项:1.智能问答场景下的表格知识存储方法,其特征在于,包括如下步骤:获取不同格式知识文档中的文本信息和表格信息;将表格信息转换为统一的存储格式,并定义基于行和列的存储格式;基于表格信息和表格中形成表头的位置规律,确定表头区域,其中,所述表格中形成表头的位置规律包括:第一规律:表头位于表格的前部行或前部列中,即位于表格的顶部或侧边起始区域;第二规律:表格的表头为头部几行或头部几列,或者没有表头,不存在表格的顶部或侧边起始区域均为表头的情况;第三规律:表头的实际列数或行数应等于表格的列数或行数;第四规律:多行表头区域中,每一行的单元格数量必然多于其上一行,多列表头区域中,每一列的单元格数量也必然多于其左侧一列;第五规律:非表头区域行或列的单元格个数如果大于表头的实际单元格个数,则对应的非表头区域单元格个数大于表头实际单元格个数的行存在上下合并或列存在水平合并,且必定存在与非表头区域中单元格个数大于表头的实际单元格个数的行或列单元格个数相同的一行或一列;第六规律:存在上下合并的相邻行或列都是表头,或都不是表头;第七规律:多行表头区域中,不存在上下相邻的两个单元格既没有水平合并也没有上下合并;多列表头区域中,不存在左右相邻的两个单元格既没有上下合并也没有水平合并;所述基于表格信息和表格中形成表头的位置规律,确定表头区域,包括:根据第一规律和第六规律,从基于行或列的格式存储的表格首行或首列开始,遍历每行或每列中的单元格,统计每行或每列的单元格中是否存在上下合并标记;如果存在则根据标记将上下相邻的行或列分为一组,不存在则单独一行或列作为一组;根据第四规律,以每组中每行或每列单元格个数最大值作为每组的单元格个数,从上到下遍历分组结果,当前组的单元格个数小于等于上一组的单元格个数时停止,将当前组及以上所有组作为表头行待选区;根据第七规律,从下往上遍历表头行或列待选区中的组,检查每组中是否存在同一列或同一行水平合并情况一致但没有上下合并的情况;如果有则舍弃该组,继续遍历;如果没有则停止遍历,将当前组及所有组包括的行或列作为表头行区域或列区域;将表头行区域和表头列区域合并后的区域即为表头区域;将确定的表头区域的文本信息拼接,采用训练后的文本分类模型,对拼接后的内容进行分类,确定表格所属类别,进而确定表头详细区域;根据确定的表头详细区域,以表头为基准,对表格其余部分进行单元格合并或拆分,得到单元格无合并的情况且每行列数相同、每列行数相同的表格内容;以表头单元格的文本内容为字段名,对应的列或行中的单元格文本内容为值,将表格内容转换为键值对的形式,将原本表格中的一行或一列编为一组键值对字符串,向量化后存入向量库中。

全文数据:

权利要求:

百度查询: 金现代信息产业股份有限公司 智能问答场景下的表格知识存储方法、装置、介质及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。