首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】从文本文档进行数据驱动的结构提取_SAP欧洲公司_202110376046.3 

申请/专利权人:SAP欧洲公司

申请日:2021-04-08

公开(公告)日:2024-06-21

公开(公告)号:CN113762028B

主分类号:G06F16/35

分类号:G06F16/35;G06F16/36;G06F16/93;G06F40/14;G06F40/284;G06F40/295;G06F40/30;G06F18/2431;G06N3/04

优先权:["20200603 US 16/891,819"]

专利状态码:有效-授权

法律状态:2024.06.21#授权;2021.12.24#实质审查的生效;2021.12.07#公开

摘要:公开了用于从文本文档中提取结构化内容作为图表的方法和装置。图表的顶点和边与文档标记以及标记之间的成对关系对应。支持无向的对等关系和有向的关系例如键值或组成。可以使用预定义的字段来标识顶点,然后将其映射到数据库列以在数据库中自动存储文档内容。经训练的神经网络分类器确定输入标记的所有成对组合的关系分类。关系分类可以区分多种关系类型。多级分类器从文档中提取多级图表结构。公开的实施例支持具有层次和平面关系的任意图表结构。关系不受空间邻近性或文档布局的限制。可以标识复合标记以及其他内容。根据单个标记的各种关系,它可以属于多个更高层级的结构。公开了示例和变型。

主权项:1.一种或多种计算机可读介质,其存储指令,所述指令在由一个或多个硬件处理器执行时,使所述一个或多个硬件处理器执行操作,所述操作包括:在训练时间:获得针对相应文本文档的多个训练记录,所述训练记录中的每一个具有表示相应文本文档的非结构化内容的一个或多个输入特征,并具有描述相应文本文档的所述非结构化内容之间的关系的一个或多个训练图表作为训练标签;和在所述训练记录上训练机器学习分类器;和在运行时间:获得表示输入文档的非结构化内容的记录;和将所述记录输入经训练的机器学习分类器,以确定所述输入文档的结构图表;其中,所述经训练的机器学习分类器的给定层级具有表示所述输入文档的数量为N的标记的输入,并具有表示所述N个标记的N·N-12个成对组合的输出,所述输出中的一个或多个限定所述结构图表的边,其中,与给定标记相关联的输出标签被分组为给定标记的输出向量,输入被表示为每个输入标记的一个向量,所述机器学习分类器包括具有N个输入向量和N个输出向量的神经网络,并且始终保持统一的宽度。

全文数据:

权利要求:

百度查询: SAP欧洲公司 从文本文档进行数据驱动的结构提取

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。