买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:湖南九立供应链有限公司
摘要:本申请属于信息提取技术领域,涉及一种文档信息抽取方法、装置、设备及其存储介质,包括对目标文档进行节点信息抽取和文档结构解析;对所有节点信息进行序列化处理;对目标序列进行特征提取;根据所有节点信息的特征向量表示,构建图节点表示;将所有图节点表示输入到预设的文档图重建模型,进行文档图重构;将重构文档图输入到预设解码模型,进行解码,完成对目标文档中文档信息的抽取。采用对目标文档先编码、由文档节点构建图节点,之后再解码获得文档信息的方式,实质上采用了自监督学习方式进行文档信息抽取,无需标注,节省了标注消耗,同时,节省了大量算力资源,实现了快速准确且自动化的对文档信息进行抽取。
主权项:1.一种文档信息抽取方法,其特征在于,包括下述步骤:对目标文档进行节点信息抽取和文档结构解析,获得节点信息和文档结构;根据所述文档结构对所有节点信息进行序列化处理,获得目标序列;将所述目标序列和所述文档结构一并输入到预设编码模型进行特征提取,获得所有节点信息的特征向量表示;根据所有节点信息的特征向量表示和所述文档结构,构建所述目标文档对应的文档图以及所有节点信息在所述文档图中分别对应的图节点表示;将所有图节点表示输入到预设的文档图重建模型,进行文档图重构,获得所述文档图重建模型输出的重构文档图,其中,所述文档图重建模型由图神经网络GraphSAGE预先训练而成;将所述重构文档图输入到预设解码模型,进行解码,完成对所述目标文档中文档信息的抽取,其中,所述预设解码模型由用于信息提取任务的BiLSTM-CRF网络层架构而成。
全文数据:
权利要求:
百度查询: 湖南九立供应链有限公司 一种文档信息抽取方法、装置、设备及其存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。