首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多任务的智能要素抽取方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海欧冶金诚信息服务股份有限公司

摘要:本发明提供一种基于多任务的智能要素抽取方法及系统,本发明提出了一种基于多任务的智能要素抽取方案,为了能够以高准确率进行抽取要素信息,创新性地提出了加入领域词汇挖掘信息,使得模型能够学习到更好的表示信息。通过本发明所记载的技术方案,对应的要素抽取模型能够学习和综合掌握多个不同方面的信息,提高要素抽取的准确率,辅助人工校验填报信息准确性,极大减少出错的概率。

主权项:1.一种基于多任务的智能要素抽取方法,其特征在于,所述方法包括以下步骤:获取待上报的咨询类电子合同文件;根据待上报的咨询类电子合同文件的文件类型进行段落拆解,并以段落为单位将拆解后的文本内容保存至目标文件中;对保存在目标文件中的文本内容按照段落进行要素抽取标签和分类标签标注,且在进行标注时,首先由第一目标对象对每个段落进行数据要素标签和分类标签标注,然后再由第二目标对象进行标注核对修正,并在完成标注核对修正后,将第一目标对象标注后的标注数据与第二目标对象标注后的标注数据进行交换,并进行交叉验证;将完成交叉验证后的标注数据输入要素抽取模型中,利用所述要素抽取模型对待上报的咨询类电子合同文件进行要素信息抽取,获取对应的要素信息和分类标签;其中,所述要素抽取模型基于深度学习训练生成;若咨询类电子合同文件的文件类型为word,则对待上报的咨询类电子合同文件进行段落拆解,并以段落为单位将拆解后的文本内容保存至目标文件中的过程包括:调用zipfile类库将类型为word的咨询类电子合同文件解压缩为xml格式;从xml格式中获取咨询类电子合同文件中所有字体信息;其中,字体信息包括:字体名称、id、大纲级别和父子体;从document.xml文件中获取咨询类电子合同文件的大纲内容和大纲级别;按照文档内容顺序将大纲信息保存到outline_list变量中,以及按照大纲内容为key,大纲级别为value的格式将大纲信息保存至outline_dict变量中;根据大纲信息遍历python-docx类库解析出的文档数据块,并使用docx解析库解析文档块内容,判断所述文档块内容是否为文字;如果是文字,则返回string类型的段落文字;将文本内容保存到content.csv文件中。

全文数据:

权利要求:

百度查询: 上海欧冶金诚信息服务股份有限公司 一种基于多任务的智能要素抽取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。