买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京来也网络科技有限公司;来也科技(北京)有限公司
摘要:本发明实施例公开一种结合RPA和AI的信息抽取方法、装置、设备及介质。该方法包括:获取待抽取文本;将所述待抽取文本输入已配置匹配模版的抽取器中,得到所述待抽取文本中的抽取信息。应用本发明实施例提供的方案,能够基于抽取器对待抽取文本进行信息抽取,由于抽取器中预先配置了匹配模版,从而将待抽取文本输入抽取器后,可以自动抽取出待抽取文本中与匹配模版相匹配的信息,整个抽取过程不需要人工参与,从而可以提高信息抽取效率。并且,与人工抽取信息相比,基于匹配模版进行信息抽取能够准确的抽取出待抽取文本中的抽取信息,提高信息抽取的准确性。
主权项:1.一种结合RPA和AI的信息抽取方法,其特征在于,所述方法包括:S1、获取待抽取文本;S2、将所述待抽取文本输入已配置匹配模版的抽取器中,得到所述待抽取文本中的抽取信息,所述匹配模版中包括:配置字段和抽取规则,所述抽取规则包括以下至少一项:文本匹配规则、词表匹配规则、正则匹配规则、和任意文本匹配规则;其中,所述将所述待抽取文本输入已配置匹配模版的抽取器中,得到所述待抽取文本中的抽取信息,包括:将所述待抽取文本输入已配置匹配模版的抽取器中,抽取所述待抽取文本中与所述配置字段相匹配的初始字段;将所述初始字段中与所述抽取规则相匹配的初始字段作为所述待抽取文本中的抽取信息;所述将所述初始字段中与所述抽取规则相匹配的初始字段作为所述待抽取文本中的抽取信息,包括:分别将每个所述初始字段依次与各所述抽取规则进行匹配;针对每个所述初始字段,判断该初始字段是否与任一所述抽取规则匹配;当该初始字段与任一所述抽取规则匹配时,将该初始字段作为所述待抽取文本中的抽取信息;所述针对每个所述初始字段,判断该初始字段是否与任一所述抽取规则匹配,包括:针对每个所述初始字段,判断该初始字段是否符合文本匹配规则中确定的文本句式;针对每个所述初始字段,判断该初始字段是否包含在词表匹配规则中已配置的词表内;针对每个所述初始字段,判断该初始字段的表达方式是否与正则匹配规则中已配置的正则表达式一致;其中,所述匹配模版通过如下方式得到:S3、对所述抽取器内的字段列表进行配置,新增一个或多个字段;S4、对所述抽取器内的资源列表进行配置;所述资源列表包括词表和正则;S5、构建初始模版,基于所述字段列表和所述资源列表对所述初始模版进行配置,得到所述匹配模版;S6、接收测试文本;S7、当接收到测试指令时,对所述测试文本进行信息抽取,并在预设区域展示第一信息或第二信息;所述第一信息包括:信息抽取结果;所述第二信息包括:与所述测试文本匹配的匹配模版,以及所述匹配模版中与所述信息抽取结果相匹配的字段名和字段值。
全文数据:
权利要求:
百度查询: 北京来也网络科技有限公司 来也科技(北京)有限公司 一种结合RPA和AI的信息抽取方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。