买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京亿森信安科技有限责任公司
摘要:本发明公开了一种文本字段提取方法、装置、介质和设备,包括:先从示例文本中提取多个元素,每个元素包含别名、内容、内容起始位置和终止位置。接着根据每个元素的起始和终止位置,确定相关的前置和后置内容,并将其加入到相应的元素中,以更准确地定位字段。再提取元素集合中的别名、前置内容和后置内容,形成规则集合,用于描述每个元素在示例文本中的位置和相关信息。最后获取待处理文本,根据规则集合中的前置和后置内容,截取匹配内容作为目标字段,并提取其中间字段,赋予相应的别名。本发明无需为每类字段编写复杂的正则表达式,利用示例文本中的元素信息提取字段,减少了开发工作量和出错可能性,同时提高了处理效率。
主权项:1.一种文本字段提取方法,其特征在于,所述方法包括:获取示例文本,并对所述示例文本进行元素提取,以得到包含多个元素的元素集合;其中,每个元素包括别名、内容、内容起始位置及内容终止位置;在所述示例文本中基于所述内容起始位置确定与每一内容相关联的前置内容,并基于所述内容终止位置确定与每一内容相关联的后置内容,将每个内容的前置内容及后置内容加入到对应所属的元素中;在所述示例文本中,提取所述元素集合内每个元素的别名、前置内容及后置内容以形成规则集合;获取待处理文本,截取所述待处理文本中与规则集合的前置内容及后置内容相同的内容作为目标前置内容及目标后置内容,提取所述目标前置内容及所述目标后置内容中间的字段,并基于所述规则集合赋予对应的别名;其中,所述待处理文本与所述示例文本的文本类型一致。
全文数据:
权利要求:
百度查询: 北京亿森信安科技有限责任公司 文本字段提取方法、装置、介质和设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。