首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种使用重叠拆分规则的文本序列标注算法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:朱利

摘要:本发明提供了一种使用重叠拆分规则的文本序列标注算法,经验上,完成一个基于深度学习的序列标注任务模型,在训练阶段,其最大序列长度固定为有限值;而在预测阶段,自然文本序列长度常常超过模型最大序列长度,此时会造成模型的F1值降低。采用重叠拆分规则方式,对于待预测文本长度超过模型最大序列长度时,将超长文本拆分为若干不大于最大序列长度的子序列,各个子序列之间设置重叠区域,即重叠拆分处理。重叠拆分方式规则能够适用于不同类型的特征抽取器模型,可以在一定程度上提升模型预测效果,同时对于RNN特征抽取器,可以大幅度提升处理效率,在我们已完成的序列标注任务工程上有广泛的、非常好的应用。

主权项:1.一种使用重叠拆分规则的文本序列标注算法,其特征在于:采用拆分方法具体为:(1)训练完成一个基于深度学习的序列标注任务模型后,在预测阶段,对于待预测文本长度超过模型最大序列长度时,将超长文本拆分为若干不大于最大序列长度的子序列,各个子序列之间设置重叠区域;(2)获得的若干子序列可以通过并行的方式使用模型做预测,将得到的序列结果按照一套通用的经验规则做拼接合并,即得到最终的超长文本的序列标注结果;所述算法适用于针对分词、词性标注、命名实体识别三种任务;步骤(1)的重叠区域中,存在当一个实体或词汇包含另一个实体或词汇的关系,且都有实体或词汇取到截断边界时,则直接合并,取较长的实体或词汇;步骤(1)的重叠区域预测结果中,仅有一个句子的重叠部分有实体或词汇取到截断边界时,则去掉该实体或词汇,然后进行合并;步骤(1)的重叠区域预测结果中,当针对命名实体识别任务时,若一边有实体标签、而另一边为空标签时,以有实体的一侧为准进行合并;步骤(1)的重叠区域预测结果中,当实体或词汇结构没有包含关系,只有部分重叠时,取并集。

全文数据:

权利要求:

百度查询: 朱利 一种使用重叠拆分规则的文本序列标注算法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。