首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多任务学习的嵌套实体识别系统 

申请/专利权人:湖南国发控股有限公司

申请日:2020-11-18

公开(公告)日:2024-06-28

公开(公告)号:CN112347785B

主分类号:G06F40/295

分类号:G06F40/295;G06F16/35;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2021.03.02#实质审查的生效;2021.02.09#公开

摘要:一种基于多任务学习的嵌套实体识别系统,本方法使用基于跨度的方法解决命名实体识别中命名实体出现嵌套的情况;利用BERT模型编码上下文信息解决跨度表示的问题;将命名实体识别分解为实体确定和实体分类两个任务,使用多任务学习的方法解决正负样本分布不均衡的问题;提出实体交并比损失函数解决困难样本的问题。本发明能有效解决嵌套命名实体问题,与当前未使用额外数据的同类方法对比,本发明在三个公开嵌套命名实体数据集GENIA、ACE2004、ACE2005上均取得了最好效果,并且在非嵌套命名实体问题上也能取得有竞争力的效果,可以作为命名实体通用方法使用。

主权项:1.一种基于多任务学习的嵌套实体识别系统,其特征在于:包括语义编码模块、跨度表示模块、多任务模块;其中语义编码模块用于负责编码文本的上下文语义信息,将文本转化为特征向量便于后续处理;跨度表示模块用于根据语义编码模块的输出结果对跨度进行表示;多任务模块用于实现实体确定和实体分类;所述多任务模块将实体识别分解为实体确定和实体分类两个子任务,实体确定任务确定一个跨度是否为实体,实体分类任务在确定一个跨度为实体后将其分类为对应的类别;在实体确定任务的训练阶段,为关注困难样本,利用一种实体交并比损失函数进行优化;该损失函数需要计算跨度之间的交并比,两个跨度之间的交并比通过公式1计算得到, 然后求得每个跨度与其所在句中实体最大的交并比,作为该跨度的实体交并比,使用ENIoU表示,实体交并比损失定义如式2所示: 其中y取值为0或1,代表跨度的真实标签,0为非实体跨度,1为实体跨度;α取值为0到1之间的实数,作为平衡系数缓解类别不均衡问题,p为模型预测该跨度为1时的概率。

全文数据:

权利要求:

百度查询: 湖南国发控股有限公司 一种基于多任务学习的嵌套实体识别系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。